水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

价值领航

稳健的投资风格和淘金精神


柴孝伟

建造十九层每层成倍财富高楼...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


banner

banner

DeepSeek对算力影响有多大?

盈利百分百   / 02月20日 08:23 发布

交流内容:

训练成本变化

整体趋势:训练成本显著降低。与OpenAI的GPT系列、LlaMA等模型相比,在各团队均需经历多轮尝试的情况下,DeepSeek的训练成本大幅下降。

单点分析:DeepSeek V3的完整训练成本确实有所降低,但实际成本并非如想象中的550万美元那样低。因为V3经过多轮训练和尝试,其预训练成本并不像论文中描述的那样低。

行业影响

国内情况

发展现状

国内存在两种情况:一方面,国内“六小虎”(智谱AI、百川智能、零一万物、月之暗面、Minimax、阶跃星辰)和互联网巨头等算力消耗大户,大多在跟随LlaMA和千问的技术路线,很少真正走自主研发道路。其主要模型参数量大多与国外开源模型和Qwen对标,如7B、13B、70B等。

另一方面,幻方DeepSeek-V3拥有671B个参数,这一参数规模在国外是独一无二的,没有其他类似规模的模型。

后续影响

互联网大厂和“六小虎”可能会跟随DeepSeek的技术路线,包括复现其模型参数量等。如果完全按照DeepSeek的路线,虽然模型参数量很大,但对算力的需求确实没有之前那么高,不再像之前那样需要大规模的万卡才能训练出大模型。

但行业完全跟随这一路线存在难度。互联网大厂在这方面的能力相对较弱,原因在于组织架构的差异。例如,字节跳动做豆包的团队和负责豆包部署及算力优化的团队是分开的;而幻方由于规模小、架构扁平,主要集中在北京和杭州两个基地。因此,尽管算力消耗有所降低,但要完全跟随DeepSeek的技术路线或其优化方案是很难的,除非模型与DeepSeek完全一致。

国外情况

发展现状:国外一直以来都走独立自主的技术路线。无论是马斯克旗下xAI团队的Grok、OpenAI、Claude,还是Meta、谷歌的Gemini,每一家的模型参数量都不相同,没有像国内那样出现大量7B、13B等参数量相似的模型。

后续影响:如果国外团队继续走独立自主的技术路线,那么其优化方案和硬件等与DeepSeek会有所不同。DeepSeek是通过自身的特殊优化才将硬件算力消耗降低到很低的水平,因此对于走独立技术路线的团队,不一定能够达到如此大的优化效果。

优化方式

独特架构:DeepSeek最重要的特点是其独立的新MoE(Mixture of Experts,混合专家)架构,采用小模型、多专家的模式。而之前大家大多选择的是大模型、小专家的MoE路线。

独特优化方式:DeepSeek针对这一技术路线,在编译器中间表示层面对算子框架进行了深度融合优化,从而有效提升了算力利用率。但其他团队在这方面的投入相对较少,大多只是跟随业界进展。因此,真正的中间件优化需要与算法联合优化,而不是在算法确定后再去优化中间件。

算力需求前景

训练算力:算力需求骤降的可能性不大。随着DeepSeek后续的加快迭代,本质上对训练的算力需求仍然很大。幻方本身不缺算力卡,大家都在抢卡以尽可能拥有更多算力,进行更多探索和尝试。

推理侧算力需求:从用户角度看,DeepSeek R1这种自推理模型的需求在增长。DeepSeek所有专家合起来真正激活的参数量是35B,这意味着其推理方案有大量冗余算力,可用于处理大量用户的服务请求。一方面,幻方用300多卡进行推理,虽然看起来数量不少,但另一方面,其也做好了准备,以承载大量日活,从而摊薄算力成本,因此对训练服务器的需求也在增长。这里的推理算力与以往有所不同,更多是面向训练服务器的推理算力,而非推理卡的推理算力。

Post-Training算力需求:OpenAI和DeepSeek验证了这一技术路线的可行性,业界会跟随这条路线,从而导致Post-Training算力需求上涨。

目前整个行业基本沿着这三条曲线快速演进。




AGI发展

在参考了当前主流技术路线后,大家通往AGI的路径可能会变得更加清晰和简洁。然而,需要关注的一个关键因素是OpenAI的技术动态。如果OpenAI的新技术路线出现停滞,那么整个行业通往AGI的方向也可能会受到影响。毕竟,目前国内外的AI发展大多是由OpenAI引领,其他团队大多是在跟随其步伐。在这种情况下,DeepSeek或许能够为大家提供一个更快捷的参考路径,帮助大家更高效地模仿或跟随OpenAI的步伐。

幻方在多模态的表现

从整体来看,幻方在多模态领域的发展相对滞后,面临着诸多技术瓶颈需要突破,比如数据规模、模型规模以及数据策略等方面。其近期发布的三个多模态模型的效果也较为一般,表现并不突出。不过,这并不妨碍幻方未来基于MoE架构探索多模态技术的可能性。目前整个行业在多模态领域大多基于密集的Transformer架构,而基于MoE架构的多模态应用在业界尚无先例。在过去半年中,幻方在多模态技术路线上显得有些摇摆不定,尚未找到一条清晰且有效的训练路径。因此,幻方在多模态领域既有潜力,也面临挑战,目前大家更多地关注到了它积极的一面。

国产算力影响

近期,国产算力呈现出激增的态势,但未来预计会逐渐趋于稳定增长。在短期内,由于春节期间等特殊时期,大量用户(包括一些之前从未接触过AI的人)开始使用AI技术,导致推理算力的大量消耗。然而,从长期来看,算力需求必然会回归理性状态,只有真正有需求的用户才会持续使用。目前,国内厂商对国产算力的支持更多是出于热点效应,而非可持续发展的考虑,主要体现在价格和资源方面。后续国产算力卡的发展仍将取决于产品的竞争力。目前国产算力卡的崛起在很大程度上依赖于国家政策或地缘政治的保护。实际上,在DeepSeek出圈之前,国产算力卡就已经存在并能够使用,只是与英伟达相比仍存在一定差距。

投资者提问:

Q:DeepSeek方法对训练要求没那么大,这是短期存在还是长期影响?

A:是长期的。过去遵循scaling law,堆砌算力、数据和模型参数量提升效果,但算力成本高且资源紧张。现在通过对算力做极致性能优化,如采用各种中间件优化手段,提升了算力利用率,减少对算力的需求。同时,数据要精细化清洗和微调,训练策略更复杂,分多阶段实现用更少算力达到较好效果。未来很多厂商可能会加入更多手段提升模型效果。若OpenAI 发展停滞,大家通过优化可接近GPT4等模型水平,但目前OpenAI速度未变慢,大家仍需持续购入算力用于模型训练。虽然对算力需求总量未减少,但对大小需求可能改变,会有更多千卡出现,因为以前训练大模型需上万张卡,成本高,现在千卡就能做预训练,会刺激相关需求,大厂因战略需求仍会购买万卡。

Q:在大方面,是算力总量增加但对大小需求降低吗?A:会有更多千卡出现。以前科研机构和高校想做大模型但负担不起万卡,现在换方表明千卡可做预训练,会激发更多千卡需求,大厂因战略需求仍会购买万卡。

Q:怎么看ASIC在这波技术变革中的变化?A:长期来看,ASIC占比仍较小。现在AI用的GPU多为GPGPU,架构与传统用于图像渲染的GPU不同。而ASIC专门用于MPU,未出现MPU成为主流替代GPU的迹象,GPU需求仍在激增且不断改进架构。ASIC无法完全代替GPGPU,性价比也没想象中低,可能作为长期替代方案或备份,后续可能发展形成CPU与GPGPU并行的的时代,ASIC作为国产替代或第二选择。

Q:有人认为DeepSeek降低AI成本,可部署在更多端侧,增加推理需求,能利用国产低性能芯片和闲置算力中心,这个观点正确吗?A:不对。DeepSeek模型穿梭量特别大,需要高速互联带宽,廉价推理芯片无法使用,需用最好的训练服务器做推理,以前的推理卡跑不起来相关模型。小规模大模型起来,才能利用那些小算力、冗余算力和低性能推理卡。目前来看,即使是蒸馏出来的模型,对国产卡性价比也不高,用户更倾向部署R1模型,对部署其他效果打折的模型需求不强烈。纪要私享圈