水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

外资投行是如何看待DeepSeek?

红番茄   / 01月29日 18:29 发布

对于任何想基于分析师解读 DeepSeek(堪称 ChatGPT界的 Temu)训练大语言模型(LLM)的人来说,这篇文章就是一站式资源库。我们收集了收件箱里所有相关的投行邮件,在尽量不做改动的情况下进行了复制粘贴。

DeepSeek 是一家总部位于杭州,成立仅两年,背后有知名风投基金支持。它曾利用机器学习进行股票交易。其宣称的目标是出于兴趣打造通用人工智能,而非为了逐利。在 ChinaTalk 上有对创始人梁文峰的精彩访谈。

瑞穗证券的乔丹·罗切斯特继续讲述

1月 20日,DeepSeek发布了一个开源 模 型(DeepSeek-R1)。在一些数学和推理基准测试中,"括能力、成本、开放性等方面,该模型超越了行业领先模型。Deepseek应用在中国和美国的苹果应用商店免费应用下载排行榜上位居榜首,在美国的下载量超过了ChatGPT。

真正引人注目的是什么呢?

DeepSeek 表示,开发这个模型仅用了2个月,花费不到600 万美元,是基于现有技术并利用现有模型开发而成。相比之下,OpenAl 每年的花费超过 50 亿美元。显然DeepSeek购买了 10000 个英伟达芯片,而超大规模云服务提供商购买的数量是这个数字的好几倍。如果这是真的,它从根本上打破了人工智能资本支出的常规认知。

听起来很惊人,但这意味着什么呢?

以下是杰富瑞集团的格雷厄姆·亨特等人的观点:

由于 DeepSeek 仅用一小部分计算能力就能实现与 GPT-40 相当的性能,这对行业构建者可能产生负面影响。因为人工智能领域的参与者面临着证明不断增加的资本支出计划合理性的压力,这最终可能导致数据中心收入和利润增长的轨迹降低。

DeepSeek R1 模型在这里可以免费使用,能完成所有常规任务,比如用五步抑扬格总结研究论文,也会在解决逻辑问题时出错。DeepSeek称,R1-Zero 模型完全是在无监督微调的情况下训练出来的。

以下是 Peel Hunt 的达明杜·贾亚维拉及其团队提供的更多细节:

首先,它的训练时长不到 300 万 GPU 小时,这意味着训练成本略超 500 万美元。作为对比,分析师估计 Meta最近的主要人工智能模型训练成本在 6000 万至7000万美元。其次,我们看到人们在普通的 Mac 硬件上就能以可用的方式运行完整的 DeepSeek 模型,这证实了它的推理效率(指使用时的效率,而非训练时的效率)。我们相信,不久之后就能看到树莓派设备运行简化版的DeepSeek。这种高效使得该模型的托管版本成本仅为OpenAl 相应版本价格的 5%。最后,它是在 M IT 许可证下发布的,这是一种宽松的软件许可证,允许使用者拥有近乎无限的自由,包括将其修改用于专有商业用途。

Deepseek 对 OpenAl 产业复合体来说并非意料之外的威胁。甚至《经济学人》几个月前就已经注意到它了,像SemiAnalysis 这样的行业杂志也早就开始讨论中国将人工智能商品化的可能性、

情况可能是这样,也可能不是。

以下是摩根大通的专业销售人员约书亚·迈耶斯的观点:

目前尚不清楚 DeepSeek 在多大程度上利用了 High -Flyer 的约 50000 个 h opper GPU(与 OpenAl 被认为用于训练 GPT-5 的规模相近),但很有可能的是,他们正在大幅降低成本(例如,他们的 V2 模型的推理成本据称是 GPT-Turbo 的七分之一)。他们具有颠覆性(尽管并非全新观点)的主张 -- 本周开始对美国人工智能领域产生影响 -- 是“更多的投资并不等同于更多的创新”。梁文峰表示:“目前我没有看到任何新方法,但大公司也没有明显优势。大公司有现有客户,但他们的现金流业务也是负担,这使他们随时可能受到冲击。”当被问及 GPT-5 仍未发布一事时,他说:“OpenAl 不是神他们不一定总能处于领先地位。”

目前最好还是别让奥特曼知道这些

回到瑞穗证券的观点:

为什么说现在是个艰难时刻呢?

这发生在我们刚刚见证了一系列重大资本投入事件之后比如宣布“星际之门”计划(预计到 2028 年投入约5000 亿美元),Meta正式将资本支出提升到600 亿至650 亿美元以扩大 Llama 模型规模,当然还有微软宣布投入 800 亿美

市场此前还在努力计算“星际之门”计划宣称的对英伟达约 200 万台设备的需求,而英伟达的总产量仅为 600万台..(今天上午,英伟达在欧洲的股价下跌了9%,软银下跌了 7%)。市场现在在思考这是否意味着人工智能泡沫即将破裂(就像当年思科面临的互联网泡沫危机)英伟达在标准普尔 500 指数中的权重占比达 7%,是其中最大的单一公司权重。

再次看看杰富瑞集团的观点:

我们看到至少有两种潜在的行业策略。由于芯片供应限制,中国出现了更高效的训练模型,这很可能会进一步加剧中美之间在人工智能领域的主导权竞争。对于数据中心建设者而言,关键问题在于,是继续采取“不惜一切代价建设”的策略以加速模型改进,还是将重点转向更高的资本效率,这会对主要人工智能参与者的电力需求和资本支出预算形成压力。短期内,市场会倾向于后者。

再次看看杰富瑞集团的观点:

我们看到至少有两种潜在的行业策略。由于芯片供应限制,中国出现了更高效的训练模型,这很可能会进一步加剧中美之间在人工智能领域的主导权竞争。对于数据中心建设者而言,关键问题在于,是继续采取“不惜一切代价建设”的策略以加速模型改进,还是将重点转向更高的资本效率,这会对主要人工智能参与者的电力需求和资本支出预算形成压力。短期内,市场会倾向于后者

短期存在估值下调风险,但收益受影响较小。尽管与数据中心相关的公司在市场情绪影响下容易面临估值下调,但对我们所关注的公司收益短期内并无直接影响。鉴于资本支出计划的调整存在滞后效应(超过 12 个月),且订单簿的风险敞口(如 HOT 公司约为 10%),我们认为现有订单变更或取消的风险有限。现阶段,预计市场预期会转向在更高效模型的推动下,实现现有投资更高的投资回报率。总体而言,我们对该行业仍持乐观态度,规模领先者将受益于不断扩大的竞争优势和更高的定价能力。

尽管 DeepSeek 来自中国,所以人们难免心存疑虑

以下是花旗集团的阿提夫·马利克的观点:

虽然 DeepSeek 的成就可能具有开创性,但我们质疑其是否真的在未使用先进GPU 进行微调,以及未通过蒸馏技术构建最终模型所基于的底层大语言模型的情况下就取得了这些成果。尽管美国公司在最先进的人工智能模型领域的主导地位可能面临挑战,但我们估计,在必然会更加严格的环境下,美国对更先进芯片的获取仍是一项优势。因此,我们认为领先的人工智能公司不会放弃使用能大规模提供更具性价比(每万亿次浮点运算成本更低)的先进GPU。我们将最近类似“星际之门”这样的人工智能资本支出公告视为对先进芯片需求的一种认可。

这对科技七巨头(Mag7)的投资回报率来说当然是个令人不安的消息,但这是否足以引发更广泛的市场抛售呢?

廉价的中国人工智能意味着更高的生产力效益、更低的建设成本,以及朝着安德森的丰饶理论加速迈进,所以从长远来看,也许这是个好消息?

摩根大通的迈耶斯再次发表看法:

在我看来,这并非意味着规模扩张的终结,也不是不再需要更多计算能力,更不是说投入最多资本的人就不会获胜(记住,昨天发生的另一件大事是马克·扎克伯格大幅增加了人工智能资本支出)。相反,这似乎是因为出口禁令迫使太平洋彼岸的竞争对手提高效率:“DeepSeek V2 能够以比 Meta 的 Llama 3 70B 少五分之一的计算量,实现令人难以置信的训练效率,并且模型性能更优。对于关注此事的人来说,DeepSeek V2 的训练所需的浮点运算

量仅为 GPT -4 的二十分之一,而性能却相差不远。”如果 DeepSeek 能够降低推理成本,那么其他公司也必须跟进,而且随着时间的推移,需求有望弥补成本降低带来的影响。

这也是摩根士丹利半导体分析师和田哲也的观点,摩根士丹利是大型银行中对人工智能最为热衷的,

我们尚未证实这些报道的真实性,但如果报道属实,且先进的大语言模型确实能以比以往少得多的投资开发出来,我们可能会看到生成式人工智能最终在越来越小的计算机上运行(从超级计算机缩小到工作站、办公电脑,最终到个人电脑)。随着生成式人工智能需求的扩散,半导体生产设备行业可能会受益于相关产品(芯片和半导体生产设备)需求的相应增长。

Peel Hunt 团队再次发表观点:

我们认为这些优势将产生双重影响。从中长期来看,我们预计大语言模型基础设施将走上电信基础设施的发展道路,成为一种“商品化技术”。如今部署人工智能资本支出所产生的财务影响取决于监管干预,监管曾对电信公司产生重大影响。如果我们将人工智能视为另一种“技术基础设施层”,就像互联网、移动网络和云一样,理论上受益者应该是利用该基础设施的公司。虽然我们将亚马逊、谷歌和微软视为云基础设施提供商,但这源于它们支持自身现有商业模式的需求,即电子商务、广告和面向信息工作者的软件。大语言模型基础设施有所不同,就像铁路和电信基础设施一样,它们是在真正实现产品与市场契合之前就开始建设的。

观点来自网络仅供参考。