【国盛计算机】再超预期的算力财报（重点标的）

股市老马 / 2024-02-26 11:48 发布

刘高畅/杨然国盛计算机畅想

核心观点

英伟达业绩与指引均超预期，验证 ai 算力长期景气度。1）英伟达2024财年四季度业绩大超预期，收入达到创纪录的 221 亿美元，环比增长 22%，同比增长 265%。其中，数据中心业务在 Nvidia Hopper GPU 计算平台和 InfiniBand 端到端网络的推动下，2024财年第四季度收入达到184 亿美元，创下历史新高，环比增长 27%，同比增长 409%；同时，2024财年数据中心大约 40% 的收入来自AI推理。2）Q1FY25指引超预期。英伟达预计Q1 FY25总收入240亿美元，上下浮动2%。本次英伟达除业绩及指引双超预期外，最大亮点在于AI推理需求在数据中心业务中占比已达到40%，验证了推理阶段的强劲需求，为市场打了一剂强心剂。

英伟达组建具身智能研究小组，联合贝索斯投资机器人初创公司Figure AI。1）英伟达高级科学家Jim Fan在推特表示，将和Yuke Zhu一起，在英伟达内部组建一个新研究小组——GEAR，通用具身智能体研究。在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像iPhone一样无处不在。2）此前，英伟达CEO黄仁勋在中国台北国际电脑展（COMPUTEX）上演示了自主移动机器人平台Isaac AMR，现场视频演示采用的机器人底盘，是来自九号公司的机器人移动平台。Isaac AMR是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台，包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件，可加快自主移动机器人(AMR)的开发和部署速度，减少成本和缩短产品上市时间。2）根据彭博社，亚马逊合伙人贝索斯、英伟达和其他大型科技公司将投资类人机器人初创公司Figure AI ，以期为人工智能寻找新的应用，英伟达和一个亚马逊附属的基金将各提供5,000万美元。

英伟达进军ASIC，推理阶段算力需求持续超预期。1）根据路透社报道，英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片（ASIC）的新业务部门，包括先进的人工智能（AI）处理器。2）ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路，与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点，根据CSET报告AI Chips：What They Are and Why They Matter，相比CPU，ASIC芯片训练效率约为100-1000倍，速度约为10~1000倍，推理方面好于GPU。因此，我们认为，在Gooogle、Amazon等海外科技大厂竞相内部研制处理器的压力下，一方面英伟达进军ASIC，有利于抢占市场，避免资源流失；另一方面，也是为推理阶段算力竞赛的提前布局，算力产业未来有望呈现持续高景气态势。

投资标的：中科曙光、海光信息、浪潮信息、利通电子、新易盛、高新发展、中际旭创、工业富联、寒武纪、神州数码、恒为科技、软通动力、润建股份、万马科技、云赛智联、拓息、烽火通信等。

风险提示：技术迭代不及预期、经济下行超预期、行业竞争加剧。

报告正文

英伟达业绩与指引均超预期，持续验证产业高景气

英伟达2024财年四季度业绩大超预期，数据中心大约40% 的收入来自AI推理。第四季度收入达到创纪录的 221 亿美元，环比增长 22%，同比增长 265%。

数据中心业务：2024财年第四季度，在 Nvidia Hopper GPU 计算平台和 InfiniBand 端到端网络的推动下，数据中心收入达到184 亿美元，创下历史新高，环比增长 27%，同比增长 409%。2024财年数据中心大约 40% 的收入来自AI推理。

游戏业务：2024财年第四季度营收为28.7亿美元，环比持平，同比增长56%。假期期间消费者对 Nvidia G Force RTXGPU 的强劲需求好于我们的预期。财年收入为104.5亿美元，增长15%。

专业可视化业务：2024财年第四季度营收4.63亿美元，环比增长11%，同比增长105%，财年营收15.5亿美元，增长1%。本季度的连续增长是由 RTX 数据架构的丰富组合和 GPU 的持续增长推动的。企业正在更新他们的工作站，以支持与生成型人工智能相关的工作负载，例如数据准备、大模型、微调和检索、增强生成。

汽车业务：2024财年第四季度收入为 2.81 亿美元，环比增长 8%，同比下降 4%。由于汽车制造商继续采用 Nvidia 驱动平台，该财年收入达到 10.9 亿美元，增长 21%，首次突破 10 亿美元大关。

Q1 FY25展望超预期，总收入预计240亿美元。英伟达预计Q1 FY25总收入240亿美元，上下浮动2%；数据中心和专业版的环比增长将被游戏的季节性下降部分抵消；GAPP 和非 GAAP毛利率预计分别为76.3%和77%，上下浮动50个基点。随着公司继续投资于面前的巨大机遇，2025 财年的GAPP 和非 GAAP运营费用预计将增长 30% 左右；GAPP 和非 GAAP其他收入预计约为 1.5 亿美元，不包括非关联投资的损益；GAPP 和非 GAAP税率预计为 17%，上下浮动 1%（不包括任何离散项目）。

本次英伟达除四季度业绩及Q1 FY25指引超预期外，AI推理需求在数据中心业务中占比40%为市场打了一剂强心剂。此前市场对于2025年AI算力进入推理阶段影响英伟达业绩的担心，得到一定程度化解，持续验证产业高景气。

组建具身智能研究小组，全面参与机器人、游戏和生成式基础模型

英伟达高级科学家成立具身智能研究小组，构建通用能力AI。英伟达高级科学家Jim Fan在推特表示：“将和老队友Yuke Zhu一起，在英伟达内部组建一个新研究小组——GEAR，通用具身智能体研究。在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像iPhone一样无处不在。正在构建基础智能体：一个具有通用能力的AI，可以在许多虚拟和现实的世界中学习如何熟练地行动。”

此前，NVIDIA 创始人兼首席执行官黄仁勋在 COMPUTEX 上的主题演讲中推出全新自主移动机器人(AMR)平台 Isaac AMR，能为移动机器人带来先进的测绘、自主和模拟能力。其现场视频演示的 Isaac AMR 所采用的机器人底盘，是来自九号公司的机器人移动平台RMP Lite 220。Isaac AMR 是一个用于模拟、验证、部署、优化和管理自主移动机器人车队的平台，包含了边缘到云的软件服务、计算以及一套参考传感器和机器人硬件，可加快 AMR 的开发和部署速度，减少成本和缩短产品上市时间。

机器人的开发过程相当复杂，时间长，挑战大，成本高，NVIDIA Isaac 机器人开发平台提供端到端解决方案，降低开发成本、简化开发流程并加速产品部署。在许多用例和场景中，缺乏结构化的环境也很普遍。NVIDIA Isaac 机器人开发平台解决了这些挑战，端到端解决方案可帮助降低成本、简化开发流程并加速产品上市。

贝索斯和英伟达将加入 OpenAI 投资人形机器人初创公司 Figure。根据彭博社，亚马逊合伙人贝索斯、英伟达和其他大型科技公司将投资类人机器人初创公司 Figure AI ，以期为人工智能寻找新的应用。贝索斯通过他的公司 Explore Investments LLC承诺投资1亿美元，微软将投资9500万美元，英伟达和一个亚马逊附属的基金将各提供 5,000 万美元。

英伟达进军ASIC，推理阶段算力需求持续超预期

英伟达成立全新业务部门，进军定制芯片（ASIC）。根据路透社报道，英伟达计划建立一个专注于为云计算公司和其他企业设计定制芯片（ASIC）的新业务部门，包括先进的人工智能（AI）处理器。

我们认为：

l 首先，抢占市场，避免资源流失。英伟达的客户竞相抢购供应日益减少的英伟达芯片，以便在迅速崛起的生成式AI领域展开竞争。但许多海外科技公司也已经开始针对具体的需求自行研发内部处理器。

l 其次，英伟达进军ASIC领域，是为推理阶段算力竞赛的提前布局。

ASIC具备体积小、成本低等优势。ASIC为特定用户要求和特定电子系统的需要而设计、制造的集成电路。ASIC的特点是面向特定用户的需求，ASIC在批量生产时与通用集成电路相比具有体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低等优点.

ASIC推理方面显著优于GPU。根据CSET报告AI Chips：What They Are and Why They Matter，相比CPU，ASIC芯片训练效率约为100-1000倍，速度约为10~1000倍，推理方面好于GPU。

AIGC浪潮已至，进一步推动对芯片和算力的需求。当下，由于互联网公司、云计算提供商和企业客户都迫切希望将生成式AI应用到自身业务中，算力供应短缺的问题已经成为行业的普遍热点。

1、训练侧：GPT3.5对应数千张H100，多模态需求再提升数倍至十倍。

GPT3.5同级别模型约需要数千张H100进行训练。根据GPU Utils报道，Inflection表示，针对他们与GPT3.5相当的大语言模型，其使用了大约3500张H100进行训练。2）同时，对于初创公司而言，其需要数千张H100对大语言模型进行训练，需要几十张或者小几百张H100做微调。

考虑H100价格约为3-4万美元/张，对用算力投入约为近亿美元。根据快科技报道，H100价格约合人民币24万元，对应3-4万美元/张。考虑以Inflection为代表的公司算力投入在3500张级别，对应总投入或约为近亿美元。

GPT4或对应数万张A100，GPT5或对应数万张H100。1）根据GPU Utils报道，GPT4有可能是在10000-25000张A100上训练的。而对于GPT5，其可能需要25000-50000张H100进行训练。2）相比GPT3.5约数千张H100的需求量，GPT4、GPT5等相对成熟的多模态模型算力需求提升约数倍至十倍级别。

2、推理侧：仅考虑文字问答场景，需要数万张H100，多模态提升空间广阔。

1）每日访问量：6000万。

2023年6月6日，根据科创板日报报道，据SimilarWeb最新数据，2023年4月OpenAI网站访问次数已达到18亿次，则对应每日访问量约为6000万次。

2）用户平均访问时长：5分钟。

根据科创板日报报道，每次访问时长约为5分21秒。

3）单个token输出需要的时间：62.5ms；每秒生成token数量：16个。

根据百度智能云的部分案例，在Batch Size为1时，输出8个token大约需要353ms；在Batch Size增加到16时，输出8个token大约需要833ms。则输出8个token的时间中值约为500ms（即0.5秒），即单个token所需要的计算时间约为62.5ms（即0.0625秒），对应每秒生成token数量约为16个。

4）平均实时并发：333.33万个token/s。

6000万*（5*60）s*16token/s/(24*60*60)s=333.33万个token/s。

5）算力利用率：20%。

Transformer为自回归模型，这意味着在原始状态下，每生成1个新token，都需要将所有输入过的token再次计算。

根据百度智能云技术研究，以175B的GPT-3模型，输入1000个token，生成250个token为例：

•Context（即Encoder）阶段的激活Shape为[B,1000,12288]，其中B为batch_size，第二维为输入token数，第三位为hidden size。

•而对于Generation（Decoder）阶段，由于每次输入输出都是固定的1个token，是通过循环多次来产生多个输出token，所以Generation阶段的激活Shape的第二维始终为1，Generation的激活显存占用是远小于Context阶段的。

由此导致，Context 是计算密集型的任务，而 Generation 是访存密集型的任务。这也意味着，在推理阶段，硬件的算力利用率由于受到显存带宽等的限制，会显著较低。

根据百度智能云报道，一般情况下，在线服务的GPU使用率不高，在20%左右。另外，若部署其用户态方案，保证在线服务的SLA相同的情况下，可以将GPU资源利用率提升至35%。

6）峰值倍数：10倍

推理服务一个典型的负载模式是一天中峰谷波动明显，且会出现不可预期的短时间流量激增。根据百度智能云统计，我们假设峰值倍数约为10倍。

7）所需算力总量：5.83*10^19FLOPS。

2*1750亿个参数*333.33万个token/s*10倍/20%算力利用率=5.83*10^19FLOPS。

8）所需H100数量：1.5-6万张。

根据英伟达官网，H100 SXM INT8、FP16、TF32对应的计算能力分别为3958TOPS、1979TFLOPS、989TFLOPS。则分别对应H100数量约为1.47、2.95、5.90万张。

我们认为，目前应用较为广泛的文字交互仅为Chatgpt以及AIGC应用形式的开端，语音、图片、视频等多模态的输入输出，或将为内容创作领域带来革命性变化。

而更广的数据形态、更多的应用场景、更深的用户体验，亦将大幅提升支撑人工智能的算力需求。英伟达进军ASIC，为推理阶段的算力需求未雨绸缪，算力或迎来高速扩张时代。

赞(32) | 评论 (25) 2024-02-26 11:48 来自网站举报

取消发布

推荐关注更多

【国盛计算机】再超预期的算力财报（重点标的）

刘高畅/杨然 国盛计算机畅想

刘高畅/杨然国盛计算机畅想