水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

股道的卢

06年入市实战操作至今,经...


价值领航

稳健的投资风格和淘金精神


柴孝伟

建造十九层每层成倍财富高楼...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


banner

banner

AI芯片专家交流

三六九   / 05月21日 08:22 发布

接下来我将分享国内#AI芯片 企业的一些情况,包括产品、竞争格局、供应状况以及国产化推进的进展和现状。在此过程中,如果大家有任何问题,随时可以打断。首先,让我们简要回顾一下目前国内主流 AI 芯片企业的产品状况。根据 2024 年出货量的数据以及互联网公开渠道的数据,去年国产 AI 芯片出货量最大的仍然是华为。其主要产品是#昇腾910B,而今年#华为 还将推出#昇腾910C。因此,目前在国内企业中,华为的出货量最大,其市场主要面向政府项目、运营商项目以及互联网大厂。

除华为外,国内出货量较大的公司还包括#寒武纪 和#海光 等。目前,寒武纪的主要产品是外界流传的思元 590,这是一款主力产品。从性能或参数层面看,华为的主力出货产品 910B和思元 590 都属于大模型类产品,适用于训练或推理。然而,从目前的情况来看,国内大多数企业主要将这些产品用于推理。

从当前竞品的情况来看,这两款产品主要与#英伟达 的 A100 或 A800 系列产品对标。华为今年新推出的 910C 实际上是最高一代的 H100 系列产品的继任者。总体来看,国内 AI芯片的发展仍稍逊于英伟达,我们后面会详细展开讲,这主要是由于在先进节点的限制,目前在国内主要推广的是 H100 系列,而 B100 这一代产品目前还处于研发阶段,尚未推出市场。除了华为寒武纪之外,国内其他厂商如海光等的产品也开始逐渐增加市场供给。

关于海光,我们简要回顾一下。实际上,海光之前已经开发过类似 AI 的产品。然而,之前的深算一和深算二主要应用于超算领域。从今年开始,他们主要推广的产品是深算 3,外界也有称之为深算四。这款产品是专为大模型领域或 AI 通用计算领域,不是超算领域而设计的。所以他们今年主推的这个我们叫 DCU 的第三代,目前看来已经进入小批量生产阶段,包括客户端导入和小批量销售。相较于去年,今年的出货量相对较多。

至于海光的深算 3 系列,实际上也是在系列的基础上进行了较大的改良。之前,其产品主要集中在高精度超算领域,如 FP32 和 FP64 的集中算力。现在,它也扩展到了通用的 16位算力,因此也可以应用于大模型的推理和训练。所以今年海光的量相对来说也会有一些。

另外,关于昆仑芯,我们也简要介绍一下,因为昆仑芯主要还是百度自用为主,不过其产品已经迭代到第三代。其中第一代和第二代产品在百度内部也有较大规模的使用,尤其是昆仑芯二代,在百度推理中使用量非常大。

去年,昆仑芯实际上已经推出了第三代产品。尽管第三代在制程工艺和算力方面都较为先进,其算力已超过 A100,但目前尚未进入大批量生产阶段。不过,从去年到今年,已经积累了不少测试数据,从目前的情况来看,其性能也超过了 A100 水平。因此,我们前面提到的这四家公司,其算力规格及产品状态已经达到了 A100 级别的水平。当然,这一切是在整个产业链遭受制裁,以及 AI 领域普遍受到制裁的背景下,国内优秀企业所面临的挑战,他们正想尽各种办法推动研发和生产。

从客户端的角度来看,目前主要的几个领域中,最大的需求仍然是来自互联网行业。从H20 的采购情况我们可以看出,国内在大算力卡或者大模型这方面,需求量最大的仍然是互联网领域。据观察,大型互联网企业一年的采购量通常超过 100 万块,甚至达到数百万张卡以上。因此,互联网行业是最大的市场需求。此外,国内的运营商和政策支持项目也占据了相对较大的市场份额。这三大领域基本覆盖了国内算力需求市场的 90%以上。在产品方面,我们稍后会进行详细介绍。

除此之外,国内还有一些其他的企业,我们简单说一下。在退役端,还有像摩尔、壁仞以及天数之星这样一些做得还不错的企业。这些企业的产品相对来说也做得不错。然而,整体来看,它们仍稍逊于你之前提到的那几家。尽管如此,目前第二梯队的这几家企业的整体发展情况已经具备成熟量产的产品,并且已经开始向客户端进行批量化出货。然而,整个进展,包括产业链的进展,相对来说比第一梯队的产品慢一些或者说落后一些。但是也已经在迎头赶上。但由于制裁的原因,各家可能还需解决各自的供应问题,包括供应端的一些问题。

因此,尽管第二梯队的企业已经有成熟的产品,但其出货量和市场份额相较于第一梯队仍较小。

在竞争格局方面,我们看到,影响国内 AI 芯片企业竞争格局的主要因素有多个维度,这些与产品直接相关,包括我们提到的生态领域,尤其是软件生态。这一方面对整体竞争格局产生了显著影响。由于之前国内大型互联网企业及主要市场大多基于英伟达的生态系统,但现在由于制裁的原因,不得不转向国内的国产化供应。无论是百度、腾讯还是阿里等头部互联网企业,都在进行算力卡的国产化。因此,它们不得不从英伟达的生态系统转向国内的国产卡生态。在生态层面,如果英伟达与国产卡相比,英伟达的生态系统无疑更加成熟。

然而,国产卡之间的生态差异并不显著。例如,华为与寒武纪主要专注于自研生态,沐曦和海光则代表了另一个大的生态。这些生态之间的竞争优势,并没有在产品和供应层面产生与硬件和最终竞争格局同等重要的影响。因此,在国产卡领域,我认为生态的作用其实并不显著。

然后在互联方面,可能会是未来竞争的一个焦点。尽管目前许多用户仍主要使用国产卡进行推理,对的要求并不高,但未来肯定需要在训练层面实现国产卡的替代。因为英伟达的高端卡会越来越严格,所以国产卡最终还是要用来做大的训练,因此对多卡互联的要求肯定会越来越高,同时的稳定性等也会有较高的要求。

由于大模型应用的增加,显存需求也在持续上升。随着 HBM 和 HBM2E 等技术的迭代升级,目前正朝着第四代发展,显存容量呈现出不断增长的趋势。

算力的提升也面临类似的挑战。由于国内受到先进制程工艺的限制,算力的迭代并没有预期中那样迅速。我们无法使用 5 纳米及以下的制程,这导致我们在算力发展上落后于英伟达。目前,由于制程工艺的限制,国内在迭代算力方面相对受阻。未来可能采用 3D 封装技术来提升整体性能。至少目前,国内的头部企业也在持续迭代产品。因此,对标 H100 系列的产品也将于今年陆续推出。尽管在硬件层面,我们与英伟达仍至少有一代的差距,但通过近两年的供应链改善和先进制程工艺的国产化,我们正在逐步追赶和跟进。

生态方面国产卡之间的差距并不显著,但与英伟达的差距较大。这实际上是一个需要时间积累的过程。随着国产卡在国内市场份额的增加,国产芯片厂商支持的生态系统应用将日益丰富。通过不断的迭代,这些生态系统的性能将不断优化,整体表现也将提升。因此,国产卡与英伟达之间的差距将会持续缩小。关于国产 AI 芯片企业的产品及其在竞争格局中的地位,以及影响整个竞争态势的其他因素,我们已经进行了初步的介绍。

接下来,我想讨论当前先进制程的状况。众所周知,7 纳米制程或者说 7 纳米以下制程,全球能做的企业也不是特别多。在之前的 AI 芯片,在制裁之前,基本都是采用台积电的 7纳米工艺,或者再往下的 5 纳米这些为主。包括现在像英伟达的主流产品,采用的都是台积电的 4 纳米和 4 纳米工艺,其中 5 纳米采用的是同一代的工艺。因此,从先进制程的角度来看,全球能够生产 AI 芯片的公司实际上非常有限。

以台积电为例,三星等公司也有其先进的技术支持。然而,包括英伟达和 AMB 在内的主流厂商,主要还是依赖台积电的工艺。在国内,已经具备了相当于台积电 7 纳米的先进制程,并且目前的 AI 芯片已经在工程批次和部分量产批次中进行验证。目前来看,国产制程足以支持国内企业 AI 芯片的生产。唯一的问题是,国产先进制程的良率相对偏低。但随着过去两年的持续优化,包括华为和其他企业不断的尝试和优化,目前国产的良率已经有所提升,并达到了量产标准。

相对而言,当前产能状况已不那么充裕。主要是因为先进的制程,尤其是光刻机的制约。因此,产能似乎并不充足。但目前的情况正朝着积极的方向发展。至少,国产的先进制程技术现在已足以支持国内企业进行 AI 芯片的生产与制造。未来,随着越来越多的企业进入该领域,台积电已经基本上暂停了对大部分国内企业的供应,包括那些没有下过订单的企业。

这导致许多国内企业不得不转向国产化供应商。因此,像 SPEAK 这样的公司面临的压力非常大。他们正在逐步制定持续的规划,以支持国产企业及国产 AI 芯片的发展。

鉴于美国不断明确的限制规则,台积电可能会提供一定的支持,但对规格的控制将更加严格。然而,对于想要在国内市场扩展的头部企业而言,目前来看,选择国产芯片仍然是更为明智的决定。因为在台积电生产将会受到各种限制,这会限制产品的规格。相比之下,国产芯片更容易生产出能与英伟达竞争的产品。因此,从个人角度来看,我目前比较看好国内AI 领域国产化落地的前景,以及后续的放量增长。

关于产能分配并没有特别复杂的机制。它并不像外界传言那样依据企业来进行分配。简而言之,产能分配通常遵循“先验证工程,先下订单,先生产”的原则。换言之,是根据谁能够更快地启动量产并稳定生产来分配产能。因此,那些早期完成验证并实现稳定量产的企业,通常会获得更多的产能。由于新企业无法在验证完成之前获得产能,所以从这个角度看,已经在进行大规模生产的芯片的企业,拥有更多产能的决定权。他们不会轻易减少已有的大量生产芯片的产能,去分配给新导入的企业,除非有新增的产能可供分配。

通常情况下,一旦产品进入稳定量产阶段,公司就会继续生产,因为这已经成为其稳定收入的一部分。如果产品需要进行工程导调,那是需要时间的,但稳定量产的产品是为了贡献持续的收入。

各家之间的一个优势,国产这几家企业之间的优势,相对来说确实各有各的特点。我们说几个比较有代表性的,从华为来看,其优势在于其整体的研发投入是国内其他企业无法比拟的。华为对芯片和 AI 的重视程度已上升至战略层面,并提供了最大的内部支持。华为还具备从芯片到整服务器整机的全产业链研发和制造能力,以及在软件生态方面的持续投入和能力,这些方面均使其他国内企业难以匹敌。唯一的不足可能在于,华为在 AI 领域的技术积累相对不够深厚,因为其进入 AI 领域的时间较晚,相较于英伟达、寒武纪和百度而言,其在 AI 技术的积累尚未达到一定水平。然而,华为正在不断迭代更新并加大研发投入,因此,华为在这一领域的领先优势预计将会得以保持。

因此,该公司在全产业链方面的实力并非一般企业所能比拟。无论是软件层面的资源优势,还是硬件层面的资源优势,亦或是其在市场端的影响力,包括在智算项目和运营商项目上的表现,均显示出其卓越的能力。其与运营商在欺诈和通信方面的良好合作关系,使其在市场端的影响力无人能及。其他企业各有特点,例如寒武纪,它以深厚的技术积累和完全自主的自研 AI 架构及生态而著称。基于其科研成果的产业化,它对处理器内部结构有深刻理解,这使得它在产品迭代和硬件、软件升级更新方面具备强大的自主研发能力。这无疑为其带来了显著的优势,但可能的劣势在于其商业化进展相对较慢。16 年成立以来,该公司的产品迭代和商业化起初并不成功。然而,随着打压的升级,其产品逐渐在国内大型企业尤其是商业客户中实现了规模化销售,并通过持续的迭代逐步走向成功。因此,从趋势来看,该公司逐渐实现了商业化,并将这一反馈再次投入研发中。因此,它拥有了一个非常强大的技术研发能力,这是它的核心优势。

而且,从当前情况来看,研发能力实际上是一种非常宝贵的资源。这不仅因为研发能力可以持续迭代和优化产品,而且一旦客户粘性增强,其产品迭代的 roadmap 和思路也会变得非常迅速且优秀。因此,这是它的最大优势。

它的不足之处在于专业化领域不包括市场方面的影响,显然不及华为。然而,海光有其独特之处,其产品基于超级计算领域发展起来的。现在,它对 AI 领域的重视程度非常高,无论是在研发、生态系统还是客户端方面,都有持续投入并推动其系列产品的发展。由于有曙光的支持和应用,它的产业链能力、国内影响力以及 CPU 产品的综合能力都非常出色,因此在国内 AI 芯片市场中占据着有利地位。

昆仑芯无需多说,作为百度孵化企业,它拥有百度的支持进行产品端的测试和验证,以及应用层面的验证。因此,其产品和技术的迭代速度相较于其他公司更快。尽管如此,由于过度依赖百度,它并不是一个独立的第三方芯片企业,无法像其他公司那样支持更广泛的客户,这可能对其规模化产生一定影响。此外,国内还有许多第二批的企业,它们各有特点,同时也各有劣势。

有些产品的发展可能相对较慢,目前主要集中在推理方面,且算力尚未得到提升。然而,这些产品正在逐步升级和迭代中。第二梯队的企业中,整体来看,行业发展态势仍然积极。但是 anyway,未来几年将进入一个优胜劣汰的阶段。众所周知,AI 领域的投入巨大,许多企业可能无法维持,这是很正常的。由于缺乏持续的资金投入研发,加之产品在客户端导入或销售未达预期,这些企业很可能就会被淘汰。这将是未来几年的一个常见趋势。目前,已经有 GPU 企业无法维持运营。

最后,我想谈谈国产化进程。从目前的情况来看,由于英伟达的制裁,国产化率提升非常快。根据去年的数据,如果我们看下出货量数据,英伟达在国内市场的份额,由于 A800和 H800 的销售,市场份额一度超过 80%。但是从 24 年的数据来看,华为出货量的猛增导致英伟达的市场份额已经下滑,尽管如此,它仍保持着 50%以上的市场份额。而到了今年,如果看 25 年的数据,由于 H20 的部分采购,但后续交付可能存在问题,所以最终国产化比例还将进一步提升,甚至今年国产卡的出货量有可能会超过 H20。对,我想分享的内容差不多了。

Q:提到的 910C,它显存目前使用的是哪个等级的 HBM?

A:第三代

Q:他能从哪个地方拿到第三代 HBM。

A:去年大家做了很多备货。之前在没有制裁的情况下,许多也是通过代理购买。然而,去年由于对制裁的担忧,这些 A 芯片厂商对颗粒进行了充足的备货。而且,国内大多数企业主要使用三星的颗粒,

Q:关于海光的三号产品,预计其下游出货哪些产品呢?

A:海光今年在商用领域,目前我们看到的信息是,在阿里和百度已经有批量采购,但数量并不大。今年海光可能有智算项目,可能是郑州的智算项目,可能会在海光方面落地。但目前这还未对外公开,我也不是很确定。后续通过其他信息了解到,可能是这样。所以其智算今年的份额会比较大。同时,互联网领域也相对有一些出货量。

Q:华为最近推出的 384 的价格大概是多少?并且,是否有下游客户会购买这种机器?

A:他现在在做的这个 32 或者 64 卡这种机柜,应该是他后面会推的。但我个人认为,这块还是有一些难度的,可能没有那么容易。不像之前那种八卡服务器那样容易销售,也容易做。如果机柜的话,我认为可能它的推广没有那么容易,可能需要一个时间。但如果是像刚才讲的一体机,我认为那相对而言数量应该还可以。但是机柜因为有很多技术难点,例如英伟达自己做的那个 72 卡的,还有 36 卡机柜,其实也是有之前的散热问题,也是做了很长一段时间才相对较多的被客户接受。

Q:华为使用了 384 颗 910C 组成了一个,不知道那位专家是否了解这个情况。

A:机柜的制作并非易事,因此客户端的导入过程需要一定时间,或者说,要使产品趋于成熟可能还需更多时间。

Q:7 纳米的产能情况,这个总量大概有多少呢?每个月大概能有多少片

A:外界信息的准确性我无法完全保证,我的分析基于公开信息渠道的预估,仅代表个人看法。就目前来看,预计每月在 AI 领域 7 纳米产能的使用量大约为五千片,然而,据说下半年可能会扩产,产能可能达到 8000 到 1 万片。但请注意,这只是个人的预测,并非精确数据。

Q:他们一片能刻制多少颗这样的芯片?

A:以对标 A100 的产品为例,通常情况下,一片芯片可以生产出大约八九十颗。然而,如果考虑到良品率,实际产出的可能只有二三十颗。

Q:那么,在实际的与工厂订货过程中,比如交付一亿预付款,大致可以获取多少存货呢?具体来说,这是指预付款如何转化为存货的比例。

A:不同的价格会有所差异,但大致上我们可以估算一下。以晶圆为例,像台积电的 7,其单片晶圆的出厂价大约为 1 万美金。换算下来,也就是差不多七万多人民币。如果采取预付的方式,可能会有所不同。例如,假设预付 50%,那么对于每片晶圆,您需要预付 35,000人民币。通过将一亿除以 35,000,您可以计算出可能的金额范围。

Q:存货转化为营收是一对一的转换吗?还是说存在某个比例?

A:实际上,这里讨论的是晶圆,即从晶圆到最终产品——无论是以芯片还是以板卡形式存在,其价值都是不同的。晶圆是库存中最便宜的,假如一片晶圆可以制作 20 颗芯片,那么这些芯片在封装后价值会增加。因为每颗芯片封装完毕后,需要添加 HBM 颗粒,还有interposer 和载板等,这些因素使得整体价值比晶圆的价值大很多。举例来说,如果一片晶圆能产出 20 颗芯片,且以每片晶圆 1 万美金计算,那么这 20 颗良品芯片的单价将是 500美金。这就是白的价格。封装完成后,价格将超过 500 美元。例如,如果它还包括 HBM,以一颗加 4 个 HBM 的封装为例,仅 HBM 的价格就大约为 2000 人民币,四颗则需要 8000人民币。因此,整体价格将大幅上涨。再加上之前提到的 500 美元的基础价格,整个成本将升至约 3000 美元。此外,封装基板的 ABF 覆铜板的成本大约也是 3000 人民币,这样总成本将达到约15000 人民币。

再加上芯片封装的其他成本,包括加工费和材料费,芯片的成本已经上升到约 17000 元。因此,从原始的 500 美元到最终的封装芯片,以封装好的芯片形式计算,其价值已经增至约 17000 元。如果制作成板卡,最终的板卡成本可能接近两万元。成本大约在 24,000 人民币。如果存货最终是卡的话,材料成本和制造加工成本加起来就是它的成本。假设它的销售价格是 80,000 元一张,那么它的毛利就大约为 70%。此时,库存的价值取决于其具体形式。晶圆库存本身并无太大价值,而封装好的芯片库存则具有较高价值。

Q:我们希望得到一个更为直接的相关关系,例如用户款项与订购总货款的比例,根据我们的经验数据,这个比例大致能到多少,比如 50%或 30%。

A:关于预付款,其主要涉及晶圆方面的款项。因为其他部分需要备货,例如封装所需的材料等。以晶圆为例,我们可以根据预付款的金额来估算订购了多少片晶圆。如果预付款是 1亿,那么我们可以据此大致计算出晶圆的订购数量。

如果预付款为一亿,根据我们之前关于晶圆的计算,一亿应该能购买一定数量的晶圆。我们刚才讨论过,单片晶圆的价格是 10000 美元。如果按 70000 人民币的汇率计算,那么单片晶圆的价值就是 70000 人民币。因此,预付款的一半即 35000 人民币,除以单片晶圆的价值后,结果是不足 3000 晶圆。这表明一亿的预付款大致可以购买 3000 片晶圆,我们按 3000片晶圆计算。它就是 6 万张卡。6 万张卡如果你按 6 万块钱,6 万张卡如果你按 6 万块钱去去算的话,它就是 36 亿的营收。一张按 6 万块钱算的话,它就是对它就是 36 亿的营收,差不多是这样一个。

Q:我还想追问一个问题:中兴版本的 590 与台积电版本的 590 在性能上差别有多大?此外,如果台积电版本的通常售价较高,大约在 8 万人民币左右,那么为了具有性价比,它的价格需要降低到什么程度?是否会低于成本?

A:根据我目前了解的情况,不论是 910B 还是 590,在台积电的版本生产中,最终产品与国内性能差异并不明显。价格差异也不是很大,因为最终客户更看重实际测试结果和板卡表现。从 BOM 成本来看,两者确实存在一些差距,主要是由于这边产品的良率较低,以及易科达的成本可能更高,相比台湾的易科达更为昂贵。

然而,从性能角度来看,产品的性能差距并不明显。其功耗可能会稍高,但这种增加在可接受范围内。算力方面是没有偏差的,如果以白菜的算力为基准,保持一致是没有偏差的。差异主要在于良率,良率的差距会导致成本有所提高。然而,最终的销售价格两者相差不大,基本上是差不多的售价。因此,要让客户接受并使用国产芯片或国产智能卡,关键在于测试性能。只要实测性能结果客户能够接受,且价格上没有显著变化,客户就有可能被说服。

Q:寒武纪下游客户字节、腾讯、阿里导入情况和量怎么样?谢谢。

A:虽然目前缺乏公开数据,但从财报分析,我们可以看到出货量有所增长。值得注意的是,他们的客户量最大的单一客户。目前流传较广的是字节跳动应该是主要导入客户,因此他们的出货量主要由字节跳动贡献。然而,近期其他公司如阿里巴巴和腾讯,由于 H20 的限制,也开始有一些导入的进展。但目前出货量主要还是依靠自身,具体数据不便透露,且可能不准确,故在此会议上不便详谈。

Q:deepseek R2 能否使用进行训练?

A:华为针对 Deep Seek 的 RE 以及后续的整个系列都对模型层面进行了优化,并在生态方面也做了支持和优化。因此,910B 和 910C 应该能够支持 Deep Seek 的 R1 模型的训练。此外,它们也支持推理,尽管训练效果可能不如 H20。

国内的国产卡针对 Deep Seek 的兼容性,包括最近的调试和兼容工作,目前大多数国产卡已经支持 Deepseek 模型的推理。尽管小算力的训练效果不佳,但目前看来,这些产品均能进行 deepseek 模型的推理。之前有一些公开的测试数据,我们发现 H20 在 F18 数据格式上表现良好。实测结果显示,国内的国产算力卡在 Deepseek 推理性能上不如 H20。然而,随着国产卡的进一步调优,特别是在算法和生态层面的优化,目前像 910C、590 对 Deep Seek的支持效率越来越高,与 H20 的效果非常接近,尤其是在推理层面。

Q:展望一下寒武纪,华为 AI 芯片 今年明年产能预期

A:基于目前公开的信息和两家公司的发展情况,首先我们看这两家公司,它们是国内 AI芯片企业中无论是在产品端还是客户端进展最快的两家,并且市场份额也应该是最高的两家。华为今年除了持续放量 910B 产品,其主推的是 910C。910C 是为对标 H100 的产品,也是目前在客户端实现规模化或批量化交付的国内最先进的产品。因此,我个人认为 910C 的出货量今年可能会相对较大,预计会超过 910B。根据去年的数据,910B 的出货量大约在四十万张。而根据产业链的预估数据,今年 910B 和 910C 的出货量都可能达到较大规模,但 910B的出货量可能不会特别大,因为它已经是上一代产品,而且实际性能测试结果显示,它的性能比 910C 和 590 都要差。因此,预计 910B 今年的出货量可能与去年持平,最多达到 40万张,甚至可能低于这个数字,大约在 30 万张左右。

目前预计 910C 的出货量可能会更高,预计将会超过 40 万。如果后续的实测结果良好,甚有可能达到 70 万的量。因此,综合来看,华为今年的 B+C 出货量预计将在 70 万到 100之间,这一数据是相对合理的。

华为在研发上的投入巨大,后续将会有类似下一代的产品持续迭代。无论是命名为 910D 还是 920,华为目前已经在投入大量研发资源以持续创新。因此,从国内 AI 芯片市场的格局来看,华为毫无疑问地处于领先地位。尽管其布局和发展速度非常快,面临着国际制裁的压力,但这些都不会对其产生重大影响。华为很早就遭受了制裁,但仍然研发出了多种产品,这证明了其企业实力的强劲。

寒武纪的业绩也显示出增长趋势。根据今年第一季度的财报,其出货量较去年第四季度有所上升。此外,从财报中的存货和预付款情况推断,第二季度的出货量很可能同样不俗。考虑到 27 亿的存货,如果按照每张 6 万到 7 万块钱计算,这相当于有近 5 万张卡,也就是说,今年的出货量将显著高于去年。去年的出货量直到第四季度才真正开始增长,而今年第一季度的出货量就已经超过了去年全年的水平,当然也高于去年第四季度。因此,如果按照第一季度的产量趋势进行估计,第二季度的产量很可能将超过第一季度。

假设以营收来看,由于存在一定的延迟,我们估计 Q1 和 Q2 今年上半年的出货量将达到 10万张卡的水平,全年出货量可能会更多。基于产业链获取的数据,这是一个预估的全年出货量在 20 万到 30 万张之间的合理范围。

在市场份额方面,以华为为例,其出货量大约在 70 万到 100 万之间,占市场份额的 20%至30%。比如华为最终能占到市场的 60%,它已经占了 20%的份额。因此,这两家公司几乎瓜分了国内市场的 80%的份额。目前的情况大致如此。当然,还有其他一些公司,如海光和昆仑芯等,它们也有一定的出货量,但相对而言,这些公司的市场份额要小得多。

Q:国产卡的生态最终将剩几个?是否会形成类似华为生态的通吃局面

A:不会特别多,无论是自研还是生态,或者是内扩大的生态,能否成功最终取决于客户端能否持续放量,并稳定地占据市场份额。只有用户广泛采用,生态才能不断优化和发展;否则,产品生态将停滞不前。

个人而言,我认为不会出现华为独树一帜,其生态无出其右的情况。华为自研的生态是一个封闭且不易使用的体系,至少从客户端获取的信息来看,这个生态的易用性非常差。即便是国产生态,也鲜有易用的,基本上都不太好用,但是华为的自研生态更是如此。因此,从目前来看,华为在国内的地位不太可能达到英伟达在全球 AI 市场上的地位。这不仅因为英伟达专注于积累,而且其生态的积累和推广需要时间。

综合目前的国内竞争格局,华为不会独揽市场。尽管它可能会占据相对较大的市场份额,但不会形成一家独大的局面,因此其生态系统也无法实现全面覆盖。在国内市场,几家出货量较大的公司可能会相对生存下来,我个人认为最终可能维持在五到六个品牌左右。市场份额相对有限,其他品牌可能相对小众,但并不意味着它们无法生存,因为背后可能有企业支持和用户基础,也能够生存下去。

Q:寒武纪的芯片在中芯国际的产能大概是多少?中芯国际的产能是否足以支持寒武纪今年计划的 20 到 30 万张卡的产能?

A:华为、寒武纪以及海光等公司已逐步将产能转移到国内。我个人认为,未来的出货量将主要依靠国内产能。鉴于台积电对国产卡供应的严格限制,尤其是对于那些需要大算力的产品公司,获得台积电的产能非常困难。即便通过各种渠道尝试,考虑到当前的制裁环境,获得台积电产能几乎不可能。因此,后续的供应量将主要依赖于国产产能。

至于是否能够得到支持,根据目前的生产扩展情况,从刚才的讨论中我们可以得知,如果产能扩展至 1 万片,按照每片约 20 克的重量计算,所需的晶圆数量大约为 15000 片。这意味着,按月计算,需求量约为一千多片。考虑到目前的产能,如果能够稳定生产,我认为增加这一数量应该是可行的。因此,从产能角度来看,我认为应该能够满足需求。如果我们的假设是正确的,那么实现国产化并最终确保如此大规模的供应应该不会遇到太大问题。但值得注意的是,这并非唯一一家在寻找国产替代方案的公司,其他企业也在陆续加入这一行列。所以,如果国产厂商愿意承接这项工作,他们肯定有相应的准备。

实际上 AI 的国产化已经是大势所趋。根据我们的观察,从采购数据来看,AI 在先进内存的营收占比明显提升。而信息流程部的手机业务量相对稳定,这无非是 AI 历史发展中的增量市场,因此可以预见,未来它将重点支持并进一步成为 AI 市场的主要推动力。

A:开发新一代 AI 卡至少需要多少资金规模?能否从研发开支、流片成本等方面进行详细解答

A:如果我们要研发一款新的 AI 芯片,尤其是用于推理或训练这类大算力芯片,投入将非常巨大。投入主要涉及几个方面:研发投入主要包括设计投入,这主要包括人力成本,以及EDA 软件和 IP 的采购。

我们可以简单估算一下。假设我们想要开发一款推理芯片,该芯片旨在实现约两三百 token的推理能力,以对标英伟达的 L20 等产品。为了打造这样一款闭环产品,我们首先需要一个设计团队。这个团队主要负责数字前端设计,随后进行数字验证以确保芯片设计的正确性,即设计与验证团队。这两个团队加起来,如果要开发这样的产品,规模大概需要 20 人的数字前端设计团队,以及一个接近 40 人的验证团队,总计约 60 人的团队,这只是 SOC 层面。若要进行处理器层面的研发,比如开发 GPU 架构,可能需要一个 10 到 20 人的团队。考虑到前端和后端的开发以及版图设计,仅前端研发团队的人数就已接近数十人。如果再加上后端的版图设计和封测人员,团队规模可能达到四五十人。已经接近 120 人。若再加上相应的软件开发团队,整个团队的人数将超过 200 人。因此,要开发完整的软件,至少需要一个 200 人的团队。

如果我们以一个 200 人的团队来计算人力投入,一个产品的研发周期通常从项目立项开始,到最终的流片,最快也需要一年时间。若缺乏技术积累,这个周期可能需要两年甚至一年半。假设过程顺利,一年内将产品从定义开发到最终流片,那么对于这 200 人的团队,仅工资一项就需要发放近几个亿。具体来说,200 人乘以 100 万的工资就是两个亿。

Q:SMIC 的 910C 的良率目前是多少?其推导过程是什么?以及未来是否还有提升空间?A:我并没有具体的统计数据。不过,根据现有的数据,我只能根据台机的良率做出一个大致的估计。由于 910C 的规格较大,产品的改尺寸可能也不小,我们肯定没有公开数据。以910B 为参考,910C 的良率预计在 30%左右

一般来说,越先进的制造工艺会导致良率降低,而且随着尺寸的增大,良率也会下降。但由于它是两颗芯片封装在一起,所以实际上,如果一片晶圆能产出 20 颗芯片,最终只有 10块卡

Q:国产 AI 芯片厂商在硬件和软件生态实力方面进行一个排序

A:在硬件层面,就实力而言,我认为是那些刚才提到的企业。例如,寒武纪在硬件研发方面的实力最强,其次是华为、昆仑芯、海光,以及我们第二梯队的其他企业,大致就是这样一个排序。而在软件层面,从目前的投入来看,华为的软件虽然当前阶段不太好用,但其投入和资源应该是最强的,因此排在首位。其次,寒武纪和海光等企业依然保持原有的排名顺序。

Q:后面头部的互联网公司都准备进军自研 ASIC,请问这对第三方芯片公司会有什么影响?他们能和这些公司合作,比如寒武纪跟字节跳动合作做 ASIC,这对他们来说有好处吗?

A:我个人认为,互联网公司自研 ASIC 芯片的趋势相当明显。国外也有许多公司在这么做,他们也在研发自用的芯片。但通常,这些芯片与它们内部的具体应用场景紧密相关,比如在算力规模和应用场景上,它们既不是通用芯片,也不以竞争为目的。主要是为了满足内部需求,例如视频处理芯片和算力芯片。自研芯片确实是一个趋势,但要做好自研也颇具挑战。例如,百度不得不让昆仑芯公司独立运营,阿里巴巴投资了平头哥,但实际上平头哥也需要独立研发芯片。因此,对于互联网企业来说,其主营业务并不在此。如果它们要自研芯片,那将面临不小困难。

建立团队的过程通常较长。除非像谷歌那样,一开始就专注于自有技术的开发,并经过多年的积累形成了迭代技术。谷歌的策略是不对外出售,而是专注于内部支持。然而,国内大型互联网企业往往缺乏这样的技术积累,它们组建团队后,根据自身需求尝试开发产品。如果项目未能成功,他们可能会放弃。由于这些企业可以通过供应商购买所需技术,这种方式可能成为一个趋势。然而,这并不保证能发展成一个壮大的趋势,可能是尝试一下,感觉不行就放弃了。

目前,尚未观察到独立芯片公司与其构成竞争,但肯定受到了影响,尤其是那些从事推理的公司可能会比较多。例如平头哥,他们研发了推理芯片,如果阿里有需求,那么阿里可能会将推理芯片的订单交给平头哥,从而减少对其他芯片的大量采购。因此,这最终可能会形成竞争,但目前来看,这种竞争的影响并不显著。

Q:关于 H20,预计在七月份将进一步降低其性能。与国产的 910C 相比,它仍具备性价比吗。那么,接下来互联网厂商是否会选择不断减少对 H20 的采购呢?

A:关于 H20,有传闻称其将推出裁剪版或降规格版本,但这尚未得到官方确认。由于不想放弃中国市场,因此可能会针对制裁政策推出特定为中国市场设计的产品。无论该产品最终被命名为何,目前看来这种可能性是存在的。然而,截至目前,这一计划尚未实现。

如果假设它进一步降低产品规格,并将其与国内产品进行比较,我认为这将导致其竞争力逐渐减弱。随着规格的降低,产品在性价比方面的表现也在下滑。从最初的 A800,H800 到后来的 H20,再到未来的其他产品,这一趋势显然在持续。其竞争力越差,市场份额占比也会越来越低。因此,这一趋势是不可避免的。然而,我认为英伟达可能会采取这一策略,因为它不想放弃中国市场,所以它仍会继续这样做,但效果可能会逐渐减弱。

调研纪要更新