水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

ASIC芯片解读(附ASIC产业链概念股)

三六九   / 12月20日 08:03 发布

GPU与定制AI ASIC芯片对比:专家指出,虽然图形处理器(GPU)非常适用于通用的高计算量应用,但定制AI ASIC芯片更适合AI工作负载。这是因为AI ASIC的硅片设计采用了全新方法,其内存架构能够解决GPU中可能出现的挑战,并且它们能够在通用性和特异性之间取得平衡。AI工作负载涉及复杂的多维矩阵乘法,而AI ASIC对此进行了优化。


AI加速器发展方向:AI加速器的开发正在三个领域推进:超大规模数据中心运营商(如谷歌,自2015年开始开发张量处理单元TPU)、新兴的无晶圆厂半导体公司(如Tenstorrent、Groq和Cerebras,采用全新的硅片设计方法)以及老牌半导体公司(如博通和美满电子)。AI加速器的采用曲线将比GPU快得多,并且已有证据表明其性能远超GPU(例如,d-Matrix每秒可处理多达6万个标记,Groq在近期性能基准测试中比英伟达GPU快10-15倍)。异构计算(结合GPU、CPU和神经处理单元NPU)将成为主流。


AI模型性能相关情况:专家认为AI模型性能提升正在趋于平稳,扩展定律的作用正在放缓,出现了收益递减的情况。这种饱和状态可能会通过改变模型架构(及压缩)、硬件创新以及更好的数据集(扩充和质量提升)来触发下一轮性能提升。AI ASIC公司能够助力解决硬件创新方面的挑战。当前在模型性能方面追求的关键目标包括提高每秒标记数、减少首个标记的生成时间以及提高基于思维链推理的准确性。


GPU利用率及相关问题:专家指出,目前GPU的利用率受到内存限制。英伟达GPU面临的一个根本问题是将数据从芯片内转移到芯片外的成本居高不下,因为它们并非为大规模矩阵乘法、模型激活或处理如此大的模型尺寸而设计。定制AI加速器能够避开这些限制,例如Groq将所有RAM置于处理器内部,或者d-Matrix在内存内进行计算(称为数字内存内计算解决方案,DIMC)。模型架构方面的改进也有助于通过不同技术(如批量大小调整和量化)来降低模型的内存需求。


训练与推理相关情况:由于训练成本极高,涉及数据、计算、管理和基础设施等多方面要求,只有超大规模数据中心运营商才有能力专注于训练。但随着扩展定律达到饱和,它们的关键价值主张将在于相互争夺客户以及客户留存。许多AI公司希望避开当前云基础设施服务中的寡头垄断情况,因此更多公司可能会开发前沿的大型语言模型,并且开源也将继续存在。未来几年,随着各方开始关注可部署性和营收机会,推理的采用率将会提高。开源模型能够推动推理发展,因为AI供应商可以绕过从头开始训练模型的需求,转而专注于构建AI应用。


测试时间计算相关情况:专家认为测试时间计算在未来不会成为常态,而只是解决准确性问题的一种变通方法。尽管测试时间计算通过在推理中进行前向和后向传递能够解决安全和准确性方面的挑战,但在较大模型中每个请求的标记消耗会相当高,并且使用数据中心中昂贵的GPU硬件会产生高昂的成本和延迟。此外,从可承受性角度来看,测试时间计算在较小模型中可能效果更好,未来或许会有更好的方法来解决准确性问题。


分布式AI计算相关情况:分布式AI计算是数据中心计算和边缘计算的结合,它能够通过根据问题的复杂性或性质拆分查询,并将其导向边缘或数据中心,从而解决计算能力方面的挑战。


数据中心提供商相关情况:专家认为数据中心提供商将在2025年采用英伟达的Blackwell解决方案,但由于采购成本大幅上升、数据中心容量建设投资增加、电力和冷却等方面的挑战,采购量可能会较小。数据中心提供商正在考虑纵向扩展(在同一机架内增加计算密度)和横向扩展(添加更多机架)两种方式。在开发的早期阶段,纵向扩展将继续比横向扩展提供更多的计算性能提升。


网络相关情况:专家指出,在机架内(GPU之间)和机架间层面的网络也面临着解决高速和低延迟问题的挑战。虽然英伟达对以太网在训练和推理应用中的能力持怀疑态度,但生态系统中的其他参与者认为拥有一个基本开放的连接协议能够随着时间推移实现改进,这可能会导致向非专有网络的转变。硅光子学能够进一步提高网络加速速度。


应用侧相关情况:在应用方面,随着产品的增加,设备端AI模型的采用率会提高。可能会采用一种混合方法来决定哪些在设备端运行、哪些在云端运行,以解决隐私和安全问题。从商业经济学角度来看,边缘计算的兴起并与数据中心计算分担负载是势在必行的。


中国及部分美国公司相关情况:中国的人工智能公司大多采用横向扩展的方法,由于对前沿半导体存在出口限制,其计算密度会较低但覆盖范围更广。某些美国公司如Groq和Cerebras也采用这种方法并进行横向扩展,但它们也有纵向扩展的选择。


边缘设备相关情况:专家认为边缘设备可能不会使用高带宽内存(HBM),并且由于成本、运行/散热方面的挑战不会有大规模的内存部署。与数据中心类似,需要创新举措如将内存置于处理器内部才能在设备上运行模型。


AI芯片公司与云服务提供商(CSPs)相关情况:专家认为AI芯片公司很难向云服务提供商销售产品,除非它们能够展示出比内部ASIC更强的性能。不过它们可以专注于在通用性和特异性之间找准定位并进行横向扩展成为面向二级云服务提供商的数据中心提供商。大型云服务提供商将专注于打造自己的芯片并将其整合到自身工作负载中同时也会继续购买英伟达的解决方案并对小型芯片公司进行评估。全产业链研究

image.png