水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

GPT的硬件引擎:AI算力芯片那些事儿

价值投机小学生   / 2023-04-02 08:57 发布

QGPGPU和ASIC芯片在AI算力中分别承担什么样的角色

A早期开放框架基于GPGPU架构实现因此软件生态更为成熟对于初级客户来说上手使用更加方便GPGPU的通用性也更好架构更加适合AI中针对模型的训练以及针对通用模型的部署对于ASIC芯片来说如果客户对于模型有深度的研究也有能力对模型进行特殊的定制化处理那么ASIC芯片的产品和解决方案有更高的性价比ASIC芯片由于模型中特殊算子特殊结构已经完成了硬件的固化因此对于一些较大的改动或是一些与硬件架构强相关的计算来说可能会存在一定的限制

总体来说如果模型已经比较成熟改动都在有限的范围内那么IC芯片具有更高的性价比但如果是一个初步的模型未来需要不断地演进和完善那么GPGPU是更合适的

Q市场上主要关注的AI算力芯片尤其是海外厂商英伟达都是GPGPU吗

A市场上主流的AI加速设备GPGPU大约占了90%的市场份额剩下的10%是一些FPGAASIC类的产品

Q如果换一个角度理解的话我们现在所处的阶段还不成熟所以更适合通用性强的GPGPU如果发展成熟之后才会需要更多的ASIC芯片

A这分为两部分解释

第一传统的AI相对于目前的大模型来说可以称之为是小模型的AI比如早期的CV算法人脸识别语音识别自动应答这些模型的体量很小而这个时期的模型很多都是基于英伟达的CUDA生态开发的使用的框架如PyTorchTensorflow只是利用了一部分还有一部分是直接调用CUDA的这个阶段GPGPU是最合适的如果现在客户的主营业务还是在这个层面上那么GPGPU会更加适用

第二如果客户模型已经基本固化不会发生大的变化那么在这种情况下可以采用ASICASIC芯片可以针对它原有的模型做深度的定制化但是大模型有一定的区别大模型更加依赖框架比如Tensorflow和PyTorch而对于CUDA生态的依赖非常小在这种情况下GPGPU和ASIC的重要性的差距就变得很小这个时候用户更加关注芯片对于框架的支持和性价比不存在CUDA产生的影响 

Q国内的大模型主要使用GPGPU还是ASIC

A目前能运行大模型训练的只有GPGPU英伟达的A100A800H100H800效率也是最高的目前ASIC没有大规模的部署很多ASIC的厂家集中在国内这些厂商处于早期的阶段产品不够成熟但是在一些场景中我们经过测试发现ASIC支持大模型的效率高于GPGPU 

Q国内的厂商寒武纪景嘉微海光信息和昇腾性能达到了海外什么层级的水平

A第一景嘉微我们认为景嘉微不是做AI芯片的厂商景嘉微的产品目前只能用于图形处理图像渲染未来可能能实现光线追踪目前景嘉微最好的JM9系列产品大概达到英伟达GTX 1050的水平只能算入门级GPU

第二寒武纪寒武纪最好的产品是思元590这款产品在文心一言中有小规模的部署大概几百件并且也只是文心一言中众多业务场景的一小部分没有实现大规模部署我们认为寒武纪的产品只能用于大规模推理中的一小部分场景还不能做大模型训练还有许多需要弥补的地方

第三华为昇腾华为昇腾只能用于华为自身生态中的大模型业务通用性差比如昇腾不能做GPT-3因为昇腾910不支持32位浮点而目前大模型训练几乎都要使用32位的浮点所以华为昇腾芯片只能利用华为开发的框架如MindSpore在加上优化好的大模型比如盘古CV任何公开模型都必须经过华为的深度优化才能在华为的平台上运行而这部分优化工作华为还没有开始所以我们现在认为华为只能运行自己闭环的大模型产品

第四海光信息海光的深算1号可以运行大模型目前正在开发深算2号深算1号相当于英伟达的P100的水平但是性价比低即便在openai最早训练GPT-3的时候也采用了V100芯片此外海光信息还存在迭代问题因为海光信息只拿到了AMD第一代GPGPU的授权

QP100相当于那一年的产品

A大概是2014-2015年的产品

Q目前海光信息是可以排在第一梯队吗

A海光的芯片可以运行通用的大模型只是效率比较差第二位应该是华为的昇腾910但是只能运行华为自己优化后的大模型寒武纪只能运行大模型的推理景嘉微不属于这个市场 

Q其他AI芯片厂商有什么比较重要的吗

A沐曦今年6月会发布第一款AI训练产品C100但是还需要经过一些内部的调试软件适配等预计在今年年底会对外发布目前来说从公布的性能指标来说C100接近于英伟达的H100的水平壁仞最早的一代产品BR100本身指标是对标H100的但是由于美国商务部的禁止条款壁仞必须把互联带宽降低一半因此产品要重新设计影响产品进度并且性能也受到了影响目前BR100还在内幕测试过程中距离真正的批量使用大约还需要半年的时间天数智芯的芯片只能勉强做大模型推理百度的昆仑芯只能勉强用于大模型推理并且是基于Paddle平台的通用性差 

Q是不是目前最值得期待的就是沐曦的产品

A从团队背景来讲沐曦的团队背景经验是最丰富的沐曦的一些核心人员是参与AMD的MI100MI200产品开发的这都是AMD目前最主流的GPGPU产品从产品规划来看沐曦产品对标H100未来实现量产大概与英伟达只有一代左右的差距因此目前来看是与英伟达最接近的壁仞还需要再观察BR100的应用情况因为受到美国商务部禁止目前还没有看到具体的性能表现 

Q如果景嘉微和沐曦合作是否能获得长足的进步

A应该可以首先这两款产品的底层架构是GPU景嘉微是传统GPU沐曦是GPGPU存在互相借鉴的可能性如果景嘉微采用了沐曦的产品和技术那么就能从传统GPU市场一下跃升到AI市场 

QAI芯片的门槛应该是非常高的为什么会有这么多初创型的企业涉足这个领域

A首先AI芯片设计的门槛不是很高比如GPGPU架构上没有什么高深的要求而且很多核心部件核心功能模块都有现成的IP比如总线接口PCIE内存以及内存控制器的HBMDDRGDDR很多加速的组件都有现成的内容可以用成熟的产品代替所以唯一要做的就是把内部的逻辑加速单元整合起来发挥对AI计算的优势所以硬件上门槛不是很高但是软件门槛很高因为在小模型的时代软件必须解决兼容扩大的问题还要发挥硬件本身的设计性能在大模型时代就要做好对于一些框架的支持所以我们认为设计AI芯片从技术角度上来说难度不高主要在于是否拥有整个软硬件的整体设计能力根据市场上现有模型以及前景模型的内部架构需求设计硬件的底层这样才能实现效率提升否则如果硬件完成用软件弥补硬件设计的失误那么就需要消耗很多的软件资源硬件的效率也不能充分发挥这些初创企业都是从硬件着手的门槛并不是非常高 

Q那这些企业是自主可控的吗

A不是纯粹的自主可控因为一些核心IP都是国外的产品并且企业依赖台积电

Q如果抛开流片不谈只看设计方面会不会受到美国限制

A因为这里面存在几个核心的专利比如PCIE目前掌握在cadence和Synopsis这样的公司手里都是美国公司HBM基本上只来自于三星海力士和镁光如果美国商务部有禁令这些企业都不能向中国企业提供产品纯国产化在这方面的确没有相应的积累所以会被美国卡脖子 

Q海光是否能做到不受影响

A第一个问题是海光在美国禁运产品名单中所以海光投片只能通过第三方代理公司导致投片价格会偏高产能会不足第二个问题是海光拿不到新一代架构的授权限制了海光产品迭代可能会与海外主流产品代差越来越大这是海光最大的问题

Q海光当前的架构是买断的吗

A这一代架构不会侵权唯一要解决的是产能供应链的问题 

Q昇腾寒武纪沐曦这三家企业会不会涉及到海外侵权的可能性

A昇腾不涉及因为昇腾涉及的IP都是买断的但是昇腾面临下一代产品更迭的问题新一代IP没法拿到海外厂家的支持所以昇腾全部的IP都需要国内的替代但是国内目前还非常不成熟目前昇腾920和昇腾910差距不大只是生产工艺使用了中芯国际的14纳米工艺沐曦目前不在美国商务部的黑名单中用的很多核心是国外的厂家的所以如果沐曦严格遵守美国高端芯片的条款短时间内不存在风险还是可以用国外的IP和台积电 

Q中国的算力芯片对于美国的英伟达巨头来说是否还有追赶的可能性差距是否在缩小

A差距在一点点缩小但是缩小的难度会越来越大如果英伟达仍然保持每十个月发布一代产品对于中国厂商来讲可能差距会慢慢增大因为硬件的迭代投入是巨大的风险也很高中国厂商没有雄厚的资金投入所以追赶有一定的难度所以如果英伟达产品发布节奏不变那么这个差距可能会越来越大尤其是在美国商务部存在很多禁令的约束情况下 

Q英伟达的CUDA在未来AI算力芯片中是越来越重要还是不重要

A在小模型上CUDA仍然很重要但在大模型上它的地位越来越轻了如果未来中国市场以小模型为主那CUDA还是有很大的影响力而如果是以大模型为主对于CUDA的依赖就越来越小了 

Q能否简单介绍一下为什么大模型对于CUDA的依赖小

A大模型底层基于transformer的架构增加参数和层数而transformer是完全基于框架实现的架构并没有使用CUDA的特殊算子所以不需要必须兼容CUDA而小模型早期都调用了CUDA的算子所以是绕不开CUDA的

Q国内大厂的大模型底层算力是什么

A他们的底层算力都是英伟达比如V100和A100

QV100A100的存量还有多少

A目前腾讯字节百度的存量都不超过2000片只有阿里大约能够过万

Q那华为情况呢

A华为只有自己的昇腾910围绕盘古目前比较流行的GPT-2GPT-3都无法运行 

Q这是不是说明华为的算法是自研的

A华为基于开源的算法针对昇腾910的特性做了很大程度的优化

QGPT的训练和推理需要多少算力

A以GPT-3为例openai训练使用了一万张A100训练了14.8天左右使用A100类似的产品如果以512张卡来训练大约需要3个月如果用1024张卡大约需要1个月如果用2000张卡大约需要18天左右GPT-3或者说ChatGPT对于每个用户的请求大约需要5张类似A100的卡进行推理随着并行客户增加硬件需求线性增加 

Q如果GPT-4大概量级有多大增长

A目前没有公开宣传我们估计大约需要2万-3万张A100训练一个月左右的时间 

Q这些比例都是线性的吗

AGPT-4和ChatGPT训练的数据集没有太大变化最大的变化是参数发生变化算力增加完全依据模型参数增加的比例数据量大概还是四十多T没有太大变化 

Q在中国的算力需求怎么样进行量化

A目前国内最大的模型是阿里达摩院的M6拥有十万亿个参数体量是最大的对于大模型训练的场景国内厂家只能用很短的时间做一次大模型训练没有专门的训练场景对于推理来说资源更加紧张所以目前百度不能广泛地免费地提供服务目前国内的模型比国外差但是参数体量对算力的消耗不相上下所以目前国内模型品质差数据集不足并且算力与海外相差甚远 

Q假设十个大厂要做大模型可能每家需要2000片A100换算到国内芯片再乘上一个参数比如1.5-2大概是3000-4000片那么十家就是3万-4万片可以这样理解吗

A2000片A100训练GPT-3不是ChatGPT大约需要一个月存在时间代价目前国内芯片的整体性能只有A100的一半左右那么大概需要4000片十个厂商是4万片这个是正确的

Q这需要花多长时间

A一般这种训练都是十几天一个很重要的前提是国内的产品稳定性都必须绝对高如果在大模型训练过程中中间出现一两个节点的宕机以及一两个节点计算失效那么这个大模型就要推翻重来一次一般训练过程中都需要checkpoint保存结果如果稳定性不好第一次checkpoint都做不到就没法实行了如果产品不稳定那么大模型训练的时间就会很长国内某家大模型最早做训练的时候使用了2400片左右的A100大概训练了8天左右后来他们觉得资源耗费大就去海光平台做训练海光提供了6万片用了一个月没训练完成主要原因就是海光芯片出现掉线的问题产品稳定性是需要时间打磨的 

Q这个稳定性可靠性不是算力本身更取决与生态和软件

A取决于软件和工程能力在运行过程中需要解决很多BUG还有软硬件结合中间会不会有很多冗余的机制这些都需要时间和成本作为代价但是商业客户一般不会给这个机会我们认为如果中国想要发展大模型那政府的介入是不可或缺的政府介入可以给企业带来资金支持从而使企业生产更多的产品或者是让一些企业有意愿部署大规模的算力其次政府需要补贴帮助第三方做大模型开发的企业让他们有意愿在新平台尝试 

QAI算力芯片折旧一般是多久

A一般2-3年最长不超过5年

Q国内的高端算力芯片是不是很快就报废了

A是的从2019年开始算力需求每10个月会翻一番对于企业来讲他们更愿意追求高算力的硬件产品对于老产品就会慢慢从业务中剥离

Q所以在一两年后高端算力芯片会面临非常短缺的状态

A即使目前AI的算力芯片对于很多大厂来说也是非常短缺的 

QAI算力芯片未来是否会演变成寡头垄断

A不会做到百花齐放因为在不同应用场景下一家独大对于整个生态的影响和标杆作用非常明显如果一家企业有意愿选择替代解决方案往往要求产品比主流厂家有1.5-2倍的性价比优势这个对于初创型企业是一个非常大的门槛 

Q国内的AI算力芯片市场您看好哪些企业

A华为拥有完整的解决方案在某些应用场景下是能做的沐曦壁仞他们从硬件架构到软件方面相对来说在国内厂商中脱颖而出互联网厂商的投入比如阿里达摩院投入了一款GPGPU产品宣传指标大概是A100的两倍互联网企业有应用场景也有雄厚的资金支持 

Q央国企有可能吗

A央国企比较难第一AI芯片需要较大的人员投入组建团队的成本比较高第二央国企面临没有积累的问题从无到有的跨越难度是很大的饿如果国家拿出资金专门组建团队研发未来2-3年可能会打磨出一款比较合适的产品如果政府没有扶持的话央国企不会做这种投入 

Q6万片海光GPU出现宕机的情况是因为运行问题吗

A第一海光这代产品时AMD第一代产品本身没有经过大规模部署和验证所以存在硬件上的不稳定因素第二配合产品需要一个非常稳定软件架构但是目前运营方开发能力不足随着集群规模增大出现错误的风险也增大而企业很少遇到大规模一次性使用的场景所以产品不够成熟 

Q硬件上什么量级的芯片会导致中断

A如果单片发生单点故障那么在检查点和出现故障之间的这部分业务就失效了需要重新计算 

Q说明断电数目很多

A断电数很多并且不定时随机出现产品之间的稳定性不一致

Q下一代海光的硬件和软件更新后的效果是什么

A深算2号首先要解决生产问题有一些提升但是没有解决硬件稳定可靠性问题此外由于修改制程还可能存在一些新问题并且如何解决大规模并行环境下的可靠性问题海光没有太多的试验场景 

Q对比英伟达的2400片A100断点大概有多少

A总共宕机3次

Q所以二者的差距还是很大的

A并且宕机3次8天左右的时间计算完成了海光的产品中间宕机不断一个月都没有完成 

Q芯片宕机是不可预知的吗所以也没有很好的规避方法

A硬件规避有一定的难度因为需要纯粹地提高硬件设计比如信号质量和出现问题后的快速恢复所以更需要软硬件结合比如软件要随时检查硬件是否正常运行如果出现宕机能否及时保护现场 

Q软件是海光自己设计吗

A不是应该是由平台使用方来设计海光只提供硬件的驱动和接口

Q寒武纪会面临随机宕机的问题吗

A寒武纪的产品目前不能用于大模型下所以没法判断主要是应用在推理场景如果出现宕机只是会导致推理失效那么可以重新加载用户端反馈只是一定的延迟影响不明显

Q寒武纪的思元590参数指标比海光的Z100要好为什么不能进行大模型训练呢

A大模型训练需要几个前提第一需要有充足的算力这方面问题不大第二需要有较大的内存放置大模型寒武纪的卡相对内存容量较小但是这不是主要问题第三片间互联的解决方案寒武纪要比海光差最重要的寒武纪对于Tensorflow和PyTorch框架支持不好不稳定如果要运行大模型需要额外的开发工作量

Q华为昇腾会面临随机宕机的问题吗

A但是华为的全套都是自己做的比如管理平台和框架所以有一套完整的闭环的解决方案 

Q如果海光向阿里百度等厂商也会存在这样的问题吗

A会有所改善因为百度和阿里在大规模集群调度和部署上具有经验但是由于海光的产品性能较差性价比也比较低因此百度阿里不会考虑海光的产品

Q如果A100的库存用完了他们宁愿买H100被阉割的芯片也不会买国产芯片吗

A不一定如果国产算力芯片整体性价比能够达到英伟达60%-70%就有购买的意愿但是目前还达不到

Q目前国产芯片能达到多少

A如果和英伟达比大约是30%对于寒武纪硬件指标大概接近A100价格比A100低但是寒武纪的供应链很紧张没法提供大规模的部署并且开发需要大量人力配合客户开发寒武纪不一定有意愿投入 

Q所以目前来看国内要做大模型还是要买英伟达的阉割版芯片吗

A国内几家头部互联网厂家都向英伟达下了1.5万-1.6万的A800和H800订单每家的金额在十几亿美金左右大概保证在2024年能有足够的产能留给国内厂商的时间不多既要解决性能问题也要解决软件兼容问题难度很大国内厂家更多关注大模型的推理场景 

Q推理方面一个用户需要5张A100那么一亿个用户呢

A以chatGPT来讲需要5张A100才能满足一个客户的一次性线性叠加指的是并行以谷歌为例并行量每秒钟大概是20万次未来GPT大概在4-5万次

Q如果按照十万次算那就需要五十万张A100吗

A但是平时可能没有这么多的人即便是峰值不一定必须给客户实时响应延迟几秒钟是没问题的 

Q推理卡必须要用A100吗还是性能低一点的也可以

A如果算力接近A1001秒钟大约生成15-20次可以满足需求可以多片集成到一起所以低端卡可以做到

Q所以国内厂商在训练卡上基本上放弃集中在推理卡上

A目前大家没有计划做训练专注在推理上因为推理的难度较小昆仑芯大概每秒钟产生3-4个词那可能延迟在十几秒对于用户来说不是完全不能接受

Q推理卡您觉得国内哪个厂商做的最好

A目前还没有大规模部署所以暂时没法评价目前大家都在尝试

Q国产FPGA企业能否进入AI产业

A对于小模型来说体量小占用内存小是可以进入的FPGA支持浮点但是需要消耗额外的资源并且算力也受限此外FPGA如果需要门阵列存储也非常消耗资源但是对于大模型来说完全不可以因为数据类型不符合内存空间太小也不支持片间并行


Q中国能否通过数据差异化建立比较优势

A国内企业在大模型上正探索两条路第一能否用大模型裁剪出小模型应用到特殊场景就可以解决算力的需求问题第二做一些数据方面的工作但是目前中文数据有先天不足找不到对中文逻辑深入分析和预判的语义库其次国内数据存在孤岛问题对数据集的体量造成了影响此外国内的数据存在很多政治因素有些东西是不能查询不能回答的就导致整个数据的质量下降如果这些问题不能解决用数据方面弥补是不现实的想达到国外大模型在中文方面的水平都很困难 

Q中国的大模型数据集与国外是不同的吗

A国外的大模型针对中文数据做了一部分训练但是比例很小不到1%此外国内的数据集都是针对各家自己的数据进行训练不是通用的还有就是国内目前依赖翻译将内容翻译成英文再借助英文语义进行推理文心一言就是这样最后反过来进行中文输出 

Q百度的数据质量在大厂里面已经算好的了

A百度相对来说做的更多是通用的数据训练而其他厂商都是针对特定场景做了训练比如阿里的M6就是针对淘宝支付宝客服没有通用型的