-
史上最快大模型诞生,芯片参数超英伟达(附股)
大铭法度 / 02月21日 12:35 发布
一,史上最快大模型诞生
一觉醒来
, AI圈又变天了。 还没消化完Sora带来的震撼
, 又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜。 就在昨天
, AI芯片创企Groq( 不是马斯克的Gork) 开放了自家产品的免费试用。 相比其他AI聊天机器人, Groq闪电般的响应速度迅速引爆互联网讨论。 经过网友测试, Groq每秒生成速度接近500 tok/s, 碾压GPT-4的40 tok/s。 不过
, 需要强调的是, Groq并没有研发新模型, 它只是一个模型启动器, 主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k。 冠绝大模型圈子的响应速度
, 来自驱动模型的硬件—— Groq并未使用英伟达的GPU, 而是自研了新型AI芯片—— LPU( Language Processing Units) 。 每秒500 tokens
, 写论文比你眨眼还快LPU最突出的特点就是快
。 根据2024年一月的测试结果
, 由Groq LPU驱动Meta Llama 2模型, 推理性能遥遥领先, 是顶级云计算供应商的18倍。 此前文章提及
, Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚《 哈姆雷特》 相同数量的单词, 比普通人的打字速度快75倍。 如下图所示
, 有推特网友问了一个和营销有关的专业问题, Groq在四秒钟之内就输出了上千词的长篇大论。 还有网友测试同时用Gemini
、 GPT-4和Groq完成一个代码调试问题。 结果
, Groq的输出速度比Gemini快10倍, 比GPT-4快18倍。 Groq在速度上对其他AI模型的降维打击
二,LPU
英伟达GPU的挑战者, ? 再强调一遍
, Groq没有开发新的模型, 它只是用了不一样的芯片。 根据Groq官网的介绍
, LPU是一种专为AI推理所设计的芯片。 驱动包括GPT等主流大模型的GPU, 是一种为图形渲染而设计的并行处理器, 有数百个内核, 而LPU架构则与GPU使用的SIMD( 单指令, 多数据) 不同, 这种设计可以让芯片更有效地利用每个时钟周期, 确保一致的延迟和吞吐量, 也降低了复杂调度硬件的需求: Groq的LPU推理引擎不是普通的处理单元
; 它是一个端到端系统, 专为需要大量计算和连续处理的应用( 如LLM) 提供最快的推理而设计。 通过消除外部内存瓶颈, LPU推理引擎的性能比传统GPU高出几个数量级。 简单来说
, 对用户而言, 最直观的体验就是“ 快” 。 使用过GPT的读者一定知道
, 痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验, 而LPU驱动下的大模型, 基本可以做到实时响应。 三,技术介绍
Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。
2)精简设计:LPU是一种新型的端到端处理单元系统,不同于 GPU 使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。
3)擅长LLM:LPU可以为具备序列组件的计算密集型应用(比如LLM)提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。
Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。
算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。
四,重视SRAM(静态随机存取存储器),下一个HBM
不同于英伟达GPU需要依赖高速数据传输,GroQ的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。
鉴于AI的推理计算,相较于模型训练需要的数据量远小,GroQ的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。
相关概念股:北京君正、纳思达、中电港、光力科技、C华微等。
尤其是北京君正,其控股的北京矽成经营实体主要为ISSI,ISS主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,产品主要应用于汽车电子、工业制造和通讯设备等行业领域,是全球DRAM和SRAM的行业龙头之一。
兆易创新:是中国存储芯片及 MCU 领军企业。公司成立于 2005 年,于 2016 年在上 交所主板上市。兆易创新产品以 SRAM 起家,后拓展至 NOR FLASH、MCU、NAND FLASH、DRAM 及传感器领域,当前是全球第三、国内第一的 NOR Flash 供应商, 累计出货超 212 亿颗。公司连续 7 年位居国内 32 位 MCU 厂商第一,GD32 系列累 计出货量超 13 亿颗,目前排名全球第 7。公司以丰富的产品和平台化布局覆盖下 游消费、工业、汽车、安防等众多领域,并打入华为、苹果、三星等知名客户供 应链。
西测测试:据公司招股书,电子元器件检测筛选方面可实现对EEPROM、SRAM、NOR fl ash等存储芯片读写擦除功能的自动测试,提升了存储芯片的测试效率,与思科瑞水平较为接近。2024年1月30日互动,关于低空飞行器检测,公司具备为其提供部分检测的能力。
航宇微:sram+卫星互联网;
新亚电子:SRAM+英伟达DAC+华为5.5G。