水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

史上最快大模型诞生,芯片参数超英伟达(附股)

大铭法度   / 02月21日 12:35 发布

图片

一,史上最快大模型诞生

一觉醒来AI圈又变天了

还没消化完Sora带来的震撼又一家硅谷初创企业带着史上最快的大模型和自研芯片LPU霸占了热搜

就在昨天AI芯片创企Groq不是马斯克的Gork开放了自家产品的免费试用相比其他AI聊天机器人Groq闪电般的响应速度迅速引爆互联网讨论经过网友测试Groq每秒生成速度接近500 tok/s碾压GPT-4的40 tok/s

不过需要强调的是Groq并没有研发新模型它只是一个模型启动器主页上运行的是开源模型Mixtral 8x7B-32k和Llama 270B-4k

冠绝大模型圈子的响应速度来自驱动模型的硬件——Groq并未使用英伟达的GPU而是自研了新型AI芯片——LPULanguage Processing Units

每秒500 tokens写论文比你眨眼还快

LPU最突出的特点就是快

根据2024年一月的测试结果由Groq LPU驱动Meta Llama 2模型推理性能遥遥领先是顶级云计算供应商的18倍

图片

此前文章提及Groq LPU搭配Meta Llama 2 70B能在7分钟内就能生成与莎士比亚哈姆雷特相同数量的单词比普通人的打字速度快75倍

如下图所示有推特网友问了一个和营销有关的专业问题Groq在四秒钟之内就输出了上千词的长篇大论

图片

还有网友测试同时用GeminiGPT-4和Groq完成一个代码调试问题

结果Groq的输出速度比Gemini快10倍比GPT-4快18倍

Groq在速度上对其他AI模型的降维打击


二,LPU英伟达GPU的挑战者

再强调一遍Groq没有开发新的模型它只是用了不一样的芯片

根据Groq官网的介绍LPU是一种专为AI推理所设计的芯片驱动包括GPT等主流大模型的GPU是一种为图形渲染而设计的并行处理器有数百个内核而LPU架构则与GPU使用的SIMD单指令多数据不同这种设计可以让芯片更有效地利用每个时钟周期确保一致的延迟和吞吐量也降低了复杂调度硬件的需求

Groq的LPU推理引擎不是普通的处理单元它是一个端到端系统专为需要大量计算和连续处理的应用如LLM提供最快的推理而设计通过消除外部内存瓶颈LPU推理引擎的性能比传统GPU高出几个数量级

简单来说对用户而言最直观的体验就是

使用过GPT的读者一定知道痛苦地等待大模型一个一个地吐出字符是一种怎样痛苦的体验而LPU驱动下的大模型基本可以做到实时响应


三,技术介绍

Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。

2)精简设计:LPU是一种新型的端到端处理单元系统,不同于 GPU 使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。

3)擅长LLM:LPU可以为具备序列组件的计算密集型应用(比如LLM)提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。

Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

图片

四,重视SRAM(静态随机存取存储器),下一个HBM

不同于英伟达GPU需要依赖高速数据传输,GroQ的LPU在其系统中没有采用高带宽存储器(HBM)。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。

鉴于AI的推理计算,相较于模型训练需要的数据量远小,GroQ的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

相关概念股:北京君正、纳思达、中电港、光力科技、C华微等。

尤其是北京君正,其控股的北京矽成经营实体主要为ISSI,ISS主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,产品主要应用于汽车电子、工业制造和通讯设备等行业领域,是全球DRAM和SRAM的行业龙头之一。

兆易创新:是中国存储芯片及 MCU 领军企业。公司成立于 2005 年,于 2016 年在上 交所主板上市。兆易创新产品以 SRAM 起家,后拓展至 NOR FLASH、MCU、NAND FLASH、DRAM 及传感器领域,当前是全球第三、国内第一的 NOR Flash 供应商, 累计出货超 212 亿颗。公司连续 7 年位居国内 32 位 MCU 厂商第一,GD32 系列累 计出货量超 13 亿颗,目前排名全球第 7。公司以丰富的产品和平台化布局覆盖下 游消费、工业、汽车、安防等众多领域,并打入华为、苹果、三星等知名客户供 应链。

西测测试:据公司招股书,电子元器件检测筛选方面可实现对EEPROM、SRAM、NOR fl ash等存储芯片读写擦除功能的自动测试,提升了存储芯片的测试效率,与思科瑞水平较为接近。2024年1月30日互动,关于低空飞行器检测,公司具备为其提供部分检测的能力。

航宇微:sram+卫星互联网;

新亚电子:SRAM+英伟达DAC+华为5.5G。