-
英特尔40年来最大的架构转变,核心增量硬件是NPU
大铭法度 / 2023-12-13 13:09 发布
一,断网也能用AI的电脑来了
今年以来
, chatGPT 的火热出圈让生成式 AI 掀起了全球人工智能新浪潮, AI, 正成为变革千行百业的新动力, 也是各大科技公司共同押注的未来。 比如 AMD 最近就在 Advancing AI 活动中推出了数据中心 AI 芯片 AMD Instinct MI300X GPU
, 还有结合最新 AMD CDNA 3 架构和“ Zen 4” CPU 的 MI300A 加速处理单元 APU 等等, 引发了广泛关注。而在
“ AI 改变世界” 的探索之路上, 其实有一家企业早早就展开了布局, 就是英特尔。 2018 年, 英特尔就提出要在 PC 上引入 AI, 还推出了“ AI on PC Developer Program” 的 AI PC 开发者计划。 在此之后, 英特尔持续将 AI 能力融入到旗下酷睿处理器产品中, 从第 10 代酷睿-X 开始, 英特尔就已经在其 CPU 中添加了 AI、 深度学习相关的加速指令, 包括在架构层面提升 AI 的性能, SoC 中内置 Intel GNA 以加速低功耗 AI 在 PC 上的应用等等, 并且还将 AI 加速单元引入到 Xe、 ARC 架构的 GPU 中。 12 月 15 日
, 英特尔就将在国内正式发布基于全新 Meteor Lake 架构的酷睿 Ultra 处理器, 而在 Meteor Lake 处理器中, 英特尔最重要的举措, 就是将 Al 引入客户端 PC, 并在 Meteor Lake 处理器架构中集成了独立的 NPU 单元, 带来独立的低功耗 AI 加速能力。二,关于英特尔Meteor Lake
Meteor Lake是英特尔改用Core Ultra新命名方案的首款芯片
, 它基于Intel 4的7纳米制程架构, 也是首款内置神经处理单元( NPU) 以便提升AI性能的芯片。 Core Ultra命名的上述芯片采用英特尔的FOVEROS 3D封装技术打造
, 它拥有全新的性能核心( P核) 与能效核心( E核) , 重点是尽可能提高电源效率, 从每瓦性能看, 它的图形性能将提高两倍。 除了配备NPU
, Core Ultra芯片还可以利用GPU 和CPU 来执行其他AI任务。 不过, 它不支持英特尔上周发布的新一代连接标准Thunderbolt 5, 将沿用Thunderbolt 4, 支持PCIe Gen5。 在低功耗方面(对笔记本比较重要),Meteor Lake架构最有意思的可能就是新设计的SOC小芯片。你甚至可以把Ultra处理器看作是一个手机soc上挂载了PC的CPU和显卡。在看视频之类的低负载下,Ultra处理器基本可以只用SOC小芯片。
Meteor Lake依旧分成了4个小芯片,分别是Compute tile(上面主要是CPU)、Graphics tile(核显)、SoC tile(其上包含有低功耗E-core,NPU,WiFi与蓝牙模块、显示引擎、DDR内存控制器等)、IO tile(主要是PCIe Gen 5与Thunderbolt 4支持实现)。Intel称其为“tile”,中文译作“模块”,实际上就是chiplet。
SoC tiles采用低功耗台积电 N6 工艺制造,,英特尔也称其为低功耗岛。SoC tiles集成了2个超低功耗的Low Power E-core,神经处理单元 (NPU),媒体、显示、图像引擎。名副其实的SOC。当然这些架构上的优势目前都是纸面的“吹牛”,具体是否真的厉害要看12月发布后的处理器实测结果。
三,英特尔 NPU 架构详解
1,主机接口和设备管理
: 设备管理区支持微软的新驱动程序模型
, 称为微软计算驱动程序模型 (MCDM) 。 这使 Meteor Lake 的 NPU 能够在确保安全性的同时以卓越的方式支持 MCDM, 而内存管理单元( MMU) 提供多种情况下的隔离, 并支持电源和工作负载调度, 从而实现快速的低功率状态转换。 2,多引擎架构
: NPU 由一个多引擎架构组成
, 该架构配备两个神经计算引擎, 可以共同处理单一工作负载或各自处理不同的工作负载。 在神经计算引擎中, 有两个主要的计算组件, 其一为推理管道一一这是高能效计算的核心驱动因素, 通过最大限度地减少数据移动并利用固定功能运作来处理常见的大计算量任务, 可以在神经网络执行中实现高效节能。 绝大多数计算发生在推理管道上, 这个固定功能管道硬件支持标准的神经网络运作。 该管道由一个乘积累加运算( MAC) 阵列、 一个激活功能块和一个数据转换块组成。 其二为 SHAVEDSP—— 这是一款专为 Al 设计的高度优化 VLIW DSP( 超长指令字 / 数字信号处理器) 。 流式混合架构向量引擎( SHAVE) 可以与推理管道和直接内存访问 (DMA) 引擎一起进行管道化, 实现在 NPU 上井行进行的真正异构计算, 从而最大限度地提高性能四,NPU概念股:
国科微 (300672):目前公司的NPU已实现前端IPC最高4T算力和后端NVR/DVR 9T算力;北京君正 (300223):公司的NPU技术已应用于T40、T41、A1等芯片中,且已量产销售;
瑞芯微 (603893):公司新推出的SoC大部分搭载了公司自研 NPU,契合市场对于智能化、算力的需求;
云天励飞(688343):DeepEdge10作为首颗云天自研的SOC芯片,搭载新一代自研NPU(NNP400T);
智微智能 (001339):公司提供AI服务器和AIBOX边缘设备,推出基于GPU、多家ASIC AI加速卡、ARM NPU的多系列产品;
全志科技(300458):公司深入分析AI算法的应用场景,主动积极推进NPU和DSP的AI专用算力在终端产品应用的落地;
国芯科技 (688262):公司将继续和合作伙伴合作,联合开展GPU和NPU等技术的研发和应用;
安凯微 (688620):公司具备完善的SoC芯片设计能力,能够将CPU、NPU、数字电路、模拟电路、电源管理等集成在单个SoC芯片中;
九联科技 (688609):集成高性能华为自研NPU,我公司研发的信创智算产品可作为华为盘古大模型边缘端侧的算力底座;
昆仑万维(300418):子公司艾捷科芯旨在开发一款可编程的、具有高性能的 NPU 产品,同时应用于模型训练及推理;
创维数字 (000810):公司在NPU边缘计算等方面拥有差异化的AI技术应用;
芯原股份-U(SH688521):GPU/NPU等推动IP业务稳健增长, 2022 Q3 IP 授权次数为47 次,同比有所下降,但平均单次授权费用同比增长46.9%,公司单价较高的GPU/NPU 等IP 需求较好,收入占比提升。
寒武纪-U(SH:688256):还记得去年在德国柏林的IFA展上,华为正式发布了麒麟970芯片,该芯片中首次内置了神经元网络单元(NPU)以完成人工智能计算。这也可以说是华为首次推出含有人工智能功能的芯片,不过其中的NPU却是采用寒武纪的IP来设计的,算不算是华为自己的芯片很难界定。
免责申明:这是个人操作记录,仅供学习交流,不构成 投资建议,最终是否买卖自己定,盈亏自负!