多模态AI产业链全景解析

糖芯儿 / 11月13日 12:58 发布

当前AI大模型从单模态向多模态持续演进，成为人工智能发展明确趋势。

海内外大模型相关研究与产品竞相涌现，进入百舸争流的新时代，指令和语料得以转化为现实生产力，垂域应用遍地开花。

随着AI感知交互和生成能力快速发展，多模态加速赋能千行百业，有望推动人工智能全面迈进“通感”时代。

01多模态AI行业概览

人工智能领域研究致力于以技术实现计算机对于人类认知世界方式的高度效仿。

AI模型走向多模态必然性的三大因素包括跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。

单模态交互是一个局限的、并不完整的模型，而“多模态”发展趋势已十分明朗。

单模态模型的数据输入通常仅限于一种模态的信息，因此它只需处理单一类型的数据。这类模型是专门针对特定类型的数据设计的，并应用于文本处理、图像处理等领域。

多模态大模型具备处理多样化数据格式的能力。其核心是处理和整合不同类型的数据源，可以捕获跨模态的复杂关系，使机器能够更全面地理解和分析信息，从而在各种任务中表现得更好。

借助大规模数据集进行训练与推理，多模态的目标在于提供全面、精确的分析结果，其中包括认知模块、对准模块、模式模块，实现对多模态数据的全面理解和应用。

多模态AI以模态融合为核心技术环节，围绕“表征-翻译-对齐-融合-联合学习”五大技术环节，解决实际场景下复杂问题的多模态解任务。

其应用场景按架构可分为视频分类、事件检测、情绪分析、视觉问答、情感分析、语音识别、跨模态搜索、图像标注、跨模态嵌入、转移学习、视频解码、图像合成等。

深度学习为多模态研究带来了巨大的推动力，多模态模型已经达到了前所未有的准确性和复杂性。

当前阶段多模态AI的发展受益于四大关键因素的推动：1）大规模的多模态数据集；2）更强大的计算能力；3）研究者也开始掌握更为先进的视觉特征提取技术；4）出现了强大的语言特征抽取模型，包括Transformer架构。

02多模态AI市场格局梳理

2024年以来，全球AI多模态模型加速演进。技术侧方面来看大厂聚焦多模态能力提升，同时开源模型加速迭代；价格侧方面，海内外大模型“提质降价”趋势显著，AI应用成本端持续优化。

谷歌Gemini1.5Pro、MetaLlama3、OpenAIGPT-4o等多模态大模型陆续发布，在语音、视频生成方面加速演进。

OpenAI Sora大模型的发布标志着AI视频生成领域的新突破，进一步推动了多模态大模型的发展，引领全球AI大厂多模态进程进入快车道。

沙利文发布的《2024年中国大模型能力评测》对国内主流的15个大模型进行了横评，将中国大模型分成了三个梯队。

百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队，综合表现更为优异。

百度文心一言大模型：2023年3月，百度正式推出大模型文心一言，10月发布对标GPT-4的4.0版本；2024年4月，文心大模型4.0工具版发布，实现了基础模型的全面升级，在理解、生成、逻辑和记忆能力上都有显著提升。

阿里云通义千问：2023年4月，阿里云推出了超十万亿参数量的自研大语言模型通义千问。2024年5月9日，阿里云正式发布通义千问2.5大模型，其性能对标GPT-4Turbo。相比上一代2.1版本，通义千问2.5在理解能力、逻辑推理、指令遵循、代码能力上分别提升9%、 16%、19%、10%。

腾讯在多模态AI领域采取的是全面押注合成数据与多模态AI的战略，开源模型包括VITA和混元系列。

华为旗下的盘古系列AI大模型已经发展到5.0版本，采用了“5+N+X”三层架构，即L0层的5个基础大模型、L1层的N个行业通用大模型、以及L2层可以让用户自主训练的更多细化场景模型。

天工大模型：2023年4月17日，昆仑万维发布了自研双千亿级大语言模型天工1.0。2024年4月17日，昆仑万维宣布天工3.0正式开启公测，采用4千亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一。

豆包大模型：是字节跳动推出的一款自研大模型，于2024年5月15日在火山引擎原动力大会上正式发布。众多企业已经接入火山引擎的大模型服务，包括吉利汽车、赛力斯、vivo、小米、华硕等来自汽车、手机、PC等多个行业的企业。

智谱AI：全栈自主创新GLM-4全家桶，在多模态理解、复杂长文本、和自动解决复杂任务上都有较大提升，全方面对标GPT-4。11月8日，智谱AI宣布旗下AI视频生成产品“清影”进行全面升级，从纯视觉生成迈入“有声视频”阶段。新推出的音效模型CogSound，可以根据视频内容自动生成相应的音效，包括环境音、物体碰撞以及交通工具声等。

10月，中文通用大模型综合性测评基准（SuperCLUE）发布了最新中文多模态理解测评基准报告。

03算力：多模态AI关键基石

多模态大模型推动AI迈向“通感”时代，语音和图像数据大小显著高于文本，多模态大模型拉动全球算力需求快速增长。

国内领先大模型厂商大多自建智算中心，使用自有的AI算力训练大模型；国内AI大模型初创公司受制于创业初期资金不足，部分厂商租赁海外云厂商AI算力进行自研AI大模型训练；同时训练垂类模型的部分AI应用厂商亦会租赁海外云厂商AI算力进行调优。

算力产业链核心环节包括服务器、网络设备、存储设备、芯片、IDC建设、光通信等。

国内服务器品牌厂商在AI服务器市场占据优势。据IDC数据，2023年浪潮信息、新华三、宁畅销售额位居前三，占据70%以上的市场份额。

中科曙光是亚洲第一大高性能计算机厂商，AI服务器主要采用海光/寒武纪芯片，已和百度“文心一言”展开合作，为其产业化应用提供算力支持。

03多模态AI应用端

随着AI大模型进一步朝多模态方向升级，广泛的数据交互方式和丰富的应用场景为提升用户体验提供了无限可能性。

AI应用主要方向包括已推出产品并开启商业化的AI应用领域：工具、教育、音乐、校对、营销等；还有受益于AI视频生成等AI多模态模型的游戏、影视等 IP 开发领域；此外AI眼镜等终端也成为多模态AI的重要载体。

AI生成视频：AI生成视频技术持续迭代，加速应用落地和商业模式创新。万兴科技的万兴“天幕”是国内首个专注于以视频创意应用为核心的百亿级参数多媒体大模型；虹软科技利用ArcMuse技术引擎产生图片、视频、数字人以及3D内容等，为XR眼镜载体提供便捷、优质的内容生成引擎；因赛集团InsightGPT目前可生成20秒以上的视频。

AI+游戏：游戏作为集合了文字、图像、声音、视频等内容形式的商业化应用，有望更好在研发端利用多模态大模型的能力，同时一些基于AI的NPC等设计或进一步提升用户体验和付费意愿，打开游戏整体收入增量空间。

AI+ 传媒/影视 IP/音乐：AI多模态技术有望带来动画、影视、互动影视游戏、音乐等内容开发提速，带来商业化增量。中文在线10月发布了中文逍遥大模型，基于创作者的想法灵感，“中文逍遥”大模型大幅提升创作者的效率，可实现一键生成万字，一张图写出一部小说，一次读懂100万字小说；芒果超媒技术团队已自研开发AIGC相关技术，可围绕芒果内容IP生成短视频内容，有效降低平台运营宣传与获客成本；世纪天鸿、奥飞娱乐、阅文集团、猫眼娱乐、光线传媒、上海电影、掌阅科技、华策影视、捷成股份、易点天下、盛络等都在细分领域有所布局。

AI+教育/电商：AIGC正在加速实现教育产品功能创新、课程研发降本增收。例如，语言学习应用程序多邻国基于GPT-4大模型，推出DuolingoMax订阅服务，国内AI教育产品继续更新迭代，有望逐步带来增量；电商方面，AI导购加速落地，实现降本增效。该环节相关布局厂商包括佳发教育、南方传媒、皖新传媒、盛通股份、鸥玛软件、光云科技、值得买、壹网壹创、东方甄选、焦点科技等。

AI+医疗：在医保控费和分级诊疗的大背景下，AI能够通过提升人效、精细化运营帮助医院实现降本增效，同时帮助基层医院提高医疗能力。AI大模型所嵌入的产品有望实现较好的落地。未来多模型AI有望在成像技术、疾病筛查与预测、手术与康复等场景下持续发力。润达医疗、嘉和美康、卫宁健康、创业慧康、迪安诊断等已在“AI+医疗”领域率先布局。

AI+办公：在AI领域，语音输入和图像输入意味着更自然便捷的人机交互方式和更广泛的应用场景，或进一步革新办公产品。当前国内“AI+办公”类厂商多个产品进入测试阶段，监管落地后相关产品商业化有望加速。金山办公发布的具备大语言模型能力的生成式人工智能应用，名为“WPS AI”，这也是国内协同办公赛道首个类ChatGPT式应用。彩讯股份、致远互联、科大讯飞等在该领域加速布局。

当前全球开启新一轮AI技术竞赛。大型科技公司一改传统AI解决方案的商业模式，聚焦AI大语言模型研发，并向更前沿的多模态大模型深耕。在AI浪潮持续爆发背景下，多模态有望带动产业链各环节全面发展。乐晴智库精选

赞(45) | 评论 (29) 11月13日 12:58 来自网站举报

取消发布

推荐关注更多

多模态AI产业链全景解析