谷歌亮出对付GPT4的杀手锏，国内AI概念股大涨

大铭法度 / 2023-12-08 12:45 发布

一，谷歌杀手锏Gemini横空出世

北京时间12月7日凌晨，谷歌CEO“劈柴”突然发布重磅AI杀手锏——Gemini。就在前几天，还有消息说Gemini要推迟一个月才上线，结果现在这么突然地发布，着实让AI圈料不到。以谷歌以往的实力，不用想，这又是AI界的一个“不眠之夜”。

在去年ChatGPT发布不到两周，谷歌就拉响了「警报」来应战，好不容易搞出来的Bard，在首次亮相的时候却出现了失误，让谷歌市值一夜蒸发了1000亿美元。

而且，GPT（Generative Pre-training Transformer）还是基于Transformer开发的，而这个Transformer模型最早还是谷歌提出来，要想谷歌心甘情愿地服输，可不是那么容易。

果然，这一年的时间里，关于Gemini的消息就层出不穷，有的说谷歌大脑和DeepMind部门合并，几乎耗尽谷歌内部算力资源，就是为了背水一战，和OpenAI决战。

“Gemini是谷歌多个团队共同协作的成果，包括我们在Google Research的同事。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在本周三的一篇博客文章中写道。“Gemini是从零开始构建的多模态模型，这意味着它可以推广和无缝理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。”

二，Gemini 到底有多强？

Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品，也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型，包括三种不同套件，分别是Gemini Ultra, Gemini Pro和Gemini Nano。

·Gemini Ultra：能力最强，复杂度最高，能够处理最为困难的多模态任务，预计2024年初推出。

·Gemini Pro — 能力最强，复杂度最高，能够处理最为困难的多模态任务。适用于各种任务的最佳模型，已经被用在了谷歌聊天机器人Bard的升级版上。

·Gemini Nano — 可以在端端侧设备上运行的高效模型，已经可以跑在谷歌Pixel 8 Pro手机上了。

这说明，Gemini的触达范围很广，可以下探至数据中心，也可以上行至移动设备端侧。

三，全方位超越GPT4

根据谷歌给到的资料，从自然图像、音频和视频理解，再到数学推理，Gemini Ultra的性能在32个常见的大语言模型（LLM）研究和开发的学术基准测试中，拿下了30个SOTA。

大型语言模型（LLM）的主流评测数据集包括：GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。

其中，它在通用、推理、数学和编程等大方向的成绩如下：

其实Gemini的LLM性能表现并不是他最大的亮点。Gemini真正值得关注的差异化能力是“原生多模态”。

在MMLU（大规模多任务语言理解）任务上，Gemini Ultra的得分达到了90.0%，超越了人类专家89.8%的成绩，首次达到了超越人类专家水平。

MMLU测试包括数学、物理、历史、法律、医学等57个学科，主要是用来考察大语言模型世界知识和解决问题的能力，而在这些学科中的每一个，Gemini都达到了甚至超过了行业专家的水准。

在GPT-4与Gemini在MMLU测试集的对比中：Gemini Ultra得分率为90.0%，高于GPT-4，成为首个超越人类专家表现的模型。

在图像基准测试中，即使没有采用对象字符识别（OCR）系统辅助，仅通过分析像素信息，Gemini Ultra的表现还是超过了以往所有模型。音频测试方面，Gemini的自动语音识别和自动语音翻译分数均高于接入GPT-4的Whisper系统。

各种测试都表明，Gemini在多模态处理上表现出了强大的能力，并且在更复杂的推理上也有很大的潜力。

Gemini起初就是以原生多模态的方式设计，从一开始就在不同模态上使用由 Google 设计的 TPUs v4 和 v5e芯片接受预训练。接着用更多额外的多模态数据对它进行不断微调，以提升效能。这种方法使得Gemini在最初阶段就能更自然地理解和推理各种类型的输入内容，在几乎所有领域的能力都达到了前所未有的先进水平。

这次Gemini的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓击败OpenAI重登大模型赛场王座，而这也给咱们中国AI公司一个新的启发，“原生多模态”或许成为咱们中国AI大模型公司突破的新路径。

四，A股大模态概念股梳理：

大华股份：根据2023年12月5日机构调研显示，公司发布了多模态融合的行业视觉大模型——大华星汉大模型，通过融合图像、点云、文本、语音等多模态数据，大幅提升了视觉解析能力。

亿嘉和：根据12月7日投资者关系活动记录表显示，公司发布的一种基于多模态超融合技术的大模型YJH-LM，目前已在公司商用清洁机器人上完成功能测试

汤姆猫：根据2023年11月22日投资者关系活动记录表显示，公司国内研发团队与西湖心辰合作的多模态AI汤姆猫产品已初步实现拍照识物、英文口语启蒙、兴趣引导、科普教育、AI生图、AI生成绘本、情境对话等多个功能，近期公司协同西湖心辰团队在多模态、降低推理成本、对话时长等方向取得较大进展

新华网：根据2023年11月21日公告，公司测试发布了 AIGC-Safe（生成式人工智能内容安全与模型安全检测平台），该平台有利于加强对 AIGC 多模态深伪内容的检测和防范，支持对文本、图片、音频、视频等多模态 AI 生成或伪造内容的检测，范围覆盖主流 AI 生成算法，是新华网在 AIGC 安全治理中的一次重要探索。

数字政通：根据2023年11月16日公告，“人和”行业大模型可帮助公司的政务客户提升城市管理和运行的效率，实现对城市治理、公共安全等关键基础设施进行精准的监测和管理，通过利用语音、视觉等多模态自动检测、语义分析能力，精准感知城市发生的各类事件，并快速、准确地进行根因分析，实现城市全域事件快速发现和高效处置。

云从科技：根据2023年11月15日发布的投资者关系活动记录表显示，云从在算法自主可控上，自研All-In-OneTr ansformer多模态基础大模型框架，实现视觉－语言－语音的语义对齐，打造语言大模型、视觉大模型、语音大模型等专用的领域大模型和行业大模型；其次，云从在多模态人机交互上，自研人机协同操作系统（CWOS）和智能交互助手，具备语言、语音、视觉、3D空间等智能多模态交互能力。

昆仑万维：根据2023年10月31日投资者关系活动记录表显示，公司旗下的天工大模型保持高频迭代并取得重要突破，“天工”的逻辑推理能力、文本理解能力、多模态能力在多个全球知名测评集中表现突出。

因赛集团：根据2023年半年报显示，公司基于各类第三方大型模型和自研营销领域专用的AIGC多模态模型，实现文本、图片、视频等多种形式的智能化内容生成，并应用于智能策划、文案撰写、平面设计、视频制作等具体的业务场景。

博汇科技：根据2023年11月23日互动易显示，公司应用自研多模态AI识别引擎，打造了新媒体集成播控平台内容AI审核方案，提升新媒体集成播控平台的视频内容审核能力，优化内容质量、拒绝不良内容传播，净化视频内容，保持与新媒体发展的最佳实践的接轨，由人工向智能化迈进。

苏州科达：2023年7月正式推出了KD-GPT大模型，包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形。

力盛体育：通过体育行业AI多模态模型研发、标准运动类模型库，实现基础运动数据的AI 识别与分析，为用户提供健身教练、心理陪护、生活助手等服务。

免责申明：这是个人操作记录，仅供学习交流，不构成投资建议，最终是否买卖自己定，盈亏自负！

赞(24) | 评论 (3) 2023-12-08 12:45 来自网站举报

取消发布

推荐关注更多

谷歌亮出对付GPT4的杀手锏，国内AI概念股大涨