-
谷歌亮出对付GPT4的杀手锏,国内AI概念股大涨
大铭法度 / 2023-12-08 12:45 发布
一,谷歌杀手锏Gemini横空出世
北京时间12月7日凌晨
, 谷歌CEO“ 劈柴” 突然发布重磅AI杀手锏—— Gemini。 就在前几天, 还有消息说Gemini要推迟一个月才上线, 结果现在这么突然地发布, 着实让AI圈料不到。 以谷歌以往的实力, 不用想, 这又是AI界的一个“ 不眠之夜” 。 在去年ChatGPT发布不到两周
, 谷歌就拉响了「 警报」 来应战, 好不容易搞出来的Bard, 在首次亮相的时候却出现了失误, 让谷歌市值一夜蒸发了1000亿美元。 而且
, GPT( Generative Pre-training Transformer) 还是基于Transformer开发的, 而这个Transformer模型最早还是谷歌提出来, 要想谷歌心甘情愿地服输, 可不是那么容易。 果然
, 这一年的时间里, 关于Gemini的消息就层出不穷, 有的说谷歌大脑和DeepMind部门合并, 几乎耗尽谷歌内部算力资源, 就是为了背水一战, 和OpenAI决战。“ Gemini是谷歌多个团队共同协作的成果, 包括我们在Google Research的同事。 ” 谷歌首席执行官桑达尔· 皮查伊(Sundar Pichai)在本周三的一篇博客文章中写道。 “ Gemini是从零开始构建的多模态模型, 这意味着它可以推广和无缝理解、 操作和组合不同类型的信息, 包括文本、 代码、 音频、 图像和视频。 ” 二,Gemini 到底有多强?
Gemini 1.0是谷歌筹备了一年之久的GPT4真正竞品,也是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型,包括三种不同套件,分别是Gemini Ultra, Gemini Pro和Gemini Nano。
· Gemini Ultra:能力最强,复杂度最高,能够处理最为困难的多模态任务, 预计2024年初推出。 · Gemini Pro — 能力最强,复杂度最高,能够处理最为困难的多模态任务。适用于各种任务的最佳模型, 已经被用在了谷歌聊天机器人Bard的升级版上。 · Gemini Nano — 可以在端端侧设备上运行的高效模型, 已经可以跑在谷歌Pixel 8 Pro手机上了。 这说明,Gemini的触达范围很广,可以下探至数据中心,也可以上行至移动设备端侧。
三,全方位超越GPT4
根据谷歌给到的资料
, 从自然图像、 音频和视频理解, 再到数学推理, Gemini Ultra的性能在32个常见的大语言模型( LLM) 研究和开发的学术基准测试中, 拿下了30个SOTA。 大型语言模型(LLM)的主流评测数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理等方面的能力。
其中
, 它在通用、 推理、 数学和编程等大方向的成绩如下: 其实Gemini的LLM性能表现并不是他最大的亮点。Gemini真正值得关注的差异化能力是“原生多模态”。
在MMLU
( 大规模多任务语言理解) 任务上, Gemini Ultra的得分达到了90.0%, 超越了人类专家89.8%的成绩, 首次达到了超越人类专家水平。 MMLU测试包括数学 、 物理、 历史、 法律、 医学等57个学科, 主要是用来考察大语言模型世界知识和解决问题的能力, 而在这些学科中的每一个, Gemini都达到了甚至超过了行业专家的水准。 在GPT-4与Gemini在MMLU测试集的对比中:Gemini Ultra得分率为90.0%,高于GPT-4,成为首个超越人类专家表现的模型。 在图像基准测试中,即使没有采用对象字符识别(OCR)系统辅助,仅通过分析像素信息,Gemini Ultra的表现还是超过了以往所有模型。音频测试方面,Gemini的自动语音识别和自动语音翻译分数均高于接入GPT-4的Whisper系统。
各种测试都表明
, Gemini在多模态处理上表现出了强大的能力, 并且在更复杂的推理上也有很大的潜力。Gemini起初就是以原生多模态的方式设计,从一开始就在不同模态上使用由 Google 设计的 TPUs v4 和 v5e芯片接受预训练。接着用更多额外的多模态数据对它进行不断微调,以提升效能。这种方法使得Gemini在最初阶段就能更自然地理解和推理各种类型的输入内容,在几乎所有领域的能力都达到了前所未有的先进水平。
这次Gemini的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓击败OpenAI重登大模型赛场王座,而这也给咱们中国AI公司一个新的启发,“原生多模态”或许成为咱们中国AI大模型公司突破的新路径。
四,A股大模态概念股梳理:
大华股份:根据2023年12月5日机构调研显示,公司发布了多模态融合的行业视觉大模型——大华星汉大模型,通过融合图像、点云、文本、语音等多模态数据,大幅提升了视觉解析能力。
亿嘉和:根据12月7日投资者关系活动记录表显示,公司发布的一种基于多模态超融合技术的大模型YJH-LM,目前已在公司商用清洁机器人上完成功能测试
汤姆猫:根据2023年11月22日投资者关系活动记录表显示,公司国内研发团队与西湖心辰合作的多模态AI汤姆猫产品已初步实现拍照识物、英文口语启蒙、兴趣引导、科普教育、AI生图、AI生成绘本、情境对话等多个功能,近期公司协同西湖心辰团队在多模态、降低推理成本、对话时长等方向取得较大进展
新华网:根据2023年11月21日公告,公司测试发布了 AIGC-Safe(生成式人工智能内容安全与模型安全检测平台),该平台有利于加强对 AIGC 多模态深伪内容的检测和防范,支持对文本、图片、音频、视频等多模态 AI 生成或伪造内容的检测,范围覆盖主流 AI 生成算法,是新华网在 AIGC 安全治理中的一次重要探索。
数字政通:根据2023年11月16日公告,“人和”行业大模型可帮助公司的政务客户提升城市管理和运行的效率,实现对城市治理、公共安全等关键基础设施进行精准的监测和管理,通过利用语音、视觉等多模态自动检测、语义分析能力,精准感知城市发生的各类事件,并快速、准确地进行根因分析,实现城市全域事件快速发现和高效处置。
云从科技:根据2023年11月15日发布的投资者关系活动记录表显示,云从在算法自主可控上,自研All-In-OneTr ansformer多模态基础大模型框架,实现视觉-语言-语音的语义对齐,打造语言大模型、视觉大模型、语音大模型等专用的领域大模型和行业大模型;其次,云从在多模态人机交互上,自研人机协同操作系统(CWOS)和智能交互助手,具备语言、语音、视觉、3D空间等智能多模态交互能力。
昆仑万维:根据2023年10月31日投资者关系活动记录表显示,公司旗下的天工大模型保持高频迭代并取得重要突破,“天工”的逻辑推理能力、文本理解能力、多模态能力在多个全球知名测评集中表现突出。
因赛集团:根据2023年半年报显示,公司基于各类第三方大型模型和自研营销领域专用的AIGC多模态模型,实现文本、图片、视频等多种形式的智能化内容生成,并应用于智能策划、文案撰写、平面设计、视频制作等具体的业务场景。
博汇科技:根据2023年11月23日互动易显示,公司应用自研多模态AI识别引擎,打造了新媒体集成播控平台内容AI审核方案,提升新媒体集成播控平台的视频内容审核能力,优化内容质量、拒绝不良内容传播,净化视频内容,保持与新媒体发展的最佳实践的接轨,由人工向智能化迈进。
苏州科达:2023年7月正式推出了KD-GPT大模型,包括多模态大模型、AIGC图像大模型和行业大模型已经初具雏形。
力盛体育:通过体育行业AI多模态模型研发、标准运动类模型库,实现基础运动数据的AI 识别与分析,为用户提供健身教练、心理陪护、生活助手等服务。
免责申明:这是个人操作记录,仅供学习交流,不构成 投资建议,最终是否买卖自己定,盈亏自负!