-
AI Agent行业进展超预期(附股)
红红红红 / 2024-12-05 09:34 发布
事件:智谱Openday发布AutoGLM新进展、AutoGLM-Web、GLM-PC、以及全球首个UI Agent视觉基座模型,展示AI Agent在手机、网页、电脑端的新交互方式,进一步推动国内端侧AI Agent落地。
1、较内测版的变化:
1)新增GLM-PC对标Antropic Computer Use具备电脑操作能力,可完成网页浏览、微信文件发送、会议总结等工作,并支持用手机完成电脑远程操作。
2)AutoGLM支撑更多主流APP,包括抖音、微博、饿了么、京东、拼多多等,支持跨终端APP操作和更复杂任务流程,现场展示50步超长任务应用。
3)AutoGLM-Web同步支持跨网站复杂流程操作,任务稳定性提升。
2、产品落地展望: 1)模型具备自主规划、决策、感知、执行能力,新一代模型支撑下有望出色完成多步骤、跨场景的应用。
2)跨APP操作意味着用户可以通过一个统一的界面控制和链接多个APP,极大地提升了用户体验和操作效率。
3)配合各种智能终端的升级,Agent可速扩展终端带来新的市场机会。荣耀、华硕、小鹏、高通、英特尔等AI业务负责人作为智谱合作伙伴均到场并从不同场景做了分享,可见各厂商的重视。
1、AI Agent为释放LLM潜力关键媒介,扮演着LLM与AGI之间的桥梁,为LLM核心算法注入强大执行能力。作为一种基于输入输出的响应系统,LLM的输出严格依赖于输入的质量和相关性。与LLM相比,AI Agent提供了更为全面的功能范围。
AI Agent的能力可以定义为“大模型+记忆+主动规划+函数调用”的综合体。基于LLM构建的AI Agent由三个主要部分组成:感知端、控制端和行动端。控制端作为核心,其大脑模块负责记忆、思考和决策制定等基础功能,而感知模块则负责接收和处理来自外部环境的多样化信息输入,如声音、文本、图像和位置数据。行动模块则通过生成文本、API调用、工具使用等方式执行任务并影响外部环境。这种结构化的分工使得AI Agent能够以高度自动化和智能化的方式响应复杂的任务和环境变化。在底层模型升级+工程化方法改进的共同推进下AI Agent的性能有望持续提升。
2、端侧落地百花齐放,眼镜+多模态AI为个人AI Agent最好形式之一。AI眼镜在信息输入输出的即时性方面具有显著优势。基于其硬件设计,能够支持用户长时间佩戴,从而为其提供持续的服务能力。相较于其他智能终端,由于AI眼镜与用户的面部接近,更易获取接近人类感官单元的信息,实现“看人所看”、“听人所听”的功能,收集更多的用户行为数据以供学。此外,AI眼镜的交互性要求其能够通过摄像头感知外部世界,通过语音与用户进行交流,并将信息直接显示在眼镜上,只有具备交互性的多模态大型模型才能满足AI眼镜的应用需求。根据VR陀螺,预计2024年Q4至2025年Q2将有大量AI眼镜产品上市,目前已公开、被披露进入AI眼镜领域的厂商高达36家(包括海外厂商),产品数量预计超过50款。