AI Agent行业进展超预期（附股）

红红红红 / 2024-12-05 09:34 发布

事件：智谱Openday发布AutoGLM新进展、AutoGLM-Web、GLM-PC、以及全球首个UI Agent视觉基座模型，展示AI Agent在手机、网页、电脑端的新交互方式，进一步推动国内端侧AI Agent落地。

1、较内测版的变化：

1）新增GLM-PC对标Antropic Computer Use具备电脑操作能力，可完成网页浏览、微信文件发送、会议总结等工作，并支持用手机完成电脑远程操作。

2）AutoGLM支撑更多主流APP，包括抖音、微博、饿了么、京东、拼多多等，支持跨终端APP操作和更复杂任务流程，现场展示50步超长任务应用。

3）AutoGLM-Web同步支持跨网站复杂流程操作，任务稳定性提升。

2、产品落地展望：

1）模型具备自主规划、决策、感知、执行能力，新一代模型支撑下有望出色完成多步骤、跨场景的应用。

2）跨APP操作意味着用户可以通过一个统一的界面控制和链接多个APP，极大地提升了用户体验和操作效率。

3）配合各种智能终端的升级，Agent可速扩展终端带来新的市场机会。荣耀、华硕、小鹏、高通、英特尔等AI业务负责人作为智谱合作伙伴均到场并从不同场景做了分享，可见各厂商的重视。

1、AI Agent为释放LLM潜力关键媒介，扮演着LLM与AGI之间的桥梁，为LLM核心算法注入强大执行能力。作为一种基于输入输出的响应系统，LLM的输出严格依赖于输入的质量和相关性。与LLM相比，AI Agent提供了更为全面的功能范围。

AI Agent的能力可以定义为“大模型+记忆+主动规划+函数调用”的综合体。基于LLM构建的AI Agent由三个主要部分组成：感知端、控制端和行动端。控制端作为核心，其大脑模块负责记忆、思考和决策制定等基础功能，而感知模块则负责接收和处理来自外部环境的多样化信息输入，如声音、文本、图像和位置数据。行动模块则通过生成文本、API调用、工具使用等方式执行任务并影响外部环境。这种结构化的分工使得AI Agent能够以高度自动化和智能化的方式响应复杂的任务和环境变化。在底层模型升级+工程化方法改进的共同推进下AI Agent的性能有望持续提升。

2、端侧落地百花齐放，眼镜+多模态AI为个人AI Agent最好形式之一。AI眼镜在信息输入输出的即时性方面具有显著优势。基于其硬件设计，能够支持用户长时间佩戴，从而为其提供持续的服务能力。相较于其他智能终端，由于AI眼镜与用户的面部接近，更易获取接近人类感官单元的信息，实现“看人所看”、“听人所听”的功能，收集更多的用户行为数据以供学。此外，AI眼镜的交互性要求其能够通过摄像头感知外部世界，通过语音与用户进行交流，并将信息直接显示在眼镜上，只有具备交互性的多模态大型模型才能满足AI眼镜的应用需求。根据VR陀螺，预计2024年Q4至2025年Q2将有大量AI眼镜产品上市,目前已公开、被披露进入AI眼镜领域的厂商高达36家（包括海外厂商），产品数量预计超过50款。

赞(35) | 评论 (20) 2024-12-05 09:34 来自网站举报

取消发布

推荐关注更多

AI Agent行业进展超预期（附股）