你真的知道什么是具身智能吗？一文带你了解！

刀客小博 / 2024-11-03 10:43 发布

来源:古月居

目前整个科技圈的大浪潮有两个，一个是由ChatGPT开始爆火的大模型浪潮，另一个就是大家目前看到几乎科技圈大厂都在卷的人形机器人，更广泛一点的称呼叫具身智能浪潮。尤其是从上周世界机器人大会看到国内外企业在人形机器人的投入和展示，内心只能说机器人的时代快来了！

具身智能是什么？它有什么关键组成部分？

具身智能是通过在物理和数字世界中的学习和进化，实现理解世界、互动交互并完成任务的目标。我们一般认为它由“本体”和“智能体”组成，并在复杂环境中执行任务。

最终的目标是：智能体通过与物理世界(虚拟或真实)的交互，适应新环境、学习新知识并解决实际问题。

具身智能的技术栈基石是什么？

从具身智能的概念来看，其实是大家希望具身智能本体能够帮助人解决实际问题，从而解放大家的生产力。

回到我们现在已有的模式，机器人本体是如何帮助大家解决问题呢？最常见的做法就是定义了需求之后，由工程师通过编程或者示教等手段定制化的到某一个场景下去解决问题，机器人本身并不能够思考并找到代码之外的解决思路。

具身智能的模式则存在一些不同，一般具身智能本体也会有传感器，比如视觉和语言等，结合到视觉信号、语音信息，机器人本体就能根据读取到的信息进行任务的分解和环境的理解，然后通过自己编程实现自己要完成的事情。

两种模式的差别就在于，一种是人在教机器做事，另一种是机器人自己在学习人的模式去做事。大家会发现具身智能就有点像是深度学习和传统机器人的结合体。

具身智能的前沿研究有哪些？

机器人本体

机器人类型	主要应用领域	技术细节	代表性机器人
固定基机器人	实验室自动化、教育训练、工业制造	高精度传感器和执行器、编程灵活性、微米级精度	Franka Emika Panda, Kuka iiwa, Sawyer
轮式机器人	物流、仓储、安全检查	结构简单、成本低、能效高、快速移动	Kiva 机器人, Jackal 机器人
履带式机器人	农业、建筑、灾后恢复、军事应用	强大的越野能力和机动性、稳定性和牵引力	PackBot
四足机器人	复杂地形探索、救援任务、军事应用	多关节设计、适应性强、环境感知能力强	Unitree A1, Go1, Boston Dynamics Spot, ANYmal C
人形机器人	服务行业、医疗保健、协作环境	类人外形、多自由度手设计、复杂任务执行能力	Atlas, HRP 系列, ASIMO, Pepper
仿生机器人	医疗保健、环境监测、生物研究	模拟自然生物的运动和功能、柔性材料和结构	鱼类机器人, 昆虫机器人, 软体机器人

数据来源——模拟器

模拟器在具身智能中起到了至关重要的作用，通过提供虚拟环境，帮助研究人员进行成本低、安全性高和可扩展性强的实验和测试。

通用模拟器

通用模拟器提供了一个与物理世界高度相似的虚拟环境，用于算法开发和模型训练，具有显著的成本、时间和安全优势。

具体模拟器案例分析：

基于真实场景的模拟器

这些模拟器通过收集真实世界的数据，创建高度逼真的3D场景，使其成为家庭活动中的具身智能研究的首选。

具体模拟器案例分析：

智能体

研究领域	主要目标	具体方法
具身感知	视觉同时定位与地图构建（vSLAM）	传统vSLAM（MonoSLAM、PTAM、ORB-SLAM）、语义vSLAM（SLAM++、DynaSLAM）
3D 场景理解	投影法（MV3D）、体素法（VoxNet）、点云法（PointNet）
主动视觉感知	交互式环境探索（Pinto等）、视觉方向变化的探索（Jayaraman等）
触觉感知	非视觉触觉传感器（BioTac）、视觉触觉传感器（GelSight）
具身交互	3D视觉定位	双阶段方法（ReferIt3D、TGNN）、单阶段方法（3D-SPS、BUTD-DETR）
视觉语言导航（VLN）	基于记忆与理解的方法（LVERG）、基于未来预测的方法（LookBY）
对话系统中的具身交互	基于大模型的对话系统（DialFRED）、多智能体协作（DiscussNav）
具身代理	多模态基础模型	多模态数据融合与表示（VisualBERT）、代表性模型与应用（UNITER）
具身任务规划	任务分解与执行（HAPI）、复杂任务的规划与实现（TAMP）
模拟到真实（Sim-to-Real）适应	具身世界模型	世界模型的模拟与理解（Dreamer）、实际应用案例分析（PlaNet）
数据收集与训练	数据集的创建与优化（Gibson）
具身控制	控制算法与策略（PPO）、实例与应用（DRL）