水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

你真的知道什么是具身智能吗?一文带你了解!

刀客小博   / 11月03日 10:43 发布

来源:古月居 

图片

目前整个科技圈的大浪潮有两个,一个是由ChatGPT开始爆火的大模型浪潮,另一个就是大家目前看到几乎科技圈大厂都在卷的人形机器人,更广泛一点的称呼叫具身智能浪潮。尤其是从上周世界机器人大会看到国内外企业在人形机器人的投入和展示,内心只能说机器人的时代快来了!


具身智能是什么?它有什么关键组成部分?

具身智能是通过在物理和数字世界中的学习和进化,实现理解世界、互动交互并完成任务的目标。我们一般认为它由“本体”和“智能体”组成,并在复杂环境中执行任务。


最终的目标是:智能体通过与物理世界(虚拟或真实)的交互,适应新环境、学习新知识并解决实际问题。

  • 本体:机器人本体,在物理环境或者虚拟环境中进行感知和任务执行。

  • 智能体:具身于本体之上的智能核心,负责感知、理解、决策和控制。

  • 数据:用于泛化和训练。


具身智能的技术栈基石是什么?

从具身智能的概念来看,其实是大家希望具身智能本体能够帮助人解决实际问题,从而解放大家的生产力。


回到我们现在已有的模式,机器人本体是如何帮助大家解决问题呢?最常见的做法就是定义了需求之后,由工程师通过编程或者示教等手段定制化的到某一个场景下去解决问题,机器人本身并不能够思考并找到代码之外的解决思路。


具身智能的模式则存在一些不同,一般具身智能本体也会有传感器,比如视觉和语言等,结合到视觉信号、语音信息,机器人本体就能根据读取到的信息进行任务的分解和环境的理解,然后通过自己编程实现自己要完成的事情。


两种模式的差别就在于,一种是人在教机器做事,另一种是机器人自己在学习人的模式去做事。大家会发现具身智能就有点像是深度学习和传统机器人的结合体。

  • 大模型可以帮助机器人去理解消化知识,构成了机器人的智能体;

  • 机器人本体则依旧延续机器人传统知识,真实的去解决实际物理环境下的运动。


具身智能的前沿研究有哪些?

机器人本体

机器人类型

主要应用领域

技术细节

代表性机器人

固定基机器人

实验室自动化、教育训练、工业制造

高精度传感器和执行器、编程灵活性、微米级精度

Franka Emika Panda, Kuka iiwa, Sawyer

轮式机器人

物流、仓储、安全检查

结构简单、成本低、能效高、快速移动

Kiva 机器人, Jackal 机器人

履带式机器人

农业、建筑、灾后恢复、军事应用

强大的越野能力和机动性、稳定性和牵引力

PackBot

四足机器人

复杂地形探索、救援任务、军事应用

多关节设计、适应性强、环境感知能力强

Unitree A1, Go1, Boston Dynamics Spot, ANYmal C

人形机器人

服务行业、医疗保健、协作环境

类人外形、多自由度手设计、复杂任务执行能力

Atlas, HRP 系列, ASIMO, Pepper

仿生机器人

医疗保健、环境监测、生物研究

模拟自然生物的运动和功能、柔性材料和结构

鱼类机器人, 昆虫机器人, 软体机器人

图片


数据来源——模拟器

模拟器在具身智能中起到了至关重要的作用,通过提供虚拟环境,帮助研究人员进行成本低、安全性高和可扩展性强的实验和测试。


通用模拟器

通用模拟器提供了一个与物理世界高度相似的虚拟环境,用于算法开发和模型训练,具有显著的成本、时间和安全优势。

具体模拟器案例分析:

  • Isaac Sim:一个先进的机器人和AI研究模拟平台,具有高保真物理仿真、实时光线追踪和丰富的机器人模型库,应用场景包括自动驾驶、工业自动化和人机交互。

  • Gazebo:一个开源的机器人研究模拟器,支持各种传感器仿真和多机器人系统仿真,主要用于机器人导航和控制。

  • PyBullet:Bullet物理引擎的Python接口,易于使用,支持实时物理仿真,主要用于强化学习和机器人仿真。


基于真实场景的模拟器

这些模拟器通过收集真实世界的数据,创建高度逼真的3D场景,使其成为家庭活动中的具身智能研究的首选。

具体模拟器案例分析:

  • AI2-THOR:基于Unity3D的室内具身场景模拟器,包含丰富的交互式场景对象和物理属性,适用于多代理模拟和复杂任务的研究。

  • Matterport 3D:一个大型2D-3D视觉数据集,包含丰富的室内场景,广泛用于具身导航基准测试。

  • Habitat:一个开源的大规模人机交互模拟器,基于Bullet物理引擎,提供高性能、高速、并行的3D模拟和丰富的接口,适用于强化学习的具身智能研究。

图片


智能体

研究领域

主要目标

具体方法

具身感知

视觉同时定位与地图构建(vSLAM)

传统vSLAM(MonoSLAM、PTAM、ORB-SLAM)、语义vSLAM(SLAM++、DynaSLAM)

3D 场景理解

投影法(MV3D)、体素法(VoxNet)、点云法(PointNet)


主动视觉感知

交互式环境探索(Pinto等)、视觉方向变化的探索(Jayaraman等)


触觉感知

非视觉触觉传感器(BioTac)、视觉触觉传感器(GelSight)


具身交互

3D视觉定位

双阶段方法(ReferIt3D、TGNN)、单阶段方法(3D-SPS、BUTD-DETR)

视觉语言导航(VLN)

基于记忆与理解的方法(LVERG)、基于未来预测的方法(LookBY)


对话系统中的具身交互

基于大模型的对话系统(DialFRED)、多智能体协作(DiscussNav)


具身代理

多模态基础模型

多模态数据融合与表示(VisualBERT)、代表性模型与应用(UNITER)

具身任务规划

任务分解与执行(HAPI)、复杂任务的规划与实现(TAMP)


模拟到真实(Sim-to-Real)适应

具身世界模型

世界模型的模拟与理解(Dreamer)、实际应用案例分析(PlaNet)

数据收集与训练

数据集的创建与优化(Gibson)


具身控制

控制算法与策略(PPO)、实例与应用(DRL)



具身智能开发的基础知识

简要介绍

大家也会发现,无论是本体又或者是智能体的学习,其实都有各自很多细分的领域,但是有一些基础内容是一致的,接下来介绍一般性的基础知识:

  • 编程语言和数据结构

    • C++:可以用于高效的嵌入式功能运行和推理引擎开发,后续古月学院会出专栏讲解

    • Python:快速验证功能;

    • MatLab:快速验证理论算法;

  • 基础数据结构

  • ROS:通用的机器人中间件,可以快速部署机器人基本功能,现在很多LLM也和ROS有了典型案例

  • 深度学习

    • 深度学习基础知识、基础卷积神经网络架构,AlexNet、ResNet等、偏前后文记忆的RNN、LSTM以及自注意力机制下的Transformer等;

    • 深度学习框架:Pytorch;

    • (进阶)机器人深度学习架构:RT、RT-2、AutoRT/SARA-RT/RT-Trajectory、RT-H;

  • 嵌入式开发

    • 常见芯片开发,如ST、ESP、GD、英飞凌系列等其中之一的开发;

    • 原理图和PCB板能够看懂;

    • 一般Linux内核驱动的开发。


人形机器人本体介绍

下图为青龙全尺寸通用人形机器人的关节和结构示意图。

图片


机器人核心关节

机器人核心关节主要分为线性关节、旋转关节、关节传感器和关节驱动系统;

图片

人形机器人之所以复杂的原因很大程度上也源于其自由度要求很多,对应到机器人本体就是关节的数量也需要多,涉及到的供应商也很复杂。

回顾到世界机器人大会,关于零部件厂商就包含了这么多不同种类:

图片

那这些零部件的用处是什么呢?得说回线性关节、旋转关节、关节传感器和关节驱动系统。

  • 线性关节是电机和丝杠的综合体,能够让机器人进行直线运动;

  • 旋转关节就电机和减速器的综合体,能够让机器人进行旋转运动。


电机

电机其实就是将电能转换为旋转的动能的一种器件,电机一般是由定子和转子组成,定子就是固定不动的部分,转子就是旋转的部分。定子和转子都缠绕上线圈之后,一上电,电流就会通过这些线圈产生磁场,定子和转子上的磁场就会形成一种反作用力,转子就会旋转起来。

图片
图片


减速器

图片


丝杠

图片
图片