水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

真•AI创世“精灵”!谷歌交互世界模型重磅发布 铺开AGI康庄大道?

A股传奇   / 02月27日 19:15 发布

日前,谷歌研究人员发布了110亿参数的全新AI模型,仅用一张图片,便可生成一个交互式世界,生成的世界“动作可控”,用户可以在其中逐帧行动。

谷歌将该模型定义为“生成式AI的一种新模式”,并命名为Genie(全称generative interactive environments,生成式交互环境,Genie一词中文意为“精灵”)

谷歌宣称,Genie开启了“图/文生成交互世界”的时代,还将成为实现通用AI Agent的催化剂

英伟达高级研究科学家、通用具身智能体(Embodied Agent)研究小组负责人Jim Fan也“发来贺信”称,“Sora很好,但是Genie将会是具身智能体的主干之作”,“与Sora不同,Genie实际上是一个由行动驱动的世界模型,具有推断行动的能力。2024年也将是基础世界模型之年。”

image

▌Genie“神”在哪里?

作为一个基础世界模型,Genie的数据集主要是大量公开的互联网视频,其中重点是2D游戏与机器人视频

image

不过谷歌也强调,“我们的方法是通用的,适用于任何类型领域,且可以扩展到更大的互联网数据集。

不仅如此,Genie是在没有任何动作标注的情况下进行的训练——这是训练中的一大挑战,也是Genie的亮点与独特之处。

一般来说,网上视频不会有任何标注,标注正在执行什么动作、应控制图像哪一部分。Genie在这种情况下“自学成才”,可以专门从网上视频中学习控制细粒度:它不仅可以了解观察到哪些部分是可控的,还能推断出在生成环境中的潜在动作,这种潜在动作甚至还可以转移到真实的人类设计的环境中

image

正如前文说到的,Genie只需要一张图,一张它从未见过的图,就能创建一个全新的交互环境。这里说的“一张图”,可以是任意类型的图:AI生成的图、人类画的设计草图、真实世界照片……

image

image

image

值得一提的是,Genie还有望用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型,证明Genie 能够学习一致的动作空间,可以帮助训练机器人。

image

谷歌指出,Genie有助于实现“通用AI Agent”——此前研究表明,对于AI Agent开发而言,游戏环境是有效测试平台,但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界,让AI Agent不断接受训练。

总而言之,一句“芝麻开门”,《一千零一夜》中的阿里巴巴打开了宝藏大门;指尖轻轻一擦,召唤出神灯精灵的阿拉丁走上了人生巅峰。

如今,AI行业也有了自己的“精灵”,一句话,或是一张图,通向通用人工智能世界的大道,正在徐徐铺开。