GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

声明:本文来自于微信公众号机器之心,授权转载发布。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2以其卓越的泛化能力和多任务通用性,预示着机器人大模型技术将爆发出巨大潜力和无限可能。

GR-2官方项目页面:

https://gr2-manipulation.github.io

初识 GR-2:百炼出真金

和许多大模型一样,GR-2的训练包括预训练和微调两个过程。

如果把机器人和人做比较,预训练过程就好像是人类的 “婴儿期”。而 GR-2的婴儿期与其他机器人截然不同。

在预训练的过程中,GR-2在互联网的海洋中遨游。

它在3800万个互联网视频片段上进行生成式训练,也因此得名 GR-2(Generative Robot2.0)。这些视频来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种日常活动。

这个过程,就像是它在经历一个快速的 “生长痛”,迅速学会了人类日常生活中的各种动态和行为模式。

该图展示了 GR-2预训练数据中的样本视频和动词分布。下图中的 y 轴是最热门单词的对数频率。

这种预训练方式使 GR-2具备了学习多种操作任务和在多种环境中泛化的潜能。庞大的知识储备,让 GR-2拥有了对世界的深刻理解,仿佛它已经环游世界无数次。

微调的艺术:视频生成能力拔高动作准确率

据悉,GR-2的开发团队采用了一种创新的微调方法。

在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2能够预测动作轨迹并生成视频。

GR-2的视频生成能力,让它在动作预测方面有着天然的优势。它能够通过输入一帧图片和一句语言指令,预测未来的视频,进而生成相应的动作轨迹。

如下图所示,只需要输入一句语言指令:“pick up the fork from the left of the white plate”,就可以让 GR-2生成动作和视频。可以看到,机械臂从白盘子旁边抓起了叉子。右图中预测的视频和真机的实际运行也相差无几。

以下是几个进一步展示 GR-2视频生成能力的示例,包括把物品放进烤箱、将物品置于咖啡壶嘴下方等任务。

这种能力,不仅提升了 GR-2动作预测的准确性,也为机器人的智能决策提供了新的方向。

Scaling Law:机器人 + 大模型的要诀

在人工智能领域,Scaling Law 是一个备受瞩目的概念。它描述了模型性能与其规模之间的关系。对于 GR-2这样的机器人模型来说,这一法则尤为关键。

随着模型规模的增加,GR-2的性能呈现出显著的提升。

(a)(b)(c) 分别展示了不同尺寸 GR-2在 Ego4d、RT-1、GR-2三个数据集的验证集上的视频生成损失。(d) 展示了不同尺寸 GR-2在真机实验中的成功率。

在7亿参数规模的验证中,团队看到了令人鼓舞的结果:更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任务和场景时也表现得更加出色。

这表明,通过扩大模型规模,我们可以解锁机器人更多的潜能,使其在多任务学习和适应新环境方面更加得心应手。

多任务学习与泛化:未知场景的挑战者

在多任务学习测试中,GR-2能够完成105项不同的桌面任务,平均成功率高达97.7%。

GR-2的强大之处不仅在于它能够处理已知任务,更在于其面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2都能够迅速适应并找到解决问题的方法。

我开、我放……我眼里有活儿

更让人惊艳的是,GR-2还能够与大语言模型相结合,完成复杂的长任务,并与人类进行互动。

比如,我们想要喝一杯咖啡。GR-2会先从托盘里拿起杯子,并将其放在咖啡壶嘴下方。接着,它会按下咖啡机上的按钮来煮一杯咖啡。最后,当咖啡煮好了,机器人会把杯子放回托盘上。整个过程无需人类干预。

又如,我们早餐想要吃点东西。根据场景中的物体,机器人决定为我们制作一份烤面包。机器人首先按下烤面包机上的开关来烤制面包。然后它拿起烤好的面包,并将其放入红色的碗中。

认真工作中,勿扰

ByteDance Research 还想强调,GR-2能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务。

以果蔬分类任务为例:桌子上放置着水果和蔬菜,我们需要机器人帮忙将水果和蔬菜分装到不同的盘子里。机器人能够自主识别物体的类别,并自动将它们放入正确的盘子中。

当在机器人移动的过程中移动盘子,GR-2依然能回过神来,准确找回它要放的目标盘子。

穿越“果”群,仍能找到你

工业应用中的突破:端到端的丝滑物体拣选

在实际应用中,GR-2相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的物体拣选。

这个任务要求机器人从一个货箱中逐个拿起物体,并将其放入旁边的货箱。看似简单,但在实际应用中,能够实现这个需求的多模态端到端模型却难得一见。

端到端拣选任务场景

如下图所示,GR-2可以实现货箱之间丝滑且连续的物体拣选。

真 · 无情的拣选机器人

无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体,GR-2均能准确抓取。这展现了其在工业领域和真实仓储场景的巨大潜力。

除了能够处理多达100余种不同的物体,例如螺丝刀、橡胶玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2在未曾见过的场景和物体上也有着出色的表现。

拣选任务中的122个测试物品,其中只有55个物体参与训练。

GR-2可以识别透明的、可变形的或反光的物体。

话分两头,尽管 GR-2在互联网视频上接受了大规模的预训练,但也存在一些进步空间。例如,真实世界动作数据的规模和多样性仍然有限。

GR-2的故事,是关于 AI 如何推动机器人发展的故事。它不仅仅是一个机器人大模型,更是一个能够学习和适应各种任务的智能体。我们有理由相信,GR-2在实际应用中拥有巨大潜力。

GR-2的旅程,才刚刚开始。

标签:

最新文章

  1. 苹果新项目秘密启动:进军智能眼镜市场对标Meta!2024-11-05
  2. 第一款月活破亿的短剧APP诞生:用户暴增10倍2024-11-05
  3. 通用汽车超越福特成为美国第二大电动车制造商2024-11-05
  4. 妈妈充值3万玩游戏竟甩锅女儿 法院:成年人应为自己行为负责2024-11-05
  5. 小鱼回应与影视飓风Tim离婚:婚姻跟恋爱有很大不同2024-11-05
  6. 老匡:「小绿书带货」从0-1全套攻略!免费!(外面都是卖钱的)2024-11-05
  7. OpenAI错过的7个月,智能体2.0借终端爆发?2024-11-05
  8. 苹果探索智能眼镜领域,内部研究计划代号为Atlas2024-11-05
  9. 男生偶遇七胞胎逛商场大呼震撼 网友:现实版葫芦兄弟2024-11-05
  10. 小米汽车释疑APP预计交付时间不准:非实际交付时间 受多种因素影响2024-11-05
  11. 双11直播间,谁消失、谁下跪、谁卖爆?2024-11-05
  12. 董明珠直播中训下属 俞敏洪圆场:自己在旁边像个小跟班2024-11-05
  13. 良品铺子回应配料表造假:多批次送检指标均显示合格2024-11-05
  14. 阿里巴巴在日本推tao平台:拥有超300万种商品2024-11-05
  15. 网红松鼠被强制安乐死:只因这个原因 太可惜!2024-11-05
  16. 一部iPhone 16只赚200块,黄牛离集体谢幕还有多远?2024-11-05
  17. 阿汤哥《碟中谍8》杀青 即将发布海报和预告片2024-11-05
  18. 影视飓风Tim离婚上热搜:无原则性问题 已回归至朋友身份2024-11-05
  19. 荣耀YOYO助理爆料华为Mate 70发布会时间:11月18/20日2024-11-05
  20. 苹果发布iOS 18.2 Beta 2:Siri支持付费升级ChatGPT Plus2024-11-05
  21. 字节版“妙鸭”,在日本吹响号角2024-11-05
  22. AI助力短剧,技术、艺术踏入同一条河流2024-11-05
  23. Passion在开封夜骑里具象化了:场面热血十足2024-11-05
  24. AI练习生里的「星二代」2024-11-05
  25. 全球首个270万菜品组合AI餐厅,用类ChatGPT辅助服务员2024-11-05
  26. 共享单车企业回应大学生夜骑开封:已紧急进行单车回收作业2024-11-05
  27. 15岁山东初中生做CTO,开源项目刚刚被数百万元收购了2024-11-05
  28. 霸道总裁俏阿姨,甜宠短剧卷向中老年2024-11-05
  29. 喜马拉雅又给创作者颁奖了,声音内容如何穿越周期?2024-11-05
  30. 番茄《斩神》开启影视化征程,腾讯动漫IP版图再扩大?2024-11-05
周琳承
周琳承 微信号:周琳承 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 中控考勤机怎么连接电脑(中控考勤机400电话)

    大家好,小豪今天来为大家解答中控考勤机怎么连接电脑以下问题,中控考勤机400电话很多人还不知道,现在让我们一起来看看吧!1、中控考勤机连

  2. 2 党的基本路线的核心内容是(党的基本路线核心内容是什么)

    大家好,小豪今天来为大家解答党的基本路线的核心内容是以下问题,党的基本路线核心内容是什么很多人还不知道,现在让我们一起来看看吧!1、

  3. 3 山羊不吃天堂草好词好句(山羊不吃天堂草好词好句)

    大家好,小娟今天来为大家解答山羊不吃天堂草好词好句以下问题,山羊不吃天堂草好词好句很多人还不知道,现在让我们一起来看看吧!1、《山羊

  4. 4 2021年3月5号忌宜(2021年3月5日宜做什么忌什么)

    大家好,小美今天来为大家解答2021年3月5号忌宜以下问题,2021年3月5日宜做什么忌什么很多人还不知道,现在让我们一起来看看吧!1、忌:赴任 出

  5. 5 宣德是哪个朝代(宣德是哪个朝代的年份)

    大家好,小伟今天来为大家解答宣德是哪个朝代以下问题,宣德是哪个朝代的年份很多人还不知道,现在让我们一起来看看吧!1、明朝。2、宣德年是

  6. 6 塘沽外滩酒店(塘沽外滩酒店哪家好)

    大家好,小美今天来为大家解答塘沽外滩酒店以下问题,塘沽外滩酒店哪家好很多人还不知道,现在让我们一起来看看吧!1、鸿福外滩酒店 配置还不

  7. 7 别克环境温度老显示负40度是怎么回事(别克车显示气温低)

    大家好,小美今天来为大家解答别克环境温度老显示负40度是怎么回事以下问题,别克车显示气温低很多人还不知道,现在让我们一起来看看吧!1、

  8. 8 置业顾问2分钟自我介绍(置业顾问自我介绍范文)

    大家好,小伟今天来为大家解答置业顾问2分钟自我介绍以下问题,置业顾问自我介绍范文很多人还不知道,现在让我们一起来看看吧!1、我是一个细

  9. 9 graphisgals全集下载(graphisgals全集下载)

    大家好,小娟今天来为大家解答graphisgals全集下载以下问题,graphisgals全集下载很多人还不知道,现在让我们一起来看看吧!1、下载超慢超慢,建议去

  10. 10 fireworks80(fireworks80)

    大家好,小乐今天来为大家解答fireworks80以下问题,fireworks80很多人还不知道,现在让我们一起来看看吧!1、Dreamweaver8 序列号:WPD800-59931-56632-71626

Copyright 2024 优质自媒体,让大家了解更多图文资讯!