明敏 发自 凹非寺
量子位 | 公众号 QbitAI
现在,让机械狗自己打滚一个小时,它就能学会走路了!





应用这一方法,研究人员在短时间内训练出了4个机器人。

还有2个机械臂,在8-10小时实战抓取后,表现接近于人类水平;


目前,该方法的所有软件基础架构已经开源。
一个叫做“空想家”的算法
本文方法的pipeline大致可分为4步:

第二步,把这些数据传输到Replay Buffer。这一步骤就是利用历史数据进行训练、“总结经验”,高效利用收集到的样本。
第三步,World Model会对已有经验进行学习,然后“脑补”出策略。
第四步,再用演员评论家(Actor Critic)算法来提升策略梯度法的性能。
然后循环往复,将已经提炼出的办法再使用到机器人身上,最后达到一种“自己摸索学习”的感觉。
具体来看,这里的核心环节是World Model。
World Models是2018年由DAVID HA等人提出的一种快速无监督学习方式,获得了NIPS 2018的Oral Presentation。
它的核心理念是认为人类是基于已有经验,形成了一个心理世界模型,我们所做的决定和行动都是基于这个内部模型。
比如人类在打棒球时,做出反应的速度远比视觉信息传达到大脑中的快,那么在这种情况下还能正确回球的原因,就是因为大脑已经做出了本能的预测。

这一次提出的方法是在此基础上,叫做DayDreamer。
(貌似可以叫做空想家?)

它包括一个视觉感知组件,能将看到的图像压缩成一个低维的表征向量作为模型输入。
同时还有一个记忆组件,可以基于历史信息,对未来的表征向量做出预测。
最后,还包括一个决策组件,它能基于视觉感知组件、决策组件的表征向量,决定采取怎样的动作。

不难发现,其中World Model Learning部分的逻辑就是一个经验积累的过程,Behavior Learning部分则是一个动作输出的过程。

效率和准确率。
一般来说,训练机器人的常规方法是强化学习,通过反复实验来调整机器人的运作。
不过这种方法往往需要非常大量的测试,才能达到很好的效果。
不仅效率低下,而且训练需要付出的成本也不低。
后来,不少人提出在模拟器中对机器人进行训练,可以很好增效降本。
但是本文作者认为,模拟器训练方法在准确性方面的表现还是不够好,只有真实的环境才能让机器人达到最好的效果。
从结果来看,在训练机器狗的过程中,只花10分钟时间,机器狗就能适应自己的行为了。
和SAC方法对比来看,效果有明显提升。


值得一提的是,本次带来新成果的研究团队成员,也非常令人瞩目。
其中,Pieter Abbeel是吴恩达的开山大弟子。

前不久,他还获得了2021 ACM 计算奖(ACM Prize in Computing),以表彰其在机器人学习方面的贡献。
与此同时,他还是AI机器人公司Covariant的联合创始人。


2005年,他被评选为IEEE院士。
与此同时,Goldberg还是一位艺术家,是UC伯克利艺术、科技文化研讨会的奠基人。
此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人为共同一作。
其中Philipp Wu还只是UC伯克利一位大四的学生。
One More Thing
在观看机械狗训练的视频时,我们发现研究人员使用的Unitree机械狗,



https://danijar.com/project/daydreamer/
参考链接:
https://worldmodels.github.io/
— 完 —
原标题:《新出生的机器狗,打滚1小时后自己掌握走路,吴恩达开山大弟子最新成果》