办事指南

好奇的AI通过探索游戏世界和犯错来学习

点击量:   时间:2017-05-02 13:39:30

作者:Matt Reynolds CURIOUS算法正在教自己解决以前没有遇到过的问题面对超级马里奥兄弟的第一级,一个好奇心驱动的人工智能学习如何探索,避免坑,躲闪和杀死敌人这可能听起来并不令人印象深刻 - 算法已经在视频游戏中击败人类已有几年了 - 但这种AI技能的学习归功于内在的渴望,即发现更多关于游戏世界的内容传统的AI算法通过积极强化来学习他们因实现外部目标而获得奖励,例如将视频游戏的分数提高一分这鼓励他们采取行动来提高他们的分数 - 例如在马里奥的情况下跳跃敌人 - 并且阻止他们执行不这样做的行为,例如掉进坑里但加州大学伯克利分校的迪帕克帕查克说,人类通过好奇心学习他开始给自己的强化学习算法一种好奇心,看看它是否会做同样的事情该算法在增加对环境的理解时获得了奖励因此,该算法不是在游戏世界中寻找基于分数的奖励,而是通过掌握技能获得奖励,从而使其更多地了解该世界 Google的AI公司DeepMind的Max Jaderberg表示,这种方法可以加快学习时间并提高算法效率该公司去年使用类似的技术教AI探索虚拟迷宫充满了好奇心,Pathak自己的AI学会了踩踏敌人并跳过马里奥的维修站,还学会了探索遥远的房间,并在另一场比赛中沿着走廊走它可以将其新技能应用于更高级别的马里奥,尽管之前没有看到它们 - 但它确实很难通过一些相对简单的障碍(arxiv.org/abs/1705.05363) “充满了好奇心,