还有比这更狠的学霸?AI:我教我自己


还有比这更狠的学霸?AI:我教我自己



要学的东西太简单?太难?人类可能会因此无聊或沮丧 , 但人工智能不会 。 在刚结束不久的神经信息处理系统大会(NeurIPS)上 , 来自加州大学伯克利分校和谷歌的研究者展示了一项新方法 , 让人工智能自己训练自己 。
这一新方法有望让自动驾驶汽车、家用机器人更快地学习 , 甚至可能帮助攻破悬而未决的数学难题 。
人工智能在地图导航领域已有不少研究 , 其中一种实验方法是让人工智能程序沿着有实心分布块的2D网格导航 。 为了让程序更快地熟悉复杂环境并到达目的地 , 科学家会对其反复训练 , 从而达到强化目的 , 进而提高人工智能的应用程度 。
新发布的研究中 , 来自加州大学伯克利分校的迈克尔·丹尼斯(Michael Dennis)和谷歌科学家娜塔莎·杰奎斯(Natasha Jaques)考虑了两种绘制地图的方法 。 第一种方法是在网格中随机安排分布块 , 但这一方法并没有让人工智能程序有很大提升 。 第二种方法则让人工智能程序记住过去的尝试 , 并相应地提升训练难度——但这种方法的瓶颈在于 , 有时训练模式的难度太大 , 程序根本无法完成 。
为此 , 丹尼斯和杰奎斯等人创造了一个合适的环境 , 让人工智能自我训练 。 在名为“配对”(PAIRED)的新训练方法中 , 他们先将已有的人工智能程序与另一个几乎相同的程序结合 , 二者间的优势各不相同 , 但它们互为“对手” 。 在这一模式中 , 已有的人工智能程序是主角 , 但因为遇到了旗鼓相当的“对手” , 挑战变得非常困难 , 也正因此 , 其解决问题的能力一直处于临界状态 。
经过一系列训练 , 作为主角的人工智能程序可以解决大约五分之一的新问题 。 在NeurIPS的讨论会上 , 丹尼斯表示他们对新成果即将开展的大量工作感到非常兴奋 。
同期 , 在讨论会上发布的另一项研究中 , 杰奎斯和同事已经在用PAIRED训练其他人工智能程序 , 使之学会自动填写网络表单并预定航班 。 与传统模式相比 , 采用新训练模式的成功率大概有50% 。
对此 , 人工智能促进协会主席、康奈尔大学的计算机科学家巴特·塞尔曼(Bart Selman)表示 , PAIRED是一种机智的人工智能训练方法 。
塞尔曼等人在讨论会上介绍的研究也与人工智能的自我训练有关 。 他们设计的人工智能程序需要在推箱子游戏中将方块推向目标位置 。 如果规划不当 , 方块很可能陷入死胡同 。
为了训练人工智能 , 塞尔曼和同事创建了一组更简易的拼图 。 训练程序会根据人工智能的表现好坏 , 选择不同难度的“考题” , 从而让训练计划达到合适的水准 。
【还有比这更狠的学霸?AI:我教我自己】不过目前为止 , 考题对人工智能而言难还是简单并不好预测 。 在出给人工智能的225道考题中 , 有80%被破解 , 其中约三分之一的考题完全来自新的训练方法 。 塞尔曼表示 , 这一研究发现非常有趣 , 未来 , 他们希望将有关成果应用到未解决的数学难题上 。

    推荐阅读