在你的第一堂驾驶课上,教练可能就坐在你旁边,在每次转弯、停车和小的调整上提供即时的建议。如果是父母,他们甚至可能会抓住方向盘几次,大喊“刹车!”随着时间的推移,这些修正和见解形成了经验和直觉,把你变成一个独立的、有能力的司机。
尽管人工智能(AI)的进步使自动驾驶汽车成为现实,但用于训练自动驾驶汽车的教学方法仍然与最紧张的侧座驾驶员相距甚远。与细微差别和实时指令不同,人工智能主要通过大量数据集和广泛的模拟来学习,而不管应用是什么。
现在,杜克大学和陆军研究实验室的研究人员开发了一个平台,帮助人工智能学习更像人类一样执行复杂的任务。这个人工智能框架将在即将于12月9日至15日在加拿大温哥华举行的神经信息处理系统会议(NeurIPS 2024)上展示。
杜克大学机械工程与材料科学、电气与计算机工程和计算机科学教授陈博元解释说:“人工智能在有限的学习信息基础上处理需要快速决策的任务仍然是一个挑战。”陈博元同时也是杜克大学通用机器人实验室的负责人。
陈说:“现有的训练方法往往受到依赖大量已有数据集的限制,同时也受到传统反馈方法有限的适应性的限制。”“我们的目标是通过整合实时持续的人类反馈来弥合这一差距。”
GUIDE的功能是允许人类实时观察人工智能的行为,并提供持续的、细微的反馈。这就像一个熟练的驾驶教练不会只是喊“左”或“右”,而是提供详细的指导,以促进渐进的改进和更深层次的理解。
在它的首次研究中,GUIDE帮助人工智能学习如何最好地玩捉迷藏。这个游戏有两个甲虫形状的玩家,一个红的,一个绿的。虽然两者都是由计算机控制的,但只有红色玩家在努力推进其人工智能控制器。
游戏在一个正方形的运动场上进行,中间有一个c形的障碍物。大部分的比赛场地仍然是黑色的,未知的,直到红色的探索者进入新的区域,揭示他们包含的东西。
当红色AI玩家追逐对方时,人类训练师会提供搜索策略的反馈。虽然之前的这种训练策略只允许三种人类输入——好、坏或中性——但GUIDE让人类将鼠标光标悬停在梯度刻度上,以提供实时反馈。
该实验涉及50名成人参与者,他们没有事先接受过培训,也没有专业知识,这是迄今为止同类研究中规模最大的一次。研究人员发现,仅仅10分钟的人类反馈就能显著提高人工智能的表现。与目前最先进的人工引导强化学习方法相比,GUIDE的成功率提高了30%。
“这一强有力的定量和定性证据突出了我们方法的有效性,”该研究的第一作者、陈实验室的一年级博士生张玲玉(音译)说。“它展示了GUIDE如何提高适应性,帮助人工智能独立导航和应对复杂、动态的环境。”
研究人员还证明,人类训练员只在很短的一段时间内真正需要。当参与者提供反馈时,团队根据他们在特定时间点的特定场景的见解创建了一个模拟的人类训练师AI。这使得探索者AI可以在人类厌倦了帮助它学习之后继续训练。训练一个不如它所训练的人工智能优秀的人工智能“教练”可能听起来违反直觉,但正如陈解释的那样,这实际上是一件非常人性化的事情。
陈教授说:“虽然掌握某项任务很难,但判断自己是否在做得更好并不难。”“很多教练可以指导球员获得冠军,而他们自己却没有获得过冠军。”
GUIDE的另一个有趣的方向在于探索人类训练师之间的个体差异。对所有50名参与者进行的认知测试显示,某些能力,如空间推理和快速决策,极大地影响了一个人引导人工智能的效率。这些结果突出了有趣的可能性,例如通过有针对性的训练来增强这些能力,并发现可能有助于成功的人工智能指导的其他因素。
这些问题表明,开发更具适应性的培训框架具有令人兴奋的潜力,这些框架不仅专注于教授人工智能,还专注于增强人类的能力,以组建未来的人类-人工智能团队。通过解决这些问题,研究人员希望创造一个人工智能不仅更有效而且更直观地学习的未来,弥合人类直觉和机器学习之间的差距,并使人工智能能够在信息有限的环境中更自主地运行。
陈说:“随着人工智能技术变得越来越普遍,设计对日常用户来说直观易懂的系统至关重要。”“GUIDE为更智能、更灵敏的人工智能铺平了道路,使其能够在动态和不可预测的环境中自主运行。”
该团队设想,未来的研究将结合语言、面部表情、手势等多种交流信号,为人工智能从人类互动中学习创造一个更全面、更直观的框架。他们的工作是实验室使命的一部分,即建立下一级智能系统,与人类合作,解决人工智能和人类都无法单独解决的任务。
2025-05-14 00:56:06
2025-05-14 00:51:04
2025-05-14 00:45:54
2025-05-14 00:40:51
2025-05-14 00:35:49
2025-05-14 00:30:48
2025-05-14 00:25:42
2025-05-14 00:20:41
发表评论