首页 人工智能正文

计算机科学和人工智能实验室的深度学习视觉系统

人工智能 2019-09-16 13:31:00

当我们看到两个人相遇时,我们通常可以预测接下来会发生什么:握手,拥抱,甚至是吻。我们预测行动的能力归功于一生中经历的直觉。

另一方面,机器难以利用这样的复杂知识。预测行动的计算机系统将开辟新的可能性,从可以更好地驾驭人类环境的机器人,到预测跌倒的紧急响应系统,到谷歌玻璃风格的耳机,为您提供在不同情况下做什么的建议。

本周麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员在预测视觉方面取得了重大的新突破,开发出一种能够比以往更准确地预测交互的算法。

在YouTube视频和电视节目(如“办公室”和“绝望主妇”)上接受过培训,系统可以预测两个人是否会拥抱,亲吻,握手或拍打五个人。在第二种情况下,它还可以预测五秒钟后视频中可能出现的对象。

虽然人类的问候可能看似像预测的任意行为,但这项任务可以作为一个更容易控制的测试案例供研究人员研究。

“人类通过经验自动学会预测行动,这使我们有兴趣试图让计算机充满同样的常识,”CSAIL博士生Carl Vondrick说道,他是相关论文的第一作者,他将提出这一点。本周计算机视觉和模式识别国际会议(CVPR)。“我们希望通过观看大量视频来表明,计算机可以获得足够的知识,以便始终如一地预测周围环境。”

Vondrick的合着者包括麻省理工学院教授Antonio Torralba和前博士后Hamed Pirsiavash,他现在是马里兰大学的教授。

过去预测计算机视觉的尝试通常采用两种方法之一。

第一种方法是查看图像的单个像素,并使用该知识逐个像素地创建逼真的“未来”图像 - 这是Vondrick描述为“对于专业画家来说很难,更不用说算法”的任务。第二种方法是让人类事先为计算机标记场景,这对于能够大规模地预测动作是不切实际的。

相反,CSAIL团队创建了一种可以预测“视觉表示”的算法,这些算法基本上是冻结帧,显示场景可能看起来的不同版本。

“而不是说一个像素值是蓝色,下一个是红色,依此类推,可视化表示显示有关较大图像的信息,例如代表人脸的某些像素集合,”Vondrick说。

该团队的算法采用深度学习技术,这是一个人工智能领域,使用称为“神经网络”的系统来教授计算机挖掘大量数据以自行查找模式。

每个算法的网络预测表示被自动分类为四个动作之一 - 在这种情况下,拥抱,握手,高五或亲吻。然后,系统将这些操作合并为一个用作预测的操作。例如,三个网络可能预测一个吻,而另一个可能会使用另一个人进入框架的事实作为预测拥抱的理由。

“视频不像'选择你自己的冒险'一书,你可以看到所有潜在的路径,”Vondrick说。“未来本质上是模棱两可的,所以挑战自己开发一个使用这些表示来预测所有可能性的系统是令人兴奋的。”

在对600小时无标签视频进行算法训练后,团队在新视频上对其进行了测试,同时显示了动作和对象。

当显示距离执行四个动作之一一秒钟的人的视频时,该算法正确地预测该动作超过43%的时间,这与现有算法相比仅占36%的时间。

在第二项研究中,该算法显示了一个视频帧,并被要求预测五秒钟后会出现什么对象。例如,看到有人打开微波炉可能会暗示未来咖啡杯的存在。该算法预测框架中的物体比基线测量值更精确30%,尽管研究人员警告说它仍然只有11%的平均精度。

值得注意的是,即使是人类也会在这些任务上犯错误:例如,人类受试者只能在71%的时间内正确预测行动。

“理解和预测人类互动有很多微妙之处,”Vondrick说。“我们希望能够在这个例子中工作,以便能够很快预测出更复杂的任务。”

虽然这些算法对于实际应用来说还不够准确,但Vondrick表示,未来的版本可以用于从制定更好的行动计划的机器人到安全摄像头的所有内容,当有人跌倒或受伤时,可以向紧急救援人员发出警报。

“如果我们可以为他们提供终身价值的视频,我很高兴看到算法有多好,”Vondrick说。“我们可能会看到一些重大改进,这些改进将使我们更接近在现实世界中使用预测视觉。”

这项工作得到了美国国家科学基金会的资助,以及Torralba的谷歌教师研究奖和Vondrick的谷歌博士奖学金。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请 第一时间联系我们修改或删除,多谢。