假设有两辆车在单行道上迎面相撞。

如果你在这种紧张、充满挑战的驾驶环境中开车,你可以与附近的各方协商。你可以把车开到路边,然后示意前面的司机通过窄车道。通过互动,你可以想出一些策略来保证每个人的安全并到达目的地。

自动驾驶汽车面临着更大的挑战,它必须以某种方式了解附近的司机,以及他们是否愿意友好相处。

一种正在开发的新算法可以引导自动驾驶汽车在拥挤狭窄的街道上穿过拥挤的交通。

该算法由卡内基梅隆大学的研究人员构建Argo人工智能自动驾驶汽车研究中心它通过建模不同程度的司机合作程度来做出决策——一个司机靠边停车让另一个司机通过的可能性。

在“多智能体强化学习”(Multi-Agent Reinforcement Learning,简称MARL)中,由研究员克里斯托弗·Killing领导的研究小组让自动驾驶汽车展现出类似人类的行为,包括防御性驾驶和解释其他智能体的行为——目前为止是在模拟中。

该算法尚未在现实世界的车辆上使用,但由于该模型的奖励系统,结果是有希望的。

“我们鼓励安全互动,”前计算机科学学院访问研究学者Killing说机器人研究所现在是慕尼黑工业大学自主空中系统实验室的一部分。

在一个简短的问答yabovip16.com下面,Christoph解释了他的团队的基于激励的模型是如何在没有官方道路规则的艰难交通情况下导航的。

yabovip16.com技术简介:当你面对一个需要合作性和进攻性的挑战时,你会把你的模式描述成更具合作性还是更具进攻性?

Christoph杀:在任何驾驶场景中,自动驾驶车辆都应该把安全放在首位,遵守所有交通规则。然而,在这种情况下,没有协调的交通规则(例如,与四向停车十字路口相比),这是考虑到的美丽和挑战的场景。两辆具有同等通行权的车辆必须进行实质的谈判,即谁先走谁等。

如果两辆车都只关注安全,它们都会靠边停车。我们在研究中面临的关键挑战是:我们如何让一辆车靠边行驶,而不是让两辆车都靠边行驶,而不是让两辆车都行驶,而不是让两辆车都靠边行驶,而不是让两辆车都靠边行驶,而不是让两辆车都靠边行驶,而不是让两辆车都靠边行驶,而不是让两辆车都靠边行驶,而不是让两辆车都靠边行驶。

我们鼓励安全互动;速度上的崩溃比超时更糟糕——但超时也会导致一个小的惩罚,以激励代理学习交互和相互超越。

yabovip16.com:您的模型用于执行驱动器的主要参数是什么?算法的决策依据是什么?

Christoph杀死:我们的算法能感知一辆真正的汽车上有什么。我们测量了汽车前部的距离和相对速度(见图2在这里的报告).值得注意的是,与相关工作相比,我们使用的不是鸟瞰场景,而是以自我为中心的视角。这让它变得有点棘手,因为我们现在有了盲点。这一观察还被进一步的参数所强化,比如上面提到的协作性,以告诉代理行为的侵略性,以及当前的转向角度和油门位置(在这种情况下,你自己驾驶时也会知道)。

yabovip16.com:对于算法来说,什么仍然是正确的挑战?

Christoph杀死当前有两个主要的挑战:过度积极的配对和过度被动的配对。(比较这里的可视化.)值得注意的是,我们的政策在大多数情况下都能够应对这种情况。然而,人类乘客可能会对他们的汽车感到非常不满意这里展示了一些操作

yabovip16.com:当对方司机明显是一个好斗的“坏”司机时,算法会怎么做?还是一个过于“合作”的司机?

Christoph杀死我们通过给每辆车指定一个合作值来测试我们的驾驶政策,告诉它的行为有多咄咄逼人。每个人只知道自己的合作,而不知道对方的车。这些合作性价值以一种非常直接的方式转化为驾驶行为:一个不合作的司机只对自己的进展感兴趣。高度合作的司机不介意哪辆车先进步,只要有人去。这些值在整个交互过程中是固定的。

(我们不考虑“发脾气”。我不打算在这里深究,但让我们保持“出于数学原因”)

yabovip16.com:模型的一部分是否需要一种对相反驱动程序的“解读”?

Christoph杀死:关于“阅读”的一个词:在机器人技术中,我们区分世界的状态(即地球现在的状态)和观察。我们的车辆没有内存模块。那么,我们如何处理我们现在没有看到的事情呢?

比方说,你正在和一个叫Zoom的人通话。可以这么说,你感知到了地球的部分观测。另一方从他们的相机视野外拿起一个咖啡杯,喝了一小口,然后把它放回他们的相机视野外。如果你只考虑到杯子放下后你最后的观察,他们问你喝什么,你根本不知道(因为没有记忆)。然而,如果你将过去几秒内的几次观察结果叠加在一起(我们称之为“串联”),你就可以推断出世界的某些状态,因为你会看到杯子在几帧中被移动。根据他们移动的速度,你甚至可以知道他们的情绪。

同样地,在我们的场景中,每辆车只知道其他的agent,这是基于它可以从观察空间中观察到的(如图2所示。在报纸上).内部状态(例如,另一辆车的合作价值)是未知的。我们将对每一辆车的部分观察联系起来,让他们对另一辆车的合作程度有一个潜在的信念。我们不用人工来做这个,但是我们有深度神经网络,也就是人工智能,来完成这个任务。这个神经网络还必须了解你的问题的答案,即在它注意到某种攻击性或过度合作行为后,该怎么做。

yabovip16.com:模型如何注意到“攻击性”或“合作性”行为,并做出相应的反应?

Christoph杀死例如,一个过度主动的代理可能直接进入场景的这个瓶颈,实质上迫使其他代理等待。一个过度合作的代理——一旦它的传感器感知到瓶颈的全部范围——就会减速并等待。在这里,我们的政策被训练为立即选择互补行动:检测到减速并继续前进,反之亦然。

yabovip16.com:这项研究的下一步是什么?

Christoph杀死:很多事情:主要有三点:第一,目前的工作是自动驾驶汽车,面对的只是自动驾驶汽车。我们需要将这一技术扩展到无人驾驶汽车上,看看我们与这些人合作得如何。第二,在我们的工作车辆只能前进,我们不允许倒车。然而,这可以帮助我们从困境中恢复过来。第三,我们目前的工作只是模拟。将其转化为现实世界的解决方案是我们在某些时候需要采取的主要步骤。

你觉得呢?在下面分享你的问题和评论。