💿 💓 🐿️ “ Dormammu，我同意”：一种与人互利合作的算法 🤵🏾 🥙 👬

几个世纪以来，关于人工智能的思考一直在拜访伟大人物的思想。随着时间的流逝和技术的发展，思想变成了实现，理论变成了实践，科幻小说变成了人类真正的未来。人工智能的主要实质是帮助人们。换句话说，智能机器应在不违反由臭名昭著的艾萨克·阿西莫夫（Isaac Asimov）表示的机器人技术基本定律的前提下，为人提供全面的服务。但是，如果您将其扎根到底，那么这种交互只有一个向量：该人说-AI执行。就是说，人工智能的工作是为了人类的利益。但是，如果AI认为与互动的双方都有利，那该怎么办？如何教汽车与人妥协，谈判甚至讨价还价？好吧，正是这些问题为今天的研究提供了答案，其中创建了一种算法，该算法可使机器与人达成互利协议。让我们仔细看看这些问题。走吧

研究思路

研究人员指出，自从图灵开始谈论人工智能以来，人类一直在尝试创造一种可以在某些方面超越人工智能的机器。一种或另一种方式，当一个人与一台机器（象棋，扑克甚至武术）比赛时，我们都熟悉众多的比赛，竞赛和实验。但是，迄今为止，很少有人关注人与机器之间的另一种交互方式。毕竟，生活中并非总是只有胜利或失败。有时，当满足两方的需求和/或愿望时，就需要非常共识。

仅从“是或否”的角度来考虑AI的工作是错误的，因为总是存在“可能”的选择。

科学家们设法创建了一种算法，可以评估情况，权衡利弊，确定优先次序并达成妥协。为了检查算法的操作，使用了重复的随机博弈* 。

随机游戏*是当一个游戏的状态以随机顺序不断变化时，具有一个或多个玩家的重复游戏。

创建可在这种“浮动”条件下工作的算法并非易事。为了有效地工作，该算法必须具有一些功能。进一步详细介绍它们。

首先，该算法不应面向主题，也就是说，它应可在无数种场景（在这种情况下为游戏）中工作。科学家称此功能为“大学”。

其次，算法必须学会与任何人/算法建立成功的关系，而无需先熟悉他们的行为。这就是“灵活性”。为此，该算法必须考虑到几乎总是其伙伴对手遵循操作行为，也就是说，希望仅出于自身利益而使用该算法。结果，他必须确定何时以及如何吸引最有可能不打算合作的人。

最后，第三，算法必须迅速采取行动，尤其是在与人玩耍时。此功能称为“学习速度”。

换句话说，一切都非常美丽，清晰和简单。但是实际上，实现这样的特征充满了困难。更不用说这样的事实，即对手本人知道如何适应这一事实，会使适应对手的能力变得复杂。这是一个问题，因为尽管有两种自适应算法，尽管它们都试图相互适应，但它们无法达成折衷。

科学家们还指出，在两个人之间的互动中，获得互惠互利的结果的重要工具之一是难以与机器关联的事物，例如直觉，情感，直觉等。事实证明， “便宜的谈话”强烈伴随着互惠互利的结果。

廉价谈话* -在游戏理论中，这是玩家之间的互动，并不直接影响游戏的结果。换句话说，是“话题外对话”。

研究人员决定在他们的算法中实现这一点，这有助于他更好地应对复杂情况的计算，并与人发展出一种共同的想法。尽管到目前为止，仍不清楚该算法将如何结合其主要功能（灵活性，通用性，学习速度）实施此类“技能”。

该研究的主要目的是研究尽可能多的现有算法，开发一种基于机器学习的算法，该算法具有对信号做出响应并在人类可以理解的水平上生成信号的机制，并进行许多实验性游戏来证明算法的易学性及其适应不同对手（人）的能力。或其他算法）。

研究的进行和结果

重复游戏中的战略行为算法存在于社会的许多方面：经济学，进化生物学，人工智能等。目前，已经创建了许多这样的算法，每种算法都有其自己的优点。自然，科学家决定使用它们来开发其算法。因此，选择了25种算法。

根据三个游戏选项（100、1000和50,000回合）确定了六个性能指标。

绩效指标：

循环法*的平均值
最佳成绩
最差成绩；
复制动态* ;
第一组比赛；
第2组比赛。

轮转* -一种游戏互动，当轮中的每个参与者与所有其他参与者交替玩耍时。

复制器方程*是演化博弈论中使用的确定性单调非线性博弈动力学。

第一个指标（Round-Robin的平均值）使我们能够了解算法与各种游戏合作伙伴建立良好关系的能力。

第二个指标（最高分）是游戏中伙伴算法的数量，通过该算法，被调查算法获得最高分。用百分比表示。鉴于有关游戏伙伴算法的信息，该指标反映了算法多受欢迎的选择次数。

第三个指标（最差结果）是对算法结合其损失（缺失，错误）的能力的评估。

其余三个指标旨在确定针对不同人群的算法的稳定性。

例如，锦标赛（组1）是一系列游戏，其中算法分为4组。每个小组的领导者进入决赛，在那里确定唯一的获胜者。但是在第二组比赛中，从每个组中选择了两个最佳算法，这些算法进入了半决赛，然后获胜者进入了决赛，在决赛中确定了唯一的最佳算法。

根据科学家的说法，之前选择的算法（25件）都没有参与过如此大规模的验证（许多合作伙伴和测量指标）。这样的检查显示了每个算法在有2个参与者的正常游戏中的运行状况，并且没有针对特定场景进行“编程”。

表1：涉及25种不同策略行为算法的实验结果。

获得的结果只是一个工具，可让您更好地了解特定算法的优缺点。例如，gTFT，WSLS，Mem-1和Mem-2算法在“囚徒困境” *中显示了出色的结果。

囚徒的困境* -在博弈论中，一种状态，即使玩家对他们有利，也并不总是愿意合作。在这种情况下，参与者（“囚犯”）拥有自己的优先权，而他却没有考虑他人的利益。

但是，这些相同的算法在所有2x2游戏中均显示出较差的结果，这表明它们在长时间互动中效率低下。因此，他们无法适应伙伴（另一位玩家）的行为。

一个有趣的发现是，作为世界扑克锦标赛算法基础的Exp3，GIGA-WoLF和WMA算法也表现不佳。这是很明显的，因为扑克算法不应该与其他玩家合作，而是要击败他们。

如果我们将所有指标综合考虑，那么一种算法非常出色-S ++，它在所有类型的游戏中都经过了所有可能的组合检查，完美展现了自己。另外，值得注意的是，对于大多数算法而言，合作行为的发展仅在数千轮之后才发生。对于S ++，此过程仅花费了几轮，这是一个不错的选择，因为该指标在不涉及算法但涉及活人的游戏中非常重要。经过测试的算法越快实现合作和折衷的必要性和获利能力，就越容易，更快地实现它。

实验结果“针对人类的S ++”。

S ++与其他算法的交互显示出良好的结果，因此，有必要检查S ++在与有生命的人一起工作时的表现。

实验（4个重复的游戏，重复次数为50或更多回合）涉及S ++和MBRL-1算法以及一群人。该实验的结果在上图中可见。我们看到与它的副本建立S ++合作非常好，但是这个过程与人们并不一致。而且，S ++仅在不到30％的回合中就能与人实现长期合作。这不是最令人鼓舞的结果，但与人玩耍的人也未能建立长期合作关系。

尽管S ++在其他算法中脱颖而出，但这并不能使他成为本研究的明显赢家。这25种算法都无法证明与人类玩家建立长期合作关系的能力。

S＃：人工合作和算法

如前所述，“廉价呼叫”这样的方面在实现双方之间的长期合作中起着重要的作用，但是，这种技术以前并未在上述任何游戏中实现。因此，科学家决定创建自己的版本，这将允许玩家使用此技术，但在一定程度上-每个回合开始时发送1条消息。

对于一个人来说，这样的对话是很自然的。但是，对于旨在解决问题并且将为此解决问题的机器，从逻辑上讲，这种交互形式是与众不同的。当人们容易理解机器的动作时，引入这种行为的想法直接将科学家带入了“可解释的AI”（“ explainable AI”）这样的概念。问题在于，大多数基于机器学习的算法都具有较低级别的内部表示形式，很难以人类可以理解的级别来表示。

幸运的是，S ++的内部结构具有很高的层次，这使其可以用作实现“廉价交谈”技术的基础。 S ++引入了一个通信框架，该框架使您可以生成和响应“便宜的呼叫”。

S ++算法的一种新形式称为S＃。

图片（a）显示了算法的方案，而（b ）显示了使用“便宜的谈话”技术与游戏中的伙伴互动的方案。同样在b上，我们可以熟悉S＃算法可以生成的短语，以及他期望对特定短语的响应。

因此，S＃能够响应伙伴玩家的“信号”（短语和动作），这使他可以决定接下来要采用的策略。结合原始S ++算法的高度自学习，所得的算法可以与玩家，人员或其他算法建立长期的互惠关系。

为了验证这一说法，科学家组织了一个有220人的实验。总共进行了472次重复游戏。实验中还包括“廉价交谈”技术，但并非总是如此。而且玩家的身份是隐藏的，因此没有人（算法和人员）都不知道他们与谁一起玩。

实验结果涉及220人。

当游戏过程中不包括“便宜的谈话”时，人与人或人与S＃的互动并不会导致长期合作。当这项技术被包括在游戏中时，合作指标翻了一番。

图（a）显示了在一个人的游戏和S＃算法（仇恨，威胁，控制，表扬或计划）中使用了哪些短语。

实验结束后，要求所有参与者评估其伙伴在游戏中的智力水平，意图是否清晰以及与他们互动的有用性。图（b）上的调查结果。日程安排更具娱乐性。它显示一个人或算法将其伙伴视为人类的次数的百分比。如您所见，大多数人类参与者都认为S＃是一个人。

科学家们还注意到，与人对人和S＃-S＃对之间的交互方式相比，S＃的结果甚至更好。人与S＃之间长期合作关系的发生程度与人与人对大致处于同一水平。而且，没有使用“便宜的谈话”技术的一对S＃-S＃比有机会使用它的一对人对人的结果要好得多。

综上所述，S＃算法显示的结果可以与人与人之间的互动结果相提并论。

周期性随机游戏

普通类型的游戏使我们有可能了解到S＃算法是有前途的研究载体。但是，这样的游戏是有限的，它们更加抽象。因此，科学家决定使用重复的随机游戏，参与者必须将不同形状和颜色的区块分开。对于S＃算法，添加了短语“让我们合作”和“我获得更多积分”。另外，S＃在使用“廉价交谈”技术时受到限制-它可以使用词组，但不能响应人类玩家的词组。

带有多色块（正方形，圆形和三角形）的游戏方案。

游戏的本质如下。每个玩家都有一组9个方块（当然是不同的）。玩家每转一圈，就从他的布景中删除1个方块，直到只有3个。这三个方块必须满足要求（相同形状/颜色或同时具有不同形状和颜色）。每个块花费一定数量的点（点）。如果该块不合适，则该数字为负。上图显示了游戏结果的5个选项。

使用和不使用“便宜的电话”。

在人与人之间进行比赛时，使用“便宜的谈话”并不会极大地影响其结果。但是，这种技术极大地提高了在与人玩游戏中使用S＃算法的结果。

S＃与其他算法的区别

S＃算法超越了所有其他主题，但是为什么呢？该算法的哪些特性使其与众多竞争对手区分开来？科学家数到多达三。

首先，它是产生并响应人类可以理解的适当信号（短语和动作）的能力。这使得该算法非常灵活，能够根据情况进行发展。而且，当然，它允许您与其他参与者建立长期的互利关系。

其次，S＃使用多种策略，使您能够适应不同的合作伙伴玩家和不同类型的游戏。同时，仅在一种特定情况下有效工作的算法无法在其“舒适区”之外有效工作。

第三，S＃算法保持互惠互利的状态，而其他算法在收到他们想要的内容后会转向其他策略。

互利合作状态持续时间的图表。

从上图（a）可以看出，S＃比其他算法更早地建立了与玩家的互惠联系。与竞争算法相比，与其他算法相比，它还处于互惠合作的状态（图（b） ）。

从图表（c）可以清楚地看出S＃的灵活性，从图中我们可以看出，无论游戏类型或合作伙伴是什么，他比其他人更经常达到目标。

科学家断言他们的S＃算法已经学会了保真度，这是非常不寻常的。事实是，在S＃-S＃对中建立了合作关系后，即使没有太大好处，该算法也不会急于中断它。同时，在一对一夫妻中，在获得必要的短期利益后，合作往往会立即中断。这种行为自然导致双方在比赛结束时表现不佳。

那些希望熟悉科学家报告的人可以在这里找到它。

其他研究材料可在此处获得。

结语

这项研究与其他研究有很大不同，它的目的不是创建能够在某件事上击败一个人的AI，而是要创建一个有能力并愿意达成共识的AI。这是否意味着借助此算法，智能机器将变得更加人性化？可能吧 , , , , .

, S# «». , . , .

感谢您与我们在一起。你喜欢我们的文章吗？想看更多有趣的资料吗？通过下订单或将其推荐给您的朋友来支持我们， 为我们为您发明的入门级服务器的独特模拟，为Habr用户提供30％的折扣： 关于VPS（KVM）E5-2650 v4（6核）的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器？（RAID1和RAID10提供选件，最多24个内核和最大40GB DDR4）。

3 Dell R630 — 2 Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 41TB HDD 2240GB SSD / 1Gbps 10 TB — $99,33 , , .

戴尔R730xd便宜2倍？ 仅在荷兰和美国，我们有2台Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100电视（249美元起）！ 阅读有关如何构建基础架构大厦的信息。使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程？

“ Dormammu，我同意”：一种与人互利合作的算法

More articles: