"Dormammu, ich war einverstanden": ein Algorithmus für die für beide Seiten vorteilhafte Zusammenarbeit mit einer Person



Überlegungen zum Thema künstliche Intelligenz beschäftigen seit vielen Jahrhunderten die Köpfe großer Menschen. Im Laufe der Zeit und der Entwicklung der Technologie haben sich Gedanken in die Umsetzung, Theorien in die Praxis und Science-Fiction in die sehr reale Zukunft der Menschheit verwandelt. Die Hauptessenz der KI besteht darin, Menschen zu helfen. Mit anderen Worten, intelligente Maschinen sollten einer Person in vollem Umfang dienen, ohne die Grundgesetze der Robotik zu verletzen, die vom berüchtigten Isaac Asimov zum Ausdruck gebracht wurden. Aber eine solche Interaktion hat, wenn Sie sie auf die Erde begründen, nur einen Vektor: die Person sagte - KI durchgeführt. Das heißt, die Arbeit der künstlichen Intelligenz zielt nur auf den Nutzen des Menschen ab. Aber was ist, wenn die KI für beide Seiten der Interaktion im Einklang mit dem Guten denkt? Wie kann man einem Auto beibringen, mit einer Person Kompromisse einzugehen, zu verhandeln und sogar zu verhandeln? Genau auf diese Fragen gibt die heutige Studie Antworten, in denen ein Algorithmus erstellt wurde, mit dem die Maschine eine für beide Seiten vorteilhafte Einigung mit einer Person erzielen kann. Schauen wir uns diese Themen genauer an. Lass uns gehen.

Forschungsidee

Forscher haben festgestellt, dass der Mensch seit Turing über künstliche Intelligenz spricht und versucht, eine Maschine zu schaffen, die sie in etwas übertreffen kann. Auf die eine oder andere Weise kennen wir alle zahlreiche Wettbewerbe, Wettbewerbe und Experimente, wenn eine Person mit einer Maschine konkurriert (Schach, Poker und sogar Kampfkunst). Bisher wurde jedoch einer anderen Art der Interaktion zwischen Mensch und Maschine äußerst wenig Aufmerksamkeit geschenkt. Schließlich ist nicht immer im Leben nur ein Sieg oder eine Niederlage. Manchmal ist ein Konsens erforderlich, wenn die Bedürfnisse und / oder Wünsche zweier Parteien erfüllt werden.

Es ist falsch, die Arbeit der KI ausschließlich von der Position „Ja oder Nein“ aus zu betrachten, da es immer eine „wahrscheinlich“ Option gibt.

Wissenschaftlern ist es gelungen, einen Algorithmus zu entwickeln, mit dem die Situation bewertet, Vor- und Nachteile abgewogen, Prioritäten gesetzt und Kompromisse geschlossen werden können. Um die Funktionsweise des Algorithmus zu überprüfen, wurden wiederholte stochastische Spiele * verwendet .
Ein stochastisches Spiel * ist ein sich wiederholendes Spiel mit einem oder mehreren Spielern, wenn sich sein Zustand ständig in zufälliger Reihenfolge ändert.
Es ist keine leichte Aufgabe, einen Algorithmus zu erstellen, der unter solchen „schwebenden“ Bedingungen funktioniert. Um effizient arbeiten zu können, muss der Algorithmus einige Funktionen aufweisen. Weitere Einzelheiten dazu.

Erstens sollte der Algorithmus nicht themenorientiert sein, dh in einer unbegrenzten Anzahl von Szenarien (in diesem Fall dem Spiel) funktionieren. Dieses Merkmal wird von Wissenschaftlern als "Universalität" bezeichnet.

Zweitens muss der Algorithmus lernen, erfolgreiche Beziehungen zu Personen / Algorithmen aufzubauen, ohne sich zuerst mit deren Verhalten vertraut zu machen. Das ist "Flexibilität". Um dies zu erreichen, muss der Algorithmus berücksichtigen, dass fast immer sein Partner-Gegner am Betriebsverhalten festhält, dh den Algorithmus ausschließlich zu seinem eigenen Vorteil verwenden möchte. Infolgedessen muss er bestimmen, wann und wie derjenige für die Zusammenarbeit gewonnen werden soll, der höchstwahrscheinlich nicht beabsichtigt, zusammenzuarbeiten.

Und drittens muss der Algorithmus schnell handeln, insbesondere wenn er mit einer Person spielt. Diese Funktion wird als "Lerngeschwindigkeit" bezeichnet.

In Worten, alles ist sehr schön, klar und einfach. Tatsächlich ist das Erreichen solcher Eigenschaften jedoch mit Schwierigkeiten verbunden. Ganz zu schweigen von der Tatsache, dass die Fähigkeit, sich an den Gegner anzupassen, durch die Tatsache erschwert werden kann, dass der Gegner selbst weiß, wie er sich anpassen muss. Dies ist ein Problem, da zwei adaptive Algorithmen trotz aller Versuche, sich aneinander anzupassen, keinen Kompromiss erzielen können.

Wissenschaftler stellen außerdem fest, dass während der Interaktion zwischen zwei Personen Dinge, die schwer mit einer Maschine in Verbindung zu bringen sind, wie Intuition, Emotionen, Instinkte und mehr, eines der wichtigsten Werkzeuge sind, um für beide Seiten vorteilhafte Ergebnisse zu erzielen. Es ist erwiesen, dass „Billiggespräche“ ein für beide Seiten vorteilhaftes Ergebnis stark begleiten.
Billiges Gespräch * - In der Spieltheorie ist dies eine Interaktion zwischen Spielern, die das Ergebnis des Spiels nicht direkt beeinflusst. Mit anderen Worten: "Off-Topic-Konversation".
Die Forscher beschlossen, dies in ihren Algorithmus zu implementieren, der ihm hilft, Berechnungen komplexer Situationen besser zu bewältigen und eine gemeinsame Vorstellung von der Situation mit einer Person zu entwickeln. Obwohl bisher unklar bleibt, wie der Algorithmus solche „Fähigkeiten“ in Verbindung mit seinen Hauptmerkmalen (Flexibilität, Universalität, Lerngeschwindigkeit) implementieren wird.

Das Hauptziel der Studie ist es, so viele vorhandene Algorithmen wie möglich zu untersuchen, einen Algorithmus zu entwickeln, der auf maschinellem Lernen mit einem Mechanismus zum Reagieren auf Signale und zum Erzeugen auf einer für Menschen verständlichen Ebene basiert, und viele experimentelle Spielspiele durchzuführen, um die Lernbarkeit des Algorithmus und seine Fähigkeit zur Anpassung an verschiedene Gegner (Menschen) zu demonstrieren oder andere Algorithmen).

Durchführung und Ergebnisse der Studie

Algorithmen für strategisches Verhalten in wiederholten Spielen sind in vielen Bereichen der Gesellschaft vorhanden: Wirtschaft, Evolutionsbiologie, KI usw. Im Moment wurden viele solcher Algorithmen entwickelt, von denen jeder seine eigenen Vorteile hat. Natürlich haben Wissenschaftler beschlossen, sie zur Entwicklung ihres Algorithmus zu verwenden. Somit wurden 25 Algorithmen ausgewählt.

Sechs Leistungsindikatoren wurden anhand von drei Spieloptionen identifiziert: 100, 1000 und 50.000 Runden.

Leistungsindikatoren:

  • der Durchschnittswert von Round-Robin * ;
  • bestes Ergebnis;
  • schlechtestes Ergebnis;
  • Replikatordynamik * ;
  • Gruppe 1 Turnier;
  • Gruppe 2 Turnier.
Round-Robin * - eine Art Spielinteraktion, bei der jeder Teilnehmer während der Runde abwechselnd mit allen anderen Teilnehmern spielt.
Die Replikatorgleichung * ist eine deterministische monotone nichtlineare Spieldynamik, die in der evolutionären Spieltheorie verwendet wird.
Der erste Indikator (der Durchschnittswert von Round-Robin) ermöglicht es uns zu verstehen, wie gut der Algorithmus in der Lage ist, vorteilhafte Beziehungen zu einer Vielzahl von Spielpartnern aufzubauen.

Der zweite Indikator (die beste Punktzahl) ist die Anzahl der Partneralgorithmen im Spiel, mit denen der untersuchte Algorithmus die höchste Punktzahl erzielt hat. Es wird als Prozentsatz ausgedrückt. Dieser Indikator gibt an, wie oft der Algorithmus angesichts der Informationen über den Algorithmus des Spielpartners eine willkommene Wahl sein wird.

Der dritte Indikator (das schlechteste Ergebnis nach Punkten) ist eine Bewertung der Fähigkeit des Algorithmus, seine Verluste (Fehlschläge, Fehler) zu binden.

Die verbleibenden drei Indikatoren zielen darauf ab, die Stabilität des Algorithmus für verschiedene Bevölkerungsgruppen zu bestimmen.

Zum Beispiel ist ein Turnier (Gruppe 1) eine Reihe von Spielen, bei denen die Algorithmen in 4 Gruppen unterteilt sind. Führungskräfte aus jeder Gruppe erreichen das Finale, wo der einzige Gewinner ermittelt wird. Im Gruppe-2-Turnier werden jedoch aus jeder Gruppe zwei beste Algorithmen ausgewählt, die ins Halbfinale gehen, und dann gehen die Gewinner ins Finale, wo der einzig beste Algorithmus ermittelt wird.

Laut Wissenschaftlern war bisher keiner der ausgewählten Algorithmen (25 Stück) an einer derart umfangreichen Verifikation beteiligt (viele Partner und gemessene Indikatoren). Eine solche Überprüfung zeigt, wie gut jeder der Algorithmen in einem normalen Spiel mit 2 Teilnehmern funktioniert und nicht für ein bestimmtes Szenario „programmiert“ ist.


Tabelle 1: Experimentelle Ergebnisse mit 25 verschiedenen strategischen Verhaltensalgorithmen.

Die erzielten Ergebnisse sind nur ein Werkzeug, mit dem Sie die Vor- und Nachteile eines bestimmten Algorithmus besser verstehen können. Zum Beispiel zeigten die Algorithmen gTFT, WSLS, Mem-1 und Mem-2 hervorragende Ergebnisse im "Gefangenendilemma" * .
Das Gefangenendilemma * - in der Spieltheorie ein Zustand, in dem die Spieler nicht immer zur Zusammenarbeit bereit sind, auch wenn dies für sie von Vorteil ist. In diesem Fall hat der Spieler („Gefangener“) seine eigenen Interessen vorrangig und denkt nicht über die Vorteile anderer nach.
Dieselben Algorithmen zeigten jedoch in allen 2x2-Spielen schlechte Ergebnisse, was auf ihre Ineffizienz bei längeren Interaktionen hinweist. Daher können sie sich nicht an das Verhalten eines Partners (eines anderen Spielers) anpassen.

Eine lustige Beobachtung war die Tatsache, dass die Exp3-, GIGA-WoLF- und WMA-Algorithmen, die die Grundlage für die Algorithmen der Poker-Weltmeisterschaft bilden, ebenfalls ein schlechtes Ergebnis zeigten. Das ist ganz offensichtlich, denn der Poker-Algorithmus sollte nicht mit anderen Spielern zusammenarbeiten, sondern diese übertreffen und besiegen.

Wenn wir alle Indikatoren als Ganzes betrachten, fällt ein Algorithmus auf - S ++, der sich in allen Arten von Spielen mit allen überprüften möglichen Kombinationen perfekt zeigte. Darüber hinaus ist anzumerken, dass bei den meisten Algorithmen die Entwicklung des Kooperationsverhaltens erst nach Tausenden von Runden erfolgte. Für S ++ dauerte dieser Prozess nur wenige Runden, was ihn angesichts der Bedeutung dieses Indikators in einem Spiel, an dem kein Algorithmus, sondern eine lebende Person beteiligt ist, zu einer großartigen Option macht. Je schneller der getestete Algorithmus die Notwendigkeit und Rentabilität von Zusammenarbeit und Kompromissen „erkennt“, desto einfacher und schneller kann er dies erreichen.


Die Ergebnisse des Experiments "S ++ gegen Menschen".

Die Interaktion von S ++ mit anderen Algorithmen zeigte ein gutes Ergebnis, daher musste überprüft werden, wie sich S ++ bei der Arbeit mit lebenden Menschen verhält.

Das Experiment (4 sich wiederholende Spiele mit 50 oder mehr Runden) umfasste S ++ - und MBRL-1-Algorithmen sowie eine Gruppe von Personen. Die Ergebnisse dieses Experiments sind in den obigen Grafiken sichtbar. Wir sehen, dass die Etablierung der S ++ - Zusammenarbeit mit der Kopie ausgezeichnet ist, aber dieser Prozess ist nicht mit den Menschen vereinbar. Darüber hinaus gelang es S ++, in nur <30% der Runden eine langfristige Zusammenarbeit mit einer Person zu erreichen. Nicht das ermutigendste Ergebnis, aber Menschen, die mit Menschen spielen, konnten auch keine langfristige Zusammenarbeit aufbauen.

Obwohl S ++ unter anderen Algorithmen auffiel, konnte er in dieser Studie kein klarer Gewinner werden. Keiner der 25 Algorithmen konnte die Fähigkeit demonstrieren, langfristige kooperative Beziehungen zu einem menschlichen Spieler aufzubauen.

S #: menschliche Genossenschaft und Algorithmus

Wie bereits erwähnt, spielt ein Aspekt wie „billige Anrufe“ eine wichtige Rolle bei der Erzielung einer langfristigen Zusammenarbeit zwischen den Parteien. Eine solche Technik wurde jedoch bisher in keinem der oben genannten Spiele implementiert. Aus diesem Grund haben die Wissenschaftler beschlossen, eine eigene Version zu erstellen, mit der die Spieler diese Technik anwenden können, jedoch in begrenztem Umfang - 1 Nachricht zu Beginn jeder Runde.

Für eine Person sind solche Gespräche selbstverständlich. Für eine Maschine, die auf die Lösung eines Problems abzielt und dies tun wird, sind solche Formen der Interaktion jedoch logisch fremd. Die Idee, ein solches Verhalten einzuführen, führt Wissenschaftler direkt zu einem Konzept wie „Erklärbare KI“ („Erklärbare KI“), wenn die Aktionen der Maschine für den Menschen leicht verständlich sind. Das Problem ist, dass die meisten Algorithmen, die auf maschinellem Lernen basieren, eine interne Darstellung auf niedriger Ebene haben, die auf einer für Menschen verständlichen Ebene schwer auszudrücken ist.

Glücklicherweise hat die interne Struktur von S ++ ein sehr hohes Niveau, was es ermöglicht, es als Grundlage für die Implementierung der "Billiggespräch" -Technik zu verwenden. S ++ hat ein Kommunikationsframework eingeführt, mit dem Sie "billige Anrufe" generieren und darauf reagieren können.


Eine neue Form des S ++ - Algorithmus wurde S # genannt.

Bild (a) zeigt das Schema des Algorithmus und (b ) zeigt das Schema der Interaktion mit einem Partner im Spiel unter Verwendung der "Billiggespräch" -Technik. Auch auf b können wir uns mit den Phrasen vertraut machen, die der S # -Algorithmus erzeugen kann, und mit der Art der Antwort, die er für eine bestimmte Phrase erwartet.

Somit kann S # auf die „Signale“ (Phrasen und Aktionen) des Partnerspielers reagieren, wodurch er entscheiden kann, welche Taktik als nächstes angewendet werden soll. Zusammen mit einem hohen Grad an Selbstlernen des ursprünglichen S ++ - Algorithmus kann der resultierende Algorithmus langfristige, für beide Seiten vorteilhafte Beziehungen zu einem Spieler, einer Person oder einem anderen Algorithmus herstellen.

Um diese Aussage zu überprüfen, organisierten Wissenschaftler ein Experiment mit 220 Personen. Insgesamt wurden 472 wiederholte Spiele gespielt. Die Technik des „billigen Sprechens“ war ebenfalls im Experiment enthalten, jedoch nicht immer. Und die Identität der Spieler war verborgen, sodass niemand (weder der Algorithmus noch die Leute) wusste, mit wem sie spielten.


Die Ergebnisse des Experiments mit 220 Personen.

Wenn „Billiggespräche“ nicht in den Spielprozess einbezogen wurden, führte die Interaktion zwischen Mensch und Person oder S # nicht zu einer langfristigen Zusammenarbeit. Als diese Technik in das Spiel aufgenommen wurde, verdoppelten sich die Indikatoren für die Zusammenarbeit.



Grafik (a) zeigt, welche Art von Phrasen während des Spiels einer Person und des S # -Algorithmus verwendet wurden (Hass, Bedrohung, Kontrolle, Lob oder Planung).

Nach dem Experiment wurden alle Teilnehmer gebeten, den Grad der Intelligenz ihrer Spielpartner zu bewerten, wie klar ihre Absichten waren und wie nützlich die Interaktion mit ihnen war. Umfrageergebnisse in Grafik (b) . Noch unterhaltsamer sind die Zeitpläne. Es zeigt den Prozentsatz, wie oft eine Person oder ein Algorithmus ihren Partner im Spiel als menschlich betrachtet. Wie Sie sehen können, hatten die meisten menschlichen Teilnehmer das Gefühl, dass S # eine Person ist.

Wissenschaftler stellen außerdem fest, dass die Ergebnisse von S # noch besser sind als die Interaktion zwischen Mensch-Person- und S # -S # -Paaren. Der Grad des Auftretens langfristiger kooperativer Beziehungen zwischen einer Person und S # liegt ungefähr auf dem Niveau eines Personen-Personen-Paares. Und das Paar S # -S # ohne die Verwendung der "Billiggespräch" -Technik hat ein viel besseres Ergebnis als das Paar Person-Person, das die Möglichkeit hatte, es zu verwenden.

Zusammenfassend zeigte der S # -Algorithmus Ergebnisse, die mit den Ergebnissen der Interaktion zwischen Menschen gleichgesetzt werden können.

Wiederkehrende stochastische Spiele

Spiele eines normalen Typs ermöglichten es zu verstehen, dass der S # -Algorithmus ein vielversprechender Forschungsvektor ist. Solche Spiele sind jedoch begrenzt, sie sind abstrakter. Daher entschieden sich die Wissenschaftler für ein sich wiederholendes stochastisches Spiel, bei dem die Teilnehmer Blöcke unterschiedlicher Formen und Farben trennen müssen. Für den S # -Algorithmus wurden die Sätze "Lass uns zusammenarbeiten" und "Ich bekomme mehr Punkte" hinzugefügt. Darüber hinaus war S # in der Verwendung der "Billiggespräch" -Technik eingeschränkt - es konnte Phrasen verwenden, aber nicht auf Phrasen eines menschlichen Spielers reagieren.


Das Schema des Spiels mit mehrfarbigen Blöcken (Quadrat, Kreis und Dreieck).

Das Wesentliche des Spiels ist wie folgt. Jeder Spieler hat einen Satz von 9 Blöcken (natürlich anders). In jeder Runde entfernt der Spieler 1 Block aus seinem Satz, bis er nur noch 3 hat. Diese drei Blöcke müssen die Anforderungen erfüllen (dieselbe Form / Farbe oder unterschiedliche Form und Farbe zur gleichen Zeit). Jeder Block kostet eine bestimmte Anzahl von Punkten. Wenn der Block nicht geeignet ist, wird diese Zahl negativ. Das obige Diagramm zeigt 5 Optionen für das Ergebnis des Spiels.


Die Verwendung und Nichtverwendung von "billigen Anrufen".

Beim Spielen zwischen Menschen hatte die Verwendung von „Billiggesprächen“ keinen großen Einfluss auf das Ergebnis. Diese Technik erhöhte jedoch das Ergebnis des S # -Algorithmus in einem Spiel mit einer Person erheblich.

Unterschiede von S # zu anderen Algorithmen

Der S # -Algorithmus übertraf alle anderen Themen, aber warum? Welche Eigenschaften dieses Algorithmus unterschieden ihn von einer Reihe von Wettbewerbern? Wissenschaftler haben bis zu drei gezählt.

Erstens ist es die Fähigkeit, geeignete Signale (Phrasen und Handlungen) zu erzeugen und darauf zu reagieren, die vom Menschen verstanden werden können. Dies macht diesen Algorithmus sehr flexibel und kann sich je nach Situation weiterentwickeln. Und natürlich können Sie damit langfristige, für beide Seiten vorteilhafte Beziehungen zu anderen Spielern aufbauen.

Zweitens verwendet S # verschiedene Strategien, mit denen Sie sich an verschiedene Partner-Spieler und verschiedene Arten von Spielen anpassen können. Gleichzeitig können Algorithmen, die nur in einem bestimmten Szenario effizient arbeiten sollen, außerhalb ihrer „Komfortzone“ nicht effektiv arbeiten.

Drittens behält der S # -Algorithmus einen Zustand des gegenseitigen Nutzens bei, während andere Algorithmen, nachdem sie das erhalten haben, was sie wollen, zu einer anderen Strategie wechseln.


Diagramme der Dauer des Zustands der für beide Seiten vorteilhaften Zusammenarbeit.

Wie aus der obigen Grafik (a) ersichtlich ist, stellt S # früher als andere Algorithmen eine für beide Seiten vorteilhafte Verbindung mit dem Spieler her. Es hat auch einen Zustand der für beide Seiten vorteilhaften Zusammenarbeit mit einer signifikant größeren Anzahl von Runden als konkurrierende Algorithmen (Grafik (b) ).

Die Flexibilität von S # ist deutlich aus der Grafik (c) ersichtlich, in der wir sehen, dass er das Ziel häufiger erreicht als andere, unabhängig von der Art des Spiels oder des Partners.

Ganz ungewöhnlich ist die Behauptung von Wissenschaftlern, dass ihr S # -Algorithmus die Wiedergabetreue gelernt hat. Tatsache ist, dass der Algorithmus, nachdem er eine Zusammenarbeit im S # -S # -Paar aufgebaut hat, es nicht eilig hat, sie zu brechen, selbst wenn dies nicht viel Nutzen bringt. Gleichzeitig brach bei Paaren von Mann zu Mann die Zusammenarbeit häufig unmittelbar nach Erreichen der erforderlichen kurzfristigen Vorteile ab. Dieses Verhalten führte natürlich zu schlechten Ergebnissen am Ende des Spiels für beide Seiten.

Wer sich mit dem Bericht von Wissenschaftlern vertraut machen möchte, findet ihn hier .

Weitere Forschungsmaterialien finden Sie hier .

Nachwort

Diese Studie unterscheidet sich stark von anderen darin, dass sie nicht darauf abzielt, eine KI zu schaffen, die eine Person in etwas besiegen kann, sondern eine KI zu schaffen, die in der Lage und bereit ist, einen Konsens zu erzielen. Bedeutet dies, dass intelligente Maschinen dank dieses Algorithmus humaner werden? Möglicherweise. , , , , .

, S# «». , . , .

Vielen Dank für Ihren Aufenthalt bei uns. Gefällt dir unser Artikel? Möchten Sie weitere interessante Materialien sehen? Unterstützen Sie uns, indem Sie eine Bestellung aufgeben oder Ihren Freunden empfehlen, einen Rabatt von 30% für Habr-Benutzer auf ein einzigartiges Analogon von Einstiegsservern, das wir für Sie erfunden haben: Die ganze Wahrheit über VPS (KVM) E5-2650 v4 (6 Kerne) 10 GB DDR4 240 GB SSD 1 Gbit / s von $ 20 oder wie teilt man den Server? (Optionen sind mit RAID1 und RAID10, bis zu 24 Kernen und bis zu 40 GB DDR4 verfügbar).

3 Dell R630 — 2 Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 41TB HDD 2240GB SSD / 1Gbps 10 TB — $99,33 , , .

Dell R730xd 2 mal günstiger? Nur wir haben 2 x Intel Dodeca-Core Xeon E5-2650v4 128 GB DDR4 6 x 480 GB SSD 1 Gbit / s 100 TV von 249 US-Dollar in den Niederlanden und den USA! Lesen Sie, wie Sie eine Infrastruktur aufbauen Klasse mit Dell R730xd E5-2650 v4 Servern für 9.000 Euro für einen Cent?

Source: https://habr.com/ru/post/de422263/


All Articles