"Dormammu, llegué a un acuerdo": un algoritmo para la cooperación mutuamente beneficiosa con una persona



Las reflexiones sobre el tema de la inteligencia artificial han estado visitando las mentes de grandes personas durante muchos siglos. Con el paso del tiempo y el desarrollo de la tecnología, los pensamientos se han convertido en implementación, las teorías en práctica y la ciencia ficción en el verdadero futuro de la humanidad. La esencia principal de la IA es ayudar a las personas. En otras palabras, las máquinas inteligentes deberían servir a una persona en su totalidad, sin violar las leyes básicas de la robótica, que fueron expresadas por el famoso Isaac Asimov. Pero tal interacción, si la razonas con los pies en la tierra, solo tiene un vector: la persona dijo: IA realizada. Es decir, el trabajo de la inteligencia artificial está dirigido al beneficio solo del hombre. Pero, ¿qué pasa si AI piensa en línea con lo bueno para ambos lados de la interacción? ¿Cómo enseñarle a un automóvil a comprometerse, negociar e incluso negociar con una persona? Bueno, es precisamente a estas preguntas que el estudio de hoy da respuestas, en el que se creó un algoritmo que permite que la máquina llegue a un acuerdo de beneficio mutuo con una persona. Echemos un vistazo más de cerca a estos problemas. Vamos

Idea de investigación

Los investigadores han notado que desde que Turing comenzó a hablar sobre inteligencia artificial, el hombre ha estado tratando de crear una máquina que pueda superarla en algo. De una forma u otra, todos estamos familiarizados con numerosos concursos, competiciones y experimentos cuando una persona compite con una máquina (ajedrez, póker e incluso artes marciales). Sin embargo, hasta ahora se ha prestado muy poca atención a un tipo diferente de interacción entre el hombre y la máquina. Después de todo, no siempre en la vida es solo victoria o derrota. A veces se necesita el consenso mismo cuando se satisfacen las necesidades y / o los deseos de dos partes.

Considerar el trabajo de AI exclusivamente desde la posición de "sí o no" está mal, porque siempre hay una opción "probablemente".

Los científicos han logrado crear un algoritmo que puede evaluar la situación, sopesar los pros y los contras, priorizar y llegar a un compromiso. Para verificar el funcionamiento del algoritmo, se utilizaron juegos estocásticos repetidos * .
Un juego estocástico * es un juego repetitivo con uno o más jugadores, cuando su estado cambia constantemente en un orden aleatorio.
Crear un algoritmo que pueda funcionar en tales condiciones "flotantes" no es una tarea fácil. Para funcionar de manera eficiente, el algoritmo debe tener algunas características. Más sobre ellos con más detalle.

En primer lugar, el algoritmo no debe estar orientado al sujeto, es decir, debe funcionar en un número ilimitado de escenarios (en este caso, el juego). Los científicos llaman a esta característica "universalidad".

En segundo lugar, el algoritmo debe aprender a construir relaciones exitosas con cualquier persona / algoritmo sin primero familiarizarse con su comportamiento. Esto es "flexibilidad". Para lograr esto, el algoritmo debe tener en cuenta que casi siempre su compañero-oponente se adhiere al comportamiento operativo, es decir, quiere usar el algoritmo exclusivamente para su propio beneficio. Como resultado, debe determinar cuándo y cómo atraer a la cooperación a quien probablemente no tiene intención de cooperar.

Y finalmente, en tercer lugar, el algoritmo debe actuar rápidamente, especialmente cuando se juega con una persona. Esta característica se llama "velocidad de aprendizaje".

En palabras, todo es muy hermoso, claro y simple. Pero, de hecho, el logro de tales características está lleno de dificultades. Sin mencionar el hecho de que la capacidad de adaptarse al oponente puede complicarse por el hecho de que el oponente mismo sabe cómo adaptarse. Este es un problema, porque dos algoritmos adaptativos, a pesar de todos sus intentos de adaptarse entre sí, no pueden llegar a un compromiso.

Los científicos también señalan que durante la interacción entre dos personas, una de las herramientas importantes para lograr resultados mutuamente beneficiosos son cosas que son difíciles de asociar con una máquina, como la intuición, las emociones, los instintos, etc. Se ha demostrado que la "charla barata" acompaña fuertemente un resultado mutuamente beneficioso.
Charla barata * : en la teoría de juegos, esta es una interacción entre jugadores que no afecta directamente el resultado del juego. En otras palabras, "conversación fuera de tema".
Los investigadores decidieron implementar esto en su algoritmo, lo que lo ayuda a enfrentar mejor los cálculos de situaciones complejas y a desarrollar una idea común de la situación con una persona. Aunque hasta ahora no está claro cómo el algoritmo implementará tales "habilidades" junto con sus características principales (flexibilidad, universalidad, velocidad de aprendizaje).

El objetivo principal del estudio es estudiar tantos algoritmos existentes como sea posible, desarrollar un algoritmo basado en el aprendizaje automático con un mecanismo para responder a las señales y generarlas a un nivel comprensible para los humanos, y realizar muchos juegos de juegos experimentales para demostrar la capacidad de aprendizaje del algoritmo y su capacidad de adaptarse a diferentes oponentes (personas u otros algoritmos).

La conducta y los resultados del estudio.

Algoritmos de comportamiento estratégico en juegos repetidos están presentes en muchos aspectos de la sociedad: economía, biología evolutiva, IA, etc. Por el momento, se han creado muchos de estos algoritmos, cada uno de los cuales tiene sus propias ventajas. Naturalmente, los científicos decidieron usarlos para desarrollar su algoritmo. Por lo tanto, se seleccionaron 25 algoritmos.

Se identificaron seis indicadores de rendimiento sobre la base de tres opciones de juego: 100, 1000 y 50,000 rondas.

Indicadores de desempeño:

  • el valor promedio de Round-Robin * ;
  • mejor resultado de puntuación;
  • peor resultado de puntuación;
  • dinámica del replicador * ;
  • torneo del grupo 1;
  • torneo del grupo 2
Round-Robin * : un tipo de interacción de juego, cuando durante la ronda cada uno de los participantes juega alternativamente con todos los demás participantes.
La ecuación replicadora * es una dinámica de juego monótono determinista no lineal utilizada en la teoría de juegos evolutivos.
El primer indicador (el valor promedio de Round-Robin) nos permite comprender qué tan bien el algoritmo puede establecer relaciones beneficiosas con una variedad de socios de juegos.

El segundo indicador (el mejor puntaje) es la cantidad de algoritmos asociados en el juego con los cuales el algoritmo investigado obtuvo la mayor cantidad de puntos. Se expresa como un porcentaje. Este indicador refleja con qué frecuencia el algoritmo será una opción bienvenida, dada la información sobre el algoritmo del compañero del juego.

El tercer indicador (el peor resultado por puntos) es una evaluación de la capacidad del algoritmo para unir sus pérdidas (fallos, errores).

Los tres indicadores restantes están destinados a determinar la estabilidad del algoritmo para diferentes grupos de población.

Por ejemplo, un torneo (grupo-1) es una serie de juegos en los que los algoritmos se dividen en 4 grupos. Los líderes de cada grupo avanzan a la final, donde se determina el único ganador. Pero en el torneo del grupo 2, se seleccionan dos mejores algoritmos de cada grupo, que van a las semifinales, y luego los ganadores van a la final, donde se determina el único mejor algoritmo.

Según los científicos, ninguno de los algoritmos seleccionados (25 piezas) participó previamente en una verificación a gran escala (muchos socios e indicadores medidos). Tal verificación muestra qué tan bien funciona cada uno de los algoritmos en un juego normal con 2 participantes, y no está "programado" para un escenario específico.


Tabla 1: Resultados experimentales con 25 algoritmos de comportamiento estratégico diferentes.

Los resultados obtenidos son solo una herramienta que le permite comprender mejor los pros y los contras de un algoritmo particular. Por ejemplo, los algoritmos gTFT, WSLS, Mem-1 y Mem-2 mostraron excelentes resultados en el "dilema del prisionero" * .
El dilema del prisionero * : en la teoría de juegos, un estado en el que los jugadores no siempre están listos para cooperar, incluso si será beneficioso para ellos. En este caso, el jugador ("prisionero") tiene sus propios intereses en prioridad, y no piensa en los beneficios de los demás.
Sin embargo, estos mismos algoritmos mostraron malos resultados en todos los juegos de 2x2, lo que indica su ineficiencia en interacciones más largas. Por lo tanto, no pueden adaptarse al comportamiento de un compañero (otro jugador).

Una observación curiosa fue el hecho de que los algoritmos Exp3, GIGA-WoLF y WMA, que son la base de los algoritmos del Campeonato Mundial de Poker, también mostraron un mal resultado. Lo cual es bastante obvio, porque el algoritmo de póker no debería cooperar con otros jugadores, sino superarlos y derrotarlos.

Si consideramos todos los indicadores como un todo, entonces un algoritmo se destaca: S ++, que se mostró perfectamente en todo tipo de juegos con todas las combinaciones posibles marcadas. Además, vale la pena señalar que para la mayoría de los algoritmos, el desarrollo del comportamiento de cooperación se produjo solo después de miles de rondas. Para S ++, este proceso tomó solo unas pocas rondas, lo que lo convierte en una gran opción, dada la importancia de este indicador en un juego que involucra no un algoritmo, sino una persona viva. Cuanto más rápido el algoritmo probado "se dé cuenta" de la necesidad y la rentabilidad de la cooperación y el compromiso, más fácil y rápido será capaz de lograrlo.


Los resultados del experimento "S ++ contra humanos".

La interacción de S ++ con otros algoritmos mostró un buen resultado, por lo tanto, fue necesario verificar cómo se comportará S ++ al trabajar con personas vivas.

El experimento (4 juegos repetitivos de 50 o más rondas) incluyó algoritmos S ++ y MBRL-1, así como un grupo de personas. Los resultados de este experimento son visibles en los gráficos anteriores. Vemos que el establecimiento de la cooperación S ++ con su copia es excelente, pero este proceso no es consistente con las personas. Además, S ++ logró lograr una cooperación a largo plazo con una persona en solo <30% de las rondas. No es el resultado más alentador, pero las personas que juegan con las personas tampoco lograron establecer una cooperación a largo plazo.

Aunque S ++ se destacó entre otros algoritmos, esto no le permitió convertirse en un claro ganador en este estudio. Ninguno de los 25 algoritmos pudo demostrar la capacidad de construir lazos de cooperación a largo plazo con un jugador humano.

S #: cooperativa humana y algoritmo

Como se mencionó anteriormente, un aspecto como "llamadas baratas" juega un papel importante en el logro de la cooperación a largo plazo entre las partes, sin embargo, dicha técnica no se ha implementado previamente en ninguno de los juegos anteriores. Por lo tanto, los científicos decidieron crear su propia versión, que permitirá a los jugadores usar esta técnica, pero hasta cierto punto: 1 mensaje al comienzo de cada ronda.

Para una persona, tales conversaciones son naturales. Sin embargo, para una máquina que está destinada a resolver un problema y lo hará para esto, lo que es lógico, tales formas de interacción son extrañas. La idea de introducir tal comportamiento lleva directamente a los científicos a un concepto como "IA explicable" ("IA explicable"), cuando las acciones de la máquina son fácilmente comprensibles para los humanos. El problema es que la mayoría de los algoritmos basados ​​en el aprendizaje automático tienen una representación interna de bajo nivel, que es difícil de expresar a un nivel comprensible para los humanos.

Afortunadamente, la estructura interna de S ++ tiene un nivel muy alto, lo que permite su uso como base para la implementación de la técnica de "charla barata". S ++ introdujo un marco de comunicación que le permite generar y responder a "llamadas baratas".


Una nueva forma del algoritmo S ++ se ha llamado S #.

La imagen (a) muestra el esquema del algoritmo, y (b ) muestra el esquema de interacción con un compañero en el juego usando la técnica de "charla barata". También en b, podemos familiarizarnos con las frases que puede generar el algoritmo S # y qué tipo de respuesta espera para una frase en particular.

Por lo tanto, S # puede responder a las "señales" (frases y acciones) del jugador asociado, lo que le permite decidir qué tácticas aplicar a continuación. Junto con un alto grado de autoaprendizaje del algoritmo S ++ original, el algoritmo resultante puede crear relaciones mutuamente beneficiosas a largo plazo con un jugador, persona u otro algoritmo.

Para verificar esta afirmación, los científicos organizaron un experimento con 220 personas. Se jugaron un total de 472 juegos repetidos. La técnica de "charla barata" también se incluyó en el experimento, pero no siempre. Y las identidades de los jugadores estaban ocultas, por lo que nadie (ni el algoritmo ni las personas) sabían con quién estaban jugando.


Los resultados del experimento con 220 personas.

Cuando la "conversación barata" no se incluyó en el proceso del juego, la interacción persona-persona o persona-S # no condujo a una cooperación a largo plazo. Cuando esta técnica se incluyó en el juego, los indicadores de cooperación se duplicaron.



El gráfico (a) muestra qué tipo de frases se usaron durante el juego de una persona y el algoritmo S # (odio, amenaza, control, elogio o planificación).

Después del experimento, se pidió a todos los participantes que evaluaran el grado de inteligencia de sus compañeros en el juego, cuán claras eran sus intenciones y la utilidad de interactuar con ellos. Resultados de la encuesta en el gráfico (b) . Aún más entretenido es el horario (s) . Muestra el porcentaje de la cantidad de veces que una persona o algoritmo considera que su compañero en el juego es humano. Como puede ver, la mayoría de los participantes humanos sintieron que S # es una persona.

Los científicos también señalan que los resultados de S # son aún mejores en comparación con la forma en que interactúan las personas-persona y los pares S # -S #. El grado de ocurrencia de relaciones cooperativas a largo plazo entre una persona y S # es aproximadamente del mismo nivel que un par persona-persona. Y el par S # -S # sin el uso de la técnica de "charla barata" tiene un resultado mucho mejor que el par persona-persona, que tuvo la oportunidad de usarlo.

Resumiendo todo lo anterior, el algoritmo S # mostró resultados que pueden equipararse con los resultados de la interacción entre personas.

Juegos estocásticos recurrentes

Los juegos de tipo normal permitieron comprender que el algoritmo S # es un vector prometedor de investigación. Sin embargo, tales juegos son limitados, son más abstractos. Por lo tanto, los científicos decidieron usar un juego estocástico repetitivo en el que los participantes deben separar bloques de diferentes formas y colores. Para el algoritmo S #, se agregaron las frases "Vamos a colaborar" y "Obtengo más puntos". Además, S # tenía un uso limitado de la técnica de "charla barata": podía usar frases, pero no podía responder a las frases de un jugador humano.


El esquema del juego con bloques multicolores (cuadrado, círculo y triángulo).

La esencia del juego es la siguiente. Cada jugador tiene un conjunto de 9 bloques (diferentes, por supuesto). Cada turno, el jugador elimina 1 bloque de su conjunto hasta que solo tenga 3. Estos tres bloques deben cumplir los requisitos (la misma forma / color o diferente forma y color al mismo tiempo). Cada bloque cuesta una cierta cantidad de puntos (puntos). Si el bloque no es adecuado, este número se vuelve negativo. El diagrama anterior muestra 5 opciones para el resultado del juego.


El uso y no uso de "llamadas baratas".

Cuando se juega entre personas, el uso de "charla barata" no afectó en gran medida su resultado. Sin embargo, esta técnica aumentó considerablemente el resultado del algoritmo S # en un juego con una persona.

Diferencias de S # de otros algoritmos

El algoritmo S # superó a todos los demás temas, pero ¿por qué? ¿Qué propiedades de este algoritmo lo distinguen de varios competidores? Los científicos han contado hasta tres.

En primer lugar, es la capacidad de generar y responder a señales apropiadas (frases y acciones) que pueden ser entendidas por los humanos. Esto hace que este algoritmo sea muy flexible, capaz de evolucionar según la situación. Y, por supuesto, te permite formar vínculos a largo plazo de beneficio mutuo con otros jugadores.

En segundo lugar, S # utiliza un conjunto diverso de estrategias, que le permite adaptarse a diferentes jugadores socios y diferentes tipos de juegos. Al mismo tiempo, los algoritmos diseñados para funcionar de manera eficiente en un solo escenario específico no pueden funcionar efectivamente fuera de su "zona de confort".

En tercer lugar, el algoritmo S # mantiene un estado de beneficio mutuo, mientras que otros algoritmos, después de recibir lo que desean, cambian a una estrategia diferente.


Gráficos de la duración del estado de cooperación mutuamente beneficiosa.

Como se puede ver en el gráfico anterior (a) , S # establece una conexión mutuamente beneficiosa con el jugador antes que otros algoritmos. También mantiene un estado de cooperación mutuamente beneficiosa con un número significativamente mayor de rondas que los algoritmos de la competencia (gráfico (b) ).

La flexibilidad de S # es claramente visible desde el gráfico (c) , donde vemos que alcanza el objetivo con más frecuencia que otros, independientemente del tipo de juego o compañero.

Muy inusual es la afirmación de los científicos de que su algoritmo S # ha aprendido la fidelidad. El hecho es que, una vez establecida la cooperación en el par S # -S #, el algoritmo no tiene prisa por romperlo, incluso cuando no hay muchos beneficios en esto. Al mismo tiempo, en las parejas de hombre a hombre, la cooperación a menudo se rompió inmediatamente después de lograr los beneficios necesarios a corto plazo. Este comportamiento condujo naturalmente a malos resultados al final del juego para ambos lados.

Aquellos que deseen familiarizarse con el informe de los científicos pueden encontrarlo aquí .

Materiales de investigación adicionales están disponibles aquí .

Epílogo

Este estudio es muy diferente de otros en que no está dirigido a crear una IA capaz de derrotar a una persona en algo, sino a crear una IA capaz y dispuesta a llegar a un consenso. ¿Significa esto que las máquinas inteligentes se volverán más humanas gracias a este algoritmo? Posiblemente , , , , .

, S# «». , . , .

Gracias por quedarte con nosotros. ¿Te gustan nuestros artículos? ¿Quieres ver más materiales interesantes? Apóyenos haciendo un pedido o recomendándolo a sus amigos, un descuento del 30% para los usuarios de Habr en un análogo único de servidores de nivel de entrada que inventamos para usted: toda la verdad sobre VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps de $ 20 o cómo dividir el servidor? (las opciones están disponibles con RAID1 y RAID10, hasta 24 núcleos y hasta 40GB DDR4).

3 Dell R630 — 2 Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 41TB HDD 2240GB SSD / 1Gbps 10 TB — $99,33 , , .

Dell R730xd 2 veces más barato? Solo tenemos 2 x Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 TV desde $ 249 en los Países Bajos y los EE. UU. Lea sobre Cómo construir un edificio de infraestructura. clase utilizando servidores Dell R730xd E5-2650 v4 que cuestan 9,000 euros por un centavo?

Source: https://habr.com/ru/post/es422263/


All Articles