Un mono (chimpancé) saca termitas de una termita con un palo. En la segunda foto, el gorila usa un palo para recoger la hierba que necesita.Los desarrolladores de los Estados Unidos
crearon un algoritmo especializado para robots , que hizo posible que este último utilizara herramientas adicionales para completar la tarea. Y es relativamente simple: de cierta manera, mover un objeto del punto A al punto B.
El algoritmo consta de dos partes. El primero le permite al robot mover objetos al azar, realizando una especie de experimentación. La segunda parte permite evaluar las consecuencias de una acción particular utilizando una red neuronal. Al final resultó que, los robots, trabajando de acuerdo con el algoritmo, utilizaron efectivamente herramientas auxiliares sin entrenamiento.




Una persona usa muchas herramientas adicionales todos los días. Los animales también son capaces de esto: los loros, los cuervos, los monos y algunas otras criaturas vivientes pueden usar palos, guijarros y espinas para lograr sus tareas deseadas (por ejemplo, extraer una larva de escarabajo de debajo de la corteza).
Para nosotros, el uso de un cuchillo para cortar pan es bastante obvio. Pero para un robot que necesita explicar cada acción en forma de lenguaje de máquina, en absoluto.


Científicos de la Universidad de California en Berkeley han desarrollado una forma de entrenar robots para usar herramientas auxiliares y tomar decisiones sobre su aplicación en una situación dada. El algoritmo "visualiza" la tarea, mostrando al robot en qué dirección se debe mover el ejemplo. Y ya el robot (este es un manipulador robótico ordinario) toma un instrumento y mueve un objeto. Todos los movimientos se rastrean en la cámara.

El algoritmo se basa en una red neuronal. Un programa especializado calcula diferentes secuencias de acciones para un robot que se "alimentan" a una red neuronal. Eso genera un video que muestra lo que sucederá como resultado de la ejecución de una acción en particular.
El manipulador recibe un comando para realizar una acción. Si el resultado real coincide con el planificado, se cuenta la tarea. En el curso del trabajo, se comparan varias opciones de video con la imagen que proporciona el usuario y muestra el resultado final de la tarea. Después de encontrar la secuencia óptima de acciones, el robot procede a resolver el problema.


Este proyecto combina enfoques de aprendizaje automático como el aprendizaje
sin demostración y la capacitación en simulación . En el primer caso, el robot selecciona opciones al azar. Como resultado, se genera una muestra significativa de datos, lo que ayuda a lograr un resultado óptimo. En el segundo, los desarrolladores le mostraron claramente al robot cómo usar la herramienta en un caso u otro. En esta situación, la solución de referencia se registra en la cámara con la que el robot compara las consecuencias de sus acciones.
En algunos casos, el robot "comprende" que es mejor completar la tarea sin elementos auxiliares, y lo hace. Las herramientas se usan sin entrenamiento, incluso si el robot no se ha mostrado antes.

