Aprendiendo conceptos a trav茅s de la interacci贸n sensoriomotora



Experimento de pensamiento


Imagina que te has despertado en una habitaci贸n extra帽a. Esta no es una habitaci贸n acogedora en la que te quedaste dormido, sino una celda con poca luz y un piso h煤medo y fresco. Yeso agrietado en las paredes. Y la 煤nica entrada y salida es supuestamente una enorme puerta de hierro, cerrada con un candado desde el interior. Un poco m谩s arriba en la pared hay una ventana enrejada que permite que pase algo de luz. Si miras a tu alrededor, habr谩s llegado a la conclusi贸n de que est谩s atrapado, eso ser铆a perfectamente razonable. Se ve horrible

驴Pero te satisfar谩? Probablemente no. Querr谩 explorar la habitaci贸n un poco m谩s, tal vez tire del candado para probar su confiabilidad. O desea probar la resistencia de estas paredes enyesadas. 驴Quiz谩s unos pocos golpes duros y haces un agujero por el cual puedes salir? 驴O tal vez estas rejas en la ventana tienen aberturas tan grandes que puedes salir? La interacci贸n con el entorno le brinda mucha m谩s informaci贸n que la observaci贸n pasiva del mismo. La visi贸n puede ser una hip贸tesis, pero probarla requiere una interacci贸n real con el medio ambiente.

Concepto de conceptos


Contenido y conclusi贸n son conceptos. El perro tambi茅n es un concepto. Adem谩s de correr , bosque , belleza , verde o muerte . Los conceptos son abstracciones que distinguimos de la interacci贸n cotidiana con el mundo. Forman los bloques de conocimiento reutilizables que las personas necesitan para comprender el mundo.

Cuando tenemos una comprensi贸n conceptual de algo, significa que tenemos algo de experiencia con esto, de alguna manera lo dominamos. En el caso del contenido, esta experiencia significa que podemos identificar objetos contenedores en el mundo que pueden contener algo, separarlos de los "no contenedores", poner algunas cosas dentro, recuperarlas y anticipar lo que suceder谩. si de alguna manera interactuaremos con ellos. Incluso podemos mirar cosas nuevas y comprender si pueden contener algo en s铆 mismas o viceversa, si pueden incluirse en alg煤n otro tema.

Los principales enfoques de la comprensi贸n conceptual en IA, incluidos los sistemas de aprendizaje profundo entrenados en conjuntos de datos como ImageNet , aparentemente tienen algunas de estas habilidades, pero carecen de una comprensi贸n m谩s profunda: la experiencia que proviene de la interacci贸n. Al percibir una imagen o incluso un video, estos enfoques pueden determinar si hay un tipo espec铆fico de "contenedor", por ejemplo, una taza, una casa o una botella, y tambi茅n determinar d贸nde se encuentra este objeto en la imagen. Pero casi seguramente fracasar谩n cuando se encuentren con un tipo inexplorado de tal objeto. Una solicitud para ubicarse en alg煤n lugar solo tendr谩 un malentendido tan completo en dicho sistema, ya que correlaciona el concepto de un objeto contenedor con una serie de signos visuales, pero no tiene una comprensi贸n activa del t茅rmino de contenido dentro de algo.

Conceptos de la experiencia sensoriomotora


Henri Poincar茅 fue uno de los primeros en enfatizar el papel de las representaciones sensoriomotoras en la comprensi贸n humana. En su libro Ciencia e hip贸tesis, argument贸 que un ser inm贸vil nunca podr铆a dominar el concepto de espacio tridimensional. No hace mucho tiempo, varios cient铆ficos cognitivos sugirieron que las representaciones conceptuales surgen de la integraci贸n de la percepci贸n y la acci贸n. Por ejemplo, O'Regan y No毛 definen la experiencia sensoriomotora como "una estructura de reglas que define los cambios sensoriales producidos por diversas acciones motoras", y la observaci贸n pasiva como "un modo de explorar el mundo que se basa en el conocimiento de la experiencia sensoriomotora". No毛 agrega que "los conceptos son una especie de enfoque para administrar lo que est谩 alrededor".

Aunque la importancia de la experiencia sensoriomotora ha sido apreciada dentro de la comunidad cognitiva, estas ideas han llevado a unos pocos modelos computacionales espec铆ficos que exploran su papel en la configuraci贸n de conceptos. En el art铆culo que presentamos en AAAI-18, mostramos un modelo computacional que explora conceptos a trav茅s de la interacci贸n con el entorno.

Que hemos hecho


Planeamos realizar y estudiar las dos habilidades principales que conforman la comprensi贸n conceptual: la capacidad de detectar activamente un concepto y la capacidad de sacar conclusiones o actuar sobre este concepto. Adem谩s, quer铆amos investigar situaciones en las que las habilidades interactivas son preferibles a los enfoques pasivos, y comprender c贸mo el uso de conceptos simples ya estudiados puede ayudar a estudiar los m谩s complejos.

Comenzamos desarrollando un campo de entrenamiento virtual especial para explorar conceptos activos, un entorno que llamamos PixelWorld (disponible en github ). En este mundo, las cosas se arreglan un poco m谩s f谩cilmente que en el mundo real. Este es un campo bidimensional discreto que contiene un agente de p铆xeles y uno o m谩s objetos de otro tipo, que tambi茅n consta de p铆xeles (por ejemplo, l铆neas, puntos o contenedores).

El agente tiene una implementaci贸n bastante simple: percibe solo el espacio de 3 脳 3 celdas a su alrededor y puede moverse hacia arriba, hacia abajo, hacia la izquierda, hacia la derecha o detenerse y enviar informaci贸n. Tal implementaci贸n requiere el estudio de incluso las ideas m谩s b谩sicas sobre el mundo, tanto el concepto mismo de un objeto como el concepto de conceptos de interacci贸n. A pesar del hecho de que esto puede parecer una privaci贸n sensorial excesiva, la eliminaci贸n de la rica percepci贸n visual nos permite centrarnos en el papel de transformar el comportamiento multifac茅tico en una visi贸n significativa del mundo.

Capacitamos agentes en dos tipos diferentes de tareas. La primera tarea fue investigar el entorno e informar si el concepto necesario est谩 presente en el entorno. Por ejemplo, un contenedor. Y fue recompensado si la respuesta era correcta. La segunda tarea era actuar en relaci贸n con este concepto. Por ejemplo, ponte en este contenedor. Esto fue recompensado si cumpli贸 correctamente la tarea y lo inform贸. Para esto, utilizamos entrenamiento de refuerzo.

Por ejemplo, le ense帽amos al agente a determinar cu谩ndo estaba encerrado en un objeto en un plano horizontal. La siguiente animaci贸n muestra este comportamiento: el agente verifica si hay un muro a la derecha, luego verifica si hay un muro a la izquierda. Tan pronto como se pasan con 茅xito ambas pruebas, informa que est谩 "bajo custodia".



Entrenamos al siguiente agente para que entienda lo mismo cuando ya est谩 rodeado por dos objetos a los lados: un contenedor s贸lido y un contenedor con un agujero. La animaci贸n muestra que el agente ingresa al objeto correcto, verificando si es un contenedor s贸lido. Detecta un agujero y luego se sube al contenedor izquierdo, lo que indica al final que est谩 bajo custodia.



Podemos entender con m谩s detalle lo que est谩 haciendo el agente analizando los registros de sus acciones:



La figura anterior muestra cada acci贸n realizada por el agente en la animaci贸n que se muestra arriba. Cada cuadro representa una acci贸n, el tiempo aumenta de izquierda a derecha. "ABAJO", "DERECHA", "ARRIBA" y "IZQUIERDA" son las principales acciones del agente, y cada l铆nea de "SMC" representa un caso especial de interacci贸n sensoriomotora que el agente puede realizar. SMC ( contingencias sensoriomotoras - aprox. Transl. ) Se puede representar como peque帽os programas que, cuando se ejecutan, utilizan una secuencia de acciones b谩sicas hasta que el agente decide detenerse y enviar una de las dos se帽ales que significan 茅xito ("SIG1", verde) o derrota ("SIG0", rojo). Cada uno de estos SMC surgi贸 como un agente capacitado para resolver un problema conceptual m谩s simple. Por ejemplo, "SMC 3" fue entrenado para subir a un contenedor si inicialmente estaba en el piso a su izquierda. Y esto es lo primero que hace el agente en la animaci贸n del paso 0 al 11. Por lo tanto, el agente puede realizar tareas complejas, como llegar a una conclusi贸n final sobre la conclusi贸n, realizar una secuencia de SMC de bajo nivel correspondientes.

Despu茅s de eso, expandimos nuestros conceptos m谩s all谩 del t茅rmino de conclusi贸n e incluimos conceptos tales como estar encima de un objeto o estar a la izquierda de dos objetos:





Capacitar a estos agentes en un solo entorno no ser铆a suficiente, porque para comprender qu茅 aspectos del entorno est谩n relacionados con los conceptos y cu谩les no, se necesitan muchos entornos diferentes. La presencia de tantos tipos de entornos tambi茅n nos permite determinar los tipos en los que un enfoque activo y la reutilizaci贸n del comportamiento previamente desarrollado se beneficiar铆an de los enfoques pasivos.

Para satisfacer esta necesidad, aplicamos un tipo especial de grabaci贸n basada en l贸gica de primer orden para preparar matrices de datos para experimentos, utilizando expresiones l贸gicas tanto para generar medios como para marcarlos con respecto a qu茅 concepto se representa dentro de ellos. Hemos creado 96 matrices de este tipo organizadas en bloques de capacitaci贸n desde conceptos simples hasta complejos. Tanto el sistema de grabaci贸n como los entornos mencionados anteriormente est谩n contenidos en el lanzamiento de PixelWorld.

Lo que tenemos


Comparamos nuestro enfoque activo con el pasivo, utilizando una red neuronal convolucional, capacitada para determinar si un concepto est谩 presente, basado en una percepci贸n est谩tica de todo el entorno. Para los conceptos que usan "conclusi贸n", el enfoque interactivo es claramente superior a la red convolucional. Para los conceptos que involucran diversos objetos de muchas formas y relaciones espaciales, encontramos que la red de convoluci贸n funcion贸 mejor en algunos casos, pero peor en otros. Cabe se帽alar que los enfoques pasivos, por definici贸n, no pueden interactuar con el entorno, por lo que en este caso lo 煤nico que se pod铆a esperar era una detecci贸n est谩tica del concepto. Solo nuestro enfoque proactivo puede tener 茅xito en entornos que requieren la comprensi贸n de alg煤n tipo de interacci贸n o relaci贸n con el concepto.

Tambi茅n encontramos que la reutilizaci贸n del comportamiento mejor贸 los resultados para ambas tareas (detecci贸n e interacci贸n), con los resultados m谩s obvios en aquellos casos en que los conceptos inclu铆an m煤ltiples objetos o requer铆an secuencias complejas en el comportamiento.

Conclusiones


Nuestro trabajo muestra que las representaciones conceptuales sensoriomotoras interactivas pueden formalizarse y asimilarse. Si bien los experimentos reflejados en este art铆culo ayudaron a identificar el papel de la interacci贸n de manera general, su combinaci贸n con el enfoque del sistema de visi贸n generativa podr铆a ser 煤til para estudiar los conceptos del mundo real. Adem谩s, la combinaci贸n de representaciones sensoriomotoras con t茅cnicas como " Redes de esquema " permitir铆a al agente tener una representaci贸n interna del mundo exterior que pueda utilizar para la simulaci贸n y la planificaci贸n.

Aunque la inteligencia artificial fuera de control es un tema que es mejor dejar para las pel铆culas de ciencia ficci贸n, creemos que extraer conceptos de la interacci贸n sensoriomotora es una de las claves para ir m谩s all谩 de las t茅cnicas modernas de inteligencia artificial pasiva.

Source: https://habr.com/ru/post/es436334/


All Articles