Una palabra sobre los procesos, o todos somos un poco anticonceptivos .Reflexiones continuas sobre la mente tanto natural como artificial (IA), la primera parte está aquíPregunta para rellenar : ¿vive una persona ahora? No cuando caminamos por la calle y contemplamos directamente el mundo que nos rodea, actuamos más o menos en
tiempo real ... Aunque en realidad, hasta ahora lo que vemos pasará los mecanismos habituales de reconocimiento / clasificación, todo esto será reciente, pero seguirá siendo el pasado. Es decir ¿Vive una persona en el pasado?
Por ejemplo: caminas por la calle, ves un perro. O un carro. En cualquier caso, si estamos hablando del momento, esta información ya está desactualizada. Si operamos con datos que han pasado por todos nuestros mecanismos cognitivos (¡y el cerebro está lejos de ser la calculadora más rápida!), ¡Simplemente no mantendremos el ritmo del mundo! El perro atacará o viceversa, se escapará, y su deseo de acariciarlo detrás de la oreja no se cumplirá, y el auto lo derribará o lo pasará por alto, aunque quería "atrapar" este automóvil en particular.
Pero gracias a Dios no sucede de esta manera, y he aquí por qué: el cerebro funciona de manera diferente. La unidad de percepción no es un objeto, ni siquiera una totalidad de objetos, sino procesos. El perro esta corriendo. Para ti o de ti. O no corre, sino que miente, por ejemplo. El automóvil también está parado (en el estacionamiento) o se mueve en cierta dirección. En todos los casos, percibe un proceso que tiene un período de tiempo y, en consecuencia, un cierto desarrollo en el futuro. Cuando digo que percibimos eventos desplegados en el tiempo, esto no es una forma de hablar. Realice un experimento: tome una docena de fotos (es decir, imágenes instantáneas de la realidad) y describa lo que ve. Aquí hay algunas personas en la habitación, están peleando, o aquí un hombre camina por la calle, o aquí está sentado, mirando televisión, y leyendo un libro. ¡Todos estos son procesos que requieren mucho tiempo! Percibes el lanzamiento instantáneo como algo que tiene una longitud. No sabes cómo hacerlo de manera diferente, porque el cerebro funciona así: está entrenado para reconocer procesos, no objetos dispares en el escenario. Al igual que no una boca de ojos, nariz, sino una cara en un complejo (hola, redes neuronales convolucionales).
El mundo está hecho de procesos, no de objetos. Si pregunta qué es una
manzana , la mayoría de los adultos dirá que es una
fruta / fruta , y los niños dirán que es
comida . Pero ambos son una descripción del proceso, porque el primero significa que esta manzana
crece en un árbol y sirve al árbol para la propagación, y el segundo, que es
comestible . Ni uno ni el otro están conectados con los signos inmediatos de la manzana: forma, color, tamaño ... Debido a que los signos le permiten identificar, pero no permiten usar, o comprender dónde se usa en el mundo, es decir Identificar exactamente los procesos.
Si tomamos un debate típico sobre la naturaleza del tiempo, entonces los postulados clásicos serán sobre la invariabilidad del pasado (fuera del contexto del viaje en el tiempo), la importancia del presente (solo hay un momento ...;)) y el futuro, que aún no existe, lo que significa que puede cambiarse. Cuando hablamos de la realidad objetiva, es muy posible que sea así. Sin embargo, una persona vive en su propio modelo subjetivo del mundo, ¡y allí todo es casi lo contrario!
El pasado está lejos de ser invariable como nos gustaría. Constantemente recibiendo nueva información, una persona reconstruye el pasado para eliminar contradicciones (
pensaste que Pyotr Stepanych en un simposio, y él deja el club de striptease ... Esto significa que a ninguna parte, él, un artista, no fue y en general ... ). Al mismo tiempo, su futuro subjetivo en muchos aspectos es constante (
sea lo que sea, ¡pero el viernes tengo cerveza y fútbol! ). No solo eso, teniendo un objetivo definido en el futuro, no solo construirá la cadena de procesos en el orden inverso (
para convertirse en director de una gran empresa, debe graduarse de una universidad prestigiosa con un diploma, para esto primero debe ingresar, para esto necesita aprobar el Examen Estatal Unificado, enseñar la marcha lecciones! ), pero también es bastante probable: volver al proceso (
¿no teníamos amigos / conocidos que ahora se han levantado y crecido en contacto y podrían ayudar a un niño con una universidad )? ¿Qué no es un artilugio? ;)
Sin embargo, estaba un poco distraído. Aún así, lo principal en lo que quería centrarme es en los
procesos . Estoy profundamente convencido de que la IA potencial necesita ser entrenada, no en la foto o incluso en el video. La red convolucional tiene dos niveles (mínimo), y de hecho, estas son dos redes diferentes: una está capacitada para encontrar ciertos patrones gráficos en la imagen en bruto, la segunda trata con la salida de la primera, es decir con información ya procesada y preparada. Para interactuar con éxito con el mundo de la IA, necesita lo mismo: en algún nivel (lejos del primer), debe haber una red que reciba un mapa de procesos desplegado en el tiempo. Los conceptos de "comienzo" y "fin", "movimiento", "transformación", "fusión" y "separación" son con lo que la red debería aprender a trabajar.
Estoy bastante seguro de que aquellos involucrados en juegos de IA, como Alpha Go, entienden esto de una forma u otra. Quizás los enfoques allí son algo diferentes, pero la esencia es la misma: la situación actual en el tablero (y en el desarrollo de los últimos movimientos) se analiza para saber qué está "sucediendo en absoluto". Y dependiendo de cuánto corresponda lo que sucede con lo que debería suceder, se seleccionan sus propios movimientos.
Es muy difícil hablar de estrategia / comportamiento cuando la imagen de entrada proviene de sensores. Y viceversa: un vector preparado que contenga una alineación completa del estado actual del campo en los juegos con información completa (contar la imagen completa del mundo) es una tarea factible, como lo demuestra la práctica. Sin embargo, si la red convolucional de los primeros niveles identificó los objetos, y los siguientes niveles analizan estos objetos en dinámica, la identificación de los procesos (familiares de la capacitación, por ejemplo) complementa los datos obtenidos anteriormente, entonces parece posible trabajar con esto ...
Preguntas a los expertos:Cuán realista es, dados los desarrollos actuales en redes neuronales, hacer algo como esto:
En la entrada , por ejemplo, una señal de video continua, posiblemente estéreo. Como opción: con varios grados de libertad (la capacidad de rotar la cámara, arbitrariamente o de acuerdo con el esquema). Sin embargo, si es necesario, la señal de video se puede complementar / reemplazar por cualquier otro método de percepción espacial, desde el sonar hasta el lidar.
Estrictamente hablando ...en la entrada puede haber cualquier transmisión en tiempo real , al menos voz / texto, al menos cotizaciones de monedas, pero ... En el proceso en consideración, es más fácil para mí confiar en la única muestra de razón disponible para estudiar directamente: ¡la mía! ) ¡Y en esta "muestra" el canal sensorial está más allá de la competencia!
Salida:- Mapa de profundidad (si la cámara es estática) o un mapa ambiental. espacios (cámara dinámica / lidar, etc.);
Para queEs necesario si queremos tener una disposición espacial real de los objetos para evaluar su interacción. En este caso, la imagen de la cámara es solo una proyección bidimensional de un espacio más grande, y se necesitan transformaciones adicionales.
- Seleccionar objetos individuales (teniendo en cuenta el mapa de profundidad / espacio, y no solo / no tanto los contornos visibles);
- Destacar objetos en movimiento (velocidad / aceleración, trazar / predecir una trayectoria (?));
- Clasificación jerárquica de objetos según cualquier atributo recuperable (forma / dimensiones / color / matices de movimiento / Componentes (?)). Es decir esencialmente recuperando métricas para el espacio de Hilbert .
acerca de la jerarquíaquizás la palabra "jerárquica" no sea del todo apropiada en este caso. Me gustaría enfatizar que es posible en cualquier momento elegir métricas para que la
distancia de Heming entre ellas nos permita considerar dos conjuntos diferentes de métricas como un solo concepto. Como "auto rojo" y "autobús azul" deberían generalizarse en el concepto de "vehículo", por ejemplo.
Importante: si es posible, el sistema no está pre-entrenado. Es decir Se pueden establecer algunas cosas básicas (por ejemplo, una red convolucional de la primera capa, para resaltar contornos / geometría), pero debe aprender a seleccionar objetos y luego reconocerlos usted mismo.
- Y finalmente, la construcción de un barrido (basado en los párrafos 1.4, es decir, un mapa espacial que tiene en cuenta las métricas) en el tiempo (por ahora, en esta etapa, el período directamente observado es visible), con el objetivo de analizar los puntos 2-4, s para identificar: procesos / eventos (que son esencialmente cambios en el tiempo en la cláusula 3) y su clasificación de conglomerados (cláusula 4).
Una vez más: de la imagen de los sensores, primero extraemos la descripción del mundo en una forma más preparada, etiquetada de acuerdo con los atributos recuperables y dividida no en píxeles, sino en objetos. Luego expandimos el mundo, que consta de objetos en el tiempo, y enviamos la "imagen del mundo" resultante a la entrada de la siguiente red, que funciona con ella como las capas anteriores con una imagen táctil trabajada. Donde se destacaban los contornos de los objetos, ahora se distinguirán los "contornos" de los procesos en curso. La posición relativa de los objetos en el espacio es similar a la relación causal de los procesos en el tiempo ... De alguna manera.
Presumiblemente después de esto, el sistema debería ser capaz de reconocer procesos por sus partes (como capaz de identificar imágenes, tener solo un fragmento de ellas, o
escribir la continuación del texto de acuerdo con el modelo ) y, como resultado, predecirlos, tanto hacia adelante como hacia atrás en el tiempo, expandiendo el modelo La cláusula 5 es ilimitada en ambas direcciones. Además, presumiblemente, teniendo una idea de los procesos compuestos, el sistema puede revelar procesos más extensos, globales y, como resultado, implícitos y ocultos que son una parte integral de los procesos globales identificados, pero no percibidos directamente, por varios procesos locales relacionados.
Bueno, y el último: tener un estado fijo del sistema en el futuro (donde solo se arreglan elementos significativos de las métricas de Hilbert, con una interpretación libre del resto, no valores significativos) - ¿es la red capaz de "adivinar" el resto?
Bueno, es decir si se tratara de una imagen en la que solo se especificaron dos fragmentos desconectados, ¿puede una red capacitada en alguna muestra completar una imagen completa "consistente"? La muestra en este caso es los mismos intervalos de tiempo desde el experimento, los fragmentos son el estado actual y dado. Resultado: una "historia" coherente que une uno y otro ...
Me parece que esto ya será una base muy importante para más experimentos:
- inclusión en el "historial" de las propias acciones, si es posible / necesario
- La prioridad de los patrones de causa-efecto “regulares” sobre las emisiones estocásticas no controladas (problema de la ruleta)
- algún tipo de curiosidad, es decir conocimiento activo de patrones a través de la acción ... etc.
PD: Admito totalmente que acabo de inventar una bicicleta, y las personas conocedoras han estado aplicando estos principios en la práctica. ;) En este caso, le pido que "toque su nariz" en el desarrollo apropiado. Y será absolutamente maravilloso si hay una descripción detallada de los problemas fundamentales de este enfoque o la justificación de por qué no funciona en principio.
PPS Soy consciente de que el texto es crudo, y el pensamiento salta de uno a otro, pero realmente quería hacerle a un par de personas estas preguntas (sección "preguntas para expertos"), y esto es difícil de hacer sin al menos alguna presentación.
El texto anterior (y lo estaba releyendo ahora, y me di cuenta de que es muy difícil de entender) cumplió su tarea: recibí varias discusiones que fueron valiosas para mí ... ¡Espero que esta vez también! ;)
UPD: A pesar de los inconvenientes, la discusión aún siguió, ¡de lo cual estoy extremadamente feliz!
UPD2: Lista de enlaces sobre un tema dada por diferentes personas en diferentes momentos, o la encontré yo mismo:
- Sobre la segmentación, popular: mil ...
- ¿Y si se fortalece con la visión estéreo? Uno , dos y digamos tres ...
- Eso fue todo sobre OpenCV, matemática pura, sin neuronas. Y puedes combinarlo , más o menos ... Y aún.
- Si, de acuerdo con el conjunto de métodos del objeto mencionado anteriormente, el objeto se selecciona, entonces puede formarse un conjunto de signos para rastrearlo en el futuro ...
- ¿Por qué necesita buscar otros enfoques cuando hay un gran aprendizaje de refuerzo ?
- Una red pre-entrenada que destaca las acciones en el video ... Es difícil decir cuán aplicable es esto en nuestro caso, ¡pero es interesante!