
No, no se trata de algoritmos de reconocimiento de imágenes, se trata de las limitaciones de su uso, en particular al crear IA.
En mi opinión, el reconocimiento de imágenes visuales por parte de una persona y un sistema informático es muy diferente, tanto que tiene poco en común. Cuando una persona dice "Ya veo", en realidad piensa más de lo que ve, lo que no se puede decir sobre un sistema informático equipado con equipos para el reconocimiento de imágenes.
Sé que la idea no es nueva, pero propongo nuevamente asegurarme de su validez con el ejemplo de un robot que afirma poseer inteligencia. La pregunta de prueba es: ¿qué tipo de robot debería ver el mundo circundante para convertirse completamente en una persona?
Por supuesto, el robot debe reconocer los objetos. Ah, sí, los algoritmos hacen frente a esto, a través del entrenamiento en las muestras originales, según tengo entendido. ¡Pero esto es catastróficamente pequeño!
YoEn primer lugar, cada objeto del mundo circundante consta de muchos objetos y, a su vez, es un subconjunto de otros objetos. Yo llamo a esta propiedad anidando. Pero, ¿qué sucede si un sujeto simplemente no tiene un nombre, por lo que no está en la base de las muestras originales utilizadas para aprender el algoritmo? ¿Qué debería reconocer el robot en este caso?
La nube que estoy observando actualmente en la ventana no tiene partes con nombre, aunque obviamente consta de bordes y un centro. Sin embargo, no hay términos especiales para los bordes y el medio de la nube, no acuñados. Para indicar un objeto sin nombre, utilicé una formulación verbal ("nube" - tipo de objeto, "borde de la nube" - formulación verbal), que no está incluida en las capacidades del algoritmo de reconocimiento de imágenes.
Resulta que un algoritmo sin un bloque lógico es de poca utilidad. Si el algoritmo detecta una parte del objeto completo, no siempre será capaz de descubrir, en consecuencia, el robot no podrá saber qué es.
IIEn segundo lugar, la lista de objetos que componen el mundo no está cerrada: se actualiza constantemente.
Una persona tiene la capacidad de construir objetos de realidad, asignando nombres a nuevos objetos descubiertos, por ejemplo, especies de fauna. Llamará centauro a un caballo con cabeza y torso humanos, pero para esto, primero se dará cuenta de que la criatura tiene cabeza y torso humanos, y todo lo demás es equino, reconociendo así el objeto visto como uno nuevo. Esto es lo que hace el cerebro humano. Y el algoritmo, en ausencia de datos de entrada, determinará tal criatura como persona o como caballo: sin operar con características de tipos, no podrá establecer su combinación.
Para que un robot se convierta en un ser humano, debe poder definir nuevos tipos de objetos para él y asignar nombres a estos tipos. En las descripciones del nuevo tipo, deben aparecer características de los tipos conocidos. Y si el robot no sabe cómo, ¿por qué lo necesitamos tan hermoso?
Digamos que enviamos un robot de reconocimiento a Marte. Un robot ve algo inusual, pero puede identificar un objeto exclusivamente en términos terrenales que conoce. ¿Qué les dará esto a las personas que escuchan mensajes verbales provenientes del robot? A veces dará algo, por supuesto (si se encuentran objetos de la Tierra en Marte), y en otros casos, nada (si los objetos marcianos no son similares a los objetos de la Tierra).
La imagen es otra cuestión: una persona misma podrá ver todo, evaluarlo y nombrarlo correctamente. Solo a través de un algoritmo de reconocimiento de imágenes no entrenado previamente, sino de su cerebro humano más astutamente construido.
III.En tercer lugar, hay algún problema con la individualización de los objetos.
El mundo que lo rodea consta de objetos específicos. En realidad, solo puedes ver objetos específicos. Pero en algunos casos deben individualizarse verbalmente, para lo cual se utilizan nombres personales ("Vasya Petrov"), o una simple indicación de un objeto específico, pronunciado o implícito ("esta tabla"). Lo que llamo tipos de objetos ("personas", "tablas") son solo nombres colectivos de objetos que tienen ciertas características comunes.
Los algoritmos de reconocimiento de imagen, si se entrenan en las muestras originales, podrán reconocer objetos individualizados y no individualizados; esto es bueno. Reconocimiento facial en lugares abarrotados y todo eso. Lo malo es que tales algoritmos no entenderán qué objetos deben ser reconocidos como poseedores de una individualidad y cuáles no valen la pena.
El robot, como propietario de la IA, ocasionalmente debería estallar en mensajes como:
- ¡Ah, y vi a esta anciana hace una semana!Pero no vale la pena abusar de tales réplicas sobre briznas de hierba, especialmente porque existen temores bien fundados sobre la suficiencia de la potencia informática para realizar tal tarea.
No me queda claro dónde se traza la delgada línea entre una anciana individualizada e innumerables briznas de hierba, que son individualizadas por nada menos que una anciana, pero que no son de ningún interés para una persona desde el punto de vista de la individualización. ¿Cuál es la imagen reconocida en este sentido? Casi nada: el comienzo de una percepción difícil a dolorosa de la realidad circundante.
IV.Cuarto, la dinámica de los objetos, determinada por su disposición espacial mutua. ¡Esto, te digo, es algo!
Estoy sentado frente a la chimenea en un sillón y ahora trato de levantarme.
"¿Qué ves, robot?"Desde nuestro punto de vista cotidiano, el robot me ve levantarse de una silla. ¿Qué debería responder? Probablemente la respuesta relevante sería:
"Te veo levantarte de tu silla".Para hacer esto, el robot debe saber quién soy, qué es una silla y qué significa levantarse ...
El algoritmo de reconocimiento de imagen después de la configuración adecuada podrá reconocerme a mí y a la silla, luego, al comparar los marcos, podemos determinar el hecho de que me retiren de la silla, pero ¿qué significa "levantarme"? ¿Cómo sucede la "elevación" en la realidad física?
Si ya me levanté y me alejé, todo es bastante simple. Después de alejarme de la silla, todos los objetos en la oficina no cambiaron la posición espacial entre sí, con la excepción de mí, que originalmente estaba en la silla, y después de un tiempo lejos de la silla. Está permitido concluir que dejé la silla.
Si todavía estoy en el proceso de levantarme de la silla, todo es algo más complicado. Todavía estoy al lado de la silla, sin embargo, la posición espacial relativa de las partes de mi cuerpo ha cambiado:
- inicialmente la tibia y el tronco estaban en posición vertical, y el muslo estaba en posición horizontal (estaba sentado),
- Al momento siguiente, todas las partes del cuerpo estaban en posición vertical (me puse de pie).
Observe mi comportamiento como persona, él inmediatamente concluirá que me estoy levantando de una silla. Para una persona, esto no será tanto una conclusión lógica como una percepción visual: literalmente me verá alzarme de mi silla, aunque de hecho verá un cambio en la posición relativa de partes de mi cuerpo. Sin embargo, en realidad será una conclusión lógica que alguien debe explicarle al robot, o el robot debe resolver esta conclusión lógica por sí solo.
Ambos son igualmente difíciles:
- ingresar a la información inicial de la base de conocimiento de que ponerse de pie es un cambio secuencial en la posición espacial mutua de ciertas partes del cuerpo de alguna manera no es inspirador;
- no es menos estúpido esperar que el robot, como una criatura de pensamiento artificial, adivine rápidamente que el cambio en la posición espacial mutua de ciertas partes del cuerpo descritas anteriormente se llama de pie. En humanos, este proceso lleva años, ¿cuánto costará un robot?
¿Y qué tienen que ver los algoritmos de reconocimiento de imagen? Nunca podrán determinar que me levanto de una silla.
V."De pie" es un concepto abstracto, determinado por un cambio en las características de los objetos materiales, en este caso, un cambio en su posición espacial mutua. En el caso general, esto es cierto para cualquier concepto abstracto, porque los conceptos abstractos en sí mismos no existen en el mundo material, sino que dependen completamente de los objetos materiales. Aunque a menudo los percibimos como observados personalmente.
Para mover la mandíbula hacia la derecha o hacia la izquierda, sin abrir la boca, ¿cómo se llama esta acción? Pero de ninguna manera. Sin lugar a dudas, por la razón de que tal movimiento generalmente no es característico de una persona. Usando los algoritmos discutidos, el robot verá algo, pero ¿cuál es el punto? En la base de las muestras iniciales, el nombre deseado estará ausente y será difícil nombrar la acción registrada del robot. Y para dar formulaciones verbales detalladas a acciones sin nombre, así como a otros conceptos abstractos, los algoritmos de reconocimiento de imágenes no están entrenados.
De hecho, tenemos un duplicado del primer párrafo, no solo con respecto a los objetos, sino también a los conceptos abstractos. Sin embargo, el resto de los párrafos, anterior y siguiente, también pueden vincularse a conceptos abstractos: solo presto atención al aumento del nivel de complejidad cuando trabajo con abstracciones.
VI.Sexto, una relación causal.
Imagina que estás viendo una camioneta volando fuera de la carretera y derribando una cerca. La razón por la que se derriba la cerca es el movimiento de recolección y, a su vez, el movimiento de recolección resulta en la demolición de la cerca.
- ¡Lo vi con mis propios ojos!Esta es la respuesta a la pregunta de si vio lo que sucedió o pensó en ello. ¿Y qué viste realmente?
Algunos elementos en tal dinámica:
- una camioneta salió de la carretera
- la camioneta se acercó a la cerca,
- La cerca ha cambiado de forma y ubicación.
Según la percepción visual, el robot debe darse cuenta de que, en el caso habitual, las cercas no cambian de forma ni de ubicación: aquí esto sucedió como resultado del contacto con la camioneta. La causa del sujeto y el efecto del sujeto deben estar en contacto entre sí, de lo contrario la causalidad está ausente en su relación.
Aunque aquí caemos en una trampa lógica, porque otros objetos pueden contactar con el sujeto-consecuencia, no solo el sujeto-razón.
Suponga que, en el momento de la recolección, golpee la grajilla en la cerca. Una camioneta y una grajilla estuvieron en contacto con la cerca al mismo tiempo: ¿cómo determinar el resultado de qué contacto se demolió la cerca?
Probablemente usando repetibilidad:
- si en cada caso, cuando una grajilla se sienta en la cerca, la cerca se demuele, la grada tiene la culpa;
- si en cada caso cuando una camioneta choca contra la cerca, la culpa es de la camioneta.
Por lo tanto, la conclusión de que la cerca fue demolida por una camioneta no es exactamente una observación, sino el resultado de un análisis basado en la observación de objetos en contacto.
Por otro lado, la acción puede llevarse a cabo a distancia, por ejemplo, la acción de un imán sobre un objeto de hierro. ¿Cómo adivina el robot que acercar un imán a un clavo hace que el clavo se precipite hacia el imán? La imagen visual no es así:
- el imán se acerca, pero no está en contacto con la uña,
- En el mismo instante, el clavo se precipita hacia el imán por iniciativa propia y entra en contacto con él.
Como puede ver, es muy difícil rastrear las relaciones causa-efecto, incluso en los casos en que el testigo declara con firme convicción que lo vio con sus propios ojos. Los algoritmos de reconocimiento de imagen son impotentes aquí.
VII.Séptimo y último, esta es la elección de los objetivos de percepción visual.
La imagen visual circundante puede consistir en cientos y miles de objetos anidados entre sí, muchos de los cuales cambian constantemente su posición espacial y otras características. Obviamente, el robot no necesita percibir cada brizna de hierba en el campo, sin embargo, como todas las caras en una calle de la ciudad: solo necesita percibir lo importante, dependiendo de las tareas realizadas.
Obviamente, ajustar el algoritmo de reconocimiento de imagen a la percepción de algunos objetos e ignorar otros no funcionará, ya que puede que no se sepa de antemano a qué prestar atención y a qué ignorar, especialmente porque los objetivos actuales pueden cambiar en el camino. Puede surgir una situación cuando primero necesita percibir muchos miles de objetos anidados entre sí, literalmente cada uno de ellos, para analizar y solo luego emitir un veredicto sobre qué objetos son esenciales para resolver el problema actual y cuáles no son de interés. Así es como la persona percibe el mundo a su alrededor: solo ve lo importante, sin prestar atención a los eventos de fondo poco interesantes. Cómo lo logra es un secreto.
¿Y el robot, incluso equipado con los algoritmos de reconocimiento de imagen más modernos e ingeniosos? Si, durante un ataque de extraterrestres marcianos, comienza un informe con informes meteorológicos y continúa con una descripción del nuevo paisaje extendido frente a él, es posible que no tenga tiempo para informar el ataque en sí.
Conclusiones- El simple reconocimiento de imágenes visuales no reemplazará a los ojos humanos.
- Los algoritmos de reconocimiento de imagen son una herramienta auxiliar con un alcance muy limitado.
- Para que un robot comience no solo a pensar, sino al menos a verlo humanamente, se requieren algoritmos no solo para el reconocimiento de patrones, sino también para el mismo pensamiento humano completo e inalcanzable.