Según algunos parámetros, la visión artificial es superior a la humana. Según otros, quizás nunca nos alcance.

Cuando los ingenieros decidieron enseñar a las computadoras a ver por primera vez, dieron por sentado que las computadoras verían todo igual que la gente. Las primeras sugerencias para la visión por computadora de la década de 1960 fueron "aparentemente motivadas por las características de la visión humana", dijo
John Tsotsos , científico informático de la Universidad de York.
Desde entonces, mucho ha cambiado.
La visión por computadora ha superado la etapa de los castillos en el aire y se ha convertido en un área en desarrollo activo. Hoy en día, las computadoras están por delante de las personas en algunas tareas de reconocimiento de patrones, por ejemplo, en la clasificación de imágenes ("¿perro o lobo?") O en la detección de anomalías en fotografías médicas. Y el proceso de procesamiento de datos visuales por "redes neuronales" es cada vez más diferente del proceso utilizado por las personas.
Las computadoras nos vencieron en nuestro propio juego, jugando según otras reglas.
Las redes neuronales subyacentes a la visión por computadora son bastante simples. Reciben una imagen de entrada y la procesan en varias etapas. Primero reconocen los píxeles, luego las caras y los contornos, luego los objetos completos, y al final dan un presentimiento sobre lo que se deslizaron. Estos sistemas se denominan redes neuronales de distribución directa porque su funcionamiento es similar al de un transportador.
No sabemos mucho sobre la visión humana, pero sabemos que no funciona así. En nuestra historia reciente, "El
modelo matemático revela los secretos de la visión ", describimos un nuevo modelo matemático que intenta explicar el misterio principal de la visión humana: cómo la corteza visual del cerebro recrea representaciones vívidas y precisas del mundo basadas en la escasa información que recibe de la retina.
Este modelo supone que la corteza visual puede funcionar debido a una secuencia de bucles de retroalimentación neuronal que procesan pequeños cambios en los datos que provienen del mundo exterior en una amplia gama de imágenes que aparecen antes de nuestra percepción interna. Este proceso de retroalimentación es muy diferente de los métodos de propagación directa con los que trabaja la visión por computadora.
"Este trabajo demuestra cuán compleja es la corteza visual y, en algunos aspectos, diferente" de la visión por computadora, dijo
Jonathan Victor , neurocientífico de la Universidad de Cornell.
Sin embargo, en algunas tareas, la visión por computadora es superior a la humana. Surge la pregunta: ¿es incluso necesario construir esquemas de visión por computadora basados en lo humano?
En cierto sentido, la respuesta será negativa. La información que llega a la corteza visual está limitada por la anatomía: un número relativamente pequeño de nervios conecta la corteza visual con el mundo exterior, lo que limita la cantidad de datos visuales con los que la corteza visual tiene que trabajar. Las computadoras no tienen tales problemas de ancho de banda, por lo que no hay razón para que trabajen con la falta de información.
“Si tuviera una potencia informática infinita y una memoria infinita, ¿tendría que limitar el flujo de información? Probablemente no ”, dijo Tsotsos. Sin embargo, él piensa que descuidar la visión humana es imprudente.
Las tareas de clasificación en las que las computadoras han tenido éxito en estos días son demasiado simples para la visión por computadora, dice. Para resolver con éxito estos problemas, solo necesita encontrar correlaciones en conjuntos de datos masivos. Para tareas más complejas, como examinar un objeto desde diferentes ángulos de visión para reconocerlo (aproximadamente cómo una persona se familiariza con una estatua, eludiéndola desde diferentes lados), tales correlaciones pueden no ser suficientes. Para su correcta ejecución, las computadoras pueden tener que aprender de una persona.
El año pasado,
en una entrevista con nuestra revista, el pionero de la inteligencia artificial,
Judah Pearl, habló de lo mismo en un contexto más general, argumentando que el entrenamiento de correlación no sería suficiente para el desarrollo de sistemas de IA a largo plazo.
Por ejemplo, una característica clave de la visión humana es una reacción tardía. Procesamos información visual y llegamos a la conclusión de lo que vemos. Cuando esta conclusión no nos conviene, observamos lo que está sucediendo nuevamente y, a menudo, esta segunda mirada nos dice con mayor precisión lo que está sucediendo. Los sistemas de visión por computadora que funcionan de acuerdo con el esquema de distribución directa no tienen esa oportunidad, por lo que a menudo fallan miserablemente incluso en las tareas más simples de reconocimiento de patrones.
La visión humana tiene otro aspecto menos obvio y más importante del que carece la visión por computadora.
El sistema visual humano ha ido mejorando a lo largo de los años. En
el trabajo de 2019 , que Tsotsos escribió con sus colegas, se descubrió que la capacidad de suprimir el ruido en una escena saturada de detalles y enfocarse en lo que necesitan aparece en las personas solo a la edad de aproximadamente 17 años. Otros investigadores han descubierto que la capacidad de reconocer rostros mejora constantemente hasta 20 años.
Los sistemas de visión por computadora funcionan al digerir grandes cantidades de datos. La arquitectura subyacente es fija y no cambia con el tiempo como sucede en el cerebro. Y si los mecanismos de aprendizaje subyacentes son tan diferentes, ¿los resultados serán diferentes? Tsotsos cree que el sistema de visión por computadora al final está esperando el ajuste de cuentas.
"Aprender de estos métodos de aprendizaje profundo está lo más lejos posible del aprendizaje humano", dijo. "Por lo tanto, me parece que les espera un callejón sin salida". Llegarán al límite del desarrollo más allá del cual ya no pueden ir ".