Las limitaciones fundamentales del aprendizaje automático

imagen

Recientemente, mi tía envió correos electrónicos a sus colegas con el tema "¡problema matemático! ¿Cuál es la respuesta correcta? La carta tenía un acertijo engañosamente simple:

1 + 4 = 5
2 + 5 = 12
3 + 6 = 21
8 + 11 =?

Para ella, la decisión era obvia. Pero sus colegas decidieron que su decisión fue correcta, lo que no coincidió con su decisión. ¿Era el problema con una de sus respuestas, o con el rompecabezas en sí?

Mi tía y sus colegas se toparon con el problema fundamental del aprendizaje automático, una disciplina que estudia el aprendizaje de las computadoras. Casi toda la capacitación que esperamos de las computadoras, y que hacemos nosotros mismos, consiste en reducir la información a las leyes básicas sobre la base de las cuales se pueden sacar conclusiones sobre algo desconocido. Y su acertijo era el mismo.

Para una persona, la tarea es buscar cualquier patrón. Por supuesto, nuestra intuición limita el alcance de nuestras conjeturas. Pero las computadoras no tienen intuición. Desde el punto de vista de una computadora, la dificultad para reconocer patrones es abundante: si hay un número infinito de patrones igualmente legítimos, ¿por qué algunos son correctos y otros no?

Y este problema se ha trasladado recientemente a un plano práctico. Hasta la década de 1990, los sistemas de inteligencia artificial rara vez se dedicaban al aprendizaje automático. Supongamos que una computadora de ajedrez Deep Thought, la predecesora de Deep Blue, no aprendió ajedrez por prueba y error. En cambio, los grandes maestros de ajedrez y los magos de programación crearon cuidadosamente las reglas por las cuales uno podría determinar si una posición de ajedrez era buena o mala. Este meticuloso ajuste manual era típico de los "sistemas expertos" de la época.

Para abordar el misterio de mi tía utilizando el enfoque de sistemas expertos, es necesario que una persona entrecierre las tres primeras filas de ejemplos y observe el siguiente patrón en ellos:

1 * (4 + 1) = 5

2 * (5 + 1) = 12

3 * (6 + 1) = 21

Entonces la persona le indicaría a la computadora que siga el patrón x * (y + 1) = z. Aplicando esta regla al último resultado, obtenemos una solución: 96.

A pesar de los primeros éxitos de los sistemas expertos, el trabajo manual requerido para desarrollarlos, ajustarlos y actualizarlos se volvió abrumador. En cambio, los investigadores llamaron la atención sobre el desarrollo de máquinas que pueden reconocer patrones por sí mismos. El programa podría, por ejemplo, examinar mil fotografías o transacciones de mercado y derivar de ellas señales estadísticas correspondientes a la persona en la foto o un aumento en los precios de mercado. Este enfoque rápidamente se hizo dominante, y desde entonces ha estado en el centro de todo, desde la clasificación automática de correo y el filtrado de spam hasta la detección de fraudes con tarjetas de crédito.

Pero, a pesar de todos los éxitos, estos sistemas MO requieren un programador en algún lugar del proceso. Toma como ejemplo el enigma de mi tía. Asumimos que en cada línea hay tres componentes significativos (tres números en una línea). Pero hay un cuarto elemento potencial: el resultado de la línea anterior. Si esta propiedad de cadena es válida, aparece otro patrón plausible:

0 + 1 + 4 = 5

5 + 2 + 5 = 12

12 + 3 + 6 = 21

Según esta lógica, la respuesta final debería ser 40.

¿Qué regularidad es verdadera? Naturalmente, ambos, y ninguno de ellos. Todo depende de qué patrones son permisibles. Puede, por ejemplo, construir un patrón tomando el primer número, multiplicándolo por el segundo, sumando un quinto de la suma de la respuesta anterior y tres, y redondeándolo todo al entero más cercano (muy extraño, pero funciona). Y si permitimos el uso de propiedades relacionadas con la aparición de números, quizás haya una secuencia asociada con serifs y líneas. La búsqueda de patrones depende de los supuestos del observador.

Lo mismo es cierto para MO. Incluso cuando las máquinas se entrenan, las personas eligen los patrones preferidos: ¿el software de reconocimiento facial debe contener reglas explícitas si / entonces, o debe considerar cada característica como evidencia adicional a favor o en contra de cada persona posible a la que pertenece? ¿Qué características de la imagen debe manejar el software? ¿Necesita trabajar con píxeles individuales? ¿O tal vez con los bordes entre las áreas claras y oscuras? La elección de tales opciones limita qué patrones el sistema considera probable o incluso posible. La búsqueda de esta combinación ideal se ha convertido en el nuevo trabajo de especialistas en el Ministerio de Defensa.

imagen

Pero el proceso de automatización no se detuvo allí. Así como los programadores alguna vez fueron torturados para escribir las reglas de trabajo, ahora son reacios a desarrollar nuevas funciones. "¿No sería bueno si la computadora misma pudiera descubrir qué características necesitaba?" Así que desarrollaron una red neuronal de aprendizaje profundo, una tecnología de MO que puede sacar conclusiones independientes sobre propiedades de alto nivel basadas en información más simple. Alimente un conjunto de píxeles a una red neuronal, y aprenderá a tener en cuenta los bordes, las curvas, las texturas, y todo esto sin instrucciones directas.

Y así, los programadores perdieron sus trabajos debido a One Algorithm, To Edit Everyone?

Aún no Las redes neuronales aún no son ideales para ninguna tarea. Incluso en los mejores casos, tienen que ser ajustados. Una red neuronal consiste en capas de "neuronas", cada una de las cuales realiza cálculos basados ​​en los datos de entrada y envía el resultado a la siguiente capa. Pero, ¿cuántas neuronas se necesitarán y cuántas capas? ¿Debería cada neurona recibir información de cada neurona del nivel anterior, o algunas neuronas deberían ser más selectivas? ¿Qué transformación debe realizar cada neurona en los datos de entrada para producir el resultado? Y así sucesivamente.

Estos problemas limitan los intentos de aplicar redes neuronales a nuevas tareas; Una red neuronal que reconoce perfectamente los rostros es completamente incapaz de traducción automática. Y nuevamente, los elementos estructurales elegidos por el hombre claramente empujan la red hacia ciertas leyes, alejándola de otras. Una persona conocedora entiende que no todas las leyes son iguales. Los programadores no se quedarán sin trabajo.

Por supuesto, el siguiente paso lógico serán las redes neuronales, adivinando independientemente cuántas neuronas deberían incluirse, qué conexiones usar, etc. Los proyectos de investigación sobre este tema han estado en curso durante muchos años.

¿Hasta dónde puede llegar? ¿Los automóviles aprenderán a trabajar solos tan bien que la sintonización externa se convertirá en una reliquia anticuada? En teoría, uno puede imaginar un estudiante universal ideal, uno que pueda resolver todo por sí mismo y siempre elija el mejor esquema para la tarea elegida.

Pero en 1996, el especialista en informática David Walpert demostró la imposibilidad de tal estudiante. En sus famosos "teoremas sobre la ausencia de comidas gratis", demostró que para cualquier patrón que el estudiante esté bien entrenado, hay un patrón que estudiará terriblemente. Esto nos devuelve al misterio de mi tía, al número infinito de patrones que pueden surgir de los datos finitos. La elección de un algoritmo de entrenamiento significa la selección de patrones con los cuales la máquina se las arreglará mal. Quizás todas las tareas, por ejemplo, el reconocimiento de patrones, eventualmente caigan en un algoritmo integral. Pero ningún algoritmo de aprendizaje puede aprender todo igualmente bien.

Esto hace que el aprendizaje automático parezca un cerebro humano. Aunque nos encanta considerarnos inteligentes, nuestro cerebro tampoco estudia a la perfección. Cada parte del cerebro está cuidadosamente ajustada por la evolución para reconocer ciertos patrones, ya sea lo que vemos, el lenguaje que escuchamos o el comportamiento de los objetos físicos. Pero no nos está yendo tan bien con la búsqueda de patrones en el mercado de valores; Aquí las máquinas nos ganaron.

La historia del aprendizaje automático tiene muchos patrones. Pero lo más probable será lo siguiente: entrenaremos máquinas para aprender durante muchos años más.

Source: https://habr.com/ru/post/es406511/


All Articles