Limitaciones de aprendizaje automático

Hola Habr! Les presento la traducción del artículo "Las limitaciones del aprendizaje automático" de Matthew Stewart.

La mayoría de las personas que leen este artículo probablemente estén familiarizadas con el aprendizaje automático y los algoritmos correspondientes utilizados para clasificar o predecir resultados basados ​​en datos. Sin embargo, es importante comprender que el aprendizaje automático no es la solución a todos los problemas. Dada la utilidad del aprendizaje automático, puede ser difícil aceptar que a veces esta no es la mejor solución para el problema.


El aprendizaje automático es una rama de la inteligencia artificial que revolucionó el mundo tal como lo conocemos en la última década. La explosión de la información ha llevado a la recopilación de grandes cantidades de datos, especialmente por parte de grandes empresas como Facebook y Google. Esta cantidad de datos, combinada con el rápido desarrollo de la potencia del procesador y la paralelización de la computadora, hace que sea relativamente fácil recibir y estudiar grandes cantidades de datos.

Hoy en día, la hipérbole del aprendizaje automático y la inteligencia artificial es omnipresente. Quizás esto sea correcto, dado que el potencial para esta área es enorme. En los últimos años, la cantidad de agencias de consultoría de IA ha aumentado y, de hecho, la cantidad de trabajos relacionados con la IA ha aumentado en un 100% entre 2015 y 2018.

A partir de diciembre de 2018, Forbes descubrió que el 47% de las empresas tienen al menos una capacidad para usar la inteligencia artificial en sus procesos comerciales, y el informe de Deloitte dice que la tasa de penetración del software empresarial con inteligencia artificial integrada y servicios de desarrollo de inteligencia artificial basados ​​en la nube alcanzará aproximadamente 87 y 83 por ciento respectivamente. Estos números son impresionantes: si planeas cambiar tu carrera en el futuro cercano, la IA parece ser una buena área.

Todo parece hermoso, ¿verdad? Las empresas están contentas, y los consumidores aparentemente también están contentos, de lo contrario las empresas no usarían IA.

Es genial, y también soy un gran fanático del aprendizaje automático y la inteligencia artificial. Sin embargo, hay momentos en que el uso del aprendizaje automático simplemente no es necesario, no tiene sentido, y a veces cuando la implementación puede generar dificultades.

Límite 1 - Ética


Es fácil entender por qué el aprendizaje automático ha tenido un impacto tan profundo en el mundo, pero lo que está menos claro es cuáles son exactamente sus capacidades y, lo que es más importante, cuáles son sus limitaciones. Yuval Noah Harari, como saben, acuñó el término "datismo", que se refiere a la nueva etapa propuesta de civilización, en la que ingresamos cuando confiamos en algoritmos y datos más que en nuestro propio juicio y lógica.

Aunque esta idea puede parecer ridícula, recuerde la última vez que se fue de vacaciones y siguió las instrucciones del GPS y no sus propios juicios sobre el mapa: ¿cuestiona la calificación del GPS? La gente literalmente condujo a los lagos porque seguían ciegamente las instrucciones de su GPS.

La idea de confiar en datos y algoritmos más de lo que creemos tiene sus pros y sus contras. Obviamente, nos beneficiamos de estos algoritmos, de lo contrario no los usaríamos en primer lugar. Estos algoritmos nos permiten automatizar procesos al realizar juicios informados utilizando los datos disponibles. A veces, sin embargo, esto significa reemplazar el trabajo de otra persona con un algoritmo que tiene consecuencias éticas. Además, ¿a quién culpamos si algo sale mal?

El caso más discutido hoy en día es el de autos sin conductor: ¿cómo decidimos cómo debe reaccionar el vehículo en caso de una colisión fatal? ¿Tendremos la oportunidad en el futuro de elegir el marco ético para la compra que seguiría nuestro automóvil sin conductor?

¿Quién tiene la culpa si mi auto sin conductor mata a alguien en el camino?

Aunque todas estas son preguntas fascinantes, no son el objetivo principal de este artículo. Sin embargo, es obvio que el aprendizaje automático no puede decirnos nada sobre qué valores normativos debemos adoptar, es decir, cómo debemos actuar en esta situación.

Límite 2 - Problemas deterministas


Esta es una limitación con la que personalmente tuve que lidiar. Mi área de especialización es la ciencia ambiental, que se basa en gran medida en el modelado por computadora y el uso de sensores / dispositivos IoT.

El aprendizaje automático es increíblemente efectivo para los sensores y puede usarse para calibrar y ajustar sensores cuando está conectado a otros sensores que miden variables ambientales como la temperatura, la presión y la humedad. Las correlaciones entre las señales de estos sensores se pueden utilizar para desarrollar procedimientos de autocalibración, y este es un tema candente en mi investigación en química atmosférica.

Sin embargo, las cosas se ponen un poco más interesantes cuando se trata de modelado por computadora.

Ejecutar modelos de computadora que simulan el clima global, las emisiones del planeta y la transferencia de estas emisiones son muy costosas computacionalmente. De hecho, es tan difícil computacionalmente que modelar a nivel de investigación puede llevar varias semanas incluso cuando se trabaja en una supercomputadora.

Buenos ejemplos de esto son MM5 y WRF, que son modelos numéricos de predicción del clima que se utilizan para la investigación del clima y para proporcionarle pronósticos meteorológicos en las noticias de la mañana. Me pregunto qué harán los meteorólogos todo el día. Corre y aprende estos modelos.

Trabajar con modelos meteorológicos es bueno, pero ahora que tenemos aprendizaje automático, ¿podemos usarlo para obtener nuestros pronósticos meteorológicos? ¿Podemos usar datos de satélites, estaciones meteorológicas y usar un algoritmo de pronóstico elemental para determinar si lloverá mañana?

La respuesta es, sorprendentemente, sí. Si tenemos información sobre la presión del aire alrededor de una determinada región, los niveles de humedad en el aire, la velocidad del viento y la información sobre los puntos vecinos y sus propias variables, entonces es posible entrenar, por ejemplo, una red neuronal. ¿Pero a qué costo?

El uso de una red neuronal con miles de entradas le permite determinar si lloverá mañana en Boston. Sin embargo, el uso de una red neuronal omite toda la física del sistema meteorológico.

El aprendizaje automático es estocástico, no determinista.
Una red neuronal no comprende la segunda ley de Newton, o esa densidad no puede ser negativa: no hay limitaciones físicas.

Sin embargo, esto no puede ser una limitación por mucho tiempo. Ya hay una serie de investigadores que están considerando agregar restricciones físicas a las redes neuronales y otros algoritmos para que puedan usarse para fines como este.

Limitación 3 - Datos


Esta es la limitación más obvia. Si alimentas mal el modelo, solo dará malos resultados. Hay dos razones para esto: falta de datos y falta de datos confiables. Si no tiene estos problemas, puede estudiar de forma segura el procesamiento de grandes cantidades de datos en el canal de Telegram de Big Data Books , donde se publican varios libros y recursos sobre Big Data.

Falta de datos


Muchos algoritmos de aprendizaje automático requieren grandes cantidades de datos antes de comenzar a producir resultados útiles. Un buen ejemplo de esto es una red neuronal. Las redes neuronales son máquinas que comen datos y requieren muchos datos de entrenamiento. Cuanto más grande es la arquitectura, más datos se requieren para producir resultados viables. Reutilizar datos es una mala idea, siempre es preferible tener más datos.
Si puede obtener los datos, utilícelos.

Falta de buenos datos


A pesar de la apariencia, esto no es lo mismo que se escribió anteriormente. Imagine que cree que puede hacer trampa al generar diez mil puntos de datos falsos que se colocarán en una red neuronal. ¿Qué sucede cuando insertas esto?

Aprenderá solo, y luego, cuando vengas a probarlo en un nuevo conjunto de datos, no funcionará bien. Tenías los datos, pero la calidad es mejor.
Así como la falta de buenas características puede conducir a un bajo rendimiento de su algoritmo, la falta de buenos datos veraces también puede limitar las capacidades de su modelo. Ninguna empresa va a presentar un modelo de aprendizaje automático que funcione peor que un error humano.

Del mismo modo, la aplicación de un modelo entrenado en un conjunto de datos en una situación puede no necesariamente aplicarse igualmente bien a la segunda situación. El mejor ejemplo de esto que he encontrado hasta ahora es predecir el cáncer de seno.

Las bases de datos de mamografías tienen muchas imágenes, pero tienen un problema grave que ha causado problemas importantes en los últimos años: casi todas las radiografías se tomaron de mujeres blancas. Esto puede no parecer un gran problema, pero de hecho se ha demostrado que las mujeres negras tienen un 42 por ciento más de probabilidades de morir de cáncer de mama debido a una amplia gama de factores, que pueden incluir diferencias en la detección y el acceso a la atención. Por lo tanto, aprender el algoritmo principalmente para las mujeres blancas en este caso afecta negativamente a las mujeres negras.

En este caso particular, se requieren más imágenes de rayos X de pacientes negros en la base de datos de entrenamiento, más signos están relacionados con el aumento del 42% en la probabilidad y el algoritmo es más justo debido a la estratificación del conjunto de datos a lo largo de los ejes correspondientes.

Límite 4 - Mal uso


Con respecto a la segunda limitación discutida anteriormente, se supone que esta es una "crisis de aprendizaje automático en la investigación académica" cuando las personas usan ciegamente el aprendizaje automático para tratar de analizar sistemas que son de naturaleza determinista o estocástica.

Por las razones discutidas en la segunda limitación, la aplicación del aprendizaje automático en sistemas deterministas será exitosa, pero un algoritmo que no estudia la relación entre dos variables y no sabrá cuándo viola las leyes físicas. Acabamos de dar algunas entradas y salidas al sistema y le dijimos que estudiara la relación: así como alguien traduce palabra por palabra de un diccionario, el algoritmo parecerá ser solo una comprensión superficial de la física básica.

Para los sistemas estocásticos (aleatorios), todo es un poco menos obvio. La crisis de aprendizaje automático para sistemas aleatorios se manifiesta de dos maneras:

  • Pirateo
  • Alcance del análisis

p-hacking


Cuando alguien tiene acceso a grandes datos, que pueden tener cientos, miles o incluso millones de variables, es fácil encontrar un resultado estadísticamente significativo (dado que el nivel de significancia estadística requerido para la mayoría de los estudios científicos es p <0.05). Esto a menudo conduce a la detección de correlaciones falsas que generalmente se obtienen mediante p-hacking (mirar a través de montañas de datos hasta que se encuentre una correlación que muestre resultados estadísticamente significativos). Estas no son correlaciones verdaderas, sino simplemente una respuesta al ruido en las mediciones.

Esto llevó al hecho de que los investigadores individuales "captaron" correlaciones estadísticamente significativas a través de grandes conjuntos de datos y las disfrazaron como correlaciones verdaderas. A veces esto es un error inocente (en este caso, el científico debería estar mejor preparado), pero en otros casos esto se hace para aumentar el número de artículos publicados por el investigador, incluso en el mundo de la comunidad científica, la competencia es alta y la gente hará cualquier cosa para mejorar sus métricas.

Alcance del análisis


Existen diferencias significativas en el alcance del análisis para el aprendizaje automático en comparación con el modelado estadístico: el modelado estadístico lo confirma por naturaleza, y el aprendizaje automático es esencialmente investigación.

Podemos considerar análisis confirmatorios y modelos como lo que alguien hace cuando recibe un Ph.D. o en investigación. Imagine que está trabajando con un asesor e intentando desarrollar una base teórica para estudiar cualquier sistema real. Este sistema tiene un conjunto de atributos predefinidos que afecta, y después de diseñar cuidadosamente experimentos y desarrollar hipótesis, puede ejecutar pruebas para determinar la validez de sus hipótesis.

El análisis de investigación, por otro lado, carece de una serie de cualidades asociadas con el análisis confirmatorio. De hecho, en el caso de cantidades realmente enormes de datos e información, los enfoques de soporte se destruyen por completo debido a la enorme cantidad de datos. En otras palabras, es simplemente imposible establecer con precisión el conjunto final de hipótesis comprobables en presencia de millones de signos.

Por lo tanto, y, de nuevo, en términos generales, los algoritmos y enfoques de aprendizaje automático son los más adecuados para la investigación de modelos predictivos y clasificación con grandes cantidades de datos y funciones computacionalmente complejas. Algunos argumentarán que pueden usarse para datos "pequeños", pero ¿por qué hacerlo cuando los métodos estadísticos clásicos y multidimensionales son mucho más informativos?

El aprendizaje automático es un área que resuelve en gran medida los problemas asociados con la tecnología de la información, la informática, etc., puede ser tanto problemas teóricos como aplicados. Como tal, está asociado con áreas como física, matemática, probabilidad y estadística, pero el aprendizaje automático en realidad representa un campo en sí mismo, un campo que no está cargado de problemas planteados en otras disciplinas. Muchas de las soluciones que presentan los expertos y profesionales del aprendizaje automático son terriblemente incorrectas, pero hacen su trabajo.

Limitación 5 - Interpretabilidad


La interpretabilidad es uno de los principales problemas del aprendizaje automático. Una empresa de consultoría de inteligencia artificial que intenta llegar a una empresa que solo utiliza métodos estadísticos tradicionales puede detenerse si no ve el modelo como interpretado. Si no puede convencer a su cliente de que comprende cómo el algoritmo llegó a la decisión que tomó, ¿qué tan probable es que confíe en usted y en su experiencia?

Es más probable que un gerente de negocios acepte recomendaciones de aprendizaje automático si los resultados se explican desde una perspectiva comercial.

Estos modelos como tales pueden quedar sin poder si no pueden ser interpretados, y el proceso de interpretación humana sigue reglas que van mucho más allá del dominio técnico. Por esta razón, la interpretabilidad es una cualidad primordial que los métodos de aprendizaje automático deben lograr si se aplican en la práctica.

En particular, las ciencias en desarrollo en el campo de la física (genómica, proteómica, metabolómica, etc.) se han convertido en el objetivo principal para los investigadores del aprendizaje automático precisamente por su dependencia de bases de datos grandes y no triviales. Sin embargo, sufren de una falta de interpretación de sus métodos, a pesar de su aparente éxito.

Conclusión


Como espero, he explicado claramente en este artículo que existen limitaciones que, al menos en este momento, impiden la solución de todos los problemas de la humanidad. Una red neuronal nunca puede decirnos cómo ser una buena persona, y al menos aún no entender las leyes del movimiento de Newton o la teoría de la relatividad de Einstein.

También existen restricciones fundamentales basadas en la teoría subyacente del aprendizaje automático, llamada teoría del aprendizaje computacional, que son principalmente restricciones estadísticas. También discutimos cuestiones relacionadas con el alcance del análisis y los peligros del pirateo informático, que pueden llevar a conclusiones falsas.
También hay problemas con la interpretabilidad de los resultados, que pueden afectar negativamente a las empresas que no pueden convencer a los clientes e inversores de que sus métodos son precisos y confiables.

El aprendizaje automático y la inteligencia artificial continuarán revolucionando la industria y solo se volverán más comunes en los próximos años. Aunque le recomiendo que haga un uso completo del aprendizaje automático y la inteligencia artificial, también le recomiendo que tenga en cuenta las limitaciones de las herramientas que usa; después de todo, no hay nada ideal.

Source: https://habr.com/ru/post/462365/


All Articles