¿Qué es el aprendizaje automático automatizado (AutoML)?

¿Qué es el aprendizaje automático de máquinas (AutoML) y
¿Va a quitar a los científicos de datos?


Desde el comienzo de la aparición de las herramientas automáticas de aprendizaje automático (AutoML), como Google AutoML, los expertos han estado discutiendo la cuestión de si están listas para la integración y aplicación corporativas completas. La descripción de la herramienta AutoML establece que todos pueden asumir el papel de un "científico de datos", capaces de crear modelos de aprendizaje automático listos para uso industrial sin la formación técnica tradicionalmente necesaria.



Aunque es cierto que los procesos automatizados de aprendizaje automático están cambiando las formas en que las empresas pueden realizar tareas de análisis de datos, la tecnología aún no está lista para dejar a los especialistas en datos sin trabajo. Una de las principales afirmaciones de la tecnología es que los modelos creados automáticamente tienen una calidad similar y se producen lo antes posible en comparación con el modelo equivalente creado por un grupo de investigadores de datos.


Aunque los modelos AutoML son más rápidos de crear, solo son efectivos si el problema que buscan es constante y recurrente. La mayoría de los modelos AutoML funcionan bien y logran una calidad constante en estas condiciones; pero cuanto más complejo es el problema de los datos, se requiere una intervención más especializada para comprender qué ha lanzado el sistema AutoML y convertirlo en algo útil. Para comprender algunas de estas limitaciones, veamos el proceso de AutoML con más detalle.



Las herramientas AutoML simplifican el procesamiento de datos al hacer todo lo posible utilizando la información existente. El proceso consta de tres etapas principales:


La primera etapa incluye la "extracción" de información, que ayuda a aumentar la productividad de los modelos generados, creando información adicional para el estudio. Esto lleva mucho tiempo, porque un especialista en análisis de datos necesita identificar manualmente las relaciones entre los elementos de datos y desarrollar formas de presentar la información como campos de datos adicionales que la máquina puede usar para la capacitación, así como decidir sobre la integridad de los datos para construir un modelo .


Este es un paso importante, ya que estos datos adicionales a menudo significan la diferencia entre un modelo inadecuado y un modelo excelente. AutoML está programado para usar una gama limitada de métodos de descubrimiento de datos, generalmente de tal manera que satisfaga el problema de datos "promedio", limitando el rendimiento final del modelo, ya que no puede usar el conocimiento de una PYME específica (pequeña y mediana empresa), que puede ser importante para el éxito y que un especialista en datos puede usar en su trabajo.


Muchos problemas de datos comienzan con un esfuerzo mental significativo para seleccionar los datos a representar en el algoritmo. La transferencia de todos los datos que tiene en el sistema puede conducir a un modelo que no coincide con los parámetros, ya que los datos generalmente contienen muchas señales diferentes, a menudo en conflicto, que deben ser dirigidas y modeladas individualmente.


Esto es especialmente cierto con respecto al fraude, cuando diferentes regiones geográficas, canales de pago, etc. tienen tipos muy diferentes de fraude. Los intentos de descubrir manualmente estos patrones y diseñar los conjuntos de datos apropiados para garantizar una detección precisa aún no están automatizados. El uso de un enfoque automatizado multipropósito para este problema es actualmente imposible debido a la enorme complejidad de tal evento.


La siguiente etapa es la generación de modelos. Los modelos con diferentes configuraciones se crean y se entrenan utilizando datos de la etapa anterior. Esto es muy importante porque es casi imposible usar la configuración predeterminada para cada problema y obtener los mejores resultados.


En este punto, los sistemas AutoML tienen una ventaja sobre los expertos en datos porque pueden crear una gran cantidad de modelos de prueba en muy poco tiempo. La mayoría de los sistemas AutoML se esfuerzan por ser universales y producir solo redes neuronales profundas, que pueden ser redundantes para muchas tareas, cuando un modelo simple, como la regresión logística o los árboles de decisión, puede ser más adecuado y beneficiarse de la optimización de hiperparámetros.


La etapa final es una prueba de rendimiento masivo y la elección del mejor intérprete. Es en esta etapa que se requiere trabajo manual, sobre todo porque es extremadamente importante que el usuario seleccione el modelo adecuado para la tarea. Es inútil tener un modelo de riesgo de fraude que identifique el 100% de los casos de fraude, pero cuestiona cada autorización.


En el proceso manual actual, los especialistas en datos trabajan con las PYME para comprender los datos y desarrollar funciones efectivas de datos descriptivos. Este importante vínculo entre las PYME y el especialista en datos falta en AutoML general. Como se describió anteriormente, el proceso intenta generar automáticamente estos modelos a partir de lo que la herramienta puede detectar en los datos, lo que puede ser inapropiado, lo que resulta en modelos ineficientes. Los futuros sistemas AutoML deben diseñarse teniendo en cuenta esta y otras limitaciones para crear modelos de alta calidad de acuerdo con los estándares desarrollados por expertos.


El futuro de AutoML


AutoML continúa evolucionando, y los principales proveedores actuales de AutoML (Google y Microsoft) han realizado mejoras significativas. Estos desarrollos se centraron principalmente en aumentar la velocidad de generación de modelos confeccionados, y no en cómo mejorar la tecnología para resolver problemas más complejos (por ejemplo, detectar fraudes e intrusiones en la red), donde AutoML puede ir más allá que un especialista en datos.


A medida que las soluciones de AutoML continúan evolucionando y expandiéndose, se pueden automatizar procesos manuales más complejos. Los sistemas modernos de AutoML funcionan muy bien con imágenes y voz porque AutoML tiene conocimiento empresarial incorporado para hacer estas tareas tan bien. Los futuros sistemas AutoML tendrán la oportunidad de que los usuarios comerciales ingresen sus conocimientos para ayudar a la máquina a crear automáticamente modelos muy precisos.


Además de eso, las tuberías de datos complejas se ordenarán cada vez más, y la adición de una gran cantidad de varios algoritmos para la optimización ampliará aún más los posibles problemas que los científicos que trabajan con datos ciudadanos pueden resolver.


Aunque muchas tareas de procesamiento de datos se automatizarán, permitirá a los científicos realizar tareas personalizadas para el negocio; estimulando aún más la innovación y permitiendo a las empresas centrarse en las áreas más importantes de generación de ingresos y crecimiento empresarial.

Source: https://habr.com/ru/post/449260/


All Articles