Este artículo es mi recuento gratuito de Learnability puede ser indecidible, Shai Ben-David, et al.
Recientemente en Habré, el artículo El aprendizaje automático se enfrentó a un problema matemático no resuelto , que es una traducción del artículo de Shay Ben-David en el artículo de Nature News del mismo nombre. Sin embargo, debido a la naturaleza del tema y la brevedad de la revisión original, me quedó completamente incomprensible lo que había en el artículo. Al conocer a Shai Ben-David como el autor del excelente libro "Comprender el aprendizaje automático: de la teoría a los algoritmos", me interesé en este tema, me familiaricé con este trabajo e intenté esbozar los puntos principales aquí.
Debo decir de inmediato que el artículo es bastante complicado y, tal vez, me perdí algunos puntos importantes, pero mi revisión será más completa que la que ya está en Habré.
Algunas palabras sobre el aprendizaje PAC en general
Lo primero que me confundió en una revisión de Nature News fue que el problema de aprendizaje en sí mismo se presentaba como algo completamente nuevo. De hecho, este es un problema largo y relativamente bien estudiado.
Algunos conceptos básicos para aquellos que no están familiarizados con la pregunta.El riesgo es una función de - el valor real y predicho de la variable objetivo, que refleja cuán equivocados estábamos en nuestra predicción. Un valor más bajo refleja un error más pequeño. El ejemplo más simple para un problema de clasificación es una función de indicador. . Para la regresión, esta será la desviación estándar. . Obviamente, puede haber opciones más complejas. Otro nombre para este concepto es la función de pérdida.
Riesgo promedio : el valor de riesgo promedio en todo el espacio de datos de entrada. Debido al hecho de que dicho espacio suele ser infinito (por ejemplo, para características reales) o exponencialmente grande (por ejemplo, un espacio de imágenes de tamaño 1024x1024 y valores de píxeles de 0 a 255), no podemos estimar directamente este valor. Sin embargo, existen métodos para estimar esta cantidad en los que no entraremos ahora. Es este indicador el que finalmente queremos minimizar. A veces, este indicador también se denomina error de generalización.
El riesgo empírico es el valor promedio del riesgo en un determinado conjunto de datos empíricos seleccionado de todo el espacio de datos de entrada. Por lo general, nuestros algoritmos de aprendizaje automático están involucrados en minimizar este valor.
La tarea del aprendizaje automático es crear una solución (función) basada en el conjunto de datos empíricos disponibles que proporcionaría un valor mínimo de riesgo promedio.
Existe una teoría del aprendizaje probablemente casi correcto (Probablemente un aprendizaje aproximadamente correcto, PAC ).
Definición simplificada de un algoritmo de aprendizaje automático entrenado en PACAlgoritmo A que construye, usando una muestra empírica X de tamaño n, alguna función h que restaura el valor de la variable objetivo es entrenada por PAC si es por algún umbral y confianza la muestra de entrenamiento n tiene tal tamaño que para la función que se aprendió en ella, se cumple la siguiente condición: la probabilidad de que el valor de riesgo promedio exceda menos de .
Podemos entenderlo de esta manera: después de haber seleccionado algunos de nuestros requisitos para la función h , desde el punto de vista de su valor de riesgo medio, sabremos que existe tal tamaño del conjunto de datos (seleccionado, obviamente, de forma independiente y aleatoria de todo el espacio) que al aprender sobre él Alcanzaremos estos requisitos.
Esta teoría se remonta a los años 80 del siglo pasado. Sin embargo, no proporciona ningún indicador medible que refleje la capacidad de aprendizaje de un algoritmo. Pero esa respuesta la da la teoría del aprendizaje estadístico ( teoría VC ) ya desarrollada por V. Vapnik y A. Chervonenkis. Esta teoría se basa en un indicador numérico de dimensión VC. La dimensión VC es una estimación combinatoria del tamaño máximo de datos que el algoritmo puede dividir en dos partes de todas las formas posibles.
EjemploSupongamos que tenemos un algoritmo que construye un hiperplano de separación en un espacio n-dimensional. Considere un espacio unidimensional: dos puntos en dicho espacio siempre se pueden dividir, pero tres ya no se pueden dividir, lo que significa que VC = 2. Considere un espacio bidimensional: tres puntos siempre se dividen en dos clases, pero cuatro puntos no se pueden dividir por todos los medios posibles, entonces VC = 3.
De hecho, se puede demostrar estrictamente que VC para una clase de hiperplanos en un espacio n-dimensional es .
El teorema principal de la teoría VC, en una de las posibles formulaciones, prueba el hecho de que si la dimensión VC del algoritmo es finita, entonces está entrenada en PAC. Además, la dimensión VC es un indicador de la rapidez con que al aumentar el tamaño de la muestra empírica el valor del riesgo empírico converge con el valor del riesgo promedio.
Por lo tanto, el problema del aprendizaje automático de los algoritmos de aprendizaje automático per se está relativamente bien estudiado y tiene una base matemática rigurosa.
¿Cuál es, entonces, el tema de un artículo en Nature?
Los autores escriben que el problema con la teoría PAC, basada en varias dimensiones de dimensión, es que no es universal.
Varios indicadores de dimensión de la teoría PAC Los autores dan un ejemplo interesante de un problema cuya declaración en sí está diseñada para que el éxito no pueda formularse como PAC-learning. Los autores escriben:
Imagine que tenemos un sitio de Internet en el que mostramos anuncios. Defina X como el conjunto de todos los visitantes potenciales a este sitio. La publicidad se selecciona de un determinado grupo de publicidad. Condicionalmente, suponga que cada anuncio del grupo está dirigido a alguna categoría de usuarios: anuncios deportivos para fanáticos de los deportes, etc. La tarea es colocar exactamente el tipo de publicidad que sea más relevante para los visitantes del sitio .
El problema aquí es que no sabemos realmente quién visitará el sitio en el futuro. Para resumir, la declaración de tal problema se puede describir de la siguiente manera:
Tener un conjunto de características sobre el set encontrar tal función para que sea métrica sobre la distribución desconocida Fue máximo. Además, es necesario encontrar dicha función basada en un conjunto limitado de cantidades independientes idénticamente distribuidas de
Entrenamiento EMX
Shai Ben-David y sus colegas presentan un nuevo concepto: E estimula el M a X imum (aprendizaje EMX), que solo proporciona criterios de aprendizaje para tales problemas de maximización:
Para conjunto de características , conjuntos de entrada y distribución desconocida para cualquier número funcion es -Entrenado en EMX para cualquier distribución :
Esta definición de aprendizaje es indudablemente más general que el concepto de PAC.
Entonces, ¿dónde tiene que ver el continuo y el "problema no resuelto de las matemáticas"?
Los autores prueban el siguiente teorema:
Rotación de EMX con respecto independiente del sistema de axioma Zermelo - Frenkel con el axioma de elección (en adelante ZFC).
En otras palabras, usando axiomas matemáticos estándar, en el caso general no podemos probar la posibilidad de encontrar una solución al problema de aprendizaje de EMX o probar la imposibilidad de encontrar esta solución.
Los autores también muestran que para el caso general del aprendizaje EMX, no existe un análogo de la dimensión VC (o cualquier otra dimensión) que sería finito en el caso de la mensurabilidad EMX, y viceversa, la capacidad de aprendizaje EMX se derivaría de su finitud. Más estrictamente lo tienen formulado de la siguiente manera:
Hay una constante que si asumimos la consistencia de ZFC, entonces no existe tal propiedad que para algunos $ en línea $ m, M> c $ en línea $ para cualquier y conjunto de características se realizaría:
- Si cierto entonces complejidad del aprendizaje EMX no excede M;
- Si falso entonces complejidad del aprendizaje EMX al menos m;
Por el contrario, esto es cierto para, por ejemplo, la dimensión VC, ya que para igual será esencialmente una formulación del teorema principal de la teoría VC.
Conclusión
El mensaje del trabajo está, de hecho, poco relacionado con los problemas prácticos del aprendizaje automático, o incluso con las cuestiones teóricas de la teoría del aprendizaje estadístico. Me pareció que hay dos pensamientos principales en el trabajo:
- Una hermosa conexión entre el aprendizaje EMX y los teoremas de Gödel;
- La imposibilidad fundamental de crear una caracterización universal del aprendizaje (como la dimensión VC) para la clase general de problemas de aprendizaje automático.
Al mismo tiempo, personalmente no me gusta por completo el encabezado "El aprendizaje automático ha encontrado un problema matemático no resuelto", utilizado en la traducción de una revisión de este artículo . En mi opinión, este es un clickbait absoluto, además, simplemente no corresponde a la realidad. El trabajo original no significa que alguien se topó con algo. El aprendizaje automático y la teoría PAC funcionaron y continúan funcionando. Se señala que la teoría PAC no se puede generalizar a algunas afirmaciones particulares del problema del aprendizaje automático, se encuentran conexiones interesantes con los teoremas de Gödel, pero ni una palabra sobre algún problema no resuelto que el aprendizaje automático ha encontrado.