¡Saludo, Khabrovites! En previsión del lanzamiento de nuevos hilos en los cursos avanzados y básicos "Matemáticas para la ciencia de datos" , queremos compartir con ustedes una traducción bastante interesante. No habrá práctica en este artículo, pero el material es interesante para el desarrollo general y la discusión.
Un grupo de investigadores se enfrentó a un problema matemático abierto asociado con una serie de paradojas lógicas que fueron descubiertas por el famoso matemático austríaco Kurt Gödel en la década de 1930.
Los matemáticos que trabajaron en problemas de aprendizaje automático demostraron que la posibilidad de "aprendizaje", es decir, si el algoritmo puede extraer un patrón de datos limitados, está estrechamente relacionado con la paradoja conocida como la hipótesis del continuo. Gödel dijo que usando las capacidades estándar de un lenguaje matemático, una hipótesis no puede ser confirmada ni refutada. Los últimos hallazgos de investigación sobre este tema se publicaron en
Nature Machine Intelligence el 7 de enero .
"Fue una sorpresa para nosotros", dijo Amir Yehudaev de Technion, el Instituto de Tecnología de Israel en Haif, quien co-escribió el estudio. Dijo que a pesar de una serie de problemas técnicos, que también se conocen como "insolubles", no esperaba que este fenómeno ocurriera en la tarea aparentemente simple del aprendizaje automático.
John Tucker, especialista en informática de la Universidad de Swansea, Reino Unido, dice que este trabajo es "un resultado tangible al borde de nuestro conocimiento", con implicaciones fundamentales para las matemáticas y el aprendizaje automático.
No todos los conjuntos son iguales.
Los investigadores a menudo determinan la capacidad de aprendizaje en términos de si un algoritmo puede generalizar su conocimiento. El algoritmo da la respuesta "sí" o "no", por ejemplo, a la pregunta "¿Hay un gato en la imagen?" Para un número limitado de objetos, y luego debe hacer un pronóstico para nuevos objetos previamente desconocidos para él.
Yehudaev y sus colegas obtuvieron resultados al examinar la relación entre aprender y "exprimir", lo que incluye encontrar una forma de mapear las características de un conjunto de datos grande a un conjunto más pequeño. Los autores descubrieron que la capacidad de la información para comprimirse efectivamente se reduce a la cuestión de la teoría de conjuntos: conjuntos matemáticos de objetos, como los conjuntos en los diagramas de Venn. En particular, esto se aplica a conjuntos de varios tamaños que contienen un número infinitamente grande de objetos.
Georg Cantor, el fundador de la teoría de conjuntos, en la década de 1870 demostró que no todos los conjuntos infinitos son iguales: por ejemplo, el conjunto de enteros es "menor" que el conjunto de todos los números reales, también conocido como el continuo. (Dado que los números reales incluyen números irracionales, así como racionales y enteros). Cantor también sugirió que no hay conjuntos de tamaño intermedio, es decir, más grandes que el conjunto de enteros, pero más pequeños que el continuo. Pero no pudo probar esta hipótesis del continuo, como muchos matemáticos y lógicos, sus seguidores.
Sus esfuerzos fueron en vano. En 1940, Godel realizó un estudio (que fue completado solo en la década de 1960 por el matemático estadounidense Paul Cohen), en el que, utilizando axiomas, demostró que la hipótesis del continuo no puede ser ni verdadera ni falsa.
El trabajo de Gödel y Cohen sobre la hipótesis del continuo admite que puede haber universos matemáticos paralelos que cumplan con las leyes de la matemática estándar: uno en el que la hipótesis del continuo se convierte en un axioma generalmente aceptado, es decir, se declara verdadero y el segundo en el que también se declara falso.
Miembro de aprendizaje
En su último trabajo, Yehudaev y sus colegas definen el aprendizaje como la capacidad de hacer predicciones para un conjunto de datos relativamente grande mediante el muestreo de un pequeño número de puntos de datos. La conexión con el problema de Cantor es que hay infinitas maneras de seleccionar un conjunto más pequeño, pero se desconoce el tamaño de este infinito.
Además, los autores muestran que si la hipótesis del continuo es verdadera, entonces una pequeña muestra es suficiente para la extrapolación. Pero si es falso, entonces no puede haber una muestra finita que sea suficiente. Por lo tanto, creen que el problema de aprendizaje es en realidad equivalente a la hipótesis del continuo. Como resultado, el problema del aprendizaje también se encuentra en un estado de incertidumbre, que solo puede resolverse eligiendo un universo axiomático.
"El resultado del estudio también ayuda a construir una comprensión más amplia del aprendizaje", dice Yehudaev. "Esta conexión entre la compresión y la generalización es realmente fundamental para comprender el proceso de aprendizaje".
"Los investigadores han descubierto varios de estos problemas" insolubles "", dice Peter O'Hearn, especialista en informática del University College de Londres. En particular, de acuerdo con los resultados del trabajo de Godel, Alan Turing, uno de los fundadores de la teoría de algoritmos, descubrió una clase de preguntas que ningún programa de computadora puede garantizar que responda por un número finito de pasos.
"Sin embargo, la insolubilidad obtenida en estudios recientes es muy rara y mucho más sorprendente", agrega O'Hearn: indica que Godel descubrió la incompletitud interna de cualquier tipo de lenguaje matemático. Es probable que los resultados obtenidos sean importantes para la teoría del aprendizaje automático, pero es poco probable que esto tenga un gran impacto práctico.
Escriba en los comentarios lo que piensa sobre este material, y lo invitamos a un
seminario web gratuito , en el que hablaremos sobre los
métodos de análisis de regresión en Data Science .