Ejemplo de Wikibook (ilustración de un artículo científico )Todos saben que Wikipedia es un valioso recurso de información. Puede pasar horas estudiando un tema, moviéndose de un enlace a otro para obtener contexto sobre un tema de interés. Pero no siempre es obvio cómo recopilar todo el contenido sobre un tema común. Por ejemplo, ¿cómo combinar todos los artículos sobre química inorgánica o la historia de la Edad Media, resumiendo los más importantes? Sobre esto, Shahar Admati y sus colegas de Ben-Gurion en el Negev (Israel), los desarrolladores del programa de aprendizaje automático
Wikibook-Bot , intentaron hacer esto.
Wikipedia y el libro de texto son dos cosas diferentes. Es por eso que se creó el proyecto
Wikibooks , donde las personas intentan conjuntamente resumir lo más importante sobre un tema. Por ejemplo, puede encontrar un libro de texto de aprendizaje automático con más de 6,000 páginas, con secciones actualizadas sobre redes neuronales, algoritmos genéticos y visión artificial.
Wikibook-Bot resuelve varias tareas de aprendizaje automático. En primer lugar, esta es una tarea de
clasificación , es decir, debe determinar si el artículo pertenece a un Wikibook específico. En segundo lugar, debe dividir los artículos seleccionados en capítulos: esta es la tarea de
agrupación . Fue resuelto por algoritmos bien conocidos. Finalmente, la tarea de
sistematización , que incluye dos subtareas: el orden de los artículos en cada capítulo y el orden de los capítulos mismos.

De hecho, el programa funciona relativamente simple. El principio es claro para todos los que han encontrado redes neuronales de aprendizaje. El primer paso es crear un conjunto de datos de entrenamiento. De los aproximadamente 6,700 Wikilibros existentes en inglés, se seleccionaron libros con más de 1,000 vistas y con 10 artículos o más.

Dado que estos Wikilibros forman una especie de estándar de oro tanto para la capacitación como para las pruebas, los desarrolladores lo tomaron como un estándar de calidad. Después de entrenar la red neuronal, el trabajo adicional se dividió en varios pasos enumerados anteriormente: clasificación, agrupamiento y sistematización. El trabajo comienza con un título de libro de texto generado por humanos. El nombre describe cualquier concepto arbitrario. Por ejemplo, Machine Learning: una guía completa.
La primera tarea es ordenar todo el conjunto de artículos y determinar cuáles son lo suficientemente relevantes como para incluirlos en este tema. "Esta tarea es difícil debido al gran volumen de artículos en Wikipedia y la necesidad de seleccionar los artículos más relevantes de los millones disponibles", escriben los autores en un artículo científico. Para resolver esto, utilizaron la estructura de red de Wikipedia, porque algunos artículos a menudo se vinculan con otros. Es razonable suponer que el artículo relacionado también se referirá al tema.
Entonces, el trabajo comienza con un pequeño núcleo de artículos en el título del cual se menciona un título dado. Luego, se determinan todos los artículos que se encuentran a una distancia de hasta tres transiciones desde el núcleo. Pero, ¿cuántos de los artículos encontrados están incluidos en el libro de texto? La respuesta a esta pregunta está dada por Wikibooks creados por personas. Un análisis automático de su contenido le permite determinar cuánto contenido de Wikipedia en libros hechos por humanos se incluye en el libro de texto.
Cada wikibook hecho por el hombre tiene una estructura de red definida por el número de enlaces que apuntan a otros artículos, un cierto número de enlaces que apuntan a páginas, clasificación de artículos incluidos, etc. El algoritmo desarrollado analiza cada artículo seleccionado automáticamente para un tema determinado y responde a la pregunta: si lo incluye en un Wikibook, su estructura de red será más similar a los libros creados por una persona o no. Si no, el artículo se omite.
Basado principalmente en los datos de capacitación y los métodos de aprendizaje automático existentes, también se resuelven otras tareas. Por lo tanto, el equipo pudo generar automáticamente Wikilibros que ya han sido creados por personas. La eficacia del método propuesto se evaluó comparando libros generados automáticamente con 407 Wikilibros reales. Se dice que para todas las tareas fue posible obtener resultados altos y estadísticamente significativos al comparar. Pero aún así, la verdadera efectividad del algoritmo se puede estimar después de generar Wikilibros sobre otros temas, y no solo sobre aquellos en los que estudió.
La descripción del bot se publicó como un artículo científico
"Wikibook-Bot - Generación automática de libros de Wikipedia" en el sitio de preimpresión arXiv.org.