Exemplo do Wikibook (ilustração de um artigo científico )Todo mundo sabe que a Wikipedia é um recurso valioso de informações. Você pode passar horas estudando um tópico, passando de um link para outro para obter contexto sobre um assunto de interesse. Mas nem sempre é óbvio como coletar todo o conteúdo de qualquer tópico comum. Por exemplo, como combinar todos os artigos sobre química inorgânica ou a história da Idade Média, resumindo o mais importante? Sobre isso, Shahar Admati e seus colegas de Ben-Gurion, em Negev (Israel), os desenvolvedores do programa de aprendizado de máquina do
Wikibook-Bot , tentaram fazer isso.
A Wikipedia e o livro são duas coisas diferentes. É por isso que o projeto
Wikibooks foi criado, onde as pessoas tentam resumir o mais importante sobre um tópico. Por exemplo, você pode encontrar um livro didático de aprendizado de máquina com mais de 6.000 páginas, com seções atualizadas sobre redes neurais, algoritmos genéticos e visão de máquina.
O Wikibook-Bot resolve várias tarefas de aprendizado de máquina. Primeiramente, esta é uma tarefa de
classificação , ou seja, você precisa determinar se o artigo pertence a um Wikibook específico. Em segundo lugar, você precisa dividir os artigos selecionados em capítulos - essa é a tarefa do
agrupamento . Foi resolvido por algoritmos conhecidos. Por fim, a tarefa de
sistematização , que inclui duas subtarefas: a ordem dos artigos em cada capítulo e a ordem dos próprios capítulos.

De fato, o programa funciona relativamente simples. O princípio é claro para todos que encontraram redes neurais de aprendizado. O primeiro passo é criar um conjunto de dados de treinamento. Dos aproximadamente 6.700 Wikibooks existentes em inglês, foram selecionados livros com mais de 1.000 visualizações e 10 artigos ou mais.

Como esses Wikibooks formam um tipo de padrão-ouro para treinamento e teste, os desenvolvedores o adotaram como padrão de qualidade. Após o treinamento da rede neural, o trabalho adicional foi dividido em várias etapas listadas acima: classificação, agrupamento e sistematização. O trabalho começa com um título de livro gerado por humanos. O nome descreve qualquer conceito arbitrário. Por exemplo, Machine Learning: um guia completo.
A primeira tarefa é classificar todo o conjunto de artigos e determinar quais são relevantes o suficiente para serem incluídos neste tópico. "Essa tarefa é difícil devido ao grande volume de artigos na Wikipedia e à necessidade de selecionar os artigos mais relevantes dentre os milhões disponíveis", escrevem os autores em um artigo científico. Para resolver isso, eles usaram a estrutura de rede da Wikipedia, porque alguns artigos costumam ser vinculados a outros. É razoável supor que o artigo relacionado também esteja no tópico.
Assim, o trabalho começa com um pequeno núcleo de artigos cujo título é mencionado. Em seguida, todos os artigos com até três transições do núcleo são determinados. Mas quantos dos artigos encontrados estão incluídos no livro? A resposta a esta pergunta é dada pelos Wikilivros criados por pessoas. Uma análise automática de seu conteúdo permite determinar a quantidade de conteúdo da Wikipedia em livros criados pelo homem que está incluída no livro.
Cada wikibook criado por humanos tem uma estrutura de rede definida pelo número de links apontando para outros artigos, um certo número de links apontando para páginas, a classificação dos artigos incluídos e assim por diante. O algoritmo desenvolvido analisa cada artigo selecionado automaticamente para um determinado tópico e responde à pergunta: se você incluí-lo em um Wikibook, sua estrutura de rede se tornará mais semelhante a livros feitos pelo homem ou não. Caso contrário, o artigo será omitido.
Com base principalmente nos dados de treinamento e nos métodos de aprendizado de máquina existentes, outras tarefas também são resolvidas. Assim, a equipe foi capaz de gerar automaticamente Wikibooks que já são criados por pessoas. A eficácia do método proposto foi avaliada através da comparação de livros gerados automaticamente com 407 Wikibooks reais. Diz-se que em todas as tarefas foi possível obter resultados altos e estatisticamente significantes na comparação. Mas, ainda assim, a verdadeira eficácia do algoritmo pode ser estimada após a geração de Wikibooks sobre outros tópicos, e não apenas sobre aqueles em que ele estudou.
A descrição do bot foi publicada como um artigo científico
"Wikibook-Bot - geração automática de livros da Wikipedia" no site de pré-impressão arXiv.org.