Google apprend à l'IA à écrire des articles de style Wikipedia



Google travaille depuis longtemps dans le domaine de l' intelligence artificielle . Tout cela est nécessaire pour l'entreprise à la fois pour des besoins personnels (amélioration du travail de divers services) et pour offrir de nouvelles opportunités à ses clients. Maintenant, Google a annoncé une nouvelle fonction pour son IA, qui a appris à "lire" une variété de textes et à se former en fonction des résultats d'un article lu dans le style Wikipedia.

L'IA prend des documents sur Internet et les analyse, après quoi elle crée quelque chose comme un CV. Sur la base des résultats de leur travail, les employés de la société ont écrit un article indiquant de nombreux points techniques. L'idée principale de cet article - l'analyse de ce qui est lu est une tâche très difficile pour la machine. D'autres entreprises ont tenté d'accomplir une tâche similaire avant Google, mais elles n'ont pas réussi - la plupart des projets similaires ont échoué.

Mais il y a ceux qui ont réussi. Par exemple, Salesforce a pu former son réseau de neurones pour collecter des informations et les analyser selon un algorithme donné. C'est quelque chose de similaire à ce que Google a fait, les résultats sont également disponibles sous forme d'article. Le résultat peut être qualifié de satisfaisant - le réseau de neurones a fait face à la tâche générale, mais le texte généré par l'ordinateur n'était pas très bon. Les phrases, pour la plupart, étaient simples et courtes.

Il était également difficile pour un ordinateur de maintenir la structure sémantique du contenu, auquel une personne fait face sans aucune difficulté. Quant à Google, cette entreprise a fait un peu mieux. Les offres de l'ordinateur sont plus longues que celles de SalesForce et semblent plus naturelles. Jusqu'à présent, la machine ne peut fonctionner qu'avec des textes en anglais. Voici un exemple avec deux notes différentes. À gauche, celui écrit par l'homme. À droite se trouve du matériel «dactylographié», information que le réseau neuronal recherchait sur différentes ressources.



Le texte que l'ordinateur écrit est quelque peu difficile à lire en raison, par exemple, du manque de majuscules au début des nouvelles phrases. En outre, la plupart des propositions sont quelque peu lourdes. Cependant, en général, ce texte est bien lu. Dans ce cas particulier, la version finale ne comprenait pas toutes les informations importantes de la source, donc l'exemple lui-même ne peut pas être considéré comme très indicatif. Néanmoins, il est clair que le réseau neuronal est vraiment capable de beaucoup de choses - pour le moment, c'est la meilleure option pour ce que l'ordinateur peut produire après avoir analysé le texte original.

Le système recherche des informations sur un sujet donné sur différents sites et génère une liste des dix pages les plus pertinentes contenant les données nécessaires. Le résultat est un article complet avec des liens - à peu près du même format que Wikipedia. Soit dit en passant, le système créé par Google est auto-apprenant, de sorte que chaque page lue et créée aide l'ordinateur à s'améliorer.

Soit dit en passant, l'ordinateur coupe délibérément de longues phrases pour le rendre encore plus semblable au style adopté pour les articles de l'encyclopédie électronique Wikipedia. Ainsi, l'ordinateur n'écrit pas tout par lui-même - il ne fait que ses propres phrases, réduisant les premières, desquelles certains mots peuvent être jetés, sans dénaturer le sens du matériel lu.

Le processus ne peut pas être appelé trop rapidement, mais le résultat est tout à fait acceptable. Selon les experts qui ont formé l'algorithme, dans tout ce projet, le «goulot d'étranglement» est l'allocation de fragments de texte individuels pour former un nouvel article. Tout ce travail ne se fait pas trop rapidement, donc l'algorithme a de la place pour grandir et s'améliorer. Les représentants de la société ont déclaré que les logiciels et le matériel nécessaires à ces travaux n'étaient désormais pas parfaits, de sorte que la société prévoit d'améliorer encore sa technologie.

Le principal inconvénient du système actuel est que l'ordinateur prend des pages d'informations pour rédiger un article sur un sujet en fonction de leur popularité (visites, temps de lecture, etc.). Et si les informations publiées sur l'une des pages ne sont pas très précises, le résumé créé par l'ordinateur contiendra également des erreurs et des inexactitudes. Néanmoins, la société espère que dans un avenir proche elle pourra montrer un processus encore plus avancé de génération de textes.

Source: https://habr.com/ru/post/fr410287/


All Articles