Le programme écrit des discours politiques

Beaucoup ont remarqué que les discours des politiciens ont un format assez standard, ils sont similaires les uns aux autres. Il est nécessaire de répéter les points principaux plusieurs fois en utilisant des formulations standard. Il semble qu'il existe un algorithme qui définit la structure de ces discours.

À cet égard, la question se pose: un ordinateur peut-il générer de tels textes indépendamment?

Valentin Kassarnig de l'Université du Massachusetts a prouvé que c'était possible. Il a publié un programme ( référentiel github ) qui fait exactement cela: il génère des discours politiques qui sont étonnamment similaires aux vrais. L'auteur raconte plus en détail le générateur de textes politiques dans un article scientifique .

Pour développer le générateur, Valentine a utilisé une base de près de 4 000 fragments de débat politique au Congrès américain. La base de données comprend plus de 50 000 phrases du texte, chacune ayant en moyenne 23 mots. Kassarnig a également classé chaque discours par parti politique (républicains / démocrates), ainsi que par le principe d'une attitude positive / négative à l'égard du sujet de discussion.

Cependant, la chose la plus importante est de savoir comment analyser cette base. L'auteur a essayé différentes options, mais a finalement opté pour des N-grammes.

N-gramme est une séquence de n éléments. Dans ce cas, il s'agit d'une séquence de mots et de phrases.

Il a tout d'abord délimité dans les textes toutes les parties du discours (nom, verbe, adjectif, etc.). Ensuite, j'ai utilisé l'algorithme suivant: tous les 6 grammes sont recherchés dans la base de données et la probabilité d'apparition d'un certain mot ou d'une certaine phrase est calculée, en fonction des cinq qui se trouvent devant. "Cela nous permet d'identifier rapidement tous les mots qui peuvent apparaître après les cinq mots précédents connus, et quelle est la probabilité que chacun d'eux apparaisse", explique Kassarnig.

Le processus de génération de textes découle de cet algorithme. Le programme indique l'orientation politique du discours: il doit s'agir du discours d'un candidat républicain ou démocratique. L'algorithme utilise une base de 6 grammes pour cette catégorie pour sélectionner l'ensemble complet de 5 grammes qui sont utilisés pour démarrer de tels discours. Ensuite, l'un de ces 5 grammes est sélectionné au hasard, le mot le plus probable se terminant par 6 grammes est calculé. Eh bien, alors elle commence à prédire mot par mot jusqu'à la fin du texte.

Il y a bien sûr quelques astuces supplémentaires. Par exemple, un programme connaît la probabilité qu'un sujet particulier soit mentionné dans un discours - et quels sujets seront présents à côté de lui.

Les résultats sont étonnamment bons.

Exemple de texte
Mr. Speaker, for years, honest but unfortunate consumers have had the ability to plead their case to come under bankruptcy protection and have their reasonable and valid debts discharged. The way the system is supposed to work, the bankruptcy court evaluates various factors including income, assets and debt to determine what debts can be paid and how consumers can get back on their feet. Stand up for growth and opportunity. Pass this legislation.

Kassarnig a étudié les résultats et estime que l'alphabétisation et la fluidité de la transition de la proposition à l'offre sont très bonnes.

Les politiciens anglophones ont donc mis la main sur l'outil pour faire rapidement des discours, si vous avez soudainement besoin de parler devant un public, et ils n'ont rien à dire.

Le programme peut également générer d'autres textes. Par exemple, des articles de blog et des notes de nouvelles :).

Étant donné que le code source est publié dans le domaine public, toutes les améliorations et fourchettes sont encouragées.

Source: https://habr.com/ru/post/fr389445/


All Articles