Das Programm schreibt politische Reden

Viele bemerkten, dass die Reden von Politikern ein ziemlich normales Format haben, sie sind einander ähnlich. Es ist notwendig, die Hauptpunkte unter Verwendung von Standardformulierungen mehrmals zu wiederholen. Es scheint, dass es einen Algorithmus gibt, der die Struktur solcher Reden definiert.

In diesem Zusammenhang stellt sich die Frage: Kann ein Computer solche Texte unabhängig generieren?

Valentin Kassarnig von der University of Massachusetts hat bewiesen, dass dies möglich ist. Er veröffentlichte ein Programm ( Github Repository ), das genau das tut: Es generiert politische Reden, die den realen überraschend ähnlich sind. Der Autor berichtet in einem wissenschaftlichen Artikel ausführlicher über den Generator politischer Texte .

Bei der Entwicklung des Generators verwendete Valentine eine Basis von fast 4.000 Fragmenten politischer Debatten im US-Kongress. Die Datenbank enthält mehr als 50.000 Sätze des Textes, von denen jeder durchschnittlich 23 Wörter enthält. Kassarnig klassifizierte jede Rede auch nach politischen Parteien (Republikaner / Demokraten) sowie nach dem Prinzip der positiven / negativen Einstellung zum Diskussionsthema.

Das Wichtigste ist jedoch, wie diese Basis analysiert wird. Der Autor versuchte verschiedene Optionen, entschied sich aber schließlich für N-Gramm.

N-Gramm ist eine Folge von n Elementen. In diesem Fall handelt es sich um eine Folge von Wörtern und Phrasen.

Zunächst markierte er in den Texten alle Teile der Sprache (Substantiv, Verb, Adjektiv usw.). Dann habe ich den folgenden Algorithmus verwendet: Alle 6 Gramm werden in der Datenbank durchsucht und die Wahrscheinlichkeit des Auftretens eines bestimmten Wortes oder einer bestimmten Phrase wird berechnet, je nachdem, welche fünf vor ihnen stehen. „Auf diese Weise können wir schnell alle Wörter identifizieren, die nach den fünf bekannten vorherigen Wörtern erscheinen können, und wie wahrscheinlich es ist, dass jedes einzelne von ihnen erscheint“, sagt Kassarnig.

Der Prozess der Textgenerierung folgt aus diesem Algorithmus. Das Programm weist auf die politische Ausrichtung der Rede hin: Es sollte die Rede eines republikanischen oder demokratischen Kandidaten sein. Der Algorithmus verwendet eine 6-Gramm-Basis für diese Kategorie, um den vollständigen Satz von 5-Gramm auszuwählen, die zum Starten solcher Reden verwendet werden. Dann wird eines dieser 5 Gramm zufällig ausgewählt, das wahrscheinlichste Wort mit der Endung 6 Gramm wird berechnet. Nun, dann beginnt sie, Wort für Wort bis zum Ende des Textes vorherzusagen.

Natürlich gibt es noch ein paar Tricks. Ein Programm kennt beispielsweise die Wahrscheinlichkeit, dass ein bestimmtes Thema in einer Rede erwähnt wird - und welche Themen daneben vorhanden sind.

Die Ergebnisse sind überraschend gut.

Beispieltext
Mr. Speaker, for years, honest but unfortunate consumers have had the ability to plead their case to come under bankruptcy protection and have their reasonable and valid debts discharged. The way the system is supposed to work, the bankruptcy court evaluates various factors including income, assets and debt to determine what debts can be paid and how consumers can get back on their feet. Stand up for growth and opportunity. Pass this legislation.

Kassarnig hat die Ergebnisse untersucht und ist der Ansicht, dass die Alphabetisierung und der reibungslose Übergang vom Vorschlag zum Angebot sehr gut sind.

Die englischsprachigen Politiker haben also das Werkzeug in die Hand genommen, um schnell Reden zu halten, wenn Sie plötzlich vor einem Publikum sprechen müssen, und sie haben nichts zu sagen.

Das Programm kann auch andere Texte generieren. Zum Beispiel Blogposts und News Notes :).

Da der Quellcode gemeinfrei veröffentlicht wird, werden Verbesserungen und Verzweigungen empfohlen.

Source: https://habr.com/ru/post/de389445/


All Articles