该计划写政治演讲

许多人注意到,政治人物的讲话具有相当标准的格式,它们彼此相似。有必要使用标准配方多次重复要点。似乎有一种算法定义了此类语音的结构。

在这方面,出现了一个问题:计算机可以独立生成此类文本吗?

马萨诸塞州大学的Valentin Kassarnig证明了这是可能的。他发布了一个程序(github仓库),该程序就是这样做的:它产生的政治演讲令人惊讶地类似于真实的演讲。作者在科学文章中更详细地讲述了政治文本的产生者

在开发发电机时,情人在美国国会中使用了将近4000个政治辩论片段。该数据库包含50,000多个文本句子,每个句子平均23个单词。卡萨尼格还按政党(共和党/民主党)以及对讨论主题采取积极/消极态度的原则对每个演讲进行了分类。

但是,最重要的是如何分析这个基础。作者尝试了不同的选择,但最终选择了N-gram。

N-gram是n个元素的序列。在这种情况下,它是单词和短语的序列。

首先,他在文本中标出了语音的所有部分(名词,动词,形容词等)。然后,我使用以下算法:在数据库中搜索所有6-grams,并根据出现在前面的五个单词或短语来计算出现某个单词或短语的概率。 “这使我们能够非常迅速地识别出五个已知的先前单词之后可能出现的所有单词,以及每个单词出现的可能性是多少,” 卡萨尼格

生成文本的过程遵循此算法。该程序表明了演讲的政治取向:应该是共和党或民主候选人的演讲。该算法为此类别使用6克基本字符来选择用于开始此类语音的5克完整集合。然后随机选择这些5克之一,计算出最有可能以6克结尾的单词。好吧,然后她开始逐字逐句地预测到文章的结尾。

当然,还有一些技巧。例如,程序知道语音中提到特定主题的可能性-哪些主题将出现在其旁边。

结果出奇的好。

范例文字
Mr. Speaker, for years, honest but unfortunate consumers have had the ability to plead their case to come under bankruptcy protection and have their reasonable and valid debts discharged. The way the system is supposed to work, the bankruptcy court evaluates various factors including income, assets and debt to determine what debts can be paid and how consumers can get back on their feet. Stand up for growth and opportunity. Pass this legislation.

卡萨尼格(Kassarnig)研究了结果,并认为从提议到提议的过渡的素养和顺畅性非常好。

因此,如果您突然需要在听众面前讲话,而说英语的政客们会动手使用该工具快速进行演讲,而他们却无话可说。

该程序还可以生成其他文本。例如,博客文章和新闻注释:)。

由于源代码是在公共领域发布的,因此鼓励进行任何改进和分支。

Source: https://habr.com/ru/post/zh-CN389445/


All Articles