新闻机器人,或如何使用人工智能创造内容

汽车变得越来越智能。 现在,他们已经产生了如此高品质的内容,即使是专业人士也无法总是将其与“人”相区分。 来自Data Studio的Sergey Marin在我们的“ Contenting ”会议上谈到了新闻记者和编辑为什么不应该害怕竞争,以及新闻自动化的前景。



在他的报告的抄底下。

关于演讲者
Sergey Marin是人工智能专家, Data Studio的领导者和创始人。

人工智能的三头鲸


如果我们在新闻界或任何其他领域谈论人工智能,我们首先必须了解其结构。 AI由三个主要组件组成:机器学习,推荐系统和神经网络。 顺便说一句,许多人认为神经网络是人工智能的代名词,但这只是其中一种工具,甚至不是最庞大的工具:在每种情况下,都使用了效果最佳的算法。



机器学习:架子


机器学习用于搜索数据中的隐藏模式。 想象一下,我们有一组需要分类的信息行或出版物,即自动为它们分配一些标签。 或者只是带有很多单词的文本需要分为某些类别,兴趣,情绪等。 我们该怎么做? 如果我们谈论机器学习,那么我们不会寻找任何关键词来基于它们得出结论。 取而代之的是,我们向机器显示已用大量类标记的最大数量的文本。 之后,我们给出一个新文本,然后机器本身将其分类为它所属的区域。 也就是说,我们首先教书,展示许多例子。



也就是说,机器学习在新闻学中的主要应用是分类。 例如,我们有大量的信息专线-来自Internet,社交网络,新闻社-我们需要对它们进行快速分类。 我们对模型进行了预训练,当我们有了新的信息指南时,机器将了解它的位置,主题是什么,传达的心情以及可以应用到哪些受众。 流行度类似地预测,一些新闻提要的等级。

推荐系统:找到个人方法


推荐系统的主要应用领域是个性化。 我们希望显示至少与某个细分市场相关的内容,并且理想情况下-为每个人选择该内容。 在这方面,内容的呈现与销售没有什么不同。 回想一下目标产品销售的领导者:亚马逊和在线电影院等在线商店可以推荐他们的产品。 而且,如果我们将内容视为产品,那么事实证明我们已经知道如何推荐和很好地定位它。



我们该怎么做? 有两个基本原则。 首先是推荐系统,实际上是根据购买者(在这种情况下,根据他们先前消费的内容)将人们进行比较。 让我们举一个简单的例子:伊戈尔和彼得看过同一部电影,如果其中一部电影仅由伊戈尔看过,那么将其推荐给彼得是合乎逻辑的。

在推荐内容方面,另一个原则要强得多-评估其受欢迎程度PageRank。 第一个这样的例子是搜索,即Google的Yandex中的搜索。 如何确定某个页面很重要? 我们会考虑其他资源上指向此页面的链接或引用的数量,并获得分配给它的一种评级。 但是,如果有五个未知页面链接到出版物,则是一回事,而如果链接是由知名品牌或主要新闻社提供的,则是另一回事。 事实证明,我们必须考虑链接到我们页面的用户的评级-我们获得了这样的层次结构。

Tinder的工作方式相同:左右滚动时,将为您和向您显示的那些人计算评分。 它们会向您显示与您的评分相同的人的照片-这是服务的建议性含义。



这是用于自动评估某些信息的重要性的非常有效的方法。 如果您不仅知道如何统计提及,还计算其重要性,则可以针对特定目标受众自动对所有新闻源进行排序。 因此,建议主要用于此类级别定位。

神经网络:模仿大脑


神经网络的概念既简单又无聊。 直到上个世纪60年代,对人脑原理的研究才描绘出以下图景:有一组特定的神经元接收输入信号。 之后,每个神经元都会对信号进行少量修改,然后将其传递。 为了了解这些神经元如何在大脑中成组地聚集在一起,我们决定创建一个计算机模型-一组以某种方式连接的神经元。 因此,第一个神经网络诞生了,并且仍然以这种形式用于解决机器学习问题。 但是,如果我们谈论的是更高级的内容,那么这样的系统将不合适。



在上个世纪90年代的某个地方,科学家意识到人脑的工作方式并非如此。 神经元之间确实可以相互作用,但是一切都是按层次构建的。 例如,当我看到一张图片时,会从其每个区域收集信息,这些信息会进一步聚集到另一个较小的神经元组中。 并以某种内部表示形式存储在其中。 实际上,我们考虑的是这些内部表示形式,而不是我们看到的真实图片。 该理论立即在神经网络中重新创建,现在根据图像的分类,这种神经网络比人类更有效。 这些神经网络被称为卷积-因为泛化过程正在发生。



第二个突破发生在他们发现时:人们不是在眼下而是在考虑特定环境的情况下感知信息。 为了训练计算机分析积累的经验,他们建立了所谓的递归神经网络。 他们首先使用以前的神经网络的工作进行分类,然后创建一些内容。 现在,所有这些都可以用在序列建模中,如果方便的话,也可以用在聊天机器人中。 例如,当Yandex选择相似的单词时,这些就是重复的神经网络,可以复制人如何处理信息。

神经网络如何在新闻业中使用


神经网络的第一个应用领域是内容生成。 如果我们有某种信息指南,那么经过训练的神经网络将使我们能够确定主题并编写出清晰易懂的文本。 已经有生产相应软件的公司。 有出版物将其用于常规信息行-交易所报告,公司财务指标。 对于事实信息-地震在这里经过,一艘船在那航行等等-它工作正常。 但是,如果我们谈论的是更高级的信息提要,那么我们将不得不认真工作,以将神经网络生成的内容转换为真正有意义且足够的内容。



第二个领域是分类;上面已经提到过。 第三是感知评估或A / B测试,很少在销售以外的地方使用。 在新闻学中,原理是相似的:我们有几种形式的出版物,我们想测试它在不同目标人群中的表现。 使用这种方法,该过程可以完全自动化。

后一个方向将吸引那些需要为不同渠道,资源和目标受众编写相同内容的人。 要发布已经在另一出版物中发表的有关Habré的文章,您不能仅复制粘贴。 为了适应它,您可以吸引撰稿人或使用神经网络。 对于计算机而言,这甚至比机器翻译还简单:不需要将文本转换为另一种语言,语法等。 但总体来说是一样的。

在哪里使用? 美联社是主要机构的先驱。 他们将自动内容生成用于金融新闻,这种分析几乎没有分析,但是有很多数字和证据。 此类软件由三家供应商提供:叙事科学,自动化见解和Article Forge。 如果您去他们的网站,您会看到很多真实的案例-由机器人编写的出版物示例。 所有这些文章都是基于一些证据。



创作内容和生成内容之间有明显区别吗? 他们在美国和德国进行了研究,在此期间,以英语和德语分别向记者群体展示了大量文章。 一半的文字是人写的,一半是机器写的。 平均而言,人们无法区分它们。 当要求受试者根据文本的可靠性和趣味性对文本进行分类时,事实证明他们发现由机器编写的文本更加可靠。 同时,受访者指出,阅读它们并不像“人类”文章那么有趣。

事实证明,人们最好做有趣的内容。 如果您需要带来一些新闻-使用汽车,他们会更加相信。

利益与危险


借助机器人,您可以专注于要嵌入到内容中的内容,而不是将其适应各种格式的繁琐过程。 机器的另一个优势是反应速度:如果您需要快速处理信息线索,那么这就是您的工具。 我们已经说过用户个性化,这是绝对的优势。 第四个优势是众包:如果您使用大量来源,则机器将能够自动分类从来源获得的信息,区分好坏,并选择适当的信息。



存在潜在的危险。 第一个是回声相机。 他们展示给我的内容是根据我的兴趣相似而个性化的-考虑到我已经阅读的内容以及像我这样的人的兴趣。 因此,经过一定次数的迭代后,我开始在封闭的信息字段中做饭。

第二个危险是信息泡沫。 如果您创建某种虚构的情况,事件,则计算机可以编写看起来真实的出版物的许多不同版本。 借助自动程序,社交网络等,此类错误信息可以传播到广大受众。



现在他们正在谈论对神经网络的所谓攻击性攻击。 举一个带有肯德基徽标的例子:如果您向自动驾驶汽车展示这样的图片,它会立即升起-人工智能将图像识别为停车标志。 如果文本可以进行这种操作,则与某种算法相对应的无意义的单词集可以得到很高的神经网络评分,读者会发现有些胡言乱语。



幸运的是,在实践中,这样的攻击非常困难。 回想一下,神经网络-就像我们的大脑-会根据内部表示带出任何图像。 看图片:神经网络所见,在脸部左侧,如我们所见,在右边。 可以访问神经网络本身,可以选择图片,如带有KFC徽标的示例。 实际上,该问题也可以从密码学中得知,因为它是哈希函数黑客的一个类似物。 在这种情况下,神经网络是一个哈希函数:您将某些长文本转换为小的内部表示形式。 如果您捡到匹配的东西-hack。 但是要进行迭代,您需要访问算法。

不是竞争对手,而是助手


几乎所有与此主题相关的出版物都提出了未来对新闻工作者的需求问题。 在我看来,这个问题并不完全正确:某个人将被替换,某个人不会被替换,但是很显然,所有新闻业都无法用机器代替。 一个人只会向他们屈服一些基本的,平庸的,简单的出版物。 问题是不同的:由于基本出版物可以自动创建并轻松完成,因此很快生成的内容所占的百分比将远远超过人们所写的内容。 正如我们已经发现的那样,就可靠性而言,生成的内容具有更好的感知能力-这使您可以创建一个强大的工具来操纵意识和感知。 这可能是最坏也是最重要的事情。



为了使用机器学习来创建内容,使用了人机交互过程-不是分开而是成对在一起。 首先,机器搜索信息问题,对信息问题进行分类,预测重要性,生成内容……这是当我们拥有大量各种信息流并希望快速响应时的情况。 如果您有时间思考等等,这是完全不同的情况。 机器准备的内容交给观看,评估,附加的记者或编辑。 此外,文本可以转到出版物,也可以再次到达机器人,以便为不同的目标受众形成出版物的不同版本。 之后,汽车进行个性化,为每个人选择给他展示什么。 当然,并不是所有地方都将其一起实现,但是一般的工作流程看起来像这样。

不会将一个人排除在内容准备过程之外。 机器人无非是加速和简化流程,从我们那里删除日常任务的其他工具。



可以从此处订购视频格式的“内容”报告。 对于Habr用户,可以享受habr_online_promo促销代码的折扣。

感谢赞助商:




朋友,再过10天,我们接受有关“国家与IT”主题的技术竞赛的申请,并邀请所有技术作者参加。 您可以讲一个有关技术,开发,服务改进,各种系统和应用程序的设备,与专家进行访谈,精选生活黑客,评论以及有关该主题的其他材料的故事-主要是它们在Habré上发表。 比赛页面上的详细信息。

Source: https://habr.com/ru/post/zh-CN439388/


All Articles