Robots en journalisme ou comment utiliser l'intelligence artificielle pour créer du contenu

Les voitures deviennent plus intelligentes. Déjà, ils génèrent un contenu d'une telle qualité que même un professionnel ne le distingue pas toujours de celui «humain». Sergey Marin de Data Studio a expliqué pourquoi les journalistes et les rédacteurs ne devraient pas avoir peur de la concurrence, et les perspectives d'automatisation du journalisme lors de notre conférence « Contenting ».



Sous la transcription de son rapport.

Ă€ propos de l'orateur
Sergey Marin est un expert en intelligence artificielle, leader et fondateur de Data Studio .

Trois baleines d'intelligence artificielle


Si nous parlons d'intelligence artificielle - en journalisme ou dans tout autre domaine - nous devons d'abord comprendre sa structure. L'IA se compose de trois composants principaux: l'apprentissage automatique, les systèmes de recommandation et les réseaux de neurones. Soit dit en passant, beaucoup considèrent les réseaux de neurones comme un synonyme d'intelligence artificielle, mais ce n'est qu'un des outils, pas même le plus massif: dans chaque cas, les algorithmes qui fonctionnent le mieux sont utilisés.



Apprentissage automatique: étagère


L'apprentissage automatique est utilisé pour rechercher des modèles cachés dans les données. Imaginez que nous ayons un ensemble de lignes d'information ou de publications qui doivent être classées, c'est-à-dire leur attribuer automatiquement des balises. Ou tout simplement des textes avec beaucoup de mots qui doivent être divisés en certaines classes, intérêts, humeurs, etc. Comment fait-on cela? Si nous parlons d'apprentissage automatique, nous ne recherchons aucun mot clé pour tirer des conclusions en fonction de ceux-ci. Au lieu de cela, nous montrons à la machine le plus grand nombre possible de textes que nous avons déjà balisés avec un grand nombre de classes. Après quoi nous donnons un nouveau texte, et la machine elle-même le classe dans la zone à laquelle il appartient. Autrement dit, nous enseignons d'abord, montrer de nombreux exemples.



Autrement dit, la principale application de l'apprentissage automatique dans le journalisme est la classification. Par exemple, nous avons un grand nombre de lignes d'information - provenant d'Internet, des réseaux sociaux, des agences de presse - et nous devons les classer rapidement. Nous avons pré-formé notre modèle, et lorsque nous avons un nouveau guide d'information, la machine comprend où il appartient, quel est son thème, quelle humeur il transmet, pour quel public il peut être appliqué. La popularité est prédite de la même manière, la note de certains flux d'actualités.

Systèmes de recommandation: trouvez une approche personnelle


Le domaine d'application principal des systèmes de recommandation est la personnalisation. Nous voulons montrer du contenu pertinent pour au moins un certain segment, et idéalement - le sélectionner pour chaque personne. À cet égard, la présentation du contenu n'est pas différente des ventes. Rappelons les leaders de la vente de produits ciblés: les boutiques en ligne comme Amazon et les cinémas en ligne peuvent recommander leurs produits. Et si nous considérons le contenu comme un produit, il s'avère que nous savons déjà comment le recommander et bien le cibler.



Comment fait-on cela? Il y a deux principes de base. Le premier est les systèmes de référence qui, en fait, comparent les gens entre eux en fonction de leurs achats, dans ce cas, en fonction du contenu qu'ils ont précédemment consommé. Prenons un exemple simple: Igor et Peter ont regardé les mêmes films, et si l'un des films n'a été vu que par Igor, il est logique de le recommander à Peter.

Un autre principe est beaucoup plus fort en termes de recommandation de contenu - une évaluation de sa popularité, PageRank. Le premier exemple est la recherche, la recherche dans Yandex, Google. Comment déterminer qu'une certaine page est importante? Nous considérons le nombre de liens ou de références à cette page sur d'autres ressources et obtenons une sorte de note qui lui est attribuée. Mais c'est une chose lorsque cinq pages inconnues renvoient à la publication, et une tout autre chose si les liens sont fournis par des marques populaires ou de grandes agences de presse. Il s'avère que nous devons prendre en compte la note de ceux qui font un lien vers notre page - nous obtenons une telle hiérarchie.

Tinder fonctionne de la même manière: lorsque vous faites défiler de gauche à droite, la note est calculée pour vous et pour les personnes qui vous sont présentées. Ils vous montrent des photos de ceux qui ont à peu près la même note avec vous - c'est la signification recommandée du service.



Il s'agit d'une méthode très efficace pour l'évaluation automatisée de l'importance de certaines informations. Si vous savez compter non seulement les mentions, mais aussi leur signification, vous pouvez automatiquement trier tous les flux d'actualités pour des publics cibles spécifiques. Par conséquent, les recommandations sont principalement utilisées pour un tel ciblage de niveau.

Réseaux de neurones: imitation du cerveau


Le concept de réseaux de neurones est simple et ennuyeux. Jusque vers les années 60 du siècle dernier, les études des principes du cerveau humain ont brossé le tableau suivant: il existe un certain ensemble de neurones qui reçoivent des signaux d'entrée. Après cela, chaque neurone fait une petite modification du signal et le transmet. Pour comprendre comment ces neurones se réunissent en groupes dans le cerveau, nous avons décidé de créer un modèle informatique - un ensemble de neurones qui sont en quelque sorte connectés. Les premiers réseaux de neurones sont donc nés et sous cette forme, ils sont encore utilisés pour résoudre des problèmes d'apprentissage automatique. Mais si nous parlons de quelque chose de plus avancé, alors un tel système ne convient pas.



Quelque part dans les années 90 du siècle dernier, les scientifiques ont réalisé que le cerveau humain ne fonctionnait pas tout à fait comme ça. Les neurones interagissent vraiment les uns avec les autres, mais tout est construit de manière hiérarchique. Par exemple, lorsque je vois une image, des informations sont collectées dans chacune de ses zones, qui sont ensuite agrégées en un autre groupe de neurones plus petit. Et là, il est stocké sous la forme d'une sorte de représentation interne. En fait, nous pensons avec ces représentations internes, et non avec les vraies images que nous voyons. La théorie a été immédiatement recréée dans les réseaux de neurones, et maintenant selon la classification des images, ces réseaux de neurones fonctionnent beaucoup mieux que les humains. Ces réseaux de neurones sont appelés convolutionnels - parce que le processus de généralisation est en cours.



La deuxième percée s'est produite lorsqu'ils l'ont découvert: une personne perçoit des informations non pas dans l'instant, mais en tenant compte d'un certain contexte. Pour former des ordinateurs à analyser l'expérience accumulée, ils ont construit les réseaux de neurones dits récurrents. Ils utilisent d'abord le travail des réseaux de neurones précédents pour classer, puis pour créer du contenu. Tout cela est maintenant utilisé dans la modélisation de séquence, et si c'est plus facile - dans les robots de discussion. Par exemple, lorsque Yandex sélectionne des mots similaires, ce sont des réseaux de neurones récurrents qui reproduisent la façon dont une personne traite les informations.

Comment les réseaux de neurones sont utilisés dans le journalisme


Le premier domaine d'application pour les réseaux de neurones est la génération de contenu. Si nous avons une sorte de guide d'information, alors un réseau neuronal formé nous permet de déterminer le sujet et d'écrire un texte assez intelligible. Il existe déjà des entreprises qui produisent le logiciel correspondant. Il existe des publications qui l'utilisent pour les lignes d'information de routine - rapports d'échange, indicateurs financiers des entreprises. Pour des informations factuelles - un tremblement de terre est passé ici, un navire y a navigué, etc. - cela fonctionne très bien. Mais si nous parlons de flux d'informations plus avancés, nous devrons sérieusement travailler pour transformer le contenu généré par le réseau neuronal en quelque chose de vraiment significatif et adéquat.



Le deuxième domaine est la classification, il a déjà été mentionné ci-dessus. Le troisième est l'évaluation de la perception ou les tests A / B, qui sont rarement utilisés en dehors des ventes. En journalisme, le principe est similaire: nous avons plusieurs formes de publication et nous voulons tester comment cela se passera dans différents groupes cibles. En utilisant de telles méthodes, ce processus peut être entièrement automatisé.

Cette dernière direction plaira à ceux qui ont besoin d'écrire le même contenu pour différents canaux, ressources et publics cibles. Pour publier un article sur Habré, qui a déjà été publié dans une autre publication, il ne suffit pas de copier-coller. Pour l'adapter, vous pouvez soit attirer un rédacteur publicitaire soit utiliser un réseau de neurones. Pour un ordinateur, c'est encore plus simple que la traduction automatique: le texte n'a pas besoin d'être converti dans une autre langue, syntaxe, etc. Mais dans l'ensemble, c'est la même chose.

Où est-il utilisé? Un pionnier parmi les grandes agences est l'Associated Press. Ils utilisent la génération automatique de contenu pour les actualités financières, dans lesquelles il y a peu d'analyses, mais beaucoup de chiffres et de preuves. Il existe trois fournisseurs qui fabriquent de tels logiciels: Narrative Science, Automated Insights et Article Forge. Si vous allez sur leurs sites, vous pouvez voir de nombreux cas réels - des exemples de publications écrites par des robots. Tous ces articles sont basés sur des preuves.



Y a-t-il une différence notable entre la création et le contenu généré? Aux États-Unis et en Allemagne, ils ont mené des recherches au cours desquelles un grand nombre d'articles ont été montrés à des groupes de journalistes - respectivement, en anglais et en allemand. La moitié des textes ont été écrits par des personnes, la moitié par des machines. En moyenne, les gens ne pouvaient pas les distinguer. Et lorsque les sujets ont été invités à classer les textes selon leur fiabilité et leur intérêt, il s'est avéré qu'ils trouvaient les textes écrits par la machine plus fiables. Dans le même temps, les répondants ont noté que leur lecture n'est pas aussi intéressante que les articles «humains».

Il s'avère que les gens feraient mieux de faire du contenu divertissant. Et si vous avez besoin d'apporter des nouvelles - utilisez la voiture, ils le croiront davantage.

Avantages et dangers


Les robots vous permettent de vous concentrer sur le contenu que vous souhaitez intégrer dans le contenu, plutôt que sur le processus fastidieux de l'adapter à différents formats. Un autre avantage des machines est la vitesse de réaction: si vous avez besoin de traiter rapidement des pistes d'informations, c'est votre outil. Nous avons déjà dit à propos de la personnalisation des utilisateurs, c'est un avantage certain. Le quatrième avantage est le crowdsourcing: si vous utilisez un grand nombre de sources, la machine sera en mesure de classer automatiquement les informations reçues, de distinguer les bonnes des mauvaises et de choisir celles qui conviennent.



Il existe des dangers potentiels. Le premier est une caméra à écho. Le contenu qu'ils me montrent est personnalisé en fonction de la similitude de mes intérêts - en tenant compte de ce que j'ai déjà lu et des intérêts de gens comme moi. Ainsi, après un certain nombre d'itérations, je commence à cuisiner dans mon champ d'information fermé.

Le deuxième danger, ce sont les bulles d'information. Si vous créez une sorte de situation fictive, un événement, la machine peut écrire de nombreuses versions différentes de publications qui semblent authentiques. Avec l'aide de robots, de réseaux sociaux, etc., de telles informations erronées peuvent être diffusées à un large public.



Maintenant, ils parlent des soi-disant attaques adversiriales sur le réseau neuronal. Un exemple avec le logo KFC est donné: si vous montrez une telle image à une voiture autonome, elle monte immédiatement - l'intelligence artificielle reconnaît l'image comme un panneau d'arrêt. Si de telles manipulations sont possibles avec des textes, alors un ensemble insignifiant de mots correspondant à un certain algorithme pourra obtenir une note élevée des réseaux de neurones, et le lecteur verra une sorte de charabia.



Heureusement, dans la pratique, une telle attaque est très difficile. Rappelons que le réseau neuronal - comme notre cerveau - apporte n'importe quelle image conformément à la représentation interne. Regardez l'image: à gauche du visage, comme nous les voyons, et à droite - comme le voit le réseau neuronal. Ayant accès au réseau neuronal lui-même, des images peuvent être sélectionnées, comme dans l'exemple avec le logo KFC. En fait, le problème est également connu de la cryptographie, car il s'agit d'un analogue du piratage de la fonction de hachage. Le réseau neuronal dans ce cas est une fonction de hachage: vous convertissez un certain texte long en une petite représentation interne. Si vous prenez quelque chose qui correspond - pirater. Mais pour pouvoir répéter, vous devez accéder à l'algorithme.

Pas un concurrent, mais un assistant


Presque toutes les publications sur ce sujet posent le problème de la demande de journalistes à l'avenir. Il me semble que la question n'est pas tout à fait correcte: quelqu'un sera remplacé, quelqu'un non, mais il est clair que tout le journalisme ne peut pas être remplacé par des machines. Une personne ne leur cédera que quelques publications simples, banales et simples. Le problème est différent: comme les publications de base peuvent être créées automatiquement et faites facilement, le pourcentage de contenu généré très bientôt sera beaucoup plus que celui écrit par les gens. Comme nous l'avons déjà découvert, le contenu généré est mieux perçu en termes de fiabilité - et cela vous permet de créer un outil puissant pour manipuler la conscience et la perception. C'est probablement la chose la pire et la plus importante.



Pour créer du contenu à l'aide de l'apprentissage automatique, le processus d'interaction homme-machine est utilisé - non pas séparément, mais ensemble, dans une paire. Tout d'abord, la machine recherche les problèmes d'information, les classe, prédit l'importance, génère du contenu ... C'est le cas lorsque nous avons un flux important de différents types d'informations et que nous voulons y répondre rapidement. Si vous avez le temps de réfléchir et ainsi de suite, c'est un scénario complètement différent. Le contenu préparé par la machine va à un journaliste ou un éditeur qui regarde, évalue, ajoute. En outre, le texte peut être renvoyé à la publication ou à nouveau au robot - afin de former différentes versions de la publication pour différents publics cibles. Après cela, la voiture est engagée dans la personnalisation, choisit pour chaque personne quoi lui montrer. Bien sûr, pas partout, cela est implémenté tous ensemble, mais le flux de travail général ressemble à ceci.

Une personne n'est pas exclue du processus de préparation du contenu. Les robots ne sont rien de plus que des outils supplémentaires qui accélèrent et simplifient le processus, nous enlèvent les tâches de routine.



Les rapports de « Contenting » au format vidéo peuvent être commandés ici . Pour les utilisateurs Habr, une remise sur le code promo habr_online_promo.

Merci aux sponsors:




Amis, pour 10 jours supplémentaires, nous acceptons les candidatures pour un concours techno-technique sur le thème «État et informatique» et invitons tous les auteurs techniques à participer. Vous pouvez raconter une histoire sur la technologie, le développement, le raffinement des services, le dispositif de divers systèmes et applications, des entretiens avec un expert, une sélection de hacks de vie, une revue et d'autres documents sur le sujet - l'essentiel est qu'ils soient publiés sur Habré. Informations détaillées sur la page du concours .

Source: https://habr.com/ru/post/fr439388/


All Articles