Visualisation des nouvelles de Runet



Imaginez que vous vous disputiez avec un ami, ce qui s'est passĂ© avant - un poulet ou un Ɠuf, une augmentation de taxe, par exemple, ou des nouvelles sur ce sujet, ou un Ă©vĂ©nement important a complĂštement noyĂ© un nuage de nouvelles sur une nouvelle chanson, par exemple, Kirkorov. Il serait utile de calculer la quantitĂ© de nouvelles sur chaque sujet Ă  un moment donnĂ©, puis de la visualiser. En fait, c'est ce que le projet "Runet News Radar" traite. Sous la coupe, nous vous dirons ce que l'apprentissage automatique a Ă  voir avec cela et comment tout volontaire peut y participer.

Référence rapide


L'apprentissage automatique pour le bien social (ML4SG) est une initiative au sein de la communautĂ© ODS visant Ă  crĂ©er les conditions des projets, comme son nom l'indique, qui utilisent l'apprentissage automatique pour apporter des avantages Ă  la sociĂ©tĂ©. La crĂ©ation de conditions se rĂ©fĂšre ici principalement aux ressources organisationnelles. Cela ressemble Ă  ceci: quelqu'un formule l'idĂ©e du projet et encourage les bĂ©nĂ©voles, tandis que quelqu'un se joint simplement au projet, pour le bien d'une idĂ©e, d'une expĂ©rience ou d'autres intĂ©rĂȘts. Tout repose sur l'enthousiasme, le plus souvent en temps libre du travail principal. Le radar de presse Runet, ou comme nous l'appelons briĂšvement dans l'Ă©quipe de presse, est l'un des projets du ML4SG.

Clause de non-responsabilité


Dans certaines illustrations de cet article, certains événements politiques ou personnes seront mentionnés. Laissons-nous les opinions à leur sujet. Habr n'est pas pour la politique.

Ce que nous faisons


En un mot sur la motivation


Désormais, le projet se positionne comme un outil d'analyse des médias dans leur ensemble. S'il y a une hypothÚse sur la façon dont l'attention dans les nouvelles s'est développée sur divers sujets, événements, personnes, etc., alors nous pouvons parler sur la base de chiffres spécifiques, pas de spéculations.

L'idée initiale était la suivante: nous prenons toutes les nouvelles que nous trouvons, appliquons une modélisation thématique, présentons les résultats dans le temps et dessinons le résultat.

Qu'est-ce que la modélisation thématique
Définition de machinelearning.ru:
Un modĂšle de sujet est une collection de documents texte qui dĂ©termine Ă  quels sujets appartient chaque document de collection. L'algorithme de construction d'un modĂšle thĂ©matique reçoit une collection de documents texte en entrĂ©e. La sortie de chaque document est un vecteur numĂ©rique composĂ© d'estimations du degrĂ© d'appartenance de ce document Ă  chacun des thĂšmes. La dimension de ce vecteur, Ă©gale au nombre de sujets, peut ĂȘtre soit dĂ©finie en entrĂ©e, soit dĂ©terminĂ©e automatiquement par le modĂšle.
Plus de détails ici .

Il est clair que cela nĂ©cessite les nouvelles elles-mĂȘmes et nous les tĂ©lĂ©chargeons. Et puisque nous aurons un grand corps de nouvelles, vous pouvez faire beaucoup de choses plus intĂ©ressantes, sans se limiter au thĂšme. Mais compte tenu des conditions rĂ©elles, dont nous parlerons, Ă  savoir que la foule de bĂ©nĂ©voles, et non une Ă©quipe de spĂ©cialistes rĂ©munĂ©rĂ©s, mettra en Ɠuvre le projet, au dĂ©but, nous rĂ©solvons toujours le problĂšme presque inchangĂ©.



Maintenant, nous sommes arrivĂ©s Ă  ce format de visualisation, il est appelĂ© tracĂ© de ligne de crĂȘte. Sur la diapositive, d'ailleurs, ces sujets sont un Ă©cran d'une ancienne dĂ©mo interne. Autrement dit, nous avons ici le temps sur l'axe des abscisses, l'Ă©paisseur de la bande est proportionnelle Ă  la façon dont le sujet Ă  ce moment est reprĂ©sentĂ© parmi d'autres nouvelles. Dans ce cas, agrĂ©gation par mois.

Dans le plan de base, nous avons le choix d'une source d'actualitĂ©s et un choix de la façon d'afficher un graphique. Vous pouvez Ă©galement sĂ©lectionner des donnĂ©es supplĂ©mentaires ne provenant pas des actualitĂ©s, par exemple, comment le prix du pĂ©trole ou tout autre indicateur s'est comportĂ© Ă  ce moment-lĂ  au cours de la mĂȘme pĂ©riode. Le choix des titres et un ensemble de sujets. En plus de cela, il y a beaucoup plus d'idĂ©es, mais plus Ă  ce sujet plus tard.

Projets similaires


Il existe de nombreux autres projets liĂ©s Ă  la visualisation des nouvelles. J'aime ces deux-lĂ  . Le premier compare la façon dont la mĂȘme actualitĂ© est prĂ©sentĂ©e dans diffĂ©rentes sources, et en mĂȘme temps une trĂšs bonne forme de prĂ©sentation et d'interactivitĂ©. Le second a tout simplement un trĂšs bon rapport information / simplicitĂ©. Il compare ce qui est dit sur les diffĂ©rentes causes de dĂ©cĂšs dans les actualitĂ©s, la frĂ©quence Ă  laquelle les causes de dĂ©cĂšs sont mentionnĂ©es dans les requĂȘtes de recherche et leur Ă©tat statistique. Eh bien, dans les conclusions sur la façon dont le terrorisme est catastrophiquement surestimĂ© et comment les maladies cardiaques et le cancer sont sous-estimĂ©s.

Comment on fait


Le projet est assez simple. Nous téléchargeons d'abord les données, puis nous les traitons, nous effectuons tout apprentissage automatique et nous dessinons des graphiques. Ensuite, nous créons un site Web, et tout le monde regarde. Tout est clair (enfin, oui, bien sûr).



Collecte de données


Pour commencer, nous avions un ensemble de données sur bande ru depuis 20 ans. Fondamentalement, nous avons fait toutes les expériences à ce sujet. Maintenant, nous avons collecté plusieurs autres sources et continuons à collecter tout ce que nous atteignons. Il y a beaucoup de matériaux détaillés sur le grattage et les araignées, nous ne nous attarderons donc pas sur ce sujet ici en détail.

Nlp


J'Ă©tais le plus inquiet pour la partie PNL, car il est difficile de formaliser les exigences pour le rĂ©sultat de la thĂ©matisation. De plus, il existe de nombreuses sous-tĂąches secondaires. Maintenant, nous avons fait beaucoup d'expĂ©riences avec diffĂ©rents outils de modĂ©lisation thĂ©matique, avant de nous dĂ©barrasser du prĂ©traitement, de faire beaucoup de repĂšres et de comparaisons. À l'heure actuelle, bigARTM s'est avĂ©rĂ© ĂȘtre le leader incontestĂ© de la thĂ©matique en termes de ressources et de qualitĂ©. Maintenant, c'est notre option de travail, jusqu'Ă  ce que quelqu'un montre quelque chose de mieux.

En général, tout l'apprentissage automatique est concentré principalement dans cette section. En plus de la tùche principale initialement définie de la thématisation, il y en a beaucoup d'autres qui apporteront également des conclusions intéressantes. Par exemple, NER. Nous avons déjà retiré tous les noms des données que nous avons, des dictionnaires compilés, comptés que nous mentionnons plusieurs fois. Il s'est avéré, par exemple, que sur Porochenko dans Lente.ru pendant tout le temps, ils ont écrit quatre fois plus que sur Poutine. Il est devenu intéressant pour moi qu'Assange soit synchronisé avec Magnitsky, et tout cela exactement aprÚs le départ de Bush. Mais Batman est plus populaire que Medvedev.




Animation divisée en catégories
Ceci est une sorte de teaser pour nos prochains articles, oĂč nous parlerons plus en dĂ©tail de la façon dont cette image s'est avĂ©rĂ©e et des conclusions qui peuvent en ĂȘtre tirĂ©es.


Bien que cette étape soit encore en cours, nous avons effectué un grand nombre d'expériences et comparé de nombreux outils et approches. Dans le processus, un grand tutoriel sur diverses tùches PNL avec des exemples de code et des tests de performance des outils les plus populaires et inhabituels.

Visualisation


Cette Ă©tape ne semblait pas trop compliquĂ©e, mais pour une raison quelconque, presque personne n'Ă©tait prĂȘt Ă  y faire face. Les exigences de visualisation vont un peu plus loin que l'approche EDA habituelle dans le sens des donnĂ©es. Dessiner un graphique pour vous-mĂȘme ou un autre centre de donnĂ©es est beaucoup plus facile que de dessiner un graphique pour le grand public. Nous Ă©tions occupĂ©s avec les formats et les outils depuis trĂšs longtemps et maintenant nous sommes arrivĂ©s Ă  certaines approches qui semblent les plus raisonnables, mais il reste encore beaucoup de travail Ă  faire, car il n'y a pratiquement pas d'outils prĂȘts Ă  l'emploi pour nos tĂąches. Par exemple, le graphique avec les visages ci-dessus a Ă©tĂ© rĂ©alisĂ© en deux Ă©tapes - les principaux Ă©lĂ©ments ont Ă©tĂ© gĂ©nĂ©rĂ©s dans le code, puis une longue Ă©tape de redessinage manuel a suivi afin qu'au moins quelque chose soit lu. En termes d'analyse dĂ©taillĂ©e de cette visualisation dans un article sĂ©parĂ©, elle reflĂšte dans une certaine mesure l'histoire de la Russie au cours des 20 derniĂšres annĂ©es.

L'équipe


Il est conditionnellement possible de diviser les participants en deux groupes: dĂ©butants et pros. Pour les dĂ©butants, la motivation est simple - mettre dans une tirelire une sorte de projet Ă  montrer aux employeurs, ou tout simplement acquĂ©rir de l'expĂ©rience, apprendre quelque chose. Et j'ai dĂ©jĂ  Ă©tĂ© informĂ© que les diffĂ©rentes choses que nous avons faites dans le cadre du projet ont Ă©tĂ© utiles dans le travail des participants, ont apprĂ©ciĂ© les autoritĂ©s. Les pros viennent soit Ă  cause de l'objectif mĂȘme du projet, soit parce qu'ils sont intĂ©ressĂ©s Ă  se joindre Ă  l'idĂ©e, soit parce qu'ils veulent essayer certaines de leurs idĂ©es dans les actualitĂ©s.

En fait, il y a un autre groupe de participants - ce sont les ninjas insaisissables qui s'intÚgrent et ne font rien ou commencent simplement, puis disparaissent. Mais comme je l'ai déjà expliqué, personne ne travaille dans le projet pour de l'argent, donc la désorganisation des ressources humaines est inévitable. L'observation du cÎté de la curiosité est également possible.



Maintenant, officiellement, il y a environ 80 personnes, dont environ 10-20 sont actives et 2-4 personnes sont actives presque constamment. Dans ce format, vous pouvez compenser le manque d'expĂ©rience au fil du temps. Beaucoup de gens Ă©crivent qu'il n'y a aucune connaissance de la façon de le faire, il y a une peur d'Ă©chouer Ă  cause de l'ineptie, mais en fait il est important de le faire et de ne pas attendre un instant. Parce que ml4sg est une activitĂ© trĂšs cool. Vous pouvez apporter des avantages et en mĂȘme temps obtenir des bĂ©nĂ©fices sous la forme d'expĂ©rience et de portefeuille, alors que le risque n'est que du temps, le gestionnaire a Ă©galement une rĂ©putation, bien sĂ»r, mais la principale ressource ici est le temps, qui est finalement payant.

Plans supplémentaires


J'essaie maintenant de le positionner comme un outil de recherche. Nous prévoyons d'ajouter une recherche «exploratoire» qui peut évaluer le sujet de la demande et fournir des statistiques sur les nouvelles de ce sujet, des graphiques de diverses données non nouvelles, mais pertinentes pour le sujet du projet. Ensuite, il sera possible de tester toutes sortes d'hypothÚses sur le comportement des médias, la relation entre événements et autres indicateurs arbitraires, sociaux ou économiques. Un tel outil pour rechercher les médias dans leur ensemble.

Qui a besoin d'un projet


  • Nous avons trĂšs peu de personnes impliquĂ©es dans la visualisation. Nous allons au-delĂ  des outils habituels des centres de donnĂ©es comme matplotlib ou complot, nous avons donc besoin de personnes qui aiment vraiment la visualisation des donnĂ©es et qui veulent y pĂ©nĂ©trer profondĂ©ment.
  • Nous avons besoin de personnes qui comprennent quelque chose dans le dĂ©veloppement Web.
  • Nous avons besoin de gens qui nous diront quoi chercher. En fait, ce devrait ĂȘtre nos clients qui souhaitent mener une Ă©tude et aller au fond de certaines choses sur la façon dont les mĂ©dias de langue russe ont changĂ© rĂ©cemment.
  • Nous avons toujours besoin de spĂ©cialistes en PNL, je pense qu'il n'y a pas besoin d'expliquer ici. Et il y a quelque chose Ă  faire pour ceux qui veulent apprendre et pour les gars expĂ©rimentĂ©s, car il y a beaucoup de problĂšmes intĂ©ressants dans ce domaine.
  • Et bien sĂ»r, nous devons construire un projet dĂ©cent pour que tout ne fonctionne pas sur du ruban Ă©lectrique, donc si vous tĂątonnez dans l'architecture des projets, vous pouvez rassembler un tas d'expĂ©riences dans un pipeline et ĂȘtes prĂȘt Ă  partager votre expĂ©rience, puis n'hĂ©sitez pas Ă . Si vous voulez apprendre en dĂ©placement, alors bienvenue aussi.

Source: https://habr.com/ru/post/fr460287/


All Articles