Nouveau cours gratuit d'analyse de texte en ligne sur le réseau neuronal de Samsung

Nous utilisons régulièrement la recherche sur Internet, parler de chat-bots, lire les documents dans toutes les langues grâce aux traducteurs. Dites au robot aspirateur de commencer le nettoyage avec sa voix? Rien de spécial ... Pour beaucoup, les assistants vocaux sur smartphone entrent dans la vie de tous les jours. L'avenir, dans lequel l'ordinateur, après avoir lu une note étrangère sur le football, change le ton des informations météorologiques en conséquence, est déjà venu.

Comment ça marche? Comment devenir un spécialiste de la PNL (signifie Natural Language Processing, ne le confondez pas avec la programmation neurolinguistique :))?

Ces résidents de Khabrovsk qui posent de telles questions, nous vous invitons au cours en ligne récemment ouvert Samsung Research Russia. Détails sous la coupe ...

Auteurs du cours «Réseaux de neurones et traitement de texte»

En juin de cette année, nous avons écrit sur le lancement de notre premier cours en ligne « Réseaux de neurones et vision par ordinateur ». Cela s'est avéré être un succès: il y a déjà plus de 20 000 auditeurs, d'excellentes critiques et nous avons même reçu les Stepik Awards en septembre dans la nomination "Meilleur cours de nouveaux auteurs"!



5 mois se sont écoulés depuis le début de la première année, et nous ne sommes pas restés inactifs! Armés de l'expérience acquise et inspirés par le succès de collègues, une autre équipe d'auteurs - les développeurs du Samsung Center for Artificial Intelligence à Moscou, les experts en apprentissage automatique Roman Suvorov, Anastasia Yanina et Alexey Silvestrov, avec le soutien éditorial continu de Nikolai Kapyrin, ont maîtrisé la quantité gigantesque de travail, et le 15 octobre sur la chaîne " Samsung Research Russia Open Education »La plateforme Stepik a lancé le deuxième cours -« Réseaux de neurones et traitement de texte ».

Le cours dure 7 semaines. Si vous passez en moyenne 3-5 heures par semaine pour observer des conférences vidéo, répondre à des questions et des exercices pratiques, vous comprendrez ce qui est sous le capot des moteurs de recherche d'aujourd'hui, les robots et les générateurs de chat texte. L'équipe a travaillé dur pour faire en sorte que, ayant un seul cours, les étudiants ont pu naviguer avec confiance les technologies au niveau de développeur junior ou tout technicien, qui a derrière lui, il n'y a pas d'expérience spécifique dans le traitement de la PNL, et maintenant de traiter avec lui.

Quels sont donc les avantages distinctifs de notre cours?

  • Il est développé par Samsung Centre pour l'intelligence artificielle, dont les bagages derrière des projets commerciaux dans ce domaine
  • il y a une théorie et une pratique - vous verrez comment créer des réseaux de neurones pour traiter du texte sur PyTorch, mettre en œuvre les architectures les plus pertinentes et apprendre à les adapter à vos besoins
  • Comme en première année de vision par ordinateur, les meilleurs diplômés sont invités à un entretien chez Samsung Research Russia!

Sur l'infographie ci-dessous, nous réfléchissons brièvement le contenu des caractéristiques actuelles et quantitatives du New Deal:

Les diplômés reçoivent des certificats. Dans ce cas, deux options sont possibles:

  • un certificat ordinaire, des points pour lesquels vous pouvez marquer en résolvant tous les problèmes à la partie principale du cours;
  • certificat avec mention: pour cela, vous devrez résoudre tous les problèmes pour le meilleur score, parcourir les pistes théoriques du cours (là les tâches sont similaires à celles qui sont définies pour les employés lors des entretiens) et résoudre le problème final à Kaggle.

Enseignants et concepteurs de cours



Roman Suvorov
Centre d'ingénieur principal pour l'intelligence artificielle Samsung à Moscou
En analyse de données, apprentissage automatique et traitement du langage naturel depuis 2011.

"En 2013, les réseaux de neurones ont capté mon attention et n'ont pas lâché prise depuis, même si je n'oublie pas les approches classiques"

Anastasia Janina
Samsung Center for Artificial Intelligence Engineer à Moscou

«Je suis engagé dans l'analyse de données et la PNL depuis 2015. Diplômé de l'Institut de physique et de technologie de Moscou (FIVT) et ShAD, j'enseigne maintenant l'apprentissage automatique à la PhysTech "

Alexey Silvestrov
Ingénieur principal, Samsung Center for Artificial Intelligence à Moscou
«Il a été engagé dans la PNL classique en 2009-2012, en tant qu'étudiant, et plus tard - DL NLP en 2015-2017, plus tard passé à la génération de musique et d'images par les réseaux de neurones. Diplômé de l'Université d'État de Moscou VMiK. ”

Nikolay Kapyrin
Producteur de cours en ligne, conservateur de programmes éducatifs sur l'intelligence artificielle, Samsung Russian Research Center
« Je prévois d'écrire un article sur le Habr sur les problèmes techniques et méthodologiques que nous avons résolu jusqu'à ce qu'ils ont fait deux cours en ligne pour l'année »

Programme de cours


1. introduction

Dans ce module, en première approximation, nous apprenons quels sont les moyens de traitement de texte de l'apprentissage automatique aujourd'hui, quelles sont les difficultés et quelles tâches de la linguistique aujourd'hui ne peuvent être résolues que par des méthodes d'apprentissage automatique.

  1. Bonjour à tous! Parlez-nous de vous!
  2. En général: le langage naturel et le texte
  3. Caractéristiques de traitement du langage naturel
  4. En général: Analyse linguistique
  5. En général: caractéristiques Extraction
  6. Tâches et totaux de traitement de texte appliqués

2. Modèle de texte vectoriel et classification des textes longs

Mathématiques commence. Modèles vectoriels clairsemés, jetons, informations mutuelles ... qu'est-ce que tout cela? Nous allons passer en revue les méthodes de traduction d'une structure multidimensionnelle et multiforme, qui est contenue dans le texte - en nombres afin que les algorithmes ML puissent commencer leur travail.

  1. modèle vectoriel de texte et TF-IDF
  2. Créer un réseau de neurones pour travailler avec du texte
  3. Objectifs théoriques: modèle de texte vectoriel
  4. Séminaire: Classification des textes d'information

3. Méthodes de base du réseau neuronal pour travailler avec des textes

Est-ce que nous utilisons les réseaux de neurones de plein maillage? Quelle est l'opération « convolution des textes? » Cela semble être une opération pour les matrices? Réponses - dans ce module où nous allons explorer la première tentative réussie d'enseigner le réseau de neurones à travailler avec le sens du texte.

  1. Algorithme général pour travailler avec des textes utilisant des réseaux de neurones
  2. Sémantique de distribution et représentations vectorielles des mots
  3. Séminaire: la nourriture et des recettes sur Word2Vec PyTorch
  4. Questions théoriques: Principes de base du traitement de texte des réseaux de neurones
  5. Les principaux types de modèles de réseaux de neurones pour le traitement de texte
  6. Réseaux de neurones convolutifs pour le traitement de texte
  7. Séminaire: convolution POS-marquage des réseaux de neurones
  8. Questions théoriques: réseaux de neurones convolutifs dans le traitement de texte

4. Modèles de langage et génération de texte

Plongez plus profondément dans les réseaux de neurones. Le texte peut être une longueur, mais seulement le réseau de neurones récurrent pour permettre à l'algorithme de générer le texte sans trucs spéciaux. Nous avons essayé d'apprendre au réseau à lire, maintenant nous allons lui donner la possibilité de composer.

  1. Réseaux de neurones récurrents
  2. langage de simulation
  3. Atelier: Génération de noms et de slogans à l'aide de RNN
  4. Agrégation mécanisme de l'attention
  5. Transformateur et auto-attention
  6. Atelier: Modélisation d'un langage à l'aide de Transformer
  7. Questions théoriques: modèle de langage et transformateurs

5. séquences de transformation: 1 à 1 et N à M

Mais que faire si l'entrée est du texte et que la sortie a besoin de texte? Il s'agit d'un travail pour le traducteur, pour qui, comme nous le savons, le contexte est le plus important. Si vous devez traduire un tableau de texte en un autre, ou en plusieurs, alors ce module vous donnera tout ce dont vous avez besoin!

  1. Reconnaître la structure plate des textes courts
  2. Séminaire: la reconnaissance de la structure des prescriptions
  3. Atelier: analyse de sentiment d'aspect comme NER
  4. des séquences de conversion (seq2seq)
  5. Atelier: Génération de morceaux de code avec débordement de pile
  6. questions théoriques

6. Transfert d'apprentissage, adaptation du modèle

Avez-vous un grand projet, mais il n'y a pas des ressources informatiques super-héros? Ensuite, prenez un réseau neuronal prêt à l'emploi et continuez à le former pour résoudre votre problème particulier! Vous devez savoir plusieurs noms et plusieurs méthodes de formation, et le tour est joué.

  1. présentation contextualisée et le transfert des connaissances
  2. Séminaire: pytorch-transformateurs ou comment exécuter un BERT
  3. Atelier: BERT pour la recherche de questions et réponses
  4. Questions théoriques

7. Concurrence finale sur Kaggle et conclusion

Amener le curseur sur la « formation Start » vous pouvez déjà voir comment la chaîne se déroule psevdosimvolov multidimensionnelle et l'attention de la machine circule entre les concepts? Alors montrez-vous dans notre compétition finale!

  1. Quoi d'autre à lire, comment se développer
  2. Concours Kaggle: aperçu du problème et solution de base

Exigences pour les étudiants


Le cours est conçu pour les étudiants qui connaissent un peu le domaine de l'apprentissage automatique.

De quoi avez-vous besoin pour commencer le cours?

  1. Avoir une connaissance de base des réseaux de neurones
  2. Avoir des connaissances de base dans le domaine des statistiques mathématiques
  3. Soyez prêt à programmer en Python

On peut dire que le cours " Réseaux de neurones et traitement de texte " est une continuation du premier cours de vision par ordinateur, car il s'appuie sur le niveau de connaissance de base sur les réseaux de neurones que nous avons déjà donné.

Vous savez probablement déjà quelque chose sur la PNL - il est pas seulement sur l'édition de texte; que créer des robots de discussion, relire un texte, classer les émotions, répondre aux questions de Wikipédia sont des tâches simples qui ne nécessitent plus de recherches. Ces tâches deviendront disponibles une fois ce cours terminé. Mais, plus important encore, nous vous apprendrons à poser les bonnes questions dans le monde de la PNL moderne, et si vous trouverez les réponses vous-même ou le réseau neuronal externe - y a-t-il une différence. Et ensuite? Ça dépend de vous.

Êtes-vous avec nous?

Alors bienvenue dans le cours en ligne !

Source: https://habr.com/ru/post/fr476468/


All Articles