Webinaire ouvert "Naive Bayes Classifier"

Bonjour à tous!

Dans le cadre de notre cours Data Scientist, nous avons organisé une leçon ouverte sur le thème «Naive Bayes Classifier». La leçon a été donnée par le professeur de cours Maxim Kretov , un chercheur de premier plan dans le laboratoire des réseaux de neurones et d'apprentissage profond (MIPT). Nous vous proposons de vous familiariser avec la vidéo et un résumé.

Merci d'avance.


Entrée

Imaginez que vous ayez mille propriétés. En règle générale, chacun d'eux peut être caractérisé par un ensemble spécifique de fonctionnalités, par exemple:

  • zone de la maison;
  • le temps écoulé depuis la dernière réparation;
  • éloignement de l'arrêt de transport public le plus proche.

Ainsi, chaque maison peut être représentée par x avec la dimension 3. C'est-à-dire x = (150; 5; 600), où 150 est la superficie de la maison en mètres carrés, 5 est le nombre d'années après réparation, 600 est la distance jusqu'à l'arrêt en mètres. Le prix pour lequel cette maison peut être vendue sur le marché sera indiqué par y.

En conséquence, nous avons un ensemble de vecteurs, avec une variable correspondant à chaque objet. Et si nous parlons du prix, alors il peut juste être appris à prédire, avec les compétences de l'apprentissage automatique.

Classification de base des méthodes d'apprentissage automatique

L'exemple ci-dessus est assez typique et concerne l'apprentissage automatique avec un enseignant (il existe une variable cible). Si ce dernier est absent, on peut parler de machine learning sans professeur. Ce sont les deux principaux types d'apprentissage automatique les plus courants. Dans ce cas, la tâche d'enseigner avec un enseignant est à son tour divisée en deux groupes:

  1. Classification. La variable cible est l'une des classes C, c'est-à-dire que chaque objet reçoit une étiquette de classe (chalet, maison de jardin, dépendances, etc.).
  2. Régression. La variable cible est un nombre réel.

Quelles tâches l'apprentissage automatique résout-il?

Aujourd'hui, à l'aide de méthodes d'apprentissage automatique, les tâches suivantes sont résolues:

1. Syntaxique:

  • balisage par parties du discours et caractères morphologiques;
  • division des mots du texte en morphèmes (préfixe, suffixe, etc.);
  • recherche de noms et de titres dans le texte ("reconnaissance des entités nommées");
  • résolution du sens des mots dans un contexte donné (un exemple typique est un château ou un château).

2. Tâches pour comprendre le texte, dans lequel il y a un "enseignant":

  • traduction automatique;
  • modèles interactifs (chat bots).

3. Autres tâches (description d'image, reconnaissance vocale, etc.).

La difficulté de travailler avec du texte

Travailler avec du texte du point de vue de l'apprentissage automatique entraîne toujours certaines difficultés. Pour ce faire, rappelez-vous simplement les deux phrases:

  • maman a lavé le cadre et maintenant il brille;
  • maman a lavé le cadre et maintenant elle est fatiguée.

Si le classificateur qui effectue l'apprentissage automatique n'a pas de bon sens, il en va de même pour lui lorsque le cadre est brillant et fatigué, car syntaxiquement le cadre de mots dans la deuxième phrase est plus proche du pronom.

Tâche pratique

Après avoir fourni des informations générales sur certains aspects de l'apprentissage automatique, l'enseignant est passé en douceur à la tâche pratique du webinaire - la classification des e-mails en spam et en qualité.

Tout d'abord, un exemple a été montré comment convertir le texte d'entrée en un vecteur de nombres. Pour ce faire:

  • un dictionnaire de taille K a été fixé;
  • chaque mot du texte était présenté sous la forme suivante: (0, 0, 0, ... 0, 1, 0, ... 0).

Cette approche est appelée 1-hot-encoding, et les mots dans son contexte sont appelés jetons.

Sur la base des résultats de cette étape de traitement des données, un dictionnaire a été créé et des décomptes de mots ont été effectués pour chaque texte. En conséquence, un vecteur de longueur fixe a été obtenu pour chaque texte. Une approche plus simple du masque booléen a également été envisagée.

Présentation du classificateur bayésien

Le classifieur naïf de Bayes est basé sur l'application du théorème de Bayes avec des hypothèses strictes (naïves) sur l'indépendance. Son avantage est la petite quantité de données d'entraînement nécessaires pour évaluer les paramètres requis pour la classification.
Dans l'interprétation de la tâche de classification des e-mails, l'idée principale était la suivante:

  • tous les mots du texte sont considérés indépendamment les uns des autres;
  • si des mots sont trouvés plus souvent dans le spam que dans les bonnes lettres, ces mots sont considérés comme des signes d'appartenance de la lettre au spam.

Compte tenu du théorème de Bayes, les formules correspondantes ont été écrites pour plusieurs variables et les caractéristiques du calcul d'hypothèses supplémentaires ont également été prises en compte. Un pseudo-code a été utilisé pour calculer les paramètres, après quoi un exemple de modèle détaillé a été généré, où les probabilités a priori et les probabilités d'appartenance à des classes pour un nouvel objet x ont été calculées. La dernière étape des travaux pratiques est la construction et la formation du modèle, ainsi que la mesure de la qualité.

LA FIN

Comme toujours, nous attendons ici les questions et commentaires ou vous pouvez les poser directement au professeur en allant à Open Day .

Source: https://habr.com/ru/post/fr420729/


All Articles