Abrir webinar "Clasificador Naive Bayes"

Hola a todos!

Como parte de nuestro curso de Data Scientist, realizamos una lección abierta sobre el tema "Naive Bayes Classifier". La lección fue impartida por el profesor del curso Maxim Kretov , un investigador líder en el laboratorio de redes neuronales y aprendizaje profundo (MIPT). Le ofrecemos familiarizarse con el video y un resumen.

Gracias de antemano.


Entrada

Imagina que tienes mil propiedades. Como regla general, cada uno de ellos puede caracterizarse por un conjunto específico de características, por ejemplo:

  • área de la casa;
  • la cantidad de tiempo transcurrido desde la última reparación;
  • lejanía de la parada de transporte público más cercana.

Por lo tanto, cada casa se puede representar como x con la dimensión 3. Es decir, x = (150; 5; 600), donde 150 es el área de la casa en metros cuadrados, 5 es el número de años después de la reparación, 600 es la distancia hasta la parada en metros. El precio por el cual esta casa se puede vender en el mercado se indicará con y.

Como resultado, tenemos un conjunto de vectores, con una variable correspondiente a cada objeto. Y si hablamos del precio, entonces se puede aprender a predecir con las habilidades del aprendizaje automático.

Clasificación básica de los métodos de aprendizaje automático.

El ejemplo anterior es bastante típico y se relaciona con el aprendizaje automático con un maestro (hay una variable objetivo). Si este último está ausente, podemos hablar sobre el aprendizaje automático sin un maestro. Estos son los dos tipos principales y más comunes de aprendizaje automático. En este caso, la tarea de enseñar con un maestro, a su vez, se divide en dos grupos:

  1. Clasificación La variable objetivo es una de las clases C, es decir, a cada objeto se le asigna una etiqueta de clase (casa de campo, casa de jardín, edificio anexo, etc.).
  2. Regresión La variable objetivo es un número real.

¿Qué tareas resuelve el aprendizaje automático?

Hoy, utilizando métodos de aprendizaje automático, se resuelven las siguientes tareas:

1. Sintáctico:

  • marcado por partes del discurso y caracteres morfológicos;
  • división de palabras en el texto en morfemas (prefijo, sufijo, etc.);
  • buscar nombres y títulos en el texto ("reconocimiento de entidades con nombre");
  • resolución del significado de las palabras en un contexto dado (un ejemplo típico es un castillo o castillo).

2. Tareas para comprender el texto, en el que hay un "profesor":

  • traducción automática;
  • modelos interactivos (bots de chat).

3. Otras tareas (descripción de imagen, reconocimiento de voz, etc.).

La dificultad de trabajar con texto.

Trabajar con texto desde el punto de vista del aprendizaje automático siempre conlleva ciertas dificultades. Para hacer esto, solo recuerda las dos oraciones:

  • mamá lavó el marco y ahora brilla;
  • mamá lavó el marco y ahora está cansada.

Si el clasificador que realiza el aprendizaje automático no tiene sentido común, es igualmente cierto para él cuando el marco está brillante y cansado, porque sintácticamente el marco de la palabra en la segunda oración está más cerca del pronombre.

Tarea práctica

Después de proporcionar información general sobre algunos aspectos del aprendizaje automático, el profesor pasó a la tarea práctica del seminario web: la clasificación de los correos electrónicos en spam y calidad.

En primer lugar, se mostró un ejemplo de cómo convertir el texto de entrada en un vector de números. Para hacer esto:

  • se reparó un diccionario de tamaño K;
  • cada palabra en el texto se presentó en la siguiente forma: (0, 0, 0, ... 0, 1, 0, ... 0).

Este enfoque se denomina codificación en caliente 1 y las palabras en su contexto se denominan tokens.

En base a los resultados de esta etapa de procesamiento de datos, se creó un diccionario y se hicieron recuentos de palabras para cada texto. Como resultado, se obtuvo un vector de longitud fija para cada texto. También se consideró un enfoque de máscara booleana más simple.

Presentamos el clasificador bayesiano

El ingenuo clasificador de Bayes se basa en la aplicación del teorema de Bayes con suposiciones estrictas (ingenuas) sobre la independencia. Su ventaja es la pequeña cantidad de datos de entrenamiento necesarios para evaluar los parámetros requeridos para la clasificación.
En la interpretación de la tarea de clasificar correos electrónicos, la idea principal era la siguiente:

  • todas las palabras en el texto se consideran independientemente unas de otras;
  • Si alguna palabra se encuentra en el correo no deseado con más frecuencia que en las letras buenas, estas palabras se consideran signos de pertenencia de la carta al correo no deseado.

Teniendo en cuenta el teorema de Bayes, las fórmulas correspondientes se escribieron para varias variables, y también se consideraron las características de calcular supuestos adicionales. Se utilizó un pseudocódigo para calcular los parámetros, después de lo cual se generó un modelo de ejemplo detallado, donde se calcularon las probabilidades a priori y las probabilidades de pertenecer a clases para un nuevo objeto x. La etapa final del trabajo práctico es la construcción y capacitación del modelo, así como la medición de la calidad.

El fin

Como siempre, estamos esperando preguntas y comentarios aquí o puede preguntarlos directamente al maestro yendo a la jornada de puertas abiertas .

Source: https://habr.com/ru/post/es420729/


All Articles