Olá pessoal!
Como parte de nosso
curso de Data Scientist, realizamos uma lição aberta sobre o tópico "Naive Bayes Classifier". A lição foi
ministrada pelo professor do curso Maxim Kretov , pesquisador líder no laboratório de redes neurais e aprendizagem profunda (MIPT). Oferecemos a você se familiarizar com o vídeo e um resumo.
Agradecemos antecipadamente.
EntradaImagine que você tem mil propriedades. Como regra, cada um deles pode ser caracterizado por um conjunto específico de recursos, por exemplo:
- área da casa;
- a quantidade de tempo decorrido desde o último reparo;
- distância da estação de transporte público mais próxima.
Assim, cada casa pode ser representada como x com a dimensão 3. Ou seja, x = (150; 5; 600), onde 150 é a área da casa em metros quadrados, 5 é o número de anos após o reparo, 600 é a distância da parada em metros. O preço pelo qual essa casa pode ser vendida no mercado será indicado por y.
Como resultado, temos um conjunto de vetores, com uma variável correspondente a cada objeto. E se falarmos sobre o preço, é possível aprender exatamente a prever, com as habilidades do aprendizado de máquina.
Classificação básica dos métodos de aprendizado de máquinaO exemplo acima é bastante típico e refere-se ao aprendizado de máquina com um professor (existe uma variável de destino). Se este último estiver ausente, podemos falar sobre aprendizado de máquina sem um professor. Esses são os dois tipos principais e mais comuns de aprendizado de máquina. Nesse caso, a tarefa de ensinar com um professor, por sua vez, é dividida em dois grupos:
- Classificação. A variável de destino é uma das classes C, ou seja, cada objeto recebe um rótulo de classe (casa de campo, casa de jardim, dependências etc.).
- Regressão. A variável de destino é um número real.
Quais tarefas o aprendizado de máquina resolve?Hoje, usando métodos de aprendizado de máquina, as seguintes tarefas são resolvidas:
1. Sintático:
- marcação por partes do discurso e caracteres morfológicos;
- divisão de palavras no texto em morfemas (prefixo, sufixo, etc.);
- procure nomes e títulos no texto ("reconhecimento de entidades nomeadas");
- resolução do significado das palavras em um determinado contexto (um exemplo típico é um castelo ou castelo).
2. Tarefas para entender o texto, em que existe um "professor":
- tradução automática;
- modelos interativos (bots de bate-papo).
3. Outras tarefas (descrição da imagem, reconhecimento de fala etc.).
A dificuldade de trabalhar com textoTrabalhar com texto do ponto de vista do aprendizado de máquina sempre traz consigo certas dificuldades. Para fazer isso, lembre-se das duas frases:
- a mãe lavou a moldura e agora ela brilha;
- mãe lavou a moldura e agora está cansada.
Se o classificador que executa o aprendizado de máquina não tiver bom senso, é igualmente verdade para ele quando o quadro está brilhante e cansado, porque sintaticamente o quadro de palavras na segunda frase está mais próximo do pronome.
Tarefa práticaDepois de fornecer informações gerais sobre alguns aspectos do aprendizado de máquina, o professor passou suavemente para a tarefa prática do webinar - a classificação de e-mails em spam e qualidade.
Primeiramente, foi mostrado um exemplo de como converter texto de entrada em um vetor de números. Para fazer isso:
- um dicionário do tamanho K foi corrigido;
- cada palavra no texto foi apresentada da seguinte forma: (0, 0, 0, ... 0, 1, 0, ... 0).
Essa abordagem é chamada de codificação 1 a quente e as palavras em seu contexto são chamadas de tokens.
Com base nos resultados desse estágio de processamento de dados, foi criado um dicionário e contagens de palavras para cada texto. Como resultado, um vetor de comprimento fixo foi obtido para cada texto. Uma abordagem mais simples de máscara booleana também foi considerada.
Apresentando o Classificador BayesianoO classificador ingênuo de Bayes é baseado na aplicação do teorema de Bayes com suposições estritas (ingênuas) sobre independência. Sua vantagem é a pequena quantidade de dados de treinamento necessários para avaliar os parâmetros necessários para a classificação.
Na interpretação da tarefa de classificar e-mails, a ideia principal foi a seguinte:
- todas as palavras no texto são consideradas independentemente uma da outra;
- se alguma palavra for encontrada no spam com mais frequência do que em boas letras, essas palavras serão consideradas sinais de pertencimento da carta ao spam.
Levando em consideração o teorema de Bayes, as fórmulas correspondentes foram escritas para várias variáveis, e também foram consideradas as características do cálculo de suposições adicionais. Um pseudocódigo foi usado para calcular os parâmetros, após o qual foi gerado um exemplo de modelo detalhado, onde foram calculadas probabilidades a priori e probabilidades de pertencer a classes para um novo objeto x. A etapa final do trabalho prático é a construção e o treinamento do modelo, bem como a medição da qualidade.
O FIM
Como sempre, estamos aguardando perguntas e comentários aqui ou você pode solicitá-los diretamente ao
professor, indo para o
Open Day .