O Data Scientist decidiu: depender da probabilidade de um acidente com relação à experiência de dirigir e a fatores externos



Acredita-se que o cientista execute a maioria dos processos com a ajuda de soluções de bibliotecas prontas. Mas, na realidade, em problemas típicos, você precisa verificar a adequação do método selecionado e, se necessário, modificá-lo para se adequar às suas condições. Juntamente com Peter Lukyanchenko , professor de matemática superior para Data Science na OTUS, e no passado, Team Lead Analytics na Lamoda, analisamos como a matemática ajuda em problemas reais de negócios.



A primeira das três partes deste tópico é dedicada à análise de regressão .

Objetivo de negócios: Uma empresa de compartilhamento de carros precisa identificar a dependência, pois uma série de fatores - experiência de condução, clima, condições da superfície do carro e da estrada, tráfego, população da cidade etc. - afetam a probabilidade de um acidente.

Para o Data Scientist, esta tarefa tem a seguinte aparência: Calcule a equação de dependência de um conjunto de observações em um conjunto de outros parâmetros.

Problema típico de solução: Modelos que oferecem bibliotecas padrão para um erro de distribuição normal. Seu cálculo é bastante grosseiro e raramente se aproxima da dependência obtida. Além disso, a inclusão de um erro impreciso na equação leva ao fato de que a cada novo conjunto de parâmetros a previsão se torna cada vez menos precisa.

Como a matemática salva


Vamos começar com uma descrição do relacionamento para um fator - a experiência de dirigir. O modelo clássico de regressão linear emparelhado emprega dois coeficientes. O primeiro coeficiente α (alfa) é um valor incondicional quando simplesmente haveria uma probabilidade geral de um acidente, independentemente de quaisquer parâmetros, simplesmente por coincidência. O segundo coeficiente β (beta) determina a sensibilidade do fator de experiência de condução à probabilidade de um acidente. O coeficiente β também é chamado de declive na equação de dependência. E como sempre haverá fatores que esquecemos ou não conseguimos levar em consideração, devemos adicionar algum erro U i à equação.

Obtemos a equação: y i = α + βx i + U i .



Na verdade, a tarefa do analista é procurar esses coeficientes nos quais o erro Ui foi o menor.

Existem algumas variedades de cálculo de erros. Devido à sua simplicidade, o erro absoluto mais popular é o desvio do valor previsto em relação ao valor absoluto. O erro comum neste caso é a soma dos módulos. O problema do módulo é que essa função não é diferenciável em todo o espaço de números. Em seguida, os matemáticos tiveram a ideia de realizar transformações contínuas para generalizar o erro e começaram a resumir os quadrados de tais desvios. Como essa função é contínua, podemos aplicar a otimização de Lagrange (otimização da função de duas variáveis). Tendo calculado as derivadas da função em relação a α e β , encontramos os pontos dos extremos, depois os classificamos através da propriedade Hessiana (de acordo com a regra de Hesse). Dois coeficientes α ' e β' são formados correspondendo ao método dos mínimos quadrados. Está subjacente ao teorema de Gauss-Markov, que é o modelo de regressão de pares mais ideal. As notas que ela recebeu são as melhores e seus resultados não podem ser interrompidos por nenhum outro método.



Escale o processo


Agora chegamos ao fato de que a probabilidade de entrar em um acidente é afetada por muitos outros parâmetros que podem ser expressos em uma avaliação quantitativa. Acontece que Y depende do enésimo número de variáveis ​​X. Para não repetir o mesmo cálculo de todos os coeficientes α e β para cada parâmetro, passamos à equação da matriz da dependência. Tendo diferenciado cuidadosamente, podemos obter uma matriz de coeficientes, generalizando a equação de regressão pareada para multidimensional.

Erro é a chave


Outro ponto importante na resolução de problemas de regressão está relacionado à escolha do erro. Frequentemente, os analistas escolhem um erro normalmente distribuído. De fato, este é um método obsoleto. Ainda funciona bem em condições teóricas, mas já é primitivo demais para nossos algoritmos que estão constantemente se tornando mais complicados e buscando a verdade. Para um especialista competente, o erro é um assunto de pesquisa que ajuda a entender melhor a própria essência da regressão. Tendo construído uma regressão, ele analisa quais erros ela gerou e explora toda a nuvem de erros. Por exemplo, se os desvios aumentarem, isso é um sinal de heterocedasticidade, ou seja, esquecemos de levar em consideração algumas variáveis ​​de X e não as contamos. Se ele descobrir que os erros estão localizados de acordo com alguma lei e perceber a autocorrelação deles, isso é um sinal de que cometemos um erro com o modelo. Idealmente, você deve se esforçar para minimizar o desvio do erro de zero.

Portanto, de que conhecimento de matemática superior precisamos para construir uma dependência complexa da probabilidade de um acidente em um conjunto de fatores:

  1. Mat. análise para otimizar a função de regressão
  2. Álgebra linear, ou seja, definição, propriedades e diferenciação de matrizes, para a transição da regressão pareada para a multidimensional
  3. Análise e seleção do tipo de distribuição de erros. Por exemplo, um especialista pode usar uma distribuição normal generalizada, uma distribuição beta ou uma distribuição de estudantes. Isso é especialmente necessário nos casos em que não há boa amostra e quando não pode ser melhorada. E também quando a condição do teorema de Gauss-Markov é violada e surge a necessidade de construir a equação de regressão de maneira diferente ou usar outros métodos para classificar e estimar a probabilidade.

A capacidade de trabalhar com um aparato matemático é uma vantagem importante do Data Scientist, que permite verificar os resultados e resolver problemas atípicos. No próximo artigo, falaremos sobre soluções matemáticas para serviços de consultoria. Enquanto isso, convidamos você para cursos de matemática para Data Science, que começarão nesta semana.

Para o curso básico - a partir de 29 de janeiro - conhecimento suficiente do currículo escolar , para o avançado - a partir de 31 de janeiro - é necessário o conhecimento de 1-2 cursos do instituto .

Tenha tempo para se inscrever e passar no teste de admissão.

Source: https://habr.com/ru/post/pt485944/


All Articles