Data Scientist a décidé: de faire dépendre la probabilité d'un accident de l'expérience de conduite et des facteurs externes



On pense que le scientifique effectue la plupart des processus à l'aide de solutions de bibliothèque prêtes à l'emploi. Mais en réalité, dans les problèmes typiques, vous devez pouvoir vérifier l'adéquation de la méthode sélectionnée et, si nécessaire, la modifier en fonction de vos conditions. Avec Peter Lukyanchenko , professeur de mathématiques supérieures pour la science des données à OTUS, et dans le passé, Team Lead Analytics chez Lamoda, nous analysons comment les mathématiques aident dans de vrais problèmes commerciaux.



La première des trois parties de ce sujet est consacrée à l'analyse de régression .

Objectif commercial: Une entreprise d'autopartage doit identifier la dépendance, car une série de facteurs - l'expérience de conduite, la météo, l'état de la surface des voitures et des routes, la circulation, la population urbaine, etc. - affectent la probabilité d'un accident.

Pour Data Scientist, cette tâche ressemble à ceci: Calculer l'équation de dépendance d'un ensemble d'observations sur un ensemble d'autres paramètres.

Problème de solution typique: les modèles qui offrent des bibliothèques par défaut à une erreur de distribution normale. Son calcul est assez grossier et se rapproche rarement de la dépendance obtenue. De plus, l'inclusion d'une erreur inexacte dans l'équation conduit au fait qu'avec chaque nouvel ensemble de paramètres la prédiction devient de moins en moins précise.

Comment les mathématiques sauvent


Commençons par une description de la relation pour un facteur - l'expérience de conduite. Le modèle classique de régression linéaire par paires utilise deux coefficients. Le premier coefficient α (alpha) est une valeur inconditionnelle lorsqu'il y aurait simplement une probabilité générale d'accident, quels que soient les paramètres, simplement par coïncidence. Le deuxième coefficient β (beta) détermine la sensibilité du facteur d'expérience de conduite à la probabilité d'accident. Le coefficient β est également appelé pente dans l'équation de dépendance. Et comme il y aura toujours des facteurs que nous avons oubliés ou que nous n'avons pas pu prendre en compte, nous devons ajouter une erreur U i à l'équation.

On obtient l'équation: y i = α + βx i + U i .



En fait, la tâche de l'analyste est de rechercher de tels coefficients pour lesquels l'erreur U i était la plus petite.

Il existe plusieurs variétés de calcul d'erreur. En raison de sa simplicité, l'erreur absolue la plus courante est la déviation de la valeur prédite par rapport à la valeur absolue. L'erreur courante dans ce cas est la somme des modules. Le problème du module est que cette fonction n'est pas différenciable sur tout l'espace des nombres. Ensuite, les mathématiciens ont eu l'idée de prendre une transformation continue afin de généraliser l'erreur, et ont commencé à résumer les carrés de ces écarts. Cette fonction étant continue, on peut appliquer l'optimisation de Lagrange (optimisation de la fonction de deux variables). Après avoir calculé les dérivées de la fonction par rapport à α et β , nous trouvons les points d'extrema, puis nous les classons par la propriété de Hesse (selon la règle de Hesse). Deux coefficients α ' et β' sont formés correspondant à la méthode des moindres carrés. Il sous-tend le théorème de Gauss-Markov, qui est le modèle de régression de paire le plus optimal. Les notes qu'elle a reçues sont les meilleures et leurs résultats ne peuvent être interrompus par aucune autre méthode.



Faites évoluer le processus


Nous arrivons maintenant au fait que la probabilité de se produire dans un accident est affectée par de nombreux autres paramètres qui peuvent être exprimés dans une évaluation quantitative. Il s'avère que Y dépend du nième nombre de variables X. Afin de ne pas répéter le même calcul de tous les coefficients α et β pour chaque paramètre, nous nous tournons vers l'équation matricielle de dépendance. Après avoir soigneusement différencié, nous pouvons obtenir une matrice de coefficients, nous généralisons donc l'équation de régression appariée à multidimensionnelle.

L'erreur est la clé


Un autre point important dans la résolution des problèmes de régression est lié au choix de l'erreur. Souvent, les analystes choisissent une erreur normalement distribuée. En fait, c'est une méthode obsolète. Il fonctionne toujours bien dans des conditions théoriques, mais est déjà trop primitif pour nos algorithmes qui sont de plus en plus compliqués et aspirent à la vérité. Pour un spécialiste compétent, l'erreur est un sujet de recherche qui permet de mieux comprendre l'essence même de la régression. Après avoir construit une régression, il examine les erreurs qu'il a générées et explore l'ensemble du nuage d'erreurs. Par exemple, si les écarts augmentent, c'est un signe d'hétéroscédasticité, c'est-à-dire alors nous avons oublié de prendre en compte certaines variables de X et nous ne les avons pas comptées. S'il découvre que les erreurs sont localisées conformément à certaines lois et y remarque une autocorrélation, c'est un signe que nous avons fait une erreur avec le modèle. Idéalement, vous devez vous efforcer de minimiser l'écart de l'erreur par rapport à zéro.

Alors, de quelles connaissances en mathématiques supérieures avions-nous besoin pour construire une dépendance complexe de la probabilité d'un accident sur un ensemble de facteurs:

  1. Mat. analyse pour optimiser la fonction de régression
  2. Algèbre linéaire, c'est-à-dire définition, propriétés et différenciation des matrices, pour la transition de la régression par paires à la multidimensionnelle
  3. Analyse et sélection du type de distribution d'erreur. Par exemple, un spécialiste peut prendre une distribution normale généralisée, une distribution bêta ou une distribution étudiant. Cela est particulièrement nécessaire dans les cas où il n'y a pas de bon échantillon et lorsqu'il ne peut pas être amélioré. Et aussi lorsque la condition du théorème de Gauss-Markov est violée et que le besoin se fait sentir de construire l'équation de régression différemment ou d'utiliser d'autres méthodes pour classer et estimer la probabilité.

La capacité de travailler avec un appareil mathématique est un avantage important de Data Scientist, qui lui permet de vérifier les résultats et de résoudre des problèmes atypiques. Dans le prochain article, nous parlerons des solutions mathématiques pour les services de conseil. En attendant, nous vous invitons à des cours de mathématiques pour la science des données, qui débuteront cette semaine.

Pour le cours de base - à partir du 29 janvier - une connaissance suffisante du programme scolaire , pour les avancés - à partir du 31 janvier - la connaissance de 1-2 cours de l'institut est requise .

Ayez le temps de vous inscrire et de réussir le test d'entrée.

Source: https://habr.com/ru/post/fr485944/


All Articles