Data Scientist hat beschlossen, die Wahrscheinlichkeit eines Unfalls von der Fahrpraxis und externen Faktoren abhängig zu machen



Es wird angenommen, dass der Wissenschaftler die meisten Prozesse mit Hilfe von vorgefertigten Bibliothekslösungen durchführt. In der Realität müssen Sie jedoch bei typischen Problemen in der Lage sein, die Eignung der ausgewählten Methode zu überprüfen und sie gegebenenfalls an Ihre Bedingungen anzupassen. Gemeinsam mit Peter Lukyanchenko , einem Lehrer für höhere Mathematik für Data Science bei OTUS, und in der Vergangenheit Team Lead Analytics bei Lamoda, untersuchen wir, wie Mathematik bei realen Geschäftsproblemen hilft.



Der erste von drei Teilen dieses Themas ist der Regressionsanalyse gewidmet .

Geschäftsziel: Ein Carsharing-Unternehmen muss die Abhängigkeit ermitteln, da eine Reihe von Faktoren - Fahrerlebnis, Wetter, Zustand des Autos und der Fahrbahn, Verkehr, Stadtbevölkerung usw. - die Wahrscheinlichkeit eines Unfalls beeinflussen.

Für Data Scientist sieht diese Aufgabe folgendermaßen aus: Berechnen Sie die Abhängigkeitsgleichung einer Reihe von Beobachtungen von einer Reihe anderer Parameter.

Typische Lösung Problem: Modelle, die Bibliotheken anbieten, weisen standardmäßig einen normalen Verteilungsfehler auf. Ihre Berechnung ist ziemlich grob und nähert sich selten der erhaltenen Abhängigkeit. Darüber hinaus führt die Einbeziehung eines ungenauen Fehlers in die Gleichung dazu, dass mit jedem neuen Parametersatz die Vorhersage immer ungenauer wird.

Wie Mathematik spart


Beginnen wir mit einer Beschreibung der Beziehung für einen Faktor - das Fahrerlebnis. Das klassische gepaarte lineare Regressionsmodell verwendet zwei Koeffizienten. Der erste Koeffizient α (alpha) ist ein unbedingter Wert, bei dem eine allgemeine Wahrscheinlichkeit eines Unfalls, unabhängig von irgendwelchen Parametern, einfach durch Zufall besteht. Der zweite Koeffizient β (beta) bestimmt die Empfindlichkeit des Fahrerlebnisfaktors für die Wahrscheinlichkeit eines Unfalls. Der Koeffizient β wird auch als Steigung in der Abhängigkeitsgleichung bezeichnet. Und da es immer Faktoren gibt, die wir vergessen haben oder die wir nicht berücksichtigen konnten, müssen wir der Gleichung einen Fehler U i hinzufügen.

Wir erhalten die Gleichung: y i = α + β x i + U i .



Tatsächlich besteht die Aufgabe des Analytikers darin, nach solchen Koeffizienten zu suchen, bei denen der Fehler U i am kleinsten war.

Es gibt einige Arten von Fehlerberechnungen. Der beliebteste absolute Fehler ist aufgrund seiner Einfachheit die Abweichung des vorhergesagten Wertes vom absoluten Wert. Der häufigste Fehler ist in diesem Fall die Summe der Module. Das Modulproblem ist, dass diese Funktion nicht über den gesamten Zahlenraum differenzierbar ist. Dann kamen die Mathematiker auf die Idee, eine kontinuierliche Transformation durchzuführen, um den Fehler zu verallgemeinern, und begannen, die Quadrate solcher Abweichungen zusammenzufassen. Da diese Funktion stetig ist, können wir die Lagrange-Optimierung anwenden (Optimierung der Funktion zweier Variablen). Nachdem wir die Ableitungen der Funktion in Bezug auf α und β berechnet haben, finden wir die Extrema-Punkte und klassifizieren sie durch die hessische Eigenschaft (gemäß der hessischen Regel). Entsprechend der Methode der kleinsten Quadrate werden zwei Koeffizienten α ' und β' gebildet . Es liegt dem Gauß-Markov-Theorem zugrunde, dem optimalsten Paarregressionsmodell. Die Noten, die sie erhielt, sind die besten, und ihre Ergebnisse können durch keine andere Methode unterbrochen werden.



Skalieren Sie den Prozess


Nun kommen wir zu der Tatsache, dass die Wahrscheinlichkeit eines Unfalls durch viele andere Parameter beeinflusst wird, die sich in einer quantitativen Bewertung ausdrücken lassen. Es stellt sich heraus, dass Y von der n-ten Anzahl von Variablen X abhängt. Um nicht für jeden Parameter die gleiche Berechnung aller Koeffizienten α und β zu wiederholen, wenden wir uns der Matrixabhängigkeitsgleichung zu. Nach sorgfältiger Differenzierung können wir eine Koeffizientenmatrix erhalten und die gepaarte Regressionsgleichung auf multidimensional verallgemeinern.

Fehler ist der Schlüssel


Ein weiterer wichtiger Punkt bei der Lösung von Regressionsproblemen hängt mit der Wahl des Fehlers zusammen. Oft entscheiden sich Analysten für einen normalverteilten Fehler. In der Tat ist dies eine veraltete Methode. Es funktioniert unter theoretischen Bedingungen immer noch gut, ist aber für unsere Algorithmen, die immer komplizierter werden und nach Wahrheit streben, bereits zu primitiv. Für einen kompetenten Spezialisten ist Fehler ein Forschungsgegenstand, der hilft, das Wesen der Regression besser zu verstehen. Nachdem er eine Regression erstellt hat, untersucht er, welche Fehler sie erzeugt hat, und untersucht die gesamte Fehlerwolke. Wenn beispielsweise Abweichungen zunehmen, ist dies ein Zeichen für Heteroskedastizität, d. H. dann vergaßen wir einige Variablen von X zu berücksichtigen und zählten sie nicht. Wenn er feststellt, dass Fehler nach einem bestimmten Gesetz lokalisiert sind und eine Autokorrelation feststellt, ist dies ein Zeichen dafür, dass wir einen Fehler mit dem Modell gemacht haben. Im Idealfall sollten Sie versuchen, die Abweichung des Fehlers von Null zu minimieren.

Welche Kenntnisse der höheren Mathematik brauchten wir, um eine komplexe Abhängigkeit der Unfallwahrscheinlichkeit von einer Reihe von Faktoren aufzubauen:

  1. Mat. Analyse zur Optimierung der Regressionsfunktion
  2. Lineare Algebra, d.h. Definition, Eigenschaften und Differenzierung von Matrizen für den Übergang von der paarweisen zur mehrdimensionalen Regression
  3. Analyse und Auswahl der Art der Fehlerverteilung. Zum Beispiel kann ein Spezialist eine allgemeine Normalverteilung, eine Betaverteilung oder eine Studentenverteilung wählen. Dies ist insbesondere in Fällen erforderlich, in denen keine gute Probe vorhanden ist und die nicht verbessert werden kann. Und auch, wenn die Bedingung des Gauß-Markov-Theorems verletzt wird und die Notwendigkeit besteht, die Regressionsgleichung anders zu konstruieren oder andere Methoden zur Klassifizierung und Abschätzung der Wahrscheinlichkeit zu verwenden.

Die Fähigkeit, mit einem mathematischen Gerät zu arbeiten, ist ein wichtiger Vorteil von Data Scientist, der es ihm ermöglicht, die Ergebnisse zu überprüfen und atypische Probleme zu lösen. Im nächsten Artikel werden wir über mathematische Lösungen für Beratungsdienste sprechen. In der Zwischenzeit laden wir Sie zu Kursen in Mathematik für Data Science ein, die diese Woche beginnen.

Für den Grundkurs - ab dem 29. Januar - sind ausreichende Kenntnisse des Lehrplans erforderlich , für Fortgeschrittene - ab dem 31. Januar - sind Kenntnisse in 1-2 Kursen des Instituts erforderlich .

Haben Sie Zeit, sich anzumelden und den Eingangstest zu bestehen.

Source: https://habr.com/ru/post/de485944/


All Articles