
Se cree que el científico realiza la mayoría de los procesos con la ayuda de soluciones bibliotecarias listas para usar. Pero en realidad, en los problemas típicos, debe poder comprobar qué tan adecuado es el método seleccionado y, si es necesario, modificarlo para que se ajuste a sus condiciones. Junto con
Peter Lukyanchenko , profesor de matemáticas superiores para Data Science en OTUS, y en el pasado, Team Lead Analytics en Lamoda, observamos cómo las matemáticas ayudan en problemas comerciales reales.
La primera de las tres partes de este tema está dedicada al
análisis de regresión .
Objetivo comercial: una empresa que comparte automóviles necesita identificar la dependencia, ya que una serie de factores (experiencia de manejo, clima, condiciones de la carretera y del automóvil, tráfico, población de la ciudad, etc.) afectan la probabilidad de un accidente.
Para Data Scientist, esta tarea se ve así: Calcular la ecuación de dependencia de un conjunto de observaciones en un conjunto de otros parámetros.
Problema típico de la solución: los modelos que ofrecen bibliotecas predeterminadas a un error de distribución normal. Su cálculo es bastante tosco, y rara vez se acerca a la dependencia obtenida. Además, la inclusión de un error inexacto en la ecuación lleva al hecho de que con cada nuevo conjunto de parámetros la predicción se vuelve cada vez menos precisa.
Cómo ahorran las matemáticas
Comencemos con una descripción de la relación para un factor: la experiencia de conducir. El modelo clásico de regresión lineal emparejado emplea dos coeficientes. El primer coeficiente
α (alfa) es un valor incondicional cuando simplemente habría una probabilidad general de accidente, independientemente de cualquier parámetro, simplemente por coincidencia. El segundo coeficiente
β (beta) determina la sensibilidad del factor de experiencia de conducción a la probabilidad de un accidente. El coeficiente
β también se llama pendiente en la ecuación de dependencia. Y dado que siempre habrá factores que olvidamos o no pudimos tener en cuenta, debemos agregar algún error U
i a la ecuación.
Obtenemos la ecuación: y
i = α + βx
i + U
i .

En realidad, la tarea del analista es buscar los coeficientes en los cuales el error U
i fue el más pequeño.
Existen bastantes variedades de cálculo de errores. Debido a su simplicidad, el error absoluto más popular es la desviación del valor predicho del valor absoluto. El error común en este caso es la suma de los módulos. El problema del módulo es que esta función no es diferenciable en todo el espacio de números. Luego, a los matemáticos se les ocurrió la idea de realizar una transformación continua para generalizar el error, y comenzaron a resumir los cuadrados de tales desviaciones. Como esta función es continua, podemos aplicar la optimización de Lagrange (optimización de la función de dos variables). Habiendo calculado las derivadas de la función con respecto a
α y
β , encontramos los puntos de extremos, luego los clasificamos a través de la propiedad de Hesse (de acuerdo con la regla de Hesse). Se
forman dos coeficientes
α ' y
β' correspondientes al método de mínimos cuadrados. Subraya el teorema de Gauss-Markov, que es el modelo de regresión de pares más óptimo. Las calificaciones que recibió son las mejores, y sus resultados no pueden ser interrumpidos por ningún otro método.

Escalar el proceso
Ahora pasamos al hecho de que la probabilidad de tener un accidente se ve afectada por muchos otros parámetros que pueden expresarse en una evaluación cuantitativa. Resulta que Y depende del enésimo número de variables X. Para no repetir el mismo cálculo de todos los coeficientes
α y
β para cada parámetro, recurrimos a la ecuación matricial de dependencia. Habiendo diferenciado cuidadosamente, podemos obtener una matriz de coeficientes, por lo que generalizamos la ecuación de regresión pareada a multidimensional.
El error es la clave
Otro punto importante en la resolución de problemas de regresión está relacionado con la elección del error. A menudo, los analistas eligen un error normalmente distribuido. De hecho, este es un método obsoleto. Todavía funciona bien en condiciones teóricas, pero ya es demasiado primitivo para nuestros algoritmos que constantemente se vuelven más complicados y luchan por la verdad. Para un especialista competente, el error es un tema de investigación que ayuda a comprender mejor la esencia misma de la regresión. Después de construir una regresión, observa qué errores ha generado y explora toda la nube de errores. Por ejemplo, si las desviaciones aumentan, esto es un signo de heterocedasticidad, es decir entonces olvidamos tener en cuenta algunas variables de X y no las contamos. Si descubre que los errores se encuentran de acuerdo con alguna ley y nota la autocorrelación en ellos, entonces esto es una señal de que cometimos un error con el modelo. Idealmente, debe esforzarse por minimizar la desviación del error de cero.
Entonces, ¿qué conocimiento de matemática superior necesitábamos para construir una dependencia compleja de la probabilidad de un accidente en un conjunto de factores:
- Mat. análisis para optimizar la función de regresión
- Álgebra lineal, es decir definición, propiedades y diferenciación de matrices, para la transición de regresión por pares a multidimensional
- Análisis y selección del tipo de distribución de errores. Por ejemplo, un especialista puede tomar una distribución normal generalizada, una distribución beta o una distribución estudiantil. Esto es especialmente necesario en los casos en que no hay una buena muestra y cuando no se puede mejorar. Y también cuando se viola la condición del teorema de Gauss-Markov y surge la necesidad de construir la ecuación de regresión de manera diferente o usar otros métodos para clasificar y estimar la probabilidad.
La capacidad de trabajar con un aparato matemático es una ventaja importante de Data Scientist, que le permite verificar los resultados y resolver problemas atípicos. En el próximo artículo hablaremos sobre soluciones matemáticas para servicios de asesoramiento. Mientras tanto, los invitamos a cursos de matemática para Data Science, que comenzarán esta semana.
Para el
curso básico -
comenzando el 29 de enero - suficiente conocimiento del currículo escolar , para
avanzado -
comenzando el 31 de enero - se requiere el conocimiento de 1-2 cursos del instituto .
Tener tiempo para inscribirse y pasar la prueba de acceso.