Experiencia desarrollando requisitos para el científico de datos de cualidades profesionales

Hoy, casi todas las empresas sienten la necesidad de la minería de datos. La ciencia de datos no se percibe como algo nuevo. Sin embargo, no es obvio para todos lo que debería ser un especialista contratado.

Este artículo no fue escrito por un especialista en recursos humanos, sino una fecha por un científico, por lo que el estilo de presentación es muy específico, pero hay una ventaja: esta es una mirada interna que le permite comprender qué cualidades es necesario un científico de datos para la profesión, para que la empresa pueda confiar en tal persona

Prologo


Ha llegado el momento en que el inicio de la ciencia de datos ha crecido sin pañales: la cantidad de tareas de análisis ha aumentado a una velocidad inesperada, y esta velocidad dejó de compensarse de inmediato por la automatización. Se hizo evidente que necesitábamos nuevos cerebros en el equipo ...

Como me pareció al principio, se requería una persona bastante definida: solo una cita ordinaria, algo allí ... programador, analista, estadístico. Entonces, ¿cuál es la dificultad de compilar una lista de requisitos?

"En ingeniería, si no sabes lo que estás haciendo, no debes hacer esto".
Richard Hamming

Abordé el asunto como de costumbre. Sacó dos hojas de papel. Uno titulado "Habilidades técnicas", el otro - "Habilidades profesionales". Después de eso, había un deseo de subir a algún recurso, encontrar un montón de currículums allí, escribir listas de cualidades, elegir las que más te gusten. Pero algo me detuvo. "Este no es mi camino", me dije. "No entiendo esto". Entiendo las tareas ... "

Traté de pasar de la tarea. Nuestras tareas son simples. Se le proporciona un CRM que no responde con contenido dudoso y se le pide que prediga las ventas con un par de meses de anticipación. Muy simple Cualquiera puede manejar ... Descargo de responsabilidad: si puede comprender el negocio del cliente. Idealmente, se toma un grupo de trabajo para esto, que se abstrae de todas las demás tareas y se dedica a analizar esta en particular. En la entrada, los deseos del cliente, en la salida, una solución que puede verificarse sin entrar en detalles y sin duplicar el trabajo realizado.

A partir de aquí, reuní el primer requisito formal de alguna manera: una persona debería poder asumir una tarea separada y no atraer especialmente a nadie hasta el momento en que se recibe la primera decisión grosera. Entonces esta decisión puede mejorarse atrayendo especialistas para que ayuden. Pero en la primera etapa, usar a alguien más es lo mismo que poner un supervisor sobre una persona. Y el supervisor puede en cualquier momento alejar al recién llegado y comenzar a hacer todo por él, haciendo que la contratación no tenga ningún sentido.

Basado en este primer requisito, llené rápidamente la primera hoja: conocer python, poder extraer información de diferentes fuentes, almacenar información, usar AWS, conocer el servidor y las estadísticas, poder realizar procesos aleatorios. Un poco más tarde agregué la economía allí en la versión básica. El resultado es una lista de habilidades necesarias para garantizar que se cumpla el primer requisito.

Pero, con la lista de cualidades profesionales, no tuve éxito. Incluso buscando en Google, no encontré ningún requisito profesional para un científico de datos que me pareciera apropiado.

O surgieron formulaciones generales de la forma "responsabilidad", o las cualidades se entendieron como habilidades, que pertenecían a otra lista.

Sus propios pensamientos se mezclaron en gachas, que era difícil de sistematizar. Lo global se mezcló con lo específico, aplicable solo a ciertas tareas. Me pareció muy incorrecto soportar en un montón tales cualidades que eran demasiado generales, junto con cualidades que el candidato nunca podría usar más adelante.

En algún lugar aquí, nació la idea del Problema. Me pareció una forma buena y elegante de pagar la necesidad de filosofar sobre las listas de requisitos y, al mismo tiempo, recopilar la lista necesaria, buscando errores en las soluciones.

Declaración de tareas


El emprendedor decidió abrir una tienda en las canchas de bádminton, para que los visitantes no tuvieran que ir al supermercado a pedir una lanzadera y una raqueta.

A lo largo del año, el empresario mantuvo todos los recibos de las compras para comprender posteriormente qué decisiones deberían tomarse para aumentar las ganancias. La información de las comprobaciones está contenida en el archivo adjunto train_dataset.csv .

Empacó volantes y raquetas y vendió exclusivamente en juegos de tres tipos:

  1. Raqueta y dos volantes
  2. Raqueta y cinco volantes
  3. Diez volantes

De vez en cuando, el empresario tenía que cambiar los precios teniendo en cuenta los precios de los supermercados y las tasas impositivas.

La tienda y la corte funcionaban sin días libres y días festivos. El flujo de clientes fue algo limitado debido al hecho de que solo se permiten 4 personas en la cancha, y la cancha se reserva con anticipación para una sesión de dos horas, solo hay tres canchas en el estadio. Sin embargo, no pasó un día sin una venta, ya que de vez en cuando venían a la corte personas completamente sin preparación, o alguien rompía una raqueta o perdía volantes.

Un año después, el empresario decidió organizar una venta, que debería durar del 1 al 31 de enero, inclusive. Redistribuyó conjuntos de bienes y les asignó los siguientes precios:

  1. Solo una raqueta - 11 dólares 80 centavos
  2. Cinco volantes - 5 dólares 90 centavos
  3. Una raqueta y un volante - 12 dólares 98 centavos

Se requiere establecer el tamaño de los ingresos del emprendedor en enero.

Sensibilidad de probabilidad


"Creo que las mejores predicciones se basan en la comprensión
involucrado en el proceso de las fuerzas fundamentales ".
Richard Hamming

La tarea se elaboró ​​imitando las tareas reales de la vida, pero de una manera artificial que no estaba oculta a los candidatos. Y, por lo tanto, se aplicaron algunas fórmulas para crear el conjunto de datos. Supongamos, aromatizado con variables aleatorias, pero fórmulas. En cualquier caso, se suponía que el científico de datos podía detectar y utilizar estas fórmulas para pronosticar.

Por supuesto, no se debe descartar la posibilidad de que el conjunto de datos no proporcione una imagen completa que permita restaurar fórmulas con la precisión necesaria. Pero para este caso en la vida real, se nos ocurre qué información adicional debe ser y de dónde obtenerla.

En general, el deseo de encontrar la "ley del universo" es una buena calidad profesional. También es la capacidad de entender qué buscar y dónde buscar. El Sr. Hamming sabía de lo que estaba hablando. Y gracias a él, la primera línea apareció en mi lista de requisitos:

La capacidad de detectar relaciones causa-efecto, describirlas, formular las condiciones bajo las cuales las relaciones pueden convertirse en una fórmula útil para los negocios.

No es casualidad que haya usado la frase "útil para los negocios" aquí. En mi práctica personal, a menudo resultó que no era la respuesta al problema lo que le daba ganancias al negocio, sino un resultado secundario, que se obtenía al abrir algún tipo de dependencias internas. En algunos casos, esto trajo dinero extra a las nuevas empresas, nuevos contratos y aumentó la cantidad de conocimientos y subproductos.

Por lo tanto, analizando las decisiones que se me enviaron, observé cuidadosamente cómo el candidato usaría el conocimiento sobre la artificialidad del conjunto de datos, si pediría información adicional en algún momento o probaría la suficiencia del conjunto de datos para la tarea.

Confianza en uno mismo


"Si un evento atrae nuestra atención, la memoria asociativa comienza a buscar su causa, o más bien, se activa cualquier razón ya almacenada en la memoria".
Daniel Kahneman

No diré que la memoria asociativa es mala. Ella es la fuente y el combustible de nuestra imaginación. Fantasy le permite generar hipótesis, presentar intuitivamente suposiciones, encontrar rápidamente esos pares de variables entre las cuales es posible una conexión.

Y ella nos pone en el carro en forma de una confirmación parcial.

Estamos tan acostumbrados a nuestra propia experiencia y nuestro propio conocimiento que comenzamos a difundirlos a nuevas situaciones. En el mundo viviente, esto a menudo es útil. Digamos, la creencia de que todas las serpientes son venenosas, salva más vidas que la duda de que esta serpiente en particular no es venenosa. Pero en una oficina segura, con suficiente tiempo, es mejor percibir cualquier juicio como una hipótesis.

El conjunto de datos de la tarea fue especialmente diseñado de tal manera que el intervalo de tiempo cubrió solo un año de observaciones. Es bueno que los candidatos en la etapa de considerar los gráficos presenten una hipótesis sobre la presencia de fluctuaciones estacionales. Es malo que rara vez alguien haya declarado la necesidad de verificar esto. Y es muy malo que algunos, sin comprobarlo, insistieran en la presencia de la estacionalidad.

Así que ingresé lo siguiente en la lista de cualidades:

La criticidad del pensamiento, incluso en relación con su propia experiencia.

Realmente quería agregar "y conocimiento" aquí, pero luego me pareció que esta posdata abre un gran tema nuevo.

Neurotismo


"Habiendo desarrollado esta o aquella teoría, volvemos nuevamente a las observaciones,
para verla ".
Gregory Mankyu

La literatura de ciencia de datos examina formas de automatizar la prueba de hipótesis. Sin embargo, rara vez cumplí con las pautas para su uso. Debido a esto, lo creas o no, una vez que me confundí entre dos actividades aparentemente muy diferentes: verificar hipótesis estadísticas y verificar el modelo.

Al mismo tiempo, lo que es aún más confuso, se pasa por alto la diferencia entre los conceptos de la hipótesis estadística y la hipótesis en general. Para evitar tal confusión en nuestro artículo, permítanme usar el término supuesto para el concepto general de una hipótesis.

En el párrafo anterior, se hizo una suposición con respecto al conjunto de datos, a saber, la presencia de estacionalidad. Es intuitivamente posible definir un componente estacional como recurrente periódicamente. Y aquí debe preguntarse de inmediato: ¿cuántas veces tiene que repetirse el componente para que pueda considerarse estacional? Además, podemos, sobre la base de la repetición periódica, confirmar la presencia de un componente estacional en el conjunto de datos, cuyo intervalo de tiempo es solo un año.

Como ya se mencionó, la duración del intervalo se seleccionó especialmente. Quería que los candidatos tuvieran la necesidad y la oportunidad de ofrecer sus propias formas de verificar la disponibilidad de estacionalidad para la tarea en cuestión. Y también agregué esta calidad a la lista de cualidades profesionales requeridas:

La capacidad de probar suposiciones en formas estándar y encontrar nuevas formas de verificación.

Probablemente "inventar nuevas formas" suena demasiado fuerte. Raramente encuentro la necesidad de encontrar algo nuevo. El método de consideraciones simples que sigue a la pregunta "¿Qué pasa si?" Es bastante adecuado.

En el hermoso artículo "Esto es correcto, pero falso", Alexander Chernookiy dio ejemplos de soluciones rápidas y casi intuitivas para varios problemas probabilísticos. Me parece que un mecanismo similar es bastante adecuado para probar supuestos.

Primero, pensaremos en qué tipo de estacionalidad queremos encontrar. La estacionalidad puede ser un factor externo que desconocemos y que representa una cierta repetibilidad paranormal en los datos. Es posible describir dicha estacionalidad sin ir más allá del conjunto de datos escribiendo el componente estacional por separado y mostrando el grado de su estabilidad. Y la estacionalidad puede ocultarse dentro de los datos conocidos. Por ejemplo, si la estacionalidad afecta el número de compradores y el número de compradores en el volumen de ventas, entonces si supiéramos de antemano y cuándo vendrá qué comprador, es poco probable que necesitemos estacionalidad como un fenómeno separado. En consecuencia, buscaremos precisamente la estacionalidad paranormal, ya que no la conocemos ni la necesitamos.

Supongamos ahora que tal estacionalidad no afecta las ventas. Entonces, todas las fluctuaciones en las ventas son aleatorias, o puede encontrar alguna relación entre ellas y cambios en otras variables. ¿Qué tan completamente describe esta dependencia lo que está sucediendo? ¿Habrá espacio para la estacionalidad paranormal?

Es decir, para verificar la presencia de estacionalidad, podemos encontrar todas las dependencias de las variables conocidas, y después de eso, restando estas dependencias de las fluctuaciones, mira el resto. Además, si la extensión del resto es lo suficientemente pequeña, entonces quizás no tenga ningún sentido en la búsqueda de valores paranormales.

Entonces obtuvimos una manera simple de verificar la estacionalidad en ausencia de un intervalo de datos suficientemente largo.

Precaución


"Nuestra mente no está preparada para entender eventos raros".
Robert Banner

Volviendo a la búsqueda de la relación entre las dos cantidades, lo primero que intentamos es sentir su cambio mutuo. Y quizás no exista un método más simple y elaborado que la regresión lineal. Puede ayudar a formarse una opinión sobre la relación, incluso en los casos en que se desconoce la relación cuantitativa entre las cantidades. Bueno, tiene una serie de otras ventajas.

Y los defectos.

De hecho, la relación entre las dos cantidades está lejos de ser siempre tan simple que puede identificarse por características numéricas. No importa cuán hermosa sea la aproximación lineal de la relación entre las dos cantidades, siempre existe la posibilidad de que estemos tratando con algo más complejo. El matemático inglés Francis Enscombe ilustró este fenómeno con cuatro ejemplos, que más tarde se conocieron como el Cuarteto Enscombe .

Poner algo similar al cuarteto de Enscomb en la tarea resultó ser una buena idea y muy simple de implementar. A pesar de la popularidad del fenómeno, muchos candidatos cayeron en la trampa.

La implementación del fenómeno en el problema fue la siguiente. Que haya tres grupos de clientes, cada uno de los cuales se da cuenta de cierto interés al comprar. Los dos grupos se comportan de manera similar, y su comportamiento se expresa en una relación lineal entre la demanda y el precio. Pero el tercer grupo hace lo contrario. Con la transición de los precios por encima de cierto umbral, los compradores de este grupo dejan de comprar abruptamente más del mínimo necesario.

Este fenómeno, bastante común en el mundo real, hizo posible simular uno de los ejemplos de Enscomb y ocultarlo entre otras dos distribuciones.

De hecho, "ocultar" no es una buena opción para la situación. Acabo de poner esta distribución al lado de otras, más familiar y comprensible. La diferencia era obvia en los gráficos, como me pareció a mí, pero no todos lo notaron. Y el intento de uno de los candidatos para "mejorar" la aproximación al pasar a un polinomio de orden superior fue especialmente interesante.

Así que formulé otro requisito para las cualidades profesionales:

Para poder aislar observaciones significativas, construya hipótesis con respecto a su significado.

Impulsividad


"El medidor se ha utilizado ampliamente durante cinco años y pasó por tres controles".
Timothy Leary

Anteriormente, describí una situación en la que los saldos inexplicables se vuelven tan pequeños que su influencia se vuelve indistinguible en el contexto de los beneficios comerciales que proporciona el resto del modelo.

Sin embargo, debe comprender lo que puede estar oculto detrás de la expresión "tan pequeño".

Usualmente el mundo es observado y medido por nosotros usando algunos instrumentos. Simple, como una regla, o complejo, como un microscopio electrónico. Los dispositivos complejos incluyen una computadora con un entorno de programación estadística instalado.

En cierto sentido, cualquier observación o conclusión que hagamos puede ser percibida como el resultado de una medición. Observamos las condiciones del problema y medimos los ingresos en un intervalo de tiempo que aún no ha sucedido. Aquí reemplacé lo misterioso y mágico por la palabra "predecir" por la palabra "medir". Como parte de mi trabajo diario, puedo decirlo, ya que el pronóstico con un nivel bastante alto de precisión se reemplaza por el cálculo de rutina.

Pero cualquier medida no puede ser extremadamente precisa. Cada dispositivo tiene un error de medición causado por su imperfección. Y en las mediciones es necesario indicar su precisión, para esto, junto con el resultado obtenido, se indica un intervalo de confianza.

La indicación del intervalo de confianza ni siquiera es una recomendación, sino una necesidad que a menudo se olvida. Además, aunque en mis palabras sonará algo de pedantería, creo que calcular el intervalo de confianza es un acto de autoestima, y ​​la siguiente cualidad es una de las cualidades necesarias para un científico de datos:

Precisión en la observación de los requisitos formales de algoritmos y métodos, especialmente cuando se trata de calcular intervalos de confianza y verificar las condiciones necesarias y suficientes.

Ductilidad


"Esta disposición no es del todo cierta, pero es lo suficientemente cierta para la aplicación práctica en la mayoría de los casos".
Francis Enscomb

Hasta ahora, he evitado discutir las características más llamativas de esta tarea. El intervalo previsto se caracteriza por un fuerte cambio en los bienes vendidos.Ahora es el momento de explicar por qué este cambio aparece en la tarea.

Arriba, ya describí mi punto de vista sobre la posibilidad de verificar varios supuestos. La verificación siempre debe ser. Si algo no se puede verificar, o el método de verificación no se conoce, entonces se deben describir varias opciones; pueden servir como razón para futuras investigaciones. Pero al mismo tiempo, es necesario tratar de describir la situación tanto como sea posible, con base en información conocida.

De hecho, ¿qué sabemos sobre las ventas? Hay personas que, debido a los motivos conocidos y enumerados, realizan compras. Puede simular casi por completo todo el proceso, ya que encontramos todas las dependencias y descubrimos que el residuo no explicado normalmente se distribuye y tiene una dispersión muy pequeña.

Las preguntas comienzan a aparecer: ¿el volumen comprado de bienes cubre las necesidades de las personas? ¿Qué hacen cuando la necesidad permanece insatisfecha? Por ejemplo, ¿qué hacen si, en su opinión, el precio de un producto es demasiado alto? ¿De dónde viene la dependencia lineal de la demanda?

De hecho, estas son preguntas para los negocios. Y, por supuesto, se les debe preguntar al dueño del negocio como un experto en su campo. Al final, el conjunto de datos inicial está lejos de estar siempre lleno, y la empresa, incluso con un equipo de analistas profesionales, no lo sabe todo. En realidad, el negocio recurre a la ciencia de datos precisamente porque no todos lo saben. Pero qué

pasa si ... ¿Qué pasa si hay un modelo verificable y consistente que describe la situación utilizando solo nuestros datos conocidos? Esto también vale la pena echarle un vistazo.

Epílogo


Permítanme hacer una lista final de las cualidades profesionales del científico de datos que escribí.

  1. La capacidad de detectar relaciones causa-efecto, describirlas, formular las condiciones bajo las cuales las relaciones pueden convertirse en una fórmula útil para los negocios.
  2. La criticidad del pensamiento, incluso en relación con su propia experiencia.
  3. La capacidad de probar suposiciones en formas estándar y encontrar nuevas formas de verificación.
  4. Para poder aislar observaciones significativas, construya hipótesis con respecto a su significado.
  5. Precisión en la observación de los requisitos formales de algoritmos y métodos, especialmente cuando se trata de calcular intervalos de confianza y verificar las condiciones necesarias y suficientes.

En esta forma ensamblada, la lista me parece bastante obvia. Quizás porque repite hasta cierto punto la lista de sesgos cognitivos. Lo cual, por cierto, me lleva a la idea de la evidencia natural de observaciones posteriores. Y, sin embargo, recuerdo el momento de la meditación en la segunda hoja de papel vacía y entiendo que la lista no se habría compilado sin el trabajo realizado.

Aún interesante es la idea de que la importancia de un hecho para una persona no es necesariamente obvia para otra. Esto puede ser fácilmente rastreado por las soluciones al problema que recibí de docenas de candidatos ...

Autor: Valery Kondakov, cofundador y CTO de Uninum
Coautor: Pavel Zhirnovsky, cofundador y CEO de Uninum


PS


Estadísticas sobre la vacante el 25/06/19
Fecha de colocación de la vacante: 27/05/19
Vistas totales de la vacante: 2727
Respuestas totales: 94

  • Enviaron una solución al problema, pero resultó ser incorrecto: 20%
  • Acordaron resolver el problema, pero no enviaron una respuesta: 30%
  • Denegación en la etapa de consideración de un currículum por varias razones: 45%
  • Enviaron una solución cercana a la correcta: 5%

Source: https://habr.com/ru/post/457630/


All Articles