
Kaggle es una plataforma bien conocida para organizar concursos de aprendizaje automático donde el número de usuarios registrados ha excedido los 2.5 millones. Miles de científicos de datos de diferentes países participan en las competiciones, y Kaggle se interesó en la audiencia. En octubre de 2018, se organizó la segunda encuesta y 23.859 personas de 147 países la respondieron.
La encuesta tenía varias docenas de preguntas sobre una variedad de temas: género y edad, educación y campo de trabajo, experiencia y habilidades, lenguajes de programación y software utilizado, y mucho más.
Pero Kaggle no es solo un lugar para competiciones, también es posible publicar investigaciones de datos o soluciones de competencia (se llaman kernels y similares a Jupyter Notebook), por lo que el conjunto de datos con los resultados de la encuesta se publicó en el dominio público, y se organizó una competencia para la mejor investigación de estos datos. También participé y no recibí un premio en efectivo, pero mi núcleo ocupó el sexto lugar en el número de votos. Me gustaría compartir los resultados de mi análisis.
Hay muchos datos y se pueden ver desde diferentes ángulos. Estaba interesado en las diferencias entre personas de diferentes países, por lo que la mayor parte de la investigación comparará a personas de Rusia (ya que vivimos aquí), Estados Unidos (como el país más avanzado en términos de DS), India (como un país pobre con una gran cantidad de DS) y otros países.
La mayoría de los gráficos y análisis fueron tomados de mi núcleo (aquellos que lo deseen pueden ver el código Python allí), pero también hay nuevas ideas.
Revisión general
Noto de inmediato que quienes respondieron las preguntas no son una muestra representativa de científicos de datos. No todos están interesados en pasar tiempo en las competiciones, alguien simplemente no escuchó sobre esta plataforma, finalmente, ~ 24 mil encuestados, solo una pequeña parte de todos los participantes de Kaggle. Sin embargo, solo tenemos estos datos, por lo que en el futuro consideraré que la información disponible es suficiente para sacar conclusiones sobre los países y en general.

En este mapa puede ver la cantidad de personas encuestadas en diferentes países. La mayor parte son América e India. En la actualidad, Estados Unidos, tal vez, puede llamarse un líder en DS, además de que esta área se ha vuelto popular allí antes, lo que explica tanta gente. India es un país con una gran población que siempre ha prestado atención a la TI. Gracias a los cursos de Siraj Raval DS está ganando popularidad y atrayendo a una gran cantidad de indios. China va muy por detrás, pero supongo que esto se debe a la cercanía de Internet.
En Rusia, Canadá, Brasil y Europa, también hay bastante DS, pero en estos países la población es mucho más pequeña, por lo tanto, aún no pueden competir en términos del número de participantes de Kaggle.

Veamos cuánto tiempo pasaron las personas en la encuesta. Como puede ver, muchas personas pasaron de 10 a 20 minutos en la encuesta, lo cual es suficiente para una respuesta reflexiva a las preguntas. Los encuestados respondieron las preguntas en menos de un par de minutos, aparentemente, inmediatamente o casi de inmediato cerraron la encuesta. Es posible que a alguien no le guste la encuesta, que alguien sea demasiado vago para responder, que alguien no quiera responder la pregunta sobre su género (más sobre eso a continuación). En términos generales, todavía había personas que dedicaban decenas de horas a la encuesta. Probablemente se olvidaron de la pestaña abierta :)
Estructura de edad y sexo

En general, la imagen no es sorprendente. Sobre todo, los jóvenes de 22 a 29 años, o incluso de 18 a 34 años, participan en Kaggle. Estos son escolares, estudiantes y recién graduados. Lo más probable es que todos busquen adquirir conocimiento o lograr resultados impresionantes para obtener una ventaja al buscar trabajo. Hay significativamente más hombres que mujeres. En general, esto no es sorprendente, dado que nuestra esfera combina TI, matemáticas y otras áreas en las que ha habido un desequilibrio de género durante mucho tiempo. ¿Se necesita hacer algo activamente para corregir este desequilibrio? Prefiero no discutir este artículo.
Vale la pena señalar que también fue posible no especificar el género o especificarlo usted mismo. Veamos las opciones más populares:

Entre las respuestas en forma libre:
- no binario (adecuado)
- Helicóptero de ataque (¡genial! Realmente me gustaría ver a mis padres)
- Hombre (¿por qué no elegir esta opción?)
- ¿Quién eres para insinuar que tengo un género? (bueno, porque eres humano?)
- Kaggle (bueno, al menos no kagglosexual)
- Su Alteza (¿definitivamente no confundió esta pregunta con otras?)
- Un poco de sol. :) (esto es tan lindo!)
- Doble macho (macho recto)
- Hombres y mujeres son sexos, no género. El género es un conjunto regresivo de estereotipos asociados con nuestro sexo. Pregúntenos de qué sexo somos para fines demográficos, si eso es lo importante. (SWJ detectado!)

Es bastante interesante observar las diferencias en la estructura de edad y sexo de los diferentes países.
En Estados Unidos, la proporción de mujeres es mayor que en otros países. Esto se debe a que en los últimos años, ha habido una lucha activa contra la "desigualdad de género". Si ella lo necesita o no es una pregunta, pero los resultados son visibles.
India se destaca con una gran cantidad de jóvenes DS. Parece que los chicos piensan de antemano sobre el futuro y bombean habilidades desde la infancia. Más adelante veremos que el sistema educativo en India deja mucho que desear.
Rusia en su conjunto es similar a otros países.
Educacion



Como se señaló anteriormente, en India hay una alta proporción de estudiantes o solteros, pero prácticamente no hay titulares de un doctorado. Rusia se destaca porque muchos DS no tienen una educación formal (o no querían responder). En general, esto es impresionante: aparentemente pudieron ingresar a la esfera DS con su arduo trabajo y perseverancia.
Es interesante ver cómo en diferentes países DS aparece desde diferentes direcciones. CS, TI y matemáticas / estadísticas prevalecen en todos los países, pero en India es visible un sesgo en la dirección técnica, en Estados Unidos la disciplina comercial (incluida la economía) es más importante, y en Rusia la física también es más importante.

En esta pregunta, se les pidió a las personas su opinión sobre si la calidad de los cursos en las plataformas en línea es mejor o peor que la educación tradicional. Y aquí puedes ver la diferencia entre los países. La educación en la India es pobre. Tal vez simplemente no hay suficientes maestros, tal vez la calidad de la educación es bastante baja, en cualquier caso, la mayoría de los indios prefieren los cursos en línea. Estados Unidos tiene un sistema educativo desarrollado, como resultado, casi un tercio de las personas creen que la educación universitaria es de mayor calidad. En Rusia y el resto del mundo, la calidad de la educación tradicional no es mala y casi inferior a la de los competidores.
Título del trabajo

Como parte de una de las preguntas que hicieron para indicar la posición, me parece que para las tareas de este informe simplemente no se necesitan tantas opciones. Después de pensarlo un poco, formé 7 grupos y obtuve la siguiente imagen:

Aquí vemos otra confirmación de que muchos indios Huggle son estudiantes y / o representantes de áreas más técnicas. Estados Unidos destaca por su énfasis en análisis, y Rusia se destaca en áreas aplicadas.
Pero veamos una imagen más detallada:

Aquí vemos cuánto tiempo ha trabajado una persona en su puesto actual.
Lo primero que llama la atención: la gran mayoría de las personas en todos los puestos son recién llegados. Veo 2 explicaciones para este hecho: graduados universitarios o haber cambiado el alcance del trabajo. Hyp en DS / ML comenzó recientemente y, me parece, solo se está fortaleciendo, como resultado, cada vez más personas quieren unirse a una nueva dirección y crear su propia Inteligencia Artificial (porque las personas fuera de DS rara vez se dan cuenta de que no habrá IA y no habrá en el futuro años)
Otro fenómeno interesante es una gran proporción de ingenieros de datos experimentados. Supongo que muchos programadores experimentados decidieron pasar a DS, pero DE estaba más cerca de ellos: la mayoría de las habilidades disponibles son adecuadas para generar soluciones ML en la producción. Es interesante que en Rusia la proporción de DE de 5 a 10 y de 10 a 15 años de experiencia es bastante alta, aparentemente estos son desarrollos superiores en Java y otros lenguajes, que son muy demandados por los sistemas de alta carga. Personalmente, estoy sorprendido por separado por la alta proporción de investigadores experimentados en Rusia, hasta que entiendo las razones de esto.
Estados Unidos se destaca entre otros países con una alta proporción de analistas. Hay muchas razones para esto: el hecho de que en Estados Unidos DS a menudo se toma para puestos analíticos, y el hecho de que en una serie de grandes empresas un analista de datos realmente realiza el trabajo de DS, y que se puede volver a entrenar estadísticas.
Como hablamos de trabajo, no podemos dejar de referirnos al tema del salario.

Aquí se espera todo: los salarios en India son los más bajos, en Rusia un poco más altos, y los salarios estadounidenses son los más altos.
Confianza en uno mismo


La combinación de respuestas a 2 preguntas me pareció muy interesante. La primera pregunta es la experiencia en ML, la segunda es si te consideras un DS. Aquí puede observar una diferencia en la visión del mundo y la autopercepción, o una comprensión diferente de los problemas.
En la mayoría de los países, los recién llegados con menos de dos años de experiencia tienen una opinión mixta: alguien ya tiene confianza en sí mismo, alguien es muy dudoso. A medida que crece la experiencia, crece la confianza en uno mismo. En Rusia, la gran mayoría de los principiantes se consideran DS, pero con el aumento de experiencia, la confianza en esto disminuye.
Otras preguntas irán a donde se podrían indicar varias respuestas, por lo que la suma de las acciones puede dar más del 100%
Recursos visitados

Kaggle y Medium respetan todo. En Rusia, les gusta leer artículos sobre ArXiV, en Estados Unidos prefieren https://fivethirtyeight.com (y casi nunca lo visitan en otros países), y en India aman Siraj.

También me gustaría mencionar ods.ai, que resultó ser el recurso más popular, entre los que la gente especificó manualmente. ¿Quién más no está en nuestra comunidad, únete :)
IDE y lenguajes de programación



En términos de uso de IDE, las personas se pueden dividir en 2 grupos principales: uso de IDE con visualización integrada (Jupyter Notebook, RStudio, Spyder) y uso de IDE clásicos (VS Code, Vim).
Estados Unidos destaca con una alta proporción de analistas que usan R y, como resultado, RStudio. Sin embargo, ide como Vim o Atom también son conocidos. Pycharm es popular en Rusia no solo entre los DS, sino también entre los programadores en general, por lo que no es sorprendente la cantidad de personas que lo usan.
SQL, Java, Bash, C / C ++ también son lenguajes importantes para DS.
Marcos

Es algo sorprendente para mí que el uso compartido de marcos DL no sea mucho menor que el uso de sklearn. Quizás muchos se sienten atraídos por las redes neuronales y quieren estudiarlas desde el principio; tal vez un negocio comienza a usar neuronas en sus tareas; y tal vez es solo que muchos participantes de Kaggle están interesados en probar concursos en imágenes y textos.
Por separado, me gustaría señalar la alta proporción de personas que usan Pytorch y las bibliotecas de aumento de gradiente en Rusia. LGB / XGB / catboost son la implementación más famosa de aumento de gradiente, y muestran alta calidad en datos tabulares. Pytorch apareció hace mucho tiempo, pero comenzó a ganar gran popularidad en los últimos 1-2 años.
Visualización


¡Qué análisis de datos sin visualizaciones! En general, la imagen no es sorprendente. R es ggplot2 y brillante. Python es matplotlib + seaborn, plotly / bokeh.
D3 le permite crear visualizaciones geniales, pero es bastante difícil trabajar con ellas.
Altair es una biblioteca en Vega-Lite, espero que en el futuro gane popularidad gracias a las interesantes visualizaciones interactivas disponibles en ella.
Tableau y otro software de BI continúan siendo populares, lo cual no es sorprendente: estas son soluciones de alta calidad compatibles y que pueden integrarse mucho con cualquier cosa.


Coursera es un líder del mercado en cursos de educación en línea. Allí puede encontrar cursos sobre casi cualquier tema y nivel. Un factor importante es que puede solicitar asistencia financiera y tomar cursos gratis. Udacity, Udemy y edX son menos populares, sin embargo, también puedes encontrar una gran cantidad de cursos interesantes en ellos. Kaggle lanzó su propia iniciativa educativa hace algún tiempo. Lo bueno es que los cursos se realizan en forma de núcleos, lo que da práctica en el uso de las capacidades de Kaggle. Los cursos de DataCamp tienen un formato único que le permite dar práctica puntual sobre temas específicos, pero es poco probable que esta plataforma brinde un conocimiento profundo.
Por separado, vale la pena señalar que mls.course.ai de ods.ai es la más popular de las opciones especificadas por los usuarios. Recientemente, la cuarta sesión del curso terminó en la que se registraron más de 7.5 mil personas. Debido al hecho de que la comunicación principal se realiza con holgura, el curso termina con una proporción impresionante de personas, significativamente más alta que otros cursos gratuitos de ML. Este curso proporciona no solo conocimientos teóricos y tareas complejas, sino también la práctica de participar en competencias en Kaggle.
Herramientas de interpretación

Finalmente, veamos cómo diferentes personas analizan los resultados de los modelos.
Un análisis de las predicciones mismas y una comparación de su distribución con la distribución de la variable objetivo es una forma de análisis básica pero cualitativa. Estudiar los coeficientes de los modelos lineales o la importancia de las características en los modelos de madera le permite encontrar las características que más afectan las predicciones.
Además, recientemente se han popularizado marcos especiales para el análisis de modelos: SHAP, LIME y ELI5. Nos permiten explicar no solo modelos simples, sino incluso algunos de los que se consideran cajas negras.
Resumen
Observamos cómo DS difieren entre sí en diferentes países del mundo, y también descubrimos qué los une. Este análisis no cubre todos los datos disponibles, pero muestra aquellos que me parecieron los más interesantes. Los que lo deseen pueden realizar su investigación sobre estos datos :)
Gracias por su atencion!