En términos de conocimiento, los expertos en ciencia de datos esperan mucho: aprendizaje automático, programación, estadística, matemáticas, visualización de datos, comunicación y aprendizaje profundo. Cada una de estas áreas cubre docenas de idiomas, marcos, tecnologías disponibles para estudio. Entonces, ¿cómo es mejor para los profesionales de datos administrar su presupuesto de tiempo de capacitación para que los empleadores puedan valorarlos?
Estudié cuidadosamente los sitios de trabajo para descubrir qué habilidades son más populares entre los empleadores en este momento. Considere tanto las disciplinas más amplias asociadas con el trabajo con datos, como los lenguajes y herramientas específicos, como parte de un estudio separado. Para obtener material,
recurrí a
LinkedIn ,
Indeed ,
SimplyHired ,
Monster y
AngelList , a partir del 10 de octubre de 2018. El siguiente gráfico muestra cuántos trabajos de ciencia de datos están representados en cada uno de estos recursos.
He estudiado muchas descripciones de trabajo y encuestas para comprender qué habilidades se mencionan con mayor frecuencia. Términos como "gestión" no se incluyeron en el análisis, ya que se utilizan en sitios de trabajo en una amplia gama de contextos diversos.
La búsqueda se realizó en los Estados Unidos en base a los términos "ciencia de datos", "palabra clave". Para reducir la salida, seleccioné solo las ocurrencias exactas. De una forma u otra, un método similar aseguró que todos los resultados serían relevantes para la ciencia de datos y el mismo criterio se aplicaría a todas las consultas.
AngelList no proporciona el número total de vacantes relacionadas con el trabajo con datos, sino el número total de empresas que ofrecen tales vacantes. Excluí este sitio de ambos estudios, ya que su algoritmo de búsqueda, aparentemente, funciona sobre la base del principio "OR" y no hace posible cambiar de alguna manera al modelo "Y". Puede trabajar con AngelList cuando ingresa algo en el espíritu del "científico de datos" "TensorFlow"; en este caso, hacer coincidir la segunda consulta implica hacer coincidir la primera. Sin embargo, si utiliza palabras clave en el espíritu de "científico de datos" "react.js", habrá muchas vacantes que no están relacionadas con la ciencia de datos.
Los materiales con Glassdoor también tuvieron que ser excluidos. El sitio afirmó que tenían información sobre 26,263 vacantes de trabajo al trabajar con datos, pero en realidad se mostró un máximo de 900. Además, me parece extremadamente dudoso que hayan reunido más del triple de vacantes que cualquier otro sitio grande.
Para la etapa final del estudio, seleccioné palabras clave para las que hubo un gran retorno en LinkedIn: más de 400 resultados para habilidades de perfil amplio, más de 200 para tecnologías privadas. Por supuesto, hubo algunas ofertas duplicadas. Grabé los resultados de esta etapa en un
documento de Google .
Luego descargué los archivos en formato .csv, los cargué en JupyterLab, calculé el grado de prevalencia de cada uno como porcentaje y promedié los valores obtenidos en diferentes recursos. Posteriormente comparé los resultados por idioma con los presentados en el
estudio sobre ofertas de trabajo del sector de ciencia de datos de Glassdoor en la primera mitad de 2017. Si agrega a esto la información de la
encuesta sobre el uso de KDNuggets, parece que algunas habilidades están ganando popularidad, mientras que otras están perdiendo valor gradualmente. Pero más sobre eso más tarde.
En mi
Kaggle Kernel encontrarás gráficos interactivos y análisis adicionales. Para la visualización, usé Plotly. Para trabajar con Plotly y JupyterLab en un grupo, debes jugar algo, al menos eso fue al momento de escribir esto: las instrucciones se pueden encontrar al final de mi Kaggle Kernel, así como en la
documentación de Plotly .
Amplias habilidades
Aquí hay un gráfico que representa las habilidades generales más populares que los empleadores quieren que vean los candidatos.
Los resultados muestran que el análisis y el aprendizaje automático continúan formando la base del trabajo de expertos en ciencia de datos. El objetivo principal de esta especialidad es sacar conclusiones útiles basadas en matrices de datos. El aprendizaje automático tiene como objetivo crear sistemas que puedan predecir el curso de los eventos, respectivamente, tiene una gran demanda.
El procesamiento de datos requiere conocimiento de estadísticas y la capacidad de escribir código; no hay nada de qué sorprenderse. Además, la estadística, las matemáticas y la ingeniería de software son especialidades en las que se lleva a cabo capacitación en las universidades, lo que también puede afectar la frecuencia de las solicitudes.
Curiosamente, en las descripciones de casi la mitad de las vacantes, se menciona la comunicación: los especialistas en datos deben poder transmitir sus hallazgos a las personas y trabajar en equipo.
La mención de IA y aprendizaje profundo no es tan regular como algunas de las otras consultas. Sin embargo, estas áreas son ramas del aprendizaje automático. El aprendizaje profundo se usa cada vez más en tareas para las que se utilizaron anteriormente algoritmos de aprendizaje automático. Por ejemplo, los mejores algoritmos de aprendizaje automático para problemas que surgen al procesar un lenguaje natural, ahora se relacionan específicamente con el campo del aprendizaje profundo. Creo que en el futuro se volverá cada vez más popular, y el aprendizaje automático comenzará a percibirse gradualmente como un sinónimo de lo profundo.
¿Qué soluciones de software específicas deben dominar los expertos en ciencia de datos, según los empleadores? Pasamos a esta pregunta en la siguiente sección.
Habilidades tecnológicas
A continuación se presentan 20 idiomas específicos, bibliotecas y herramientas tecnológicas con las que, en opinión de los empleadores, los especialistas en procesamiento de datos deberían tener experiencia.
Pasemos por los líderes rápidamente.
Python es la opción más solicitada. Muchos notaron que este lenguaje de código abierto es extremadamente popular entre los programadores. Para los principiantes, esta es una opción muy conveniente: hay muchos recursos de capacitación. La gran mayoría de las nuevas herramientas de datos son compatibles con él. En base a todo esto, Python puede llamarse el idioma principal para los expertos en ciencia de datos.
R sigue a Python por un pequeño margen. Érase una vez, él era el idioma principal para los especialistas en ciencia de datos. Me sorprendió que el interés activo en él aún persista. Este lenguaje se origina en las estadísticas y, en consecuencia, es muy popular entre quienes lo manejan.
Casi todas las vacantes hacen necesario conocer uno de estos dos idiomas: Python o R.
SQL también tiene mucha demanda. La abreviatura significa lenguaje de consulta estructurado (lenguaje de consulta estructurado), y es este lenguaje la herramienta principal para interactuar con bases de datos relacionales. El SQL en la comunidad de ciencia de datos a menudo se descuida, pero se refiere a las habilidades que debe tener fluidez si planea ingresar al mercado laboral.
Luego vienen
Hadoop y
Spark , que son herramientas de código abierto de Apache, diseñadas para trabajar con big data. Mucho menos se han escrito tutoriales y artículos sobre Medium sobre ellos. Supongo que el número de solicitantes que los poseen es significativamente menor que aquellos que están familiarizados con Python o R. Si sabe cómo trabajar con Hadoop y Spark o tiene la oportunidad de dominarlos, esta puede ser una buena ventaja para usted sobre sus competidores.
Los siguientes son
Java y
SAS . Me sorprendió que estos dos idiomas pudieran escalar tan alto. Ambos son una creación de grandes empresas y para ambos hay una cantidad de materiales gratuitos. Sin embargo, entre los expertos en ciencia de datos, ni Java ni SAS son de particular interés.
El siguiente en el ranking de tecnologías populares es
Tableau . Es una plataforma analítica y una herramienta de visualización que es potente y fácil de usar. Su popularidad está creciendo constantemente. Tableau tiene una versión pública gratuita, pero si desea trabajar con datos en modo privado, debe desembolsar. Si es completamente nuevo en Tableau, tiene sentido tomar un curso corto, por ejemplo,
Tableau 10 AZ en Udemy. No me pagan por publicidad, acabo de hacer este curso y lo encontré muy útil.
En el cuadro a continuación, puede encontrar una lista extendida de idiomas populares, marcos y otras herramientas para trabajar con datos.
Comparación histórica
El equipo de GlassDoor publicó un
estudio de las diez habilidades más populares para expertos en ciencia de datos de enero a julio de 2017. En el gráfico a continuación, sus datos sobre la frecuencia de los términos se comparan con los valores promedio calculados por mí para los sitios de LinkedIn, Indeed, SimplyHired y Monster.
En general, los resultados son similares. Tanto mi investigación como la investigación de Glassdoor coinciden en que la demanda de Python, R y SQL es más alta. Los topes de habilidades también coinciden en composición dentro de las primeras nueve posiciones, aunque el orden exacto es diferente.
A juzgar por los resultados, en comparación con el primer semestre de 2017, la demanda de R, Hadoop, Java, SAS y MatLab disminuyó, mientras que Tableau, por el contrario, se hizo más popular. Esto debería esperarse si observa al menos los resultados de una
encuesta de desarrolladores de KDnuggets. Muestran claramente que R, Hadoop, Java y SAS han estado en declive durante varios años, mientras que Tableau se mantiene estable en aumento.
Recomendaciones
Teniendo en cuenta estos cálculos, me gustaría ofrecer una serie de recomendaciones para especialistas en datos que ya han ingresado al mercado o que se están preparando para comenzar una carrera, y aunque para aumentar su competitividad.
- Demuestre que sabe cómo analizar datos y no escatime esfuerzos para dominar el aprendizaje automático correctamente
- Presta atención a las habilidades de comunicación. Le aconsejaría que lea el libro " Made to Stick ", que describe cómo dar más peso a sus ideas. Practique también con la aplicación Hemmingway Editor para aprender a articular sus pensamientos con mayor claridad.
- Aprenda el marco para el aprendizaje profundo. Esto se está convirtiendo gradualmente en una parte integral del proceso de aprendizaje del aprendizaje automático. En mi otro artículo, comparo varios marcos sobre cuán útiles, interesantes y populares son: puede encontrarlo aquí .
- Si duda entre Python y R, elija Python. Si ya conoce Python como el dorso de su mano, considere aprender sobre R. Esto definitivamente lo convertirá en un candidato más atractivo en el mercado.
Cuando un empleador está buscando un empleado que trabaje con Python, probablemente esperará que los candidatos se familiaricen con las bibliotecas principales para el procesamiento de datos: numpy, pandas, scikit-learn y matplotlib. Si desea dominar este conjunto, le recomiendo los siguientes recursos:
- DataCamp y DataQuest : tanto allí como allí puede tomar un curso de capacitación en ciencia de datos SaaS en línea por poco dinero; Aprenderá directamente en el proceso de escribir código. Ambos cursos cubren una amplia gama de herramientas.
- Data School ofrece una variedad de recursos diferentes, incluida una buena serie de videos de YouTube que explican los conceptos básicos de la ciencia de datos.
- Python y análisis de datos por McKinney. Este es el trabajo del autor de la biblioteca de pandas; básicamente se trata de eso, pero también toca los conceptos básicos de Python, numpy y scikit-learn en relación con la ciencia de datos.
- “ Introducción al aprendizaje automático con Python. Una guía para profesionales de datos ”por Muller y Guido. Mueller es responsable de apoyar scikit-learn. Un gran libro para aquellos que estudian el aprendizaje automático en general y esta biblioteca en particular.
Si desea hacer un gran avance en el aprendizaje profundo, le aconsejo que comience con
Keras o
FastAI , y luego vaya a
TensorFlow o
PyTorch . El "
Aprendizaje profundo en Python " de Scholl es una gran ayuda para quienes aprenden a trabajar con Keras.
Además de estas recomendaciones, creo que vale la pena enfocarse en estudiar lo que a usted le interesa, aunque, por supuesto, puede asignar su tiempo de capacitación en función de una variedad de consideraciones.
Si está buscando un trabajo como especialista en procesamiento de datos en portales en línea, le aconsejo que comience con LinkedIn: sus resultados son consistentemente los más grandes. Además, al buscar vacantes o publicar currículums en sitios web, las palabras clave juegan un papel muy importante. Por ejemplo, para todos los recursos considerados, la consulta "ciencia de datos" produce tres veces más resultados que la consulta "científico de datos". Por otro lado, si está interesado única y exclusivamente en ofertas de científicos de datos, es mejor dar preferencia a esta solicitud.
Pero no importa qué recurso elija, le recomiendo crear un portafolio en línea que demuestre sus habilidades en diferentes áreas demandadas: cuanto más haya, mejor. Su perfil de LinkedIn idealmente debería contener alguna evidencia de las habilidades de las que está hablando.
Quizás presentaré el resto de los resultados de la investigación en otros artículos. Si desea obtener más información sobre el código o los gráficos interactivos, lo invito a
Kaggle Kernel .