Según las
estadísticas de 2019 , el ingeniero de datos es actualmente una profesión, cuya demanda está creciendo más rápido que todas las demás. El ingeniero de datos desempeña un papel fundamental en la organización: crea y mantiene tuberías y bases de datos que se utilizan para procesar, transformar y almacenar datos. ¿Qué habilidades necesitan los representantes de esta profesión en primer lugar? ¿Es la lista diferente de lo que se requiere de los científicos de datos? Aprenderás sobre todo esto en mi artículo.
Analicé las vacantes para el puesto de ingeniero de datos en la forma en que estaban en enero de 2020, para comprender qué habilidades en tecnología son las más populares. Luego comparé los resultados con las estadísticas sobre las vacantes en el puesto de científico de datos, y se revelaron algunas diferencias interesantes.
Podemos prescindir de largas presentaciones: aquí están las diez tecnologías principales que se mencionan con mayor frecuencia en los textos de trabajo:
Mencionar la tecnología en puestos de trabajo para el puesto de ingeniero de datos en 2020Vamos a hacerlo bien.
Responsabilidades del ingeniero de datos
Hoy en día, el trabajo que realizan los ingenieros de datos es de gran importancia para las organizaciones: son estas personas las responsables de almacenar la información y brindarla de tal manera que otros empleados puedan trabajar con ella. Los ingenieros de datos construyen tuberías para agilizar la recepción de datos, transmisión o paquetes, desde múltiples fuentes. A continuación, las tuberías realizan operaciones de extracción, transformación y carga (en otras palabras, procesos ETL), lo que hace que los datos sean más adecuados para su uso posterior. Después de eso, los datos se transfieren a analistas y científicos de datos para un procesamiento más profundo. Finalmente, los datos finalizan su viaje en paneles, informes y modelos de aprendizaje automático.
Estaba buscando información que nos permitiera concluir qué tecnologías son las más demandadas en el trabajo del ingeniero de datos en este momento.
Métodos
Recopilé información de tres sitios de búsqueda de empleo:
SimplyHired ,
Indeed y
Monster, y
analicé qué palabras clave
aparecieron con el ingeniero de datos en textos de trabajo para residentes de los EE. UU. Para esta tarea, utilicé dos bibliotecas de Python:
Solicitudes y
Beautiful Soup . Entre las palabras clave, incluí tanto las que estaban en la lista anterior para analizar las vacantes para el puesto de científico de datos como las que seleccioné manualmente mientras leía ofertas de trabajo para ingenieros de datos. LinkedIn no se incluyó en la lista de fuentes, ya que me prohibieron allí después de mi último intento de recopilar datos.
Para cada palabra clave, calculé el porcentaje de visitas a partir del número total de textos en cada uno de los sitios por separado, y luego calculé el valor promedio de tres fuentes.
Resultados
A continuación hay treinta términos técnicos de ingeniería de datos con los puntajes más altos en los tres sitios de trabajo.
Y aquí están los mismos números, pero diseñados en forma de tabla:
Vamos en orden.
Resumen de resultadosTanto SQL como Python aparecen en más de dos tercios de las vacantes revisadas. Son estas dos tecnologías las que tienen sentido estudiar primero.
Python es un lenguaje de programación muy popular utilizado para trabajar con datos, crear sitios web y escribir scripts.
SQL significa lenguaje de consulta estructurado; asume un estándar implementado por un grupo de lenguajes y se usa para extraer datos de bases de datos relacionales. Apareció hace mucho tiempo y se ha establecido como altamente estable.
Sobre Spark dice que aproximadamente la mitad de las vacantes.
Apache Spark es "un motor de análisis de big data combinado con módulos integrados para transmisión, SQL, aprendizaje automático y procesamiento de gráficos". Es especialmente popular entre aquellos que trabajan con grandes bases de datos.
AWS aparece en aproximadamente el 45% de las ofertas de trabajo. Esta es la plataforma de computación en la nube de Amazon; Posee la mayor cuota de mercado entre todas las plataformas en la nube.
Luego vienen Java y Hadoop, un poco más del 40% para el hermano.
Java es un lenguaje extendido y probado en batalla, que en
la Encuesta de Desarrolladores de Desbordamiento de Stack de 2019 ganó el décimo lugar entre los idiomas que horrorizan a los programadores. Por el contrario, Python resultó ser el segundo idioma más querido. Java ejecuta el lenguaje Java, y todo lo que necesita saber al respecto se puede entender en esta captura de pantalla de la página oficial de enero de 2020.
Como una maquina del tiempoApache Hadoop utiliza el modelo de programación MapReduce con clústeres de servidores para big data. Ahora este modelo se descarta cada vez más.
A continuación, vemos Hive, Scala, Kafka y NoSQL: cada una de estas tecnologías se menciona en una cuarta parte de las vacantes presentadas. Apache Hive es un programa de almacenamiento de datos que "facilita la lectura, escritura y administración de grandes conjuntos de datos ubicados en almacenes distribuidos utilizando SQL".
Scala es un lenguaje de programación que se usa activamente cuando se trabaja con big data. En particular, Spark fue creado en Scala. En el ranking ya mencionado de idiomas temibles, Scala está en la undécima línea.
Apache Kafka es una plataforma distribuida para procesar mensajes de transmisión. Muy popular como medio de transmisión de datos.
Las bases de datos NoSQL se contrastan con SQL. Se diferencian en que no son relacionales, no están estructurados y tienen escalabilidad horizontal. NoSQL ha ganado algo de popularidad, pero la moda febril de este enfoque, hasta las profecías de que reemplazará a SQL como el paradigma de almacenamiento dominante, parece haber terminado.
Comparación con términos en vacantes de científicos de datos
Estos son los treinta términos tecnológicos más utilizados por los empleadores en el campo de la ciencia de datos. Obtuve esta lista de la misma manera que describí anteriormente para la ingeniería de datos.
Mencionar la tecnología en puestos de trabajo para científicos de datos en 2020Si hablamos sobre el número total, en comparación con el conjunto revisado previamente, hubo 28% más de vacantes (12 013 contra 9396). Veamos qué tecnologías son menos comunes en las vacantes para los científicos de datos que para los ingenieros de datos.
Más popular en ingeniería de datos.El siguiente gráfico muestra palabras clave con una diferencia promedio en valores superiores al 10% o inferiores al -10%.
Las mayores diferencias en la frecuencia de las palabras clave entre el ingeniero de datos y el científico de datosAWS encuentra el aumento más significativo: en la ingeniería de datos aparece un 25% más regularmente que en la ciencia de datos (aproximadamente el 45% y el 20% del número total de vacantes, respectivamente). ¡La diferencia es palpable!
Aquí están los mismos datos en una presentación ligeramente diferente: en el gráfico, los resultados para la misma palabra clave en las vacantes para el ingeniero de datos y los puestos de científico de datos se encuentran uno al lado del otro.
Las mayores diferencias en la frecuencia de las palabras clave entre el ingeniero de datos y el científico de datosEl siguiente salto más grande que noté en Spark: un ingeniero de datos a menudo tiene que trabajar con big data.
Kafka también creció un 20%, es decir, casi cuatro veces en comparación con la vacante de trabajo del científico de datos. La transferencia de datos es una de las responsabilidades clave de un ingeniero de datos. Finalmente, el número de referencias resultó ser un 15% más en el campo de la ingeniería de datos para Java, NoSQL, Redshift, SQL y Hadoop.
Menos popular en ingeniería de datosAhora veamos qué tecnologías son menos populares en las vacantes de trabajo para el ingeniero de datos.
La disminución más pronunciada en comparación con el campo de la ciencia de datos ocurrió en
R : allí apareció en aproximadamente el 56% de las vacantes, aquí, solo en el 17%. Impresionante R es un lenguaje de programación que es popular entre los científicos y estadísticos, así como el ganador del octavo lugar en el ranking de lenguajes terroríficos.
SAS también ocurre en vacantes para el puesto de ingeniero de datos significativamente menor: la diferencia es del 14%. SAS es un lenguaje propietario diseñado para trabajar con estadísticas y datos. Un punto interesante: a juzgar por los resultados de
mi investigación sobre vacantes para científicos de datos , recientemente ha perdido muchas posiciones, más que cualquier otra tecnología.
Demandado tanto en ingeniería de datos como en ciencia de datos.Cabe señalar que ocho de las diez primeras posiciones en ambos conjuntos son iguales. SQL, Python, Spark, AWS, Java, Hadoop, Hive y Scala se encuentran entre los diez mejores tanto para la industria de la ingeniería de datos como para la ciencia de datos. En el gráfico a continuación, puede ver las quince tecnologías más populares de los empleadores de ingenieros de datos, y junto a ellas está su tasa de vacantes para los científicos de datos.
Recomendaciones
Si desea participar en la ingeniería de datos, le aconsejaría que domine las siguientes tecnologías: las enumero en orden de prioridad aproximada.
Aprende SQL. Te persuado específicamente a PostgreSQL, porque tiene código fuente abierto, es muy popular en la comunidad y está en una fase de crecimiento. Puede aprender a usar el lenguaje del libro My Memorable SQL: su versión piloto está disponible
aquí .
Aprende Python, aunque no al nivel más hardcore. Mi Python memorable es para principiantes. Puede comprarlo en
Amazon , una copia electrónica o física de su elección, o descargarlo en pdf o epub
en este sitio .
Una vez que se familiarice con Python, pase a los pandas, la biblioteca de Python que se utiliza para limpiar y procesar datos. Si está enfocado en trabajar en una empresa que requiere la capacidad de escribir en Python (y la mayoría de ellos lo están), puede estar seguro de que el conocimiento de los pandas se asumirá de manera predeterminada. Ahora estoy terminando la guía introductoria para trabajar con pandas: puedes
suscribirte para no perderte el momento de lanzamiento.
Master AWS. Si desea convertirse en ingeniero de datos, no puede prescindir de una plataforma en la nube en el zashnik, y AWS es el más popular de ellos. Los cursos de
Linux Academy me ayudaron mucho cuando estudié
ingeniería de datos en Google Cloud , creo que también tendrán buenos materiales sobre AWS.
Si ya ha dominado toda esta lista y desea crecer a los ojos de los empleadores como ingeniero de datos, sugiero agregar Apache Spark para trabajar con big data. Aunque mi investigación sobre las vacantes de ciencia de datos ha mostrado una disminución en el interés, todavía parpadea para los ingenieros de datos en casi cada segundo trabajo.
Al final
Espero que esta revisión de las tecnologías más populares para el ingeniero de datos le haya resultado útil. Si tiene curiosidad sobre cómo trabajan los analistas, lea
mi otro artículo . Ingeniería exitosa!