Hola a todos El set para el nuevo curso de Otus - "Applied Analytics on R" , que comienza a finales de este mes, está abierto. En este sentido, quiero compartir una traducción de la publicación sobre la diferencia entre un analista de datos y un estadístico, que a su vez usa R en la práctica.

Introduccion
En los últimos diez años, los volúmenes de datos y la tasa de su aparición han crecido exponencialmente. Según los informes, ¡aparecen más de 3 quintillones de bytes de datos cada día! No es sorprendente que haya surgido una nueva profesión de científico de datos para trabajar con ellos: un especialista versátil en análisis y procesamiento de datos. Sin embargo, las personas se dedicaban a las estadísticas antes del advenimiento de las herramientas de procesamiento de datos digitales. ¿Cuáles son las diferencias entre estas dos profesiones: investigador de datos y estadísticas?
Vamos a resolverlo.
¿Quién es un explorador de datos?
Un investigador de datos es superior en cualidades profesionales a cualquier ingeniero de software, y también está mejor versado en el desarrollo de software que cualquier estadístico.
Los investigadores de datos trabajan con grandes cantidades de datos, que, por regla general, se encuentran en los depósitos de organizaciones o en sitios, pero al mismo tiempo son prácticamente inútiles en términos de obtener ventajas estratégicas o financieras. Para proporcionar recomendaciones y sugerencias para tomar decisiones óptimas, los investigadores de datos se arman con planes estadísticos y evalúan datos anteriores y actuales de dichas fuentes.
En los sistemas de marketing y planificación, los investigadores de datos se preocupan principalmente por identificar ideas e indicadores estadísticos que pueden ser útiles para preparar, implementar y rastrear políticas de marketing orientadas a resultados.
¿Qué son las estadísticas?
Los estadísticos recopilan y evalúan información en busca de patrones de comportamiento o descripciones del entorno. En base a esta información, crean modelos. Estos modelos pueden usarse para predecir y comprender el universo.
Por ejemplo, las estadísticas muestran que es seguro celebrar un cumpleaños: cuanto mayor es la persona, más cumpleaños celebra.
El investigador en el campo de la estadística crea y utiliza modelos estadísticos o matemáticos para ayudar a resolver problemas reales sobre la base de datos útiles recopilados y generalizados. Los datos se recopilan, analizan y utilizan en diversos campos, incluidos la ingeniería, la ciencia y los negocios. Los datos numéricos acumulados ayudan a las empresas y a sus clientes a comprender los indicadores cuantitativos y a rastrear o predecir las tendencias que son útiles para tomar decisiones comerciales.
Diferencias de habilidad
Explorador de datos
1. educación
Los informáticos suelen tener un alto nivel educativo: el 88% de ellos tienen un título de maestría y el 46% son candidatos para un título de candidato. Aunque hay excepciones a esta regla, en general, para obtener el conocimiento y las habilidades expertas necesarias en el campo de la ciencia de la información, por regla general, se requiere una capacitación sólida.
2. Programación en R
Es preferible que los analistas de datos conozcan al menos una de esas herramientas. R fue creado específicamente para las necesidades de la ciencia de datos. Usando R, puede procesar cualquier información con fines científicos. El 43% de los investigadores de datos usan R para resolver problemas estadísticos. Sin embargo, R tiene un camino de estudio bastante espinoso.
3. Programación en Python
Python, junto con Java, Perl y C / C ++, es uno de los lenguajes de programación más populares para la ciencia de datos. Para los investigadores de datos, Python es una buena opción.
4. Plataforma Hadoop
No en todos, pero en muchos casos, la propiedad de esta herramienta es altamente deseable. El valor de un especialista aumenta si también tiene experiencia con Hive o Pig. Las herramientas en la nube como Amazon S3 también pueden ser útiles.
5. SQL: trabajar con bases de datos y programación
Los investigadores de datos deben ser competentes en SQL. Este lenguaje de programación está diseñado específicamente para trabajar con datos. Le permite obtener la información que le interesa de las bases de datos utilizando breves instrucciones de consulta, de forma rápida y sin escribir código engorroso.
6. Aprendizaje automático e inteligencia artificial.
Muchos investigadores de datos no conocen los algoritmos y métodos de aprendizaje automático, sin comprender nada en redes neuronales, aprendizaje profundo y competitivo, y cosas similares. Sin embargo, si desea destacarse del resto de los investigadores de datos , debe comprender mejor métodos como el aprendizaje automático con un maestro, los árboles de decisión, la regresión logística, etc.
7. Visualización de datos
La cantidad de datos en el mundo corporativo es enorme. Requieren conversión a formatos más fáciles de entender. Como regla general, las personas perciben mejor los datos en forma de gráficos y tablas.
8. Datos no estructurados
El explorador de datos debe estar preparado para trabajar con datos no estructurados. Dichos datos están en un formato arbitrario y no se almacenan en bases de datos, por ejemplo, fotografías, entradas de blog, reseñas de clientes, publicaciones en redes sociales, videos, archivos de audio, etc.
9. Conocimiento de los principios empresariales.
Para ser un investigador en el campo de la información, debe comprender el sector en el que trabaja, así como las tareas comerciales que enfrenta su empresa.
10. Habilidades de comunicación.
Las empresas que buscan un investigador de datos sólido necesitan una persona que pueda transmitir de manera comprensible y libre los resultados técnicos a un público no central, como los vendedores o los profesionales de ventas.
Estadísticas
- Profundo conocimiento de la teoría de probabilidad y estadística inductiva.
- La capacidad de trabajar con números: esta habilidad refleja el nivel general de inteligencia, y su desarrollo contribuye en gran medida al logro de los objetivos de la organización.
- Habilidades analíticas: la capacidad de recopilar y evaluar datos, resolver problemas y tomar decisiones. Estas habilidades ayudarán a resolver los problemas que enfrenta la empresa, aumentar la productividad laboral y alcanzar los objetivos corporativos.
- Habilidades de escritura y comunicación oral.
- Las buenas habilidades interpersonales son características y comportamientos que demostramos al interactuar con los demás. Se consideran una de las habilidades sociopsicológicas más relevantes. Los usamos en todas las situaciones de interacción verbal y no verbal. De hecho, los principales rasgos de personalidad y la actitud de la persona hacia el trabajo tienen una influencia decisiva en su capacidad para tener éxito en una posición en particular.
Diferencias de herramientas
Herramientas de estadísticas
1. SPSS
El paquete estadístico para las ciencias sociales (SPSS) es posiblemente el software estadístico más común en el campo de la investigación del comportamiento humano. La interfaz visual de SPSS le permite combinar estadísticas descriptivas y los resultados de análisis paramétricos y no paramétricos, presentados en forma gráfica. SPSS tiene la capacidad de crear scripts para automatizar estimaciones o cálculos estadísticos complejos.
2. R
R es un paquete de software gratuito que se utiliza activamente en estudios de comportamiento humano y otras áreas. Las herramientas basadas en R que simplifican los diversos pasos del proceso de procesamiento de información están disponibles para diversas aplicaciones. R es un software de alto rendimiento, pero dominarlo no es tan simple. Además, su uso requerirá habilidades de escritura de código.
3. MATLAB (Mathworks)
MatLab es una plataforma de análisis y programación ampliamente utilizada por expertos técnicos e investigadores. Como en el caso de R, la ruta de desarrollo es bastante espinosa, y en cierta etapa necesitará escribir sus propios programas. Una variedad de herramientas ayudará a hacer frente a las tareas de investigación (por ejemplo, la herramienta EEGLab está diseñada para analizar datos EEG). Aunque será difícil para los principiantes usar MatLab, este paquete ofrece posibilidades muy amplias, siempre que pueda escribir código (o al menos ejecutar las herramientas necesarias).
4. Microsoft Excel
Microsoft Excel ofrece una gama de herramientas de visualización y funciones estadísticas fáciles de usar, aunque no es una herramienta completa de análisis estadístico. Es fácil trabajar con números, calcular totales de resumen y crear gráficos personalizados. Estas son herramientas útiles para aquellos que desean ver qué datos son el núcleo de la información disponible. Dado que Excel es utilizado por muchas personas y empresas, puede considerarse una opción asequible para principiantes.
5. GraphPad Prism
GraphPad Prism ofrece muchas oportunidades que se pueden aplicar en una variedad de campos, especialmente en estadísticas relacionadas con la biología. Al igual que SPSS, el análisis y los cálculos estadísticos sofisticados se pueden automatizar aquí mediante scripts.
6. Minitab
El paquete de software Minitab ofrece muchas herramientas estadísticas básicas y bastante sofisticadas para evaluar la información. Al igual que GraphPad Prism, gracias a su interfaz gráfica de usuario y scripts, puede ser accesible tanto para principiantes como para usuarios que necesitan un análisis más complejo.
Herramientas de investigador de datos
1. R
R es un paquete de software gratuito para cálculos estadísticos y su visualización. R compila y ejecuta en muchas plataformas UNIX, Windows y macOS.
2. Python
Python es un lenguaje de programación popular desarrollado por Guido van Rossum. El código fuente del idioma se publicó por primera vez en 1991. Python se utiliza para el desarrollo de backend, fabricación de computadoras, matemática y scripting para sistemas.
3. Julia
El lenguaje Julia fue creado originalmente para la informática de alto rendimiento. Para varios sistemas LLVM, los programas de Julia se compilan en un código nativo eficiente. Julia es un lenguaje de programación de mecanografía dinámico que parece un lenguaje de secuencias de comandos y tiene excelentes consejos interactivos en el entorno de desarrollo.
4. Tableau
Tableau es una de las herramientas de visualización de datos de más rápido crecimiento en el sector de inteligencia empresarial. Esta es la mejor manera de convertir datos en bruto en formatos fáciles de entender que no requieren conocimientos técnicos y habilidades de programación.
5. QlikView
QlikView es una de las principales plataformas para el descubrimiento de datos empresariales. Se diferencia de los sistemas tradicionales de inteligencia de negocios en una serie de características. Como herramienta para analizar información, siempre visualiza la relación entre los datos usando el color y también muestra información no relacionada. La búsqueda directa e indirecta se implementa ingresando consultas en los encabezados de la lista.
6. AWS
Al ofrecer potencia informática, recursos de bases de datos y servicios de entrega de contenido, Amazon Web Services (AWS), una plataforma segura en la nube, ayuda a las empresas a hacer crecer sus negocios. Millones de clientes ya están utilizando AWS y alternativas para desarrollar aplicaciones complejas con gran flexibilidad, escalabilidad y confiabilidad.
7. chispa
Apache Spark es un marco de computación de clúster rápido. Admite API de alto nivel para Java, Scala, Python y R, así como un motor de procesamiento de gráficos optimizado.
8. RapidMiner
RapidMiner es una plataforma tecnológica para el procesamiento de datos. Incluye funciones de preparación de datos, algoritmos de aprendizaje automático y aprendizaje profundo, herramientas de análisis de texto y un entorno de análisis predictivo. RapidMiner admite todas las herramientas de aprendizaje automático, incluida la preparación de información, la visualización de resultados, la verificación del cumplimiento de los requisitos del proyecto y la optimización. RapidMiner se utiliza en negocios, industria, para capacitación y enseñanza, creación rápida de prototipos y desarrollo de software.
9. Databricks
La plataforma Databricks, que combina el procesamiento de datos y el soporte de tecnología empresarial, está diseñada para profesionales de datos, ingenieros e investigadores. La plataforma admite todo el ciclo de vida del aprendizaje automático: desde la preparación de la información hasta las pruebas y la implementación.
Diferencias salariales
La investigación de datos no solo tiene más demanda que el trabajo de los estadísticos , sino que también está mejor remunerada. Según Glassdoor, el salario promedio de un investigador de datos en los Estados Unidos es de $ 118,709, y las estadísticas son de $ 75,069. Investigador de datos : un especialista versátil para la empresa, capaz de proporcionar respuestas a preguntas importantes. Por lo general, recibe una pregunta abierta. El especialista descubre qué información se necesita, determina la fecha límite para la tarea, realiza modelos y análisis y escribe un programa brillante que le permite obtener una respuesta.
Oportunidades laborales
Estadísticas de oportunidades de carrera
Tecnico estadistico
Los expertos en estadística generalmente analizan la información bajo la supervisión de un estadístico superior, que también puede ser su mentor. Después de un tiempo, muchos de estos especialistas abandonan el backstage por puestos más responsables e independientes y asumen tareas técnicas complejas.
Estadística Aplicada
Los estadísticos aplicados son responsables de garantizar que, para cada tema importante, se recopilen datos apropiados y se preparen para el análisis (o se haya llevado a cabo un análisis apropiado) y se prepare un informe con los resultados. Trabajan en estrecha colaboración con otros expertos técnicos y de gestión, siendo una parte integral del equipo del proyecto.
Estadista Senior
Un estadístico superior tiene una gama más amplia de responsabilidades que las estadísticas aplicadas. Explora los problemas de manera integral para encontrar conexiones con los objetivos de la organización en su conjunto. Para ofrecer nuevas ideas que beneficiarán a las organizaciones y clientes a lo largo del tiempo, los estadísticos superiores son proactivos. A menudo se conectan en las primeras etapas del proyecto, ayudan a identificar problemas basados en números y recomiendan formas de resolverlos a la alta gerencia. Luego son reclutados para preparar y presentar los resultados. En materia estadística, a menudo son la mejor fuente de información y experiencia.
Jefe de Estadística
Los jefes de los departamentos de estadística, especialmente los más jóvenes, participan en la planificación del proyecto, lo que ayuda a determinar lo que debe suceder. Reclutan empleados, dan consejos y son responsables de los resultados generales de los proyectos. Informan a los altos directivos sobre los logros del departamento, ayudan a sus empleados en el desarrollo profesional y determinan las direcciones de desarrollo. Sus tareas administrativas incluyen reclutar y desarrollar empleados, así como evaluar la efectividad de su trabajo. Por razones obvias, se requieren menos gerentes que los trabajadores ordinarios.
Consultor Privado en Estadística
Algunos estadísticos aplicados se convierten en consultores privados independientes. Realizan estudios especiales, a menudo comisionados por organizaciones que no tienen estadísticos, o evalúan el trabajo de otros estadísticos. Los consultores estadísticos a menudo participan como expertos en la resolución de problemas legales.
Analista de datos de oportunidades laborales
Explorador de datos
Los investigadores de datos trabajan con modelos estadísticos y matemáticos utilizados para procesar información. La mente brillante de un especialista en análisis de datos será útil al crear un sistema para evaluar la cantidad de préstamos que no se pueden pagar el próximo mes.
Especialista en procesamiento de datos
Estos especialistas de amplia base utilizan sistemas informáticos para procesar grandes conjuntos de datos, confiando en su conocimiento del desarrollo de software. Por lo general, cada uno de ellos conoce varios lenguajes de programación, como Python y Java. Por lo general, estos empleados se centran en escribir código, borrar datos y realizar consultas de investigadores de datos . Para convertir el modelo predictivo creado por el investigador de datos en código de programa, generalmente recurren a los servicios de un especialista en procesamiento de datos.
Analista
Y finalmente, hay expertos que investigan los datos, crean informes y visualizan lo que contienen estos datos. Los analistas ayudan a los empleados de la empresa a obtener información sobre temas específicos.
Resumen
Un analista sobresaliente es un valioso especialista; Su estilo de codificación está optimizado en términos de velocidad. Pero él no es un estadístico , ni siquiera uno malo, porque no saca conclusiones finales basadas en hechos. La tarea principal del analista es declarar: "Esto es lo que contienen nuestros datos. Decir lo que sigue de esto no es mi tarea. Quizás el tomador de decisiones quiera obtener estadísticas para averiguarlo ”.
Eso es todo, estamos esperando a todos en el curso .