🏇 🙇 🚴🏻 Acelerar la exploración de datos utilizando la biblioteca de perfiles de pandas 🤳🏼 🙍 ⛽️

En primer lugar, para comenzar con un nuevo conjunto de datos, debe comprenderlo. Para hacer esto, es necesario, por ejemplo, encontrar los rangos de valores aceptados por las variables, sus tipos y también conocer el número de valores faltantes.

La biblioteca de pandas nos proporciona muchas herramientas útiles para realizar el Análisis Exploratorio de Datos (EDA). Pero antes de usarlos, generalmente necesita comenzar con funciones más generales, como df.describe (). Es cierto que debe tenerse en cuenta que las posibilidades proporcionadas por tales funciones son limitadas, y las etapas iniciales de trabajar con cualquier conjunto de datos durante EDA son muy a menudo muy similares entre sí.

El autor del material que publicamos hoy dice que no es fanático de repetir acciones. Como resultado, en la búsqueda de herramientas para realizar análisis de datos exploratorios de manera rápida y eficiente, encontró la biblioteca de perfiles de pandas . Los resultados de su trabajo se expresan no en forma de ciertos indicadores individuales, sino en forma de un informe HTML bastante detallado que contiene la mayor parte de la información sobre los datos analizados que puede necesitar saber antes de comenzar a trabajar más de cerca con ellos.

Aquí consideraremos las características de usar la biblioteca de perfiles de pandas usando el ejemplo del conjunto de datos Titanic.

Análisis de datos de exploración de pandas

Decidí experimentar con perfiles de pandas en el conjunto de datos Titanic debido al hecho de que tiene datos de diferentes tipos y debido a los valores faltantes en él. Creo que la biblioteca de perfiles de pandas es especialmente interesante en los casos en que los datos aún no se han borrado y requieren un procesamiento adicional, dependiendo de sus características. Para realizar con éxito dicho procesamiento, debe saber dónde comenzar y qué buscar. Aquí es donde las funciones de perfil de pandas son útiles.

Para comenzar, importamos los datos y usamos pandas para obtener indicadores de estadísticas descriptivas:

#    import pandas as pd import pandas_profiling import numpy as np #   df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv') #     df.describe()

Después de ejecutar este fragmento de código, obtiene lo que se muestra en la siguiente figura.

Métricas de estadísticas descriptivas utilizando herramientas estándar de pandas

Aunque contiene mucha información útil, no hay todo lo que sea interesante para aprender sobre los datos que se estudian. Por ejemplo, podemos suponer que en el marco de datos, en la estructura DataFrame , hay 891 DataFrame . Si necesita verificar esto, necesitará otra línea de código que determine el tamaño del marco. Aunque estos cálculos no son particularmente intensivos en recursos, su repetición constante necesariamente conducirá a la pérdida de tiempo, que probablemente se gasta mejor en la limpieza de datos.

Análisis exploratorio de datos utilizando perfiles pandas

Ahora haga lo mismo usando pandas-perfiling:

 pandas_profiling.ProfileReport(df)

La implementación de la línea de código anterior le permitirá generar un informe con indicadores de análisis de datos exploratorios. El código que se muestra arriba conducirá a la conclusión de la información de datos encontrados, pero se puede hacer para que el resultado sea un archivo HTML, que, por ejemplo, se puede mostrar a alguien.

La primera parte del informe contendrá la sección Descripción general, que proporciona información básica sobre los datos (número de observaciones, número de variables, etc.). Además, contendrá una lista de advertencias que notificarán al analista sobre a qué debe prestar especial atención. Estas advertencias pueden ser una pista sobre dónde puede concentrar sus esfuerzos al limpiar sus datos.

Resumen de la sección de informes

Análisis exploratorio de variables

Detrás de la sección Descripción general del informe, puede encontrar información útil sobre cada variable. Entre otras cosas, incluyen pequeños diagramas que describen la distribución de cada variable.

Información de variables numéricas de edad

Como puede ver en el ejemplo anterior, el perfil de pandas nos brinda algunos indicadores útiles, como el porcentaje y el número de valores faltantes, así como indicadores de estadísticas descriptivas que ya hemos visto. Como la Age es una variable numérica, la visualización de su distribución en forma de histograma nos permite concluir que tenemos una distribución en ángulo recto.

Cuando se considera una variable categórica, los indicadores mostrados son ligeramente diferentes de los encontrados para la variable numérica.

Información variable de categoría de sexo

Es decir, en lugar de encontrar el promedio, el mínimo y el máximo, la biblioteca de perfiles de pandas encontró el número de clases. Como Sex es una variable binaria, sus valores están representados por dos clases.

Si, como yo, le gusta investigar el código, entonces puede estar interesado en cómo exactamente la biblioteca de perfiles de pandas calcula estos indicadores. Saber esto, dado que el código de la biblioteca está abierto y disponible en GitHub, no es tan difícil. Como no soy un gran fanático del uso de "cajas negras" en mis proyectos, miré el código fuente de la biblioteca. Por ejemplo, aquí está el mecanismo para procesar variables numéricas representadas por la función describe_numeric_1d :

 def describe_numeric_1d(series, **kwargs):   """Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).   Also create histograms (mini an full) of its distribution.   Parameters   ----------   series : Series       The variable to describe.   Returns   -------   Series       The description of the variable as a Series with index being stats keys.   """   # Format a number as a percentage. For example 0.25 will be turned to 25%.   _percentile_format = "{:.0%}"   stats = dict()   stats['type'] = base.TYPE_NUM   stats['mean'] = series.mean()   stats['std'] = series.std()   stats['variance'] = series.var()   stats['min'] = series.min()   stats['max'] = series.max()   stats['range'] = stats['max'] - stats['min']   # To avoid to compute it several times   _series_no_na = series.dropna()   for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):       # The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098       stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)   stats['iqr'] = stats['75%'] - stats['25%']   stats['kurtosis'] = series.kurt()   stats['skewness'] = series.skew()   stats['sum'] = series.sum()   stats['mad'] = series.mad()   stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN   stats['n_zeros'] = (len(series) - np.count_nonzero(series))   stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)   # Histograms   stats['histogram'] = histogram(series, **kwargs)   stats['mini_histogram'] = mini_histogram(series, **kwargs)   return pd.Series(stats, name=series.name)

Aunque este fragmento de código puede parecer bastante grande y complejo, de hecho, comprenderlo es muy simple. El punto es que en el código fuente de la biblioteca hay una función que determina los tipos de variables. Si resultó que la biblioteca cumplió con una variable numérica, la función anterior encontrará los indicadores que consideramos. Esta función utiliza operaciones estándar de pandas para trabajar con objetos del tipo Series , como series.mean() . Los resultados del cálculo se almacenan en el diccionario de stats . Los histogramas se generan utilizando una versión adaptada de la función matplotlib.pyplot.hist . La adaptación tiene como objetivo permitir que la función funcione con varios tipos de conjuntos de datos.

Indicadores de correlación y muestra de los datos estudiados.

Después de los resultados del análisis de variables, el perfil de pandas, en la sección Correlaciones, muestra las matrices de correlación de Pearson y Spearman.

Matriz de correlación de Pearson

Si es necesario, es posible, en la línea de código que comienza la formación del informe, establecer los valores umbral utilizados para calcular la correlación. Al hacer esto, puede indicar qué fuerza de correlación se considera importante para su análisis.

Finalmente, el informe de perfil de pandas, en la sección Muestra, muestra, como ejemplo, una pieza de datos tomada desde el comienzo del conjunto de datos. Este enfoque puede llevar a sorpresas desagradables, ya que las primeras observaciones pueden ser una muestra que no refleja las características de todo el conjunto de datos.

Sección que contiene datos de muestra

Como resultado, no recomiendo prestar atención a esta última sección. En cambio, es mejor usar el df.sample(5) , que seleccionará al azar 5 casos del conjunto de datos.

Resumen

Resumiendo lo anterior, se puede observar que la biblioteca de perfiles de pandas proporciona al analista algunas características útiles que serán útiles en los casos en que necesite obtener rápidamente una idea general de los datos o enviar a alguien un informe sobre el análisis de datos de inteligencia. Al mismo tiempo, se realiza un trabajo real con datos, teniendo en cuenta sus características, como si no se utilizara el perfil de pandas de forma manual.

Si desea ver cómo se ve todo el análisis de inteligencia de datos en un cuaderno Jupyter, eche un vistazo a esto que mi proyecto creó usando nbviewer. Y en este repositorio de GitHub puedes encontrar el código apropiado.

Estimados lectores! ¿Cómo comienzas a analizar nuevos conjuntos de datos?

Acelerar la exploración de datos utilizando la biblioteca de perfiles de pandas

Análisis de datos de exploración de pandas

Análisis exploratorio de datos utilizando perfiles pandas

Análisis exploratorio de variables

Indicadores de correlación y muestra de los datos estudiados.

Resumen

More articles: