El 9 de enero, se lanzó Pandas 1.0.0rc. La versión anterior de la biblioteca es 0.25.
La primera versión principal contiene muchas grandes innovaciones, que incluyen un resumen automático mejorado de marcos de datos, más formatos de salida, nuevos tipos de datos e incluso un nuevo sitio de documentación.
Todos los cambios se pueden ver aquí , en el artículo nos limitaremos a una pequeña revisión, menos técnica, de lo más importante.
Puede instalar la biblioteca como de costumbre usando pip , pero dado que al momento de escribir Pandas 1.0 todavía es un candidato de lanzamiento , deberá especificar explícitamente la versión:
pip install --upgrade pandas==1.0.0rc0
Tenga cuidado: dado que la versión es importante, ¡la actualización puede romper el código anterior!
Por cierto, el soporte para Python 2 ha sido descontinuado por completo de esta versión ( que puede ser una buena razón para actualizar , aprox. Transl. ). Pandas 1.0 requiere al menos Python 3.6+, así que si no está seguro, verifique cuál ha instalado:
$ pip --version pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7) $ python --version Python 3.7.5
La forma más fácil de verificar la versión de Pandas es:
>>> import pandas as pd >>> pd.__version__ 1.0.0rc0
Resumen automático mejorado con DataFrame.info
Mi innovación favorita fue la actualización del método DataFrame.info . La función se ha vuelto mucho más legible, lo que hace que el proceso de investigación de datos sea aún más fácil:
>>> df = pd.DataFrame({ ...: 'A': [1,2,3], ...: 'B': ["goodbye", "cruel", "world"], ...: 'C': [False, True, False] ...:}) >>> df.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns):
Salida de tabla en formato Markdown
Una innovación igualmente agradable fue la capacidad de exportar marcos de datos a tablas de Markdown usando DataFrame.to_markdown .
>>> df.to_markdown() | | A | B | C | |---:|----:|:--------|:------| | 0 | 1 | goodbye | False | | 1 | 2 | cruel | True | | 2 | 3 | world | False |
Esto simplifica enormemente la publicación de tablas en sitios como Medium usando github gists.
Nuevos tipos de cadenas y booleanos.
Pandas 1.0 también agregó nuevos tipos experimentales . Su API está sujeta a cambios, así que úsela con precaución. Pero en general, Pandas recomienda usar nuevos tipos donde sea que tenga sentido.
Hasta ahora, el elenco debe hacerse explícitamente:
>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string") >>> C = pd.Series([False, True, False], dtype="bool") >>> df.B = B, df.C = C >>> df.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 3 entries, 0 to 2 Data columns (total 3 columns):
Observe cómo la columna Dtype muestra los nuevos tipos: string y bool .
La característica más útil del nuevo tipo de cadena es que es posible seleccionar solo columnas de filas de marcos de datos. Esto puede simplificar enormemente el análisis de datos de texto:
df.select_dtypes("string")
Anteriormente, las columnas de fila no podían seleccionarse sin especificar explícitamente los nombres.
Puede encontrar más información sobre los nuevos tipos aquí .
Gracias por leer! La lista completa de cambios, como ya se mencionó, se puede ver aquí .