Julia

Archivos Parquet en Julia

En una publicación reciente se ha visto las ventajas que ofrece el uso de archivos Parquet frente a CSV o Feather en Pandas. Consiguiendo guardar un conjunto de datos aleatorios en un archivo un 10% más pequeño que CSV con compresión hasta 100 veces más rápido. Algo que, en algunos puntos, mejora el rendimiento de Feather. Veamos como se puede trabajar con archivos Parquet en Julia.

Instalación del paquete Parquet.jl

Antes de poder trabajar con archivos Parquet en Julia es necesario instalar el paquete Parquet.jl. Para esto se usará el método estándar de instalación de Julia, esto es, importar Pkg y llamar al método add() de este con el nombre del paquete a instalar. Lo que se puede hacer en las siguientes líneas de código

julia> using Pkg

julia> Pkg.add("Parquet")

Proceso que descargará e instalará tanto el paquete como todas sus dependencias necesarias en nuestro sistema.

Importación de archivos Parquet en Julia

Ahora, una vez instalado el paquete en nuestro sistema, ya es posible trabajar con archivos en formato Parquet con Julia. Para lo que deberemos instanciar el paquete tanto Parquet como DataFrames. Una vez hecho esto se puede llamar a la función read_parquet() con la ruta al archivo y pasar la salida a DataFrame.

julia> using Parquet, DataFrames

julia> df = DataFrame(read_parquet("data.parquet"))

Consiguiendo de esta manera que el contenido del archivo en el objeto df.

Exportación de archivos Parquet en Julia

Por otro lado, para guardar el contenido de un DataFrame en un archivo con formato Parquet es necesario recurrir a la función write_parquet() cuya primer parámetro es la ruta al archivo y el segundo el DataFrame.

julia> write_parquet("julia.parquet", df)

Al igual que sucede en Python, por defecto el archivo se guarda con la compresión snappy, siendo necesario indicar el formato si se desea otro. PAra lo que se tiene que utilizar la propiedad compression_codec:

julia> write_parquet("julia.parquet.gzip", df, compression_codec = "GZIP")

Conclusiones

En esta entrada se ha visto como se puede trabajar con archivos Parquet en Julia, un formato de archivo que tiene muchas ventajas cuando se trabaja con grandes conjuntos de datos. Ventajas que se discutieron en una entrada anterior.

Imagen de PIRO4D en Pixabay

Daniel Rodríguez

Next El gordo del sorteo de Navidad no ha sido el 72850 »

Previous « Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas

Published by

Daniel Rodríguez

Tags: Apache ArrowParquet

5 años ago

Eliminar filas en DataFrame Julia en base a sus valores
Una de las tareas más repetidas cuando se procesa un conjunto de datos es el…
Diferencias entre Apache Arrow y Parquet
Apache Arrow y Parquet son dos formatos modernos para con los que es posible conseguir…

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

2 días ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

3 días ago

Ciencia de datos

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…

4 días ago

Opinión

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

1 semana ago

Sin categoría

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

2 semanas ago

Noticias

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…