Julia

Importar archivos Apache Arrow o Feather en Julia

Recientemente hemos visto las ventajas que ofrece el uso del formato de archivo Feather frente a CSV en Python. En primer lugar, el tamaño de los archivos resultantes es mucho más pequeño, en torno a un tercio. Además, el tiempo necesario para guardar y cargar los datos es varios órdenes de magnitud, lo que significa pasar de segundos a décimas de segundos. Siendo ambos aspectos importantes a la hora de trabajar con grandes conjuntos de datos. Hoy vamos a ver los pasos necesarios para trabajar con archivos Feather en Julia.

Diferencia entre Arrow y Feather

Entre los paquetes de Julia nos podemos encontrar con un paquete llamado Feather.jl el cual solo puede trabajar con la primera versión del formato (Feather v1). Una versión que ahora se encuentra en desuso. La segunda versión (Feather v2), la que usa Pandas por defecto, es simplemente el formato Apache Arrow volcado a disco. Para trabajar con este formato se debe usar el paquete Arrow.jl.

En esta entrada nos vamos a centrar únicamente en el formato Apache Arrow (Feather v2) ya que es el recomendado actualmente. El paquete Feather.jl solamente se debería usar para importar ficheros antiguos que tengamos en el formato antiguo.

Por defecto, el método to_feather() de Pandas usa el formato Apache Arrow, aunque en es compatible con formato antiguo. Siendo esto algo que puede llevar a confusión para los usuarios de Pandas.

Instalación del paquete Arrow.jl

Antes de poder trabajar con archivos Apache Arrow en Julia es necesario instalar el paquete Arrow.jl. Usado para ello el método estándar de instalación, esto es, escribiendo los siguientes comandos

julia> using Pkg

julia> Pkg.add("Arrow")

Proceso que descargará e instalará tanto el paquete como todas sus dependencias en nuestro sistema.

Importación de los archivos Apache Arrow o Feather en Julia

Una vez instalado el paquete ya se pueden importar los datos desde los archivos Arrow o Feather en Julia. Para ello se tiene que importar el paquete y usar el siguiente la instrucción Arrow.Table() pasando como único parámetro un objeto de tipo io::IO o file::String, tal como se muestra a continuación

julia> using Arrow

julia> table = Arrow.Table("data.feather")

El resultado es un objeto de tipo Arrow.Table. En el caso de que deseemos trabajar con un objeto DataFrame solamente hay que convertirlo con DataFrame

julia> using DataFrames

julia> df = DataFrame(table)

Exportar archivos Apache Arrow o Feather en Julia

Para guardar un conjunto de datos en un archivo Apache Arrow se puede utilizar el método Arrow.write() pasando como primer parámetro el nombre del archivo y como segundo un objeto compatible (pudiendo ser tanto de tipo Arrow.Table como DataFrame)

julia> Arrow.write("data.arrow", df)

Generando de este modo un archivo data.arrow que puede ser importado en Python mediante el método pd.read_feather().

Conclusiones

En esta entrada hemos visto los pasos necesarios para importar archivos Apache Arrow o Feather en Julia. Además de comprender la relación que existe entre los formatos Apache Arrow y Feather.

Imagen de Paul Barlow en Pixabay

Daniel Rodríguez

Next Clarificar en GTD »

Previous « Almacenar los datos de forma eficiente con Feather en Python

Published by

Daniel Rodríguez

Tags: Apache Arrow

5 años ago

Eliminar filas en DataFrame Julia en base a sus valores
Una de las tareas más repetidas cuando se procesa un conjunto de datos es el…
Archivos Parquet en Julia
En una publicación reciente se ha visto las ventajas que ofrece el uso de archivos…
Diferencias entre Apache Arrow y Parquet
Apache Arrow y Parquet son dos formatos modernos para con los que es posible conseguir…

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

18 horas ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

2 días ago

Opinión

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

7 días ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

1 semana ago

Ciencia de datos

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…

1 semana ago

Opinión

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

2 semanas ago

This website uses cookies.