Recientemente hemos visto las ventajas que ofrece el uso del formato de archivo Feather frente a CSV en Python. En primer lugar, el tamaño de los archivos resultantes es mucho más pequeño, en torno a un tercio. Además, el tiempo necesario para guardar y cargar los datos es varios órdenes de magnitud, lo que significa pasar de segundos a décimas de segundos. Siendo ambos aspectos importantes a la hora de trabajar con grandes conjuntos de datos. Hoy vamos a ver los pasos necesarios para trabajar con archivos Feather en Julia.
Entre los paquetes de Julia nos podemos encontrar con un paquete llamado Feather.jl el cual solo puede trabajar con la primera versión del formato (Feather v1). Una versión que ahora se encuentra en desuso. La segunda versión (Feather v2), la que usa Pandas por defecto, es simplemente el formato Apache Arrow volcado a disco. Para trabajar con este formato se debe usar el paquete Arrow.jl.
En esta entrada nos vamos a centrar únicamente en el formato Apache Arrow (Feather v2) ya que es el recomendado actualmente. El paquete Feather.jl solamente se debería usar para importar ficheros antiguos que tengamos en el formato antiguo.
Por defecto, el método to_feather()
de Pandas usa el formato Apache Arrow, aunque en es compatible con formato antiguo. Siendo esto algo que puede llevar a confusión para los usuarios de Pandas.
Antes de poder trabajar con archivos Apache Arrow en Julia es necesario instalar el paquete Arrow.jl. Usado para ello el método estándar de instalación, esto es, escribiendo los siguientes comandos
julia> using Pkg julia> Pkg.add("Arrow")
Proceso que descargará e instalará tanto el paquete como todas sus dependencias en nuestro sistema.
Una vez instalado el paquete ya se pueden importar los datos desde los archivos Arrow o Feather en Julia. Para ello se tiene que importar el paquete y usar el siguiente la instrucción Arrow.Table()
pasando como único parámetro un objeto de tipo io::IO
o file::String
, tal como se muestra a continuación
julia> using Arrow julia> table = Arrow.Table("data.feather")
El resultado es un objeto de tipo Arrow.Table
. En el caso de que deseemos trabajar con un objeto DataFrame solamente hay que convertirlo con DataFrame
julia> using DataFrames julia> df = DataFrame(table)
Para guardar un conjunto de datos en un archivo Apache Arrow se puede utilizar el método Arrow.write()
pasando como primer parámetro el nombre del archivo y como segundo un objeto compatible (pudiendo ser tanto de tipo Arrow.Table
como DataFrame
)
julia> Arrow.write("data.arrow", df)
Generando de este modo un archivo data.arrow
que puede ser importado en Python mediante el método pd.read_feather()
.
En esta entrada hemos visto los pasos necesarios para importar archivos Apache Arrow o Feather en Julia. Además de comprender la relación que existe entre los formatos Apache Arrow y Feather.
Imagen de Paul Barlow en Pixabay
Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de…
Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a…
Ampliar el espacio de almacenamiento en un sistema Linux es una tarea habitual y crítica…
¿Sabías que puedes copiar y pegar texto, archivos o imágenes entre tu sistema operativo principal…
Hoy publicamos un nuevo video en el canal de YouTube de Analytics Lane basado en…
En el canal de YouTube de Analytics Lane hemos publicado un nuevo video donde explicamos…
This website uses cookies.