Lectura y escritura de archivos Apache Arrow o Feather en R

En entradas recientes hemos hablado de las ventajas que ofrecen los archivos Apache Arrow o Feather frente a los tradicionales CSV. No solo ocupan menos espacio en disco, sino que los procesos de lectura y escritura son varios órdenes de magnitud más rápidos. Siendo ambas son grandes ventajas cuando se trabaja con conjunto de datos de gran tamaño. La única desventaja podría ser que, al no ser archivos de texto plano, no se pueden editar con un simple editor de texto. Aunque esto no es habitual con archivos de texto grandes. Al estar soportado el formato por los principales lenguajes como Python, Julia y R, no existe una barrera para su adopción. Veamos a continuación cómo se pueden trabajar con los archivos Apache Arrow o Feather en R.

Instalación del paquete para trabajar con Feather en R

Al realizar una búsqueda en el CRAN nos podemos encontrar con el paquete feather. Un paquete con el que solamente se puede trabajar con los archivos en Feather v1. Actualmente, por defecto tanto Python como Julia usan el formato Feather v2, también llamada Apache Arrow. Por lo que no es aconsejable instalar este paquete. Una opción mejor es el paquete Arrow con el que se puede trabajar con Apache Arrow.

Como es habitual, antes de poder utilizar el paquete es necesario instalarlo en nuestro entorno de R. Algo que se puede hacer desde el CRAN de la forma habitual.

install.packages("arrow"))

Lectura de archivos Apache Arrow en R

La lectura de archivos en formato Apache Arrow es relativamente sencilla, simplemente se debe importar el paquete arrow y usar la función read_feather() con la ruta al archivo.

library(arrow)
 
data <- read_feather("data.feather")

El resultado es un objeto DataFrame con el que se puede trabajar de forma habitual.

Escritura de archivos Apache Arrow en R

La escritura de archivos en formato Apache Arrow es igual de sencilla. En esta ocasión hay que usar la función write_feather(). Únicamente requiere dos parámetros: los datos que se desean guardar y la ruta. Opcionalmente se puede indicar la versión del archivo, aunque si no se indica usará la versión 2 en la exportación. Así, los datos que se cargaron anteriormente se pueden guardar en disco con la siguiente línea de código

write_feather(data, "r.feather", version = 2)

Conclusiones

En esta ocasión hemos podido ver el paquete para trabajar con los archivos en formato Apache Arrow o Feather en R. Lo que confirma que este formato es estándar al poder trabajar con él en diferentes entornos. Además de ofrecer grandes ventajas en cuanto a tiempo de carga y al espacio necesario en disco.

Image by Christine Sponchia from Pixabay

Daniel Rodríguez

Next Reflexionar en GTD »

Previous « Pandas: Renombrar columnas en Pandas

Published by

Daniel Rodríguez

Tags: Apache Arrow

4 años ago

Introducción a igraph en R (Parte 10): Resumen y comparativa de centralidades
A lo largo de las entregas anteriores, hemos explorado diversas métricas de centralidad fundamentales para…
Introducción a igraph en R (Parte 9): Centralidad de Prestigio y Autoridad (modelo HITS, Hyperlink-Induced Topic Search)
En el análisis de redes, no es suficiente identificar únicamente los nodos más conectados. A…
Introducción a igraph en R (Parte 8): PageRank
En el análisis de redes, identificar los nodos más influyentes es clave para comprender cómo…

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

En la era del dato, las organizaciones se enfrentan al reto de gestionar volúmenes masivos…

2 días ago

JavaScript

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

En la serie Creación de una API REST con Express y TypeScript construimos una API…

4 días ago

Opinión

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

Durante la Segunda Guerra Mundial, la Fuerza Aérea de Estados Unidos quería reforzar sus aviones…

1 semana ago

Herramientas

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

En muchas situaciones —ya sea para grabar un tutorial, tomar capturas de pantalla profesionales, probar…

2 semanas ago

Opinión

La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento

Imagínate en una sala con un grupo de personas, por ejemplo, en una oficina, un…

2 semanas ago

Herramientas

Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)

En el trabajo diario con ordenadores, es común encontrarse con tareas repetitivas: realizar copias de…

3 semanas ago

This website uses cookies.