Lectura y escritura de archivos Apache Arrow o Feather en R

En entradas recientes hemos hablado de las ventajas que ofrecen los archivos Apache Arrow o Feather frente a los tradicionales CSV. No solo ocupan menos espacio en disco, sino que los procesos de lectura y escritura son varios órdenes de magnitud más rápidos. Siendo ambas son grandes ventajas cuando se trabaja con conjunto de datos de gran tamaño. La única desventaja podría ser que, al no ser archivos de texto plano, no se pueden editar con un simple editor de texto. Aunque esto no es habitual con archivos de texto grandes. Al estar soportado el formato por los principales lenguajes como Python, Julia y R, no existe una barrera para su adopción. Veamos a continuación cómo se pueden trabajar con los archivos Apache Arrow o Feather en R.

Instalación del paquete para trabajar con Feather en R

Al realizar una búsqueda en el CRAN nos podemos encontrar con el paquete feather. Un paquete con el que solamente se puede trabajar con los archivos en Feather v1. Actualmente, por defecto tanto Python como Julia usan el formato Feather v2, también llamada Apache Arrow. Por lo que no es aconsejable instalar este paquete. Una opción mejor es el paquete Arrow con el que se puede trabajar con Apache Arrow.

Como es habitual, antes de poder utilizar el paquete es necesario instalarlo en nuestro entorno de R. Algo que se puede hacer desde el CRAN de la forma habitual.

install.packages("arrow"))

Lectura de archivos Apache Arrow en R

La lectura de archivos en formato Apache Arrow es relativamente sencilla, simplemente se debe importar el paquete arrow y usar la función read_feather() con la ruta al archivo.

library(arrow)
 
data <- read_feather("data.feather")

El resultado es un objeto DataFrame con el que se puede trabajar de forma habitual.

Escritura de archivos Apache Arrow en R

La escritura de archivos en formato Apache Arrow es igual de sencilla. En esta ocasión hay que usar la función write_feather(). Únicamente requiere dos parámetros: los datos que se desean guardar y la ruta. Opcionalmente se puede indicar la versión del archivo, aunque si no se indica usará la versión 2 en la exportación. Así, los datos que se cargaron anteriormente se pueden guardar en disco con la siguiente línea de código

write_feather(data, "r.feather", version = 2)

Conclusiones

En esta ocasión hemos podido ver el paquete para trabajar con los archivos en formato Apache Arrow o Feather en R. Lo que confirma que este formato es estándar al poder trabajar con él en diferentes entornos. Además de ofrecer grandes ventajas en cuanto a tiempo de carga y al espacio necesario en disco.

Image by Christine Sponchia from Pixabay

Daniel Rodríguez

Next Reflexionar en GTD »

Previous « Pandas: Renombrar columnas en Pandas

Published by

Daniel Rodríguez

Tags: Apache Arrow

5 años ago

Introducción a igraph en R (Parte 10): Resumen y comparativa de centralidades
A lo largo de las entregas anteriores, hemos explorado diversas métricas de centralidad fundamentales para…
Introducción a igraph en R (Parte 9): Centralidad de Prestigio y Autoridad (modelo HITS, Hyperlink-Induced Topic Search)
En el análisis de redes, no es suficiente identificar únicamente los nodos más conectados. A…
Introducción a igraph en R (Parte 8): PageRank
En el análisis de redes, identificar los nodos más influyentes es clave para comprender cómo…

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

En las seis entregas anteriores hemos paseado por casi todos los géneros del disparate económico:…

5 días ago

Ciencia de datos

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

El Customer Lifetime Value (CLV) es, probablemente, la métrica más importante que puede calcular una…

7 días ago

Noticias

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

2 semanas ago

Opinión

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Hemos llegado a la sexta entrega de la serie. Si las cuatro primeras fueron las…

2 semanas ago

Noticias

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

En Analytics Lane seguimos apostando por desarrollar herramientas que simplifiquen el trabajo de analistas y…

2 semanas ago

Ciencia de datos

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo

Imagina que construyes un scorecard con un Gini de 0,85. Un resultado extraordinario, muy por…

2 semanas ago

This website uses cookies.

Lectura y escritura de archivos Apache Arrow o Feather en R

Instalación del paquete para trabajar con Feather en R

Lectura de archivos Apache Arrow en R

Escritura de archivos Apache Arrow en R

Conclusiones

Publicaciones relacionadas

Related Post

Recent Posts

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

La liga internacional, o cuando Harvard y Johns Hopkins suman peras con manzanas – El bestiario de los indicadores económicos absurdos (parte 6)

Lanzamos el video de ScoreFlow: crea scorecards de crédito de forma ágil y sin IT

Data Leakage en Credit Scoring: El Error que Invalida tu Modelo