R

Archivos comprimidos en R

Hace algún tiempo me di cuenta de la cantidad de proyectos de análisis de datos en los que la información se encuentra en archivo de textos. En cada ocasión que cargo el proyecto leo los datos y trabajo con ellos. El uso de este formato es ideal, son independientes tanto de la plataforma como de la herramienta utilizada en análisis. Permitiendo que sean usados por miembros del equipo, aunque utilicen herramientas diferentes a las nuestras. Pero tienen un problema, ocupan un gran espacio. Lo que es un problema tanto para su almacenamiento como para el envío de estos a través de las redes. Para su transmisión una practica habitual es comprimir los mismo, ya que no es complicado conseguir factores de mayores de 1 a 10, y descomprimirlos al recibir los datos para trabajar.

Una de las capacidades poco conocidas de R es la de poder trabajar directamente con los archivos comprimidos. Así podemos ahorrar espacio a la hora de almacenar nuestros proyectos o reducir los datos que se tienen que trasmitir cuando estos se encuentran en ubicaciones remotas. Para un archivo en formato CSV comprimido con gzip solamente se ha de utilizar el comando gzfile antes de llamar a read.csv. Esto es lo que se muestra en la siguiente línea:

data <- read.csv(gzfile('file.csv.bz'))

Además de gzip R también soporta los formatos bzip2 y xz, para los que se ha de utilizar las funciones bzfile y xzfile respectivamente.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

14 horas ago

Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas

Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…

1 semana ago

Ley de Benford: cómo detectar datos manipulados con ejemplos reales

En un mundo donde los datos se han convertido en el lenguaje dominante de la…

2 semanas ago

Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura

Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…

2 semanas ago

Síndrome del objeto brillante en ciencia de datos: el error simétrico a los costes hundidos

Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse…

3 semanas ago

This website uses cookies.