Archivos comprimidos en R

Presa

Hace algún tiempo me di cuenta de la cantidad de proyectos de análisis de datos en los que la información se encuentra en archivo de textos. En cada ocasión que cargo el proyecto leo los datos y trabajo con ellos. El uso de este formato es ideal, son independientes tanto de la plataforma como de la herramienta utilizada en análisis. Permitiendo que sean usados por miembros del equipo, aunque utilicen herramientas diferentes a las nuestras. Pero tienen un problema, ocupan un gran espacio. Lo que es un problema tanto para su almacenamiento como para el envío de estos a través de las redes. Para su transmisión una practica habitual es comprimir los mismo, ya que no es complicado conseguir factores de mayores de 1 a 10, y descomprimirlos al recibir los datos para trabajar.

Una de las capacidades poco conocidas de R es la de poder trabajar directamente con los archivos comprimidos. Así podemos ahorrar espacio a la hora de almacenar nuestros proyectos o reducir los datos que se tienen que trasmitir cuando estos se encuentran en ubicaciones remotas. Para un archivo en formato CSV comprimido con gzip solamente se ha de utilizar el comando gzfile antes de llamar a read.csv. Esto es lo que se muestra en la siguiente línea:

data <- read.csv(gzfile('file.csv.bz'))

Además de gzip R también soporta los formatos bzip2 y xz, para los que se ha de utilizar las funciones bzfile y xzfile respectivamente.

Sin votos
Por favor espera...

Suscríbete a nuestro boletín

Si te ha gustado el contenido puedes suscribirte al boletín semanal para recibir en su correo electrónico todas las novedades publicadas en Analytics Lane.
La dirección de correo suministradas se utilizará únicamente para enviar un correo semanal con las últimas publicaciones aparecidas en el blog. Los datos nunca serán utilizados para otros fines diferentes. Para más información puede consular nuestra Política de Privacidad.

Contenido relacionado

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *