Apache Arrow y Parquet son dos formatos modernos para con los que es posible conseguir archivos más pequeños que CSV, además de unos menores tiempos de lectura y escritura. Veamos a continuación las diferencias que existen entre Apache Arrow y Parquet.Apache ArrowApache Arrow es una biblioteca, disponible para múltiples lenguajes de programación, que proporciona … [Leer más...] acerca de Diferencias entre Apache Arrow y Parquet
Parquet
Archivos Parquet en Julia
En una publicación reciente se ha visto las ventajas que ofrece el uso de archivos Parquet frente a CSV o Feather en Pandas. Consiguiendo guardar un conjunto de datos aleatorios en un archivo un 10% más pequeño que CSV con compresión hasta 100 veces más rápido. Algo que, en algunos puntos, mejora el rendimiento de Feather. Veamos como se puede trabajar con archivos Parquet en … [Leer más...] acerca de Archivos Parquet en Julia
Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas
Los formatos de archivo para el intercambio de datos más populares actualmente son CSV y Microsoft Excel. Resultando ambos poco eficientes a la hora trabajar con grandes conjuntos de datos. CSV es un formato basado en archivos de texto plano, lo que permite su edición con cualquier editor de texto, sin la necesidad de emplear un programa específico. Aunque esto también se … [Leer más...] acerca de Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas