Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en … [Leer más...] acerca de Unir múltiples archivos CSV en uno con Pandas
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
Truco: reemplazar los valores NaN en los DataFrame Pandas
La existencia de valores NaN es un conjunto de datos puede ser una molestia ya que no es posible realizar muchas operaciones con ellos. Por eso conocer un método para reemplazar los valores NaN en los DataFrame por cualquier otro puede solucionar algunos problemas. Afortunadamente para ello existe el método fillna() en Pandas, con el que se puede reemplazar todas las … [Leer más...] acerca de Truco: reemplazar los valores NaN en los DataFrame Pandas
Uso de Pandas Query para filtrar datos de forma sencilla
En los DataFrames de Pandas se puede emplear vectores lógicos para seleccionar las filas que cumplen una o varias condiciones. Algo que se puede utilizar para realizar operaciones de filtrado de datos. Aunque esta característica es muy poderosa, existe otra opción con la que generalmente se puede conseguir filtrar los datos de una manera mucho más sencilla: Pandas Query. Un … [Leer más...] acerca de Uso de Pandas Query para filtrar datos de forma sencilla
Importar automáticamente las dependencias en Python con una línea
Python es uno de los mejores entornos de trabajo que existen actualmente para los científicos de datos. Existen múltiples librerías con las que realizar de una forma sencilla y eficiente una gran cantidad de tareas, como pueden ser NumPy, Pandas, Matplotlib, Seaborn o Scikit-Learn. Aunque la importación de todas las dependencias necesarias en un proyecto puede llegar a ser una … [Leer más...] acerca de Importar automáticamente las dependencias en Python con una línea
Selección condicional con Pandas
Al importar un conjunto de datos en una sesión de Python no todos los registros de este tienen porque ser de interés para el análisis que se pretende realizar. Por lo que saber seleccionar los elementos necesarios de una forma rápida es de gran ayuda a la hora de realizar casi cualquier trabajo. Siendo esta una tarea que se puede realizar fácilmente si se aprovechan … [Leer más...] acerca de Selección condicional con Pandas
Pandas: Eliminar filas en base a sus valores con Pandas
Al trabajar con conjuntos de datos es posible que sea necesario eliminar algunas de las filas o columnas en base a los valores de estas. Seleccionado solamente aquellas cuyos valores cumplen alguna condición. Esto es algo que se puede conseguir fácilmente el Pandas gracias a las posibilidades que ofrecen el uso de vectores booleanos en loc. Pudiéndose construir estos vectores … [Leer más...] acerca de Pandas: Eliminar filas en base a sus valores con Pandas
Almacenar archivos CSV 10 veces más rápido en Python con PyArrow
Hace un tiempo publiqué una entrada en la que comparaba las ventajas de usar el formato de archivo Apache Arrow frente al tradicional CSV. Suponiendo grandes ahorros tanto en el tamaño de los archivos como el tiempo de carga. Usando para ello la librería PyArrow. Es posible que por temas de compatibilidad entre sistemas en algunas situaciones no podamos usar Apache Arrow, … [Leer más...] acerca de Almacenar archivos CSV 10 veces más rápido en Python con PyArrow
Pandas: estadísticas de subconjuntos de datos en DataFrame
A partir de un conjunto de datos en memoria puede ser interesante obtener estadísticas de subconjuntos de datos. Información que puede ser de gran utilidad para detectar patrones. Por ejemplo, si tenemos los registros de ventas con el día de la semana puede ser interesante obtener los valores medios y totales en función del día. En Python esto se puede hacer gracias al método … [Leer más...] acerca de Pandas: estadísticas de subconjuntos de datos en DataFrame
Combinar dos columnas de texto en Pandas
Al trabajar con conjuntos de datos en los que algunas características son cadenas de texto es habitual encontrarse con registros que no están en el formato deseado. Tanto valores que estas juntos como separados. Para solucionar el primer problema es necesario separar el texto de una característica en varias, lo que se explicó en una entrada anterior. Por otro lado, la solución … [Leer más...] acerca de Combinar dos columnas de texto en Pandas
Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas
Los formatos de archivo para el intercambio de datos más populares actualmente son CSV y Microsoft Excel. Resultando ambos poco eficientes a la hora trabajar con grandes conjuntos de datos. CSV es un formato basado en archivos de texto plano, lo que permite su edición con cualquier editor de texto, sin la necesidad de emplear un programa específico. Aunque esto también se … [Leer más...] acerca de Uso de Parquet para guardar los conjuntos de datos de forma eficiente en Pandas
Creación de tablas resumen en Python con Sidetable
Sidetable es un complemento para Pandas con el que es posible crear fácilmente tablas resumen en Python de los conjuntos de datos. Lo que consigue mediante la combinación de funciones de tabulación cruzada y recuento de datos, simplificando muchos análisis habituales.Instalación y conjunto de datos de ejemploEl método más sencillo para instalar Sidetable en Python es … [Leer más...] acerca de Creación de tablas resumen en Python con Sidetable
Análisis de datos en Python al estilo Excel con Mito
Mito es una interfaz para el análisis de datos basaos en JupyterLab con un funcionamiento similar al de las hojas de cálculo. Permitiendo llevar a cabo complejos análisis en pocos segundos, creando además de forma automática código Python con el que repetir las operaciones en cualquier conjunto de datos similar. Lo que permite crear análisis de datos en Python al estilo de … [Leer más...] acerca de Análisis de datos en Python al estilo Excel con Mito