A la hora de analizar conjuntos de datos es habitual encontrarse con series temporales. En estas ocasiones suele ser interesante poder obtener de una forma rápida información estadística de los registros, como puede el número de ocurrencias por mes. En Python se encuentran disponibles diferentes herramientas para poder realizar la agrupación por fecha en pandas. Conocer el … [Leer más...] acerca de Agrupación de datos por fecha en pandas
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
Eliminar filas o columnas con valores nulos en Python
La existencia de valores nulos en cualquier conjunto de datos supone un problema a la hora de realizar cualquier análisis. Saber cómo eliminar estos valores de manera fácil es clave de cara a automatizar los procesos de análisis. En esta entrada se va a explicar la forma de eliminar las filas o columnas que contenga valores nulos en Python. En primer lugar, se explicará la … [Leer más...] acerca de Eliminar filas o columnas con valores nulos en Python
Eliminar registros duplicados en pandas
Un problema habitual en los conjuntos de datos es la existencia de registros duplicados. La duplicidad puede ser del registro completo o solamente de unos elementos. Por ejemplo, se ha registrado dos veces la misma operación con diferente identificador. Saber cómo eliminar estos registros duplicados es imprescindible para evitar posibles errores en los análisis posteriores. En … [Leer más...] acerca de Eliminar registros duplicados en pandas
Guardar y leer archivos CSV con Python
Uno de los formatos más utilizados en la actualidad para intercambio de datos es CSV ("Comma Separated Values"). Estas son básicamente archivos de texto en los que cada línea contiene una fila de datos con múltiples registros delimitados por un separador. Tradicionalmente el separador suele ser la coma, de ahí el nombre del formato. Aunque también se pueden utilizan otros … [Leer más...] acerca de Guardar y leer archivos CSV con Python