Al trabajar con datos en Python, es común encontrarse con la necesidad de convertir diferentes estructuras de datos en otros que sean más fáciles de manipular y analizar. Uno de estos problemas más comunes es el de convertir una lista de diccionarios en un DataFrame de Pandas. En esta entrada, se explicará cómo transformar una lista de diccionarios en un DataFrame de Pandas en … [Leer más...] acerca de Cómo convertir una lista de diccionarios en un DataFrame de Pandas en Python
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
Cómo seleccionar elementos entre dos fechas con Pandas
La manipulación de datos con fechas es una parte crucial del análisis de datos, por lo que es de extrañar que en Pandas existan herramientas para ello. Uno de los problemas que nos podemos encontrar a la hora de preparar los datos es cómo seleccionar elementos entre dos fechas. En esta entrada se mostrarán los pasos para conseguirlo, utilizando para ello un conjunto de datos de … [Leer más...] acerca de Cómo seleccionar elementos entre dos fechas con Pandas
Ejecutar consultas SQL en Pandas
La manipulación de datos es un aspecto clave dentro de la ciencia de datos. Aunque la biblioteca Pandas ofrece múltiples herramientas para procesar datos tabulares, puede que en algunos casos sea más adecuado el uso de lenguaje SQL para realizar análisis complejos. Ya que SQL es un lenguaje diseñado para la manipulación de bases de datos. Aquí es donde entra en juego la … [Leer más...] acerca de Ejecutar consultas SQL en Pandas
Optimizar el uso de memoria en Pandas con memory_usage
Al trabajar con grandes conjuntos de datos conocer el espacio ocupa en memoria cada una de las características es clave. Especialmente cuando es necesario eliminar características para reducir el tamaño ocupado. La forma para obtener esta información en los DataFrame de Python es mediante el método memory_usage(), el cual permite evaluar y optimizar el uso de memoria en Pandas. … [Leer más...] acerca de Optimizar el uso de memoria en Pandas con memory_usage
Diferencia entre at y loc en Pandas
En Pandas existen dos opciones para seleccionar los elementos de un DataFrame: at y loc. Aparentemente las dos alternativas hacen lo mismo, pero no es así. Existe una sutil diferencia entre at y loc en Pandas que se debe tener en cuenta a la hora de elegir una u otra opción.La diferencia entre at y loc en PandasLa sutil diferencia que existe entre los dos métodos es la … [Leer más...] acerca de Diferencia entre at y loc en Pandas
Comparar cadenas con espacios en Pandas
Los DataFrame de Pandas son una excelente herramienta para procesar los conjuntos de datos. Con ellos es posible seleccionar los registros en base a los valores de las diferentes columnas o eliminar aquellos que no cumplan una condición. Algo que se puede hacer con valores numéricos, fechas y cadenas de texto. Pero ¿qué pasa cuando los registros de texto no son iguales? Por … [Leer más...] acerca de Comparar cadenas con espacios en Pandas
Segmentar datos numéricos en Pandas con la función cut()
Al trabajar con datos numéricos, para facilitar su análisis e interpretación, puede ser necesario agrupar estos en intervalos de valores discretos. Lo que permite convertir datos numéricos en categorías o clases. La función cut permite segmentar datos numéricos en Pandas de una manera sencilla.Descripción de la función cut() de PandasLa función cut() de Pandas permite … [Leer más...] acerca de Segmentar datos numéricos en Pandas con la función cut()
Acelera el código mediante vectorización en Python: elimina los bucles para aumentar el rendimiento hasta 1800 veces
La primera opción que suele venir a la cabeza cuando se necesita realizar una misma operación sobre diferentes valores es mediante el uso de un bucle. Lo que en Python se puede hacer mediante el uso de for o while. Esta es una forma natural de operar, primero se ejecuta la instrucción sobre el primer elemento, después sobre el segundo y así hasta que se termina. Si se conoce el … [Leer más...] acerca de Acelera el código mediante vectorización en Python: elimina los bucles para aumentar el rendimiento hasta 1800 veces
Ordenar valores en Pandas
En los DataFrames de Pandas se pueden ordenar los registros en base a los valores es estos utilizando el método sort_values(). Este método permite ordenar en base a una o varias columnas, tanto de forma ascendente como descendente, e indicar cómo se deben tratar los valores nulos. Veamos cómo se puede usar este método para ordenar valores en Pandas, para ello primero se … [Leer más...] acerca de Ordenar valores en Pandas
Extender con métodos propios los DataFrame de Pandas
Los DataFrames de Pandas son una fantástica herramienta para analizar datos en Python. No solamente pueden almacenar datos en formato tabular, sino que también disponen de una amplia variedad de métodos para seleccionar, procesar y analizar los datos de una forma altamente eficiente. Sin embargo, en algunas ocasiones, puede ser que no exista un método que permita solucionar de … [Leer más...] acerca de Extender con métodos propios los DataFrame de Pandas
Como filtrar en base a listas o DataFrames en Pandas
La indexación booleana en Pandas permite seleccionar de forma sencilla los elementos de un DataFrame en base a que los valores de una o varias filas cumplan ciertas condiciones. Solamente se debe crear un vector booleano con el valor True en las filas que se desean seleccionar. Algo que es fácil cuando la condición se debe comparar con un único valor, solamente se debe escribir … [Leer más...] acerca de Como filtrar en base a listas o DataFrames en Pandas
Ordenar un DataFrame en base a dos o más columnas
Los DataFrames de Pandas cuentan con el método sort_values() para ordenar los registros de un conjunto de datos en base a sus valores. Siendo una herramienta que ofrece múltiples opciones. En su uso básico permite ordenar los datos en base a los valores de una columna, pero también es posible ordenar un DataFrame en base a dos o más columnas. Pudiendo llegar a combinar unas en … [Leer más...] acerca de Ordenar un DataFrame en base a dos o más columnas