Seguimos con el especial de verano en el canal de YouTube de Analytics Lane, donde convertimos en video algunas de las entradas más leídas del blog.Hoy le toca el turno a una que seguramente te ha salvado más de una vez (¡o te ha metido en problemas!): Pandas: Cómo iterar sobre las filas de un DataFrame en PandasAunque parece una tarea sencilla, iterar sobre filas puede … [Leer más...] acerca de ¡Nuevo video! Iterar filas en Pandas sin romperte la cabeza
Pandas
Pandas es una librería para Python la cual extiende las funcionalidades que ofrece NumPy para el tratamiento y análisis de conjuntos de datos. Poniendo a disposición de los usuarios dos nuevas estructuras de datos (Series
y DataFrame
) que facilitan la manipulación de series temporales y tablas.
La estructura de datos básica de Pandas es el objeto Series
. Un vector etiquetado capaz de contener cualquier tipo de dato (enteros, reales, cadenas de texto, fechas, objetos de Python, …) con etiquetas que se denominan índices.
La otra estructura de datos, el DataFrame
, es una colección ordenada de columnas con nombres y tipos, similar a las tablas de las bases de datos, donde las filas son un registro y las columnas son los atributos. Siendo cada una de las columnas de este tipo de datos un objeto Series
.
¡Nuevo video! 5 formas prácticas de obtener valores únicos en Pandas
Una de las entradas más visitadas del blog desde hace años es la dedicada a cómo obtener valores únicos de una columna con Pandas. Es un truco simple, pero fundamental, que usamos constantemente al explorar o limpiar datos.Por eso, he querido arrancar con este tema la nueva serie especial de verano en el canal de YouTube. En un video breve, de unos 12 minutos, explico cinco … [Leer más...] acerca de ¡Nuevo video! 5 formas prácticas de obtener valores únicos en Pandas
Cómo exportar un DataFrame de Pandas a Markdown en Python
La biblioteca Pandas se ha consolidado como una herramienta fundamental en Python para el tratamiento y análisis de datos tabulares. Por ello, es muy común trabajar con objetos DataFrame cuando se manipulan datos que luego se desean compartir, ya sea en informes, documentación técnica o publicaciones web. Una de las formas más fáciles de compartir la información es exportando … [Leer más...] acerca de Cómo exportar un DataFrame de Pandas a Markdown en Python
¿Cómo puedo encontrar el índice de un elemento dado en una lista en Python?
Encontrar el índice de un elemento en una lista es una de las operaciones más comunes cuando trabajamos con estructuras de datos en Python. Aunque puede parecer algo trivial, detrás de esta tarea se esconden múltiples detalles que pueden ser fundamentales para escribir código eficiente, claro y robusto.En esta entrada, te explicaremos en detalle cómo puedes encontrar el … [Leer más...] acerca de ¿Cómo puedo encontrar el índice de un elemento dado en una lista en Python?
Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos
El análisis de datos con Pandas es una tarea diaria para muchos usuarios, pero al trabajar con grandes conjuntos de datos, el consumo de memoria puede convertirse en un problema crítico. Esto sucede porque, de forma predeterminada, Pandas asigna tipos de datos generales, como float64 o int64, que pueden ocupar mucha más memoria de la estrictamente necesaria. Por … [Leer más...] acerca de Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos
Optimización con Chunks en archivos grandes: Uso de pd.read_csv() con el Parámetro chunksize
Trabajar con grandes volúmenes de datos en Python puede ser un desafío, especialmente al manejar archivos extensos. Intentar cargar archivos CSV con cientos de miles de filas directamente en memoria puede generar errores por falta de memoria o ralentizar significativamente el proceso, particularmente en entornos con recursos limitados. Situación en la que se puede recurrir … [Leer más...] acerca de Optimización con Chunks en archivos grandes: Uso de pd.read_csv() con el Parámetro chunksize
Uso de índices jerárquicos en Pandas: Domina df.set_index() y df.unstack()
Manejar datos tabulares de forma eficiente es una habilidad esencial en la mayoría de los análisis de datos. Sin embargo, las estructuras tradicionales con filas y columnas simples a menudo no son suficientes para capturar algunas relaciones complejas presentes en muchos conjuntos de datos. En estos casos, los índices jerárquicos en Pandas, también conocidos como índices … [Leer más...] acerca de Uso de índices jerárquicos en Pandas: Domina df.set_index() y df.unstack()
Cómo buscar y reemplazar texto con expresiones regulares en pandas
El análisis y limpieza de datos son tareas clave para el éxito en cualquier proyecto de análisis de datos. En el caso de que algunos de los datos a analizar sean de tipo texto, las expresiones regulares se vuelven una herramienta imprescindible para poder manipular estos de forma precisa y eficiente. Tarea que se puede realizar directamente en Pandas. En Python, la biblioteca … [Leer más...] acerca de Cómo buscar y reemplazar texto con expresiones regulares en pandas
Cómo dar formato a datos en Pandas
Pandas es posiblemente la biblioteca de Python más utilizada para la manipulación y el análisis de datos. Una parte crucial del análisis de datos es la presentación de los resultados. Lo que se debe hacer de forma clara y comprensible para que los destinatarios del análisis puedan comprender las conclusiones de estos de una forma rápida e intuitiva. En esta entrada, se … [Leer más...] acerca de Cómo dar formato a datos en Pandas
Exploración de datos con Pandas: Entendiendo df.describe()
Pandas es la biblioteca de referencia en Python para el análisis y manipulación de datos. Usando para ello los objetos DataFrame. Una de los métodos más útiles que se incluyen en los DataFrame es df.describe(), con el que se puede obtener de una forma rápida un resumen comprensible de los datos. En esta entrada, se analizará cómo usar esta función para obtener diferentes … [Leer más...] acerca de Exploración de datos con Pandas: Entendiendo df.describe()
Cómo usar SQLite3 con Pandas
SQLite es una base de datos ligera y fácil de usar que no requiere la configuración de un servidor para su funcionamiento. En lugar de ello, almacena las bases de datos en archivos individuales, lo que la convierte en una herramienta extremadamente flexible y portátil. Lo que la convierte en una solución ideal para aplicaciones pequeñas, desarrollo y pruebas. La integración con … [Leer más...] acerca de Cómo usar SQLite3 con Pandas
Visualización de datos con Pyjanitor y Matplotlib o Seaborn: Potenciando el análisis visual
La visualización de datos es una parte clave del análisis de datos y comunicación de los resultados. Facilitando la comprensión de patrones, identificación de tendencias y comunicación de hallazgos de una manera más sencilla y efectiva que solamente estadísticas. En esta cuarta y última entrega la serie dedicada a Pyjanitor se explicará cómo se puede combinar con bibliotecas … [Leer más...] acerca de Visualización de datos con Pyjanitor y Matplotlib o Seaborn: Potenciando el análisis visual