En esta pequeña entrada vamos a ver cómo se pueden obtener el nombre de las columnas y filas en Pandas. Una tarea que parece trivial, pero es importante cuando se importan datos desde archivos externos.Creación de un DataFramePara obtener el nombre de las columnas y filas en un DataFrame Pandas es necesario disponer de una en memoria. En esta ocasión crearemos … [Leer más...] acerca dePandas: Obtener el nombre de las columnas y filas en Pandas
pandas
Pandas: Leer archivos CSV con diferentes delimitadores en Pandas.
La función read_csv() de Pandas permite importar archivos en formato CSV de una forma fácil. Por defecto, la función asume que el separador de los valores es la coma (,), pero este es un comportamiento que se puede cambiar. Incluso para usar más de un delimitado en el mismo archivo. En esta entrada vamos a ver cómo trabajar con archivos CSV con diferentes delimitadores en … [Leer más...] acerca dePandas: Leer archivos CSV con diferentes delimitadores en Pandas.
Pandas: Cómo crear un DataFrame vacío y agregar datos
El objeto DataFrame es uno de los elementos clave de la librería Pandas. En esta entrada vamos a ver las opciones que existen para crear un DataFrame vacío y agregar datos. Lo que nos enseñara además algunos de los métodos que existen para modificar el contenido de un DataFrame.Creación de un DataFrame vacíoUn DataFrame vacío se puede crear utilizando el constructor … [Leer más...] acerca dePandas: Cómo crear un DataFrame vacío y agregar datos
Pandas: Cómo convertir listas en DataFrames
Posiblemente una de las operaciones más habituales con Pandas sea convertir listas en DataFrames. Lo que se puede hacer con el constructor DataFrame de la librería.Creación de DataFrames desde una lista de listas o de tuplasPosiblemente la forma más sencilla para crear un DataFrame a partir de una lista es cuando tenemos una lista de listas, o una lista de tuplas. Por … [Leer más...] acerca dePandas: Cómo convertir listas en DataFrames
Redondear la hora en Python para agrupar datos
Un problema con el que nos podemos encontrar: tenemos un conjunto de datos que se captura con la hora y queremos calcular el total o la media cada 10 o 15 minutos. Por ejemplo, para crear un informe de las ventas de una tienda on-line. Este problema es fácil de resolver si sabemos redondear los datos de horas y crear tablas dinámicas. Para redondear la hora el Python se puede … [Leer más...] acerca deRedondear la hora en Python para agrupar datos
Separar texto en columnas con Pandas en Python
Cuando importamos un conjunto de datos para un análisis es habitual que los registros no estén como los necesitamos. Uno de estos casos es cuando en alguna de las columnas contiene más de un valor que necesitamos procesar por separados. Como puede ser el nombre completo o una lista de características. En esto casos se pueden utilizar el método .str.split que se puede encontrar … [Leer más...] acerca deSeparar texto en columnas con Pandas en Python
Mejorar el rendimiento de Pandas con swifter
A la hora de trabajar con datos en rendimiento es un factor clave. No es lo mismo procesar un conjunto de datos en un minuto que en un segundo. A pesar de que pandas ofrece un rendimiento razonable en la mayoría de las situaciones, no es así con conjunto de datos muy grandes. Por lo existe soluciones para mejorar su rendimiento como Modin o Cython que ya hemos visto en este … [Leer más...] acerca deMejorar el rendimiento de Pandas con swifter
Guardar diferentes hojas Excel con Python
En una entrada anterior explicamos el funcionamiento de las funciones de Pandas para guardar un DataFrame en un libro Excel. Unos métodos que son muy útiles. Aunque tal como se explicó en esa entrada solamente es posible guardar una única hoja. En la entrada de hoy vamos a explicar cómo guardar más de un DataFrame en diferentes hojas Excel con Python.Problemas con el método … [Leer más...] acerca deGuardar diferentes hojas Excel con Python
Truco Python: eliminar los valores duplicados de una lista en Python
Un problema con el que nos podemos encontrar de forma más es la identificación de valores únicos en una lista. Ya que la existencia de valores duplicados no es se interés para el análisis que se desea realizar. Por eso, saber como eliminar los valores duplicados en una lista es un truco que debemos tener en nuestro arsenal. Otro truco que también puede ser de interés es contar … [Leer más...] acerca deTruco Python: eliminar los valores duplicados de una lista en Python
Muestreo en Python
Al trabajar con datos puede que sea necesario realizar una muestra de un conjunto de datos. Esto puede ser porque la totalidad de los datos disponibles sea inmanejable o porque exista un desequilibrio en las clases de los datos. En estos es necesario recurrir al muestreo de los datos. Algunas de las técnicas más utilizadas de muestreo en Python se muestran a … [Leer más...] acerca deMuestreo en Python
Importar archivos XML en Python
XML (Extensible Mark up Language) es un lenguaje de marcado que codifica los datos en texto plano. Permitiendo así que estos puedan ser legibles tanto por parte de máquinas como por personas, de manera análoga a los JSON. Actualmente es un lenguaje que es usado por múltiples programas para almacenar y transmitir datos estructurados. A diferencia de los archivos JSON o Excel no … [Leer más...] acerca deImportar archivos XML en Python
Importar tablas desde webs con Pandas
En muchas páginas web es habitual encontrase con datos en formato de tablas. Datos que pueden ser de interés en nuestros estudios, por lo que disponer de una función que permita importarlos de forma fácil y sencilla es algo que nos puede ahorrar mucho tiempo. Por eso en Pandas existe el método read_html() con el que se pueden importar tablas desde webs.Tablas en páginas … [Leer más...] acerca deImportar tablas desde webs con Pandas
Cómo conseguir que Pandas itere más rápido, hasta 375 veces
A pesar de que Python se uno de los lenguajes más populares para el tratamiento de datos no es el más rápido. Tanto Julia como JavaScript puede llegar a ser órdenes de magnitud más rápido. Por eso, cualquier truco que nos permita reducir el tiempo de ejecución de nuestro código es de agradecer. En esta entrada vamos a comparar diferentes métodos de iteración en dataframe Pandas … [Leer más...] acerca deCómo conseguir que Pandas itere más rápido, hasta 375 veces
Formatos condicionales en Pandas
Una característica bastante desconocida de Pandas es la posibilidad de cambiar el formato de los DataFrame. Incluso de forma condicional. Lo que se puede hacer utilizando los diferentes métodos que se encuentran dentro de la propiedad style de los DataFrame. Siendo esta una opción que resulta interesante a la hora de la creación de informes ya hace innecesario salir de Python … [Leer más...] acerca deFormatos condicionales en Pandas