Python

Pandas: Cómo convertir listas en DataFrames

Posiblemente una de las operaciones más habituales con Pandas sea convertir listas en DataFrames. Lo que se puede hacer con el constructor DataFrame de la librería.

Creación de DataFrames desde una lista de listas o de tuplas

Posiblemente la forma más sencilla para crear un DataFrame a partir de una lista es cuando tenemos una lista de listas, o una lista de tuplas. Por ejemplo, una lista como la siguiente en la que cada elemento es un registro de datos.

users = [[1, 'Josy', 'Clarae', 'Female'],
        [2, 'Vaughn', 'Halegarth', 'Male'],
        [3, 'Neale', 'Georgievski', 'Male'],
        [4, 'Teirtza', 'Teirtza', 'Female']]

En este caso se puede utilizar el constructor DataFrame para crear sin más problemas la un objeto DataFrame.

import pandas as pd

df = pd.DataFrame(users)

   0        1            2       3
0  1     Josy       Clarae  Female
1  2   Vaughn    Halegarth    Male
2  3    Neale  Georgievski    Male
3  4  Teirtza      Teirtza  Female

El procedimiento es exactamente el mismo mismo si en lugar de tener cada uno de los elementos tenemos una tupla en lugar de una lista.

Creación de un DataFrame con columnas e índices

Los nombres de columnas y los índices de la sección anterior son valores numéricos. El constructor de DataFrames de Pandas dispone de dos propiedades opcionales con las es posible asignar estos valores. Las propiedades columns y index que asignan respectivamente los índices y las columnas. Así, siguiendo con el ejemplo anterior se puede crear un DataFrame con nombres para los índices y las columnas.

df = pd.DataFrame(users,
                  columns=['id','first_name', 'last_name', 'gender'],
                  index=['a','b','c','d'])

   id first_name    last_name  gender
a   1       Josy       Clarae  Female
b   2     Vaughn    Halegarth    Male
c   3      Neale  Georgievski    Male
d   4    Teirtza      Teirtza  Female

Como se muestra en el ejemplo los índices de las filas no tiene que ser necesariamente un valor numérico.

Omitir valores en la creación de DataFrame

¿Qué pasa si queremos omitir un valor de cada uno de los registros? Se podría crear el DataFrame y posteriormente eliminar la columna no deseada. Pero es un proceso tedioso. También se puede utilizar el método from_records de DataFrame para realizar esta operación en un único paso. Un método con el que los objetos se construyen exactamente igual, pero en el que existe la propiedad exclude con la que se puede indicar el identificador de las columnas o columnas que se desea omitir. Por ejemplo, si se desea omitir el id del DataFrame creado anteriormente.

df = pd.DataFrame.from_records(users,
                               columns=['id','first_name', 'last_name', 'gender'],
                               index=['a','b','c','d'],
                               exclude=['id'])

  first_name    last_name  gender
a       Josy       Clarae  Female
b     Vaughn    Halegarth    Male
c      Neale  Georgievski    Male
d    Teirtza      Teirtza  Female

Creación del DataFrame desde múltiples listas

También es bastante habitual que los valores que tenemos para crear el DataFrame se encuentren en listas diferentes. Es decir, una lista para cada una de las columnas. En este caso es necesario convertir estas en una lista de tuplas. Algo que se puede conseguir fácilmente mediante el uso de la función zip. Así, se puede crear un DataFrame solamente con:

first_name = ['Josy', 'Vaughn', 'Neale', 'Teirtza']
last_name = ['Clarae', 'Halegarth', 'Georgievski', 'Teirtza']
gender = ['Female', 'Male', 'Male', 'Female']

user_list = list(zip(first_name, last_name, gender))

df = pd.DataFrame(user_list)

         0            1       2
0     Josy       Clarae  Female
1   Vaughn    Halegarth    Male
2    Neale  Georgievski    Male
3  Teirtza      Teirtza  Female

Conclusiones

En esta entrada hemos visto diferentes métodos para convertir listas en DataFrames con Pandas. Una operación básica pero que es importante conocer bien para tener trabajar de forma eficiente con la librería Pandas.

Daniel Rodríguez

Next Truco Matlab: Calcular el número máximo de elementos en Matlab »

Previous « 400 publicaciones en Analytics Lane

Published by

Daniel Rodríguez

Tags: Pandas

6 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Segmentación RFM: cómo clasificar tu cartera de clientes antes de calcular el CLV

En un artículo anterior vimos la fórmula clásica del CLV junto a sus limitaciones. Una…

9 horas ago

Opinión

Los récords con asterisco, o la épica del titular sin contexto – El bestiario de los indicadores económicos absurdos (parte 8 y final)

Y llegamos al final de una serie que había programado para ser de tres entradas.…

5 días ago

Ciencia de datos

PSI: Cómo Saber Cuándo tu Modelo de Credit Scoring se ha Degradado

Un modelo de credit scoring no es un artefacto estático. Se construye en un momento…

1 semana ago

Opinión

Los indicadores que se autocumplen, o cuando medir es modificar – El bestiario de los indicadores económicos absurdos (parte 7)

En las seis entregas anteriores hemos paseado por casi todos los géneros del disparate económico:…

2 semanas ago

Ciencia de datos

Customer Lifetime Value: la fórmula clásica que todo analista debería dominar

El Customer Lifetime Value (CLV) es, probablemente, la métrica más importante que puede calcular una…

2 semanas ago

Noticias

Analytics Lane lanza la versión 1.4 del laboratorio con nuevas herramientas de conversión y modelos avanzados de CLV

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.4, que…

3 semanas ago

This website uses cookies.