Python

Convertir un diccionario en DataFrame en Python

Los diccionarios son unas estructuras de datos muy flexibles que relacionan una clave con un valor. En Python la clave puede ser cualquier tipo de dato inmutable y el valor puede ser cualquier tipo de dato. La principal diferencia entre los diccionarios y las listas o tuplas es el cómo se acceden a los valores. Mientras que en las listas o tuplas se accede mediante índices en los diccionarios se accede mediante la clave. En ciertas ocasiones puede que los datos se encuentren en un diccionario y sea necesario convertirlos en un DataFrame. En esta entrada se va a explicar como convertir un diccionario en DataFrame en Python con Pandas.

Convertir un diccionario básico en un DataFrame

El problema básico es convertir un diccionario en que el valor es un tipo de dato primitivo. Es decir, este no es una lista, tupla, conjunto o diccionario, sino que es un número o una cadena de caracteres. Por ejemplo, partiendo del siguiente conjunto de datos generado en Mockaroo.

clients = {
    "Waldon Astling": 1.83,
    "Catherine MacTerlagh": 0.15,
    "Gusty Wondraschek": 9.19,
    "Lois Vaan": 1.28,
    "Baird Eberts": 0.82,
    "Amalia Flieg": 2.88,
    "Leontine Wildbore": 9.44,
    "Rikki Chasteney": 7.01,
    "Augustine Papierz": 0.22,
    "Maynord Lawrance": 0.33
}

El diccionario se puede convertir en un DataFrame utilizando el siguiente código.

import pandas as pd

df = pd.DataFrame([[key, clients[key]] for key in clients.keys()], columns=['Name', 'Amount'])
df

En este únicamente se recorre el diccionario al mismo tiempo que se puebla el DataFrame. Al ejecutar el código se obtiene la siguiente tabla como resultado.

Resultado de convertir un diccionario en DataFrame

Convertir un diccionario cuyo valor es otro diccionario.

Ahora se puede aumentar la apuesta, el valor del diccionario es otro diccionario. Por ejemplo, convertir el siguiente diccionario.

clients = {
    "Waldon Astling": {
        "id": 1,
        "email": "wastling0@dailymail.co.uk",
        "gender": "Male",
        "ip_address": "188.125.74.119",
        "money": 1.83
    },
    "Catherine MacTerlagh": {
        "id": 2,
        "email": "cmacterlagh1@wired.com",
        "gender": "Female",
        "ip_address": "142.102.151.95",
        "money": 0.15
    },
    "Gusty Wondraschek": {
        "id": 3,
        "email": "gwondraschek2@posterous.com",
        "gender": "Female",
        "ip_address": "25.253.221.98",
        "money": 9.19
    },
    "Lois Vaan": {
        "id": 4,
        "email": "lvaan3@imdb.com",
        "gender": "Female",
        "ip_address": "1.196.39.50",
        "money": 1.28
    },
    "Baird Eberts": {
        "id": 5,
        "email": "beberts4@irs.gov",
        "gender": "Male",
        "ip_address": "88.230.140.148",
        "money": 0.82
    },
    "Amalia Flieg": {
        "id": 6,
        "email": "aflieg5@mapy.cz",
        "gender": "Female",
        "ip_address": "203.219.142.196",
        "money": 2.88
    },
    "Leontine Wildbore": {
        "id": 7,
        "email": "lwildbore6@nps.gov",
        "gender": "Female",
        "ip_address": "255.74.26.131",
        "money": 9.44
    },
    "Rikki Chasteney": {
        "id": 8,
        "email": "rchasteney7@diigo.com",
        "gender": "Female",
        "ip_address": "90.29.53.76",
        "money": 7.01
    },
    "Augustine Papierz": {
        "id": 9,
        "email": "apapierz8@people.com.cn",
        "gender": "Female",
        "ip_address": "43.165.166.247",
        "money": 0.22
    },
    "Maynord Lawrance": {
        "id": 10,
        "email": "mlawrance9@redcross.org",
        "gender": "Male",
        "ip_address": "174.230.82.205",
        "money": 0.33
    }
}

En este caso es necesario realizar el proceso en fases, en un primer lugar se ha de convertir las llaves y en segundo lugar convertir uno a uno los elementos del segundo diccionario. Esto se puede conseguir empleando el siguiente código.

df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])
df['id'] = [value['id'] for value in clients.values()]
df['email'] = [value['email'] for value in clients.values()]
df['gender'] = [value['gender'] for value in clients.values()]
df['ip_address'] = [value['ip_address'] for value in clients.values()]
df['money'] = [value['money'] for value in clients.values()]
df

A partir de lo que se obtiene la siguiente tabla como resultado.

Resultado de convertir un diccionario con un diccionario en los valores en un DataFrame

Validar la existencia del valor en el segundo diccionario

El código visto anteriormente presenta un problema cuando no existe una clave en el diccionario valor. En tal caso el código terminará en un error sin realizar la transformación. Para evitar este problema es necesario comprobar si cada una de las claves existe antes de añadirla al DataFrame. Una forma fácil de hacer el mediante el operador in, comprobando si la llave se encuentra en el listado. Este proceso es el que se muestra en las siguientes líneas de código.

df = pd.DataFrame([key for key in clients.keys()], columns=['Name'])
df['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()]
df['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()]
df['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()]
df['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()]
df['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()]
df

Conclusiones

En esta entrada se ha visto cómo transformar un diccionario en Python en un DataFrame. Este truco permite convertir una estructura de datos en otra para emplear la más adecuada en cada momento.

Imágenes: Pixabay (Steve Buissinne)

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Pandas

Recent Posts

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

2 días ago

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

4 días ago

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

1 semana ago

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

1 semana ago

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

2 semanas ago

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

2 semanas ago

This website uses cookies.