Los diccionarios son unas estructuras de datos muy flexibles que relacionan una clave con un valor. En Python la clave puede ser cualquier tipo de dato inmutable y el valor puede ser cualquier tipo de dato. La principal diferencia entre los diccionarios y las listas o tuplas es el cómo se acceden a los valores. Mientras que en las listas o tuplas se accede mediante índices en los diccionarios se accede mediante la clave. En ciertas ocasiones puede que los datos se encuentren en un diccionario y sea necesario convertirlos en un DataFrame. En esta entrada se va a explicar como convertir un diccionario en DataFrame en Python con Pandas.
El problema básico es convertir un diccionario en que el valor es un tipo de dato primitivo. Es decir, este no es una lista, tupla, conjunto o diccionario, sino que es un número o una cadena de caracteres. Por ejemplo, partiendo del siguiente conjunto de datos generado en Mockaroo.
clients = { "Waldon Astling": 1.83, "Catherine MacTerlagh": 0.15, "Gusty Wondraschek": 9.19, "Lois Vaan": 1.28, "Baird Eberts": 0.82, "Amalia Flieg": 2.88, "Leontine Wildbore": 9.44, "Rikki Chasteney": 7.01, "Augustine Papierz": 0.22, "Maynord Lawrance": 0.33 }
El diccionario se puede convertir en un DataFrame utilizando el siguiente código.
import pandas as pd df = pd.DataFrame([[key, clients[key]] for key in clients.keys()], columns=['Name', 'Amount']) df
En este únicamente se recorre el diccionario al mismo tiempo que se puebla el DataFrame. Al ejecutar el código se obtiene la siguiente tabla como resultado.
Ahora se puede aumentar la apuesta, el valor del diccionario es otro diccionario. Por ejemplo, convertir el siguiente diccionario.
clients = { "Waldon Astling": { "id": 1, "email": "wastling0@dailymail.co.uk", "gender": "Male", "ip_address": "188.125.74.119", "money": 1.83 }, "Catherine MacTerlagh": { "id": 2, "email": "cmacterlagh1@wired.com", "gender": "Female", "ip_address": "142.102.151.95", "money": 0.15 }, "Gusty Wondraschek": { "id": 3, "email": "gwondraschek2@posterous.com", "gender": "Female", "ip_address": "25.253.221.98", "money": 9.19 }, "Lois Vaan": { "id": 4, "email": "lvaan3@imdb.com", "gender": "Female", "ip_address": "1.196.39.50", "money": 1.28 }, "Baird Eberts": { "id": 5, "email": "beberts4@irs.gov", "gender": "Male", "ip_address": "88.230.140.148", "money": 0.82 }, "Amalia Flieg": { "id": 6, "email": "aflieg5@mapy.cz", "gender": "Female", "ip_address": "203.219.142.196", "money": 2.88 }, "Leontine Wildbore": { "id": 7, "email": "lwildbore6@nps.gov", "gender": "Female", "ip_address": "255.74.26.131", "money": 9.44 }, "Rikki Chasteney": { "id": 8, "email": "rchasteney7@diigo.com", "gender": "Female", "ip_address": "90.29.53.76", "money": 7.01 }, "Augustine Papierz": { "id": 9, "email": "apapierz8@people.com.cn", "gender": "Female", "ip_address": "43.165.166.247", "money": 0.22 }, "Maynord Lawrance": { "id": 10, "email": "mlawrance9@redcross.org", "gender": "Male", "ip_address": "174.230.82.205", "money": 0.33 } }
En este caso es necesario realizar el proceso en fases, en un primer lugar se ha de convertir las llaves y en segundo lugar convertir uno a uno los elementos del segundo diccionario. Esto se puede conseguir empleando el siguiente código.
df = pd.DataFrame([key for key in clients.keys()], columns=['Name']) df['id'] = [value['id'] for value in clients.values()] df['email'] = [value['email'] for value in clients.values()] df['gender'] = [value['gender'] for value in clients.values()] df['ip_address'] = [value['ip_address'] for value in clients.values()] df['money'] = [value['money'] for value in clients.values()] df
A partir de lo que se obtiene la siguiente tabla como resultado.
El código visto anteriormente presenta un problema cuando no existe una clave en el diccionario valor. En tal caso el código terminará en un error sin realizar la transformación. Para evitar este problema es necesario comprobar si cada una de las claves existe antes de añadirla al DataFrame. Una forma fácil de hacer el mediante el operador in
, comprobando si la llave se encuentra en el listado. Este proceso es el que se muestra en las siguientes líneas de código.
df = pd.DataFrame([key for key in clients.keys()], columns=['Name']) df['id'] = [value['id'] if 'id' in value.keys() else None for value in clients.values()] df['email'] = [value['email'] if 'email' in value.keys() else None for value in clients.values()] df['gender'] = [value['gender'] if 'gender' in value.keys() else None for value in clients.values()] df['ip_address'] = [value['ip_address'] if 'ip_address' in value.keys() else None for value in clients.values()] df['money'] = [value['money'] if 'money' in value.keys() else None for value in clients.values()] df
En esta entrada se ha visto cómo transformar un diccionario en Python en un DataFrame. Este truco permite convertir una estructura de datos en otra para emplear la más adecuada en cada momento.
Imágenes: Pixabay (Steve Buissinne)
Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de…
Hoy en día, cuando pensamos en ciencia de datos, lo primero que nos viene a…
Ampliar el espacio de almacenamiento en un sistema Linux es una tarea habitual y crítica…
¿Sabías que puedes copiar y pegar texto, archivos o imágenes entre tu sistema operativo principal…
Hoy publicamos un nuevo video en el canal de YouTube de Analytics Lane basado en…
En el canal de YouTube de Analytics Lane hemos publicado un nuevo video donde explicamos…
This website uses cookies.