En ciertas ocasiones, tras la importación de un conjunto de datos, puede ser que uno de los registros de un dataframe contenga listas de valores en lugar de un único valor. Generalmente, para poder trabajar con estos valores es necesario convertir las listas en series. Esta transformación es una tarea trivial cuando solamente se ha de realizar para un único registro. En el caso de trabajar con un datafreame para la expansión de listas de valores es necesario emplear el método apply de los objetos de pandas.
Inicialmente se ha de crear un conjunto de datos para procesar. Por ejemplo, se puede crear un dataframe con tres registros con diferentes listas empleado las siguientes líneas de código:
import pandas as pd
data = {'values': [['Shpola', 'Cocobeach', 'Haixing', 'Biaoshan'],
['Comedy', 'Action', 'Drama', 'War'],
['Oil', 'Juice', 'Apple', 'Potatoes']]}
df = pd.DataFrame(data) Se puede apreciar que en cada uno de los registros del dataframe existe un vector con una lista de elementos. Esto hace que sea difícil trabajar con estos datos.
La expansión de una lista de valores en una serie se puede conseguir con el método pd.Series. Para aplicar este método a todos los registros de un dataframe se puede utilizar el método apply de los objetos de pandas. La expansión del dataframe anterior se puede conseguir con el siguiente código:
tags = df['values'].apply(pd.Series)
Ahora es necesario renombrar las columnas del nuevo dataframe con un nombre que sea significativo. Esto se puede conseguir con la siguiente línea de código:
features = features.rename(columns = lambda x : 'feature_' + str(x))
Los resultados obtenidos se pueden concatenar con los valores anteriores. Para esto solamente se ha de emplear el método concat tal como se muestra a continuación.
pd.concat([df[:], features[:]], axis=1)
Obteniéndose como resultado la siguiente figura.
En esta entrada se ha visto la forma de utilizar el método apply en pandas para realizar una operación sobre todos los registros de un dataframe. En esta ocasión se ha visto como expandir una lista de valores.
Imágenes: Pixabay
Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…
En la primera entrega vimos cómo se puede medir la economía mirando lo que la…
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…
La economía es una de las pocas disciplinas donde puedes proponer que el largo de…
Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…
En un mundo donde los datos se han convertido en el lenguaje dominante de la…
This website uses cookies.