Python

Automatización del procesado de datos en Scikit-learn con Pipeline

En aprendizaje automático la creación de un modelo es un proceso complejo que requiere llevar a cabo múltiples pasos. Siendo la preparación de los datos uno de los que más tiempo requiere. Tras la obtención de un conjunto de datos es necesario aplicarle a este diferentes operaciones antes de poder utilizar un estimador. A modo de ejemplo algunas de las operaciones más habituales son: limpieza de datos, extracción de las características, normalización de las características y reducción de la dimensionalidad. Por lo que su automatización permitiría aumentar considerablemente la productividad. En Scikit-learn, la automatización del procesado de datos se puede conseguir mediante el uso de tuberías (pipelines). Las cuales se construyen con la clase Pipeline. Permitiendo crear flujos de trabajos en los que se pueden aplicar transformaciones y un estimador a un conjunto de datos.

Las tuberías se pueden utilizar posteriormente como si fuesen un estimador más. Lo que permite emplearlas en clases como GridSearchCV para seleccionar los parámetros e hiperparametros de los modelos mediante validación cruzada.

Pipeline para automatizar las transformaciones en los conjuntos de datos

Para ver cómo utilizar la clase Pipeline se va a utilizar el conjunto de datos del precio de la vivienda de Boston. El cual se encuentra dentro de los ejemplos de Scikit-learn. Este es un problema de regresión, predecir el precio de la vivienda, que se puede solucionar con un estimador Lasso.

Antes de aplicar el estimador se puede normalizar las características, por ejemplo, con StandardScaler, y reducir la dimensionalidad. Por lo tanto, es necesario realizar tres pasos que se pueden agrupar en una tubería como se muestra a continuación.

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Lasso

boston = load_boston()

X = boston.data
y = boston.target

pipe = Pipeline([('scale', StandardScaler()),
                 ('pca', PCA(n_components=2)),
                 ('model', Lasso(alpha=0.1))])

pipe.fit(X, y)

En este código, tras la importación de las librerías y del conjunto de datos, se crea un objeto Pipeline. Al objeto se le inyecta un vector de tuplas. Cada una de las tuplas contiene dos elementos, una cadena con el nombre y el objeto con la transformación. Finalmente, el objeto pipe se utiliza como un estimador para obtener un modelo. El cual es el resultado de aplicar las transformaciones y el estimado en el orden indicado al conjunto de datos.

Automatización del procesado de datos en validación cruzada

En una entrada anterior se mostró como utiliza la clase GridSearchCV para seleccionar los hiperparametros de los modelos. Ahora se puede utilizar la tubería para seleccionar también las opciones en el procesado de datos previo. Esto es lo que se muestra en el siguiente ejemplo.

from sklearn.model_selection import GridSearchCV

components=[1, 2, 3, 4, 5, 6]
alpha=[1, 0.5, 0.2, 0.1, 0.05, 0.02, 0.01]

grid = GridSearchCV(estimator = pipe,
                    param_grid = dict(pca__n_components=components,
                                      model__alpha=alpha),
                    cv = 3)

grid.fit(X, y)

Comparando este con los ejemplos de la entrada sobre GridSearchCV se puede ver que se ha utilizado la tubería como estimador. Reemplazando al objeto del estimador. Además, para indicar los parámetros se utiliza el nombre del objeto, dos guiones bajos y el nombre de la propiedad. Probando en esta ocasión diferentes valores para el número de componentes y el parámetro alpha.

El objeto grid se utiliza como un estimador para obtener el modelo. Una vez entrenado se pueden consultar los mejore parámetros en la propiedad best_params_.

grid.best_params_
{'model__alpha': 0.2, 'pca__n_components': 6}

Conclusiones

En esta entrada se ha visto cómo conseguir la automatización del procesado de datos en Scikit-learn con Pipeline. Aumentado así la productividad. En lugar de aplicar todos los procesos uno detrás de otro, se definen la tubería y se ejecutan en un único paso. Además, al combinarlo con GridSearchCV es posible optimizar no solo los hiperparametros del modelo, sino que de las transformaciones.

Imágenes: Pixabay (Robson Machado)

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Scikit-Learn

Recent Posts

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

2 días ago

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

5 días ago

Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas

Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…

2 semanas ago

Ley de Benford: cómo detectar datos manipulados con ejemplos reales

En un mundo donde los datos se han convertido en el lenguaje dominante de la…

2 semanas ago

This website uses cookies.