Automatización del procesado de datos en Scikit-learn con Pipeline

En aprendizaje automático la creación de un modelo es un proceso complejo que requiere llevar a cabo múltiples pasos. Siendo la preparación de los datos uno de los que más tiempo requiere. Tras la obtención de un conjunto de datos es necesario aplicarle a este diferentes operaciones antes de poder utilizar un estimador. A modo de ejemplo algunas de las operaciones más habituales son: limpieza de datos, extracción de las características, normalización de las características y reducción de la dimensionalidad. Por lo que su automatización permitiría aumentar considerablemente la productividad. En Scikit-learn, la automatización del procesado de datos se puede conseguir mediante el uso de tuberías (pipelines). Las cuales se construyen con la clase Pipeline. Permitiendo crear flujos de trabajos en los que se pueden aplicar transformaciones y un estimador a un conjunto de datos.

Las tuberías se pueden utilizar posteriormente como si fuesen un estimador más. Lo que permite emplearlas en clases como GridSearchCV para seleccionar los parámetros e hiperparametros de los modelos mediante validación cruzada.

Pipeline para automatizar las transformaciones en los conjuntos de datos

Para ver cómo utilizar la clase Pipeline se va a utilizar el conjunto de datos del precio de la vivienda de Boston. El cual se encuentra dentro de los ejemplos de Scikit-learn. Este es un problema de regresión, predecir el precio de la vivienda, que se puede solucionar con un estimador Lasso.

Antes de aplicar el estimador se puede normalizar las características, por ejemplo, con StandardScaler, y reducir la dimensionalidad. Por lo tanto, es necesario realizar tres pasos que se pueden agrupar en una tubería como se muestra a continuación.

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Lasso

boston = load_boston()

X = boston.data
y = boston.target

pipe = Pipeline([('scale', StandardScaler()),
                 ('pca', PCA(n_components=2)),
                 ('model', Lasso(alpha=0.1))])

pipe.fit(X, y)

En este código, tras la importación de las librerías y del conjunto de datos, se crea un objeto Pipeline. Al objeto se le inyecta un vector de tuplas. Cada una de las tuplas contiene dos elementos, una cadena con el nombre y el objeto con la transformación. Finalmente, el objeto pipe se utiliza como un estimador para obtener un modelo. El cual es el resultado de aplicar las transformaciones y el estimado en el orden indicado al conjunto de datos.

Automatización del procesado de datos en validación cruzada

En una entrada anterior se mostró como utiliza la clase GridSearchCV para seleccionar los hiperparametros de los modelos. Ahora se puede utilizar la tubería para seleccionar también las opciones en el procesado de datos previo. Esto es lo que se muestra en el siguiente ejemplo.

from sklearn.model_selection import GridSearchCV

components=[1, 2, 3, 4, 5, 6]
alpha=[1, 0.5, 0.2, 0.1, 0.05, 0.02, 0.01]

grid = GridSearchCV(estimator = pipe,
                    param_grid = dict(pca__n_components=components,
                                      model__alpha=alpha),
                    cv = 3)

grid.fit(X, y)

Comparando este con los ejemplos de la entrada sobre GridSearchCV se puede ver que se ha utilizado la tubería como estimador. Reemplazando al objeto del estimador. Además, para indicar los parámetros se utiliza el nombre del objeto, dos guiones bajos y el nombre de la propiedad. Probando en esta ocasión diferentes valores para el número de componentes y el parámetro alpha.

El objeto grid se utiliza como un estimador para obtener el modelo. Una vez entrenado se pueden consultar los mejore parámetros en la propiedad best_params_.

grid.best_params_

{'model__alpha': 0.2, 'pca__n_components': 6}

Conclusiones

En esta entrada se ha visto cómo conseguir la automatización del procesado de datos en Scikit-learn con Pipeline. Aumentado así la productividad. En lugar de aplicar todos los procesos uno detrás de otro, se definen la tubería y se ejecutan en un único paso. Además, al combinarlo con GridSearchCV es posible optimizar no solo los hiperparametros del modelo, sino que de las transformaciones.

Imágenes: Pixabay (Robson Machado)

Automatización del procesado de datos en Scikit-learn con Pipeline

Pipeline para automatizar las transformaciones en los conjuntos de datos

Automatización del procesado de datos en validación cruzada

Conclusiones

Analytics Lane

Secciones

Sobre de Analytics Lane

Pipeline para automatizar las transformaciones en los conjuntos de datos

Automatización del procesado de datos en validación cruzada

Conclusiones

Publicaciones relacionadas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Footer

Analytics Lane

Secciones

Sobre de Analytics Lane