Python

Automatización del procesado de datos en Scikit-learn con Pipeline

En aprendizaje automático la creación de un modelo es un proceso complejo que requiere llevar a cabo múltiples pasos. Siendo la preparación de los datos uno de los que más tiempo requiere. Tras la obtención de un conjunto de datos es necesario aplicarle a este diferentes operaciones antes de poder utilizar un estimador. A modo de ejemplo algunas de las operaciones más habituales son: limpieza de datos, extracción de las características, normalización de las características y reducción de la dimensionalidad. Por lo que su automatización permitiría aumentar considerablemente la productividad. En Scikit-learn, la automatización del procesado de datos se puede conseguir mediante el uso de tuberías (pipelines). Las cuales se construyen con la clase Pipeline. Permitiendo crear flujos de trabajos en los que se pueden aplicar transformaciones y un estimador a un conjunto de datos.

Las tuberías se pueden utilizar posteriormente como si fuesen un estimador más. Lo que permite emplearlas en clases como GridSearchCV para seleccionar los parámetros e hiperparametros de los modelos mediante validación cruzada.

Pipeline para automatizar las transformaciones en los conjuntos de datos

Para ver cómo utilizar la clase Pipeline se va a utilizar el conjunto de datos del precio de la vivienda de Boston. El cual se encuentra dentro de los ejemplos de Scikit-learn. Este es un problema de regresión, predecir el precio de la vivienda, que se puede solucionar con un estimador Lasso.

Antes de aplicar el estimador se puede normalizar las características, por ejemplo, con StandardScaler, y reducir la dimensionalidad. Por lo tanto, es necesario realizar tres pasos que se pueden agrupar en una tubería como se muestra a continuación.

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import Lasso

boston = load_boston()

X = boston.data
y = boston.target

pipe = Pipeline([('scale', StandardScaler()),
                 ('pca', PCA(n_components=2)),
                 ('model', Lasso(alpha=0.1))])

pipe.fit(X, y)

En este código, tras la importación de las librerías y del conjunto de datos, se crea un objeto Pipeline. Al objeto se le inyecta un vector de tuplas. Cada una de las tuplas contiene dos elementos, una cadena con el nombre y el objeto con la transformación. Finalmente, el objeto pipe se utiliza como un estimador para obtener un modelo. El cual es el resultado de aplicar las transformaciones y el estimado en el orden indicado al conjunto de datos.

Automatización del procesado de datos en validación cruzada

En una entrada anterior se mostró como utiliza la clase GridSearchCV para seleccionar los hiperparametros de los modelos. Ahora se puede utilizar la tubería para seleccionar también las opciones en el procesado de datos previo. Esto es lo que se muestra en el siguiente ejemplo.

from sklearn.model_selection import GridSearchCV

components=[1, 2, 3, 4, 5, 6]
alpha=[1, 0.5, 0.2, 0.1, 0.05, 0.02, 0.01]

grid = GridSearchCV(estimator = pipe,
                    param_grid = dict(pca__n_components=components,
                                      model__alpha=alpha),
                    cv = 3)

grid.fit(X, y)

Comparando este con los ejemplos de la entrada sobre GridSearchCV se puede ver que se ha utilizado la tubería como estimador. Reemplazando al objeto del estimador. Además, para indicar los parámetros se utiliza el nombre del objeto, dos guiones bajos y el nombre de la propiedad. Probando en esta ocasión diferentes valores para el número de componentes y el parámetro alpha.

El objeto grid se utiliza como un estimador para obtener el modelo. Una vez entrenado se pueden consultar los mejore parámetros en la propiedad best_params_.

grid.best_params_

{'model__alpha': 0.2, 'pca__n_components': 6}

Conclusiones

En esta entrada se ha visto cómo conseguir la automatización del procesado de datos en Scikit-learn con Pipeline. Aumentado así la productividad. En lugar de aplicar todos los procesos uno detrás de otro, se definen la tubería y se ejecutan en un único paso. Además, al combinarlo con GridSearchCV es posible optimizar no solo los hiperparametros del modelo, sino que de las transformaciones.

Imágenes: Pixabay (Robson Machado)

Daniel Rodríguez

Next Comparación entre la regresión logística y SVM (máquinas de vectores de soporte) »

Previous « Regresión lineal en JavaScript con ml.js

Published by

Daniel Rodríguez

Tags: Scikit-Learn

7 años ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

2 días ago

Opinión

La vanidad del paisaje, o por qué un becario sale a contar grúas a Manhattan – El bestiario de los indicadores económicos absurdos (parte 2)

En la primera entrega vimos cómo se puede medir la economía mirando lo que la…

3 días ago

Python

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

5 días ago

Opinión

La caverna del consumo, o cómo Greenspan miraba calzoncillos para hacer política monetaria – El bestiario de los indicadores económicos absurdos (parte 1)

La economía es una de las pocas disciplinas donde puedes proponer que el largo de…

1 semana ago

Ciencia de datos

Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas

Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…

2 semanas ago

Ciencia de datos

Ley de Benford: cómo detectar datos manipulados con ejemplos reales

En un mundo donde los datos se han convertido en el lenguaje dominante de la…