Python

Diferencias entre fit(), predict() y fit_predict() en Scikit-learn

Scikit-learn (muchas veces reverenciada como sklearn) es posiblemente la librería de Aprendizaje Automático más popular actualmente en Python. Lo que se debe a la cantidad de modelos que implementa y su sencillez. En la mayoría de los objetos de esta librería se encuentran implementados los métodos fit(), predict() y fit_predict() usados para entrenar y realizar predicciones con los modelos.

Para que se utiliza fit(), predict() y fit_predict()

En las clases de Scikit-learn los métodos fit(), predict() y fit_predict() se emplean para lo siguiente:

  • fit(): Este método se utiliza para entrenar los modelos con los datos de entrenamiento. Es decir, se utiliza para obtener los parámetros del modelo con los que se minimiza el error de predicción en los datos de entrenamiento. Debido a que se emplea para entrenar el modelo fit() se suele usar sobre los datos de entrenamiento.
  • predict(): Este método se utiliza para realizar obtener las predicciones de un modelo sobre un conjunto de datos de entrada desconocidos. Es decir, una vez entrenado el modelo, se puede utilizar el método predict() saber los valores o etiquetas que asigna el modelo a una conjunto de datos. Dada la finalidad de este método, suele usarse con los datos de test o cualquier conjunto desconocido.
  • fit_predict(): Este método se utiliza para ajustar un modelo con los datos de entrenamiento y obtener las predicciones que realiza el modelo sobre estos. Básicamente combina en un único paso los métodos fit() y predict() sobre el conjunto de datos de entrenamiento. Es habitual emplear este método en los modelos de aprendizaje no supervisado donde no existe una valor o etiqueta objetivo y la finalidad del modelo suele ser agrupar los datos.

Resumiendo, fit() se utiliza para entrenar los modelos, predict() para obtener predicciones y fit_predict() cuando se desea entrenar y obtener una predicción para el modelo

Los métodos transform() y fit_transform() para transformers

En las clases transformer, las que transforma los datos en lugar de ajustarlas a un modelo como puede ser StandardScaler, no existen los métodos predict() ni fit_predict(), en su lugar existen transform() y fit_transform(). En estas clases se utilidad es:

  • transform(): Este método se utiliza para transformar los datos con un transformer ya entrenado. Al igual que los clasificadores los transformer se ajustan con un conjunto de datos de referencia mediante el método fit(). Por lo tanto, transform() es el equivalente de predict() en los transformers.
  • fit_transform(): Este método se utiliza para ajustar y obtener los valores transformados con un transformer. Su uso es bastante habitual dado que normalmente el entrenamiento de estos objetos se realiza para transformar los datos.

Conclusiones

En esta ocasión se han repasado las diferencias que existe entre los métodos fit(), predict() y fit_predict() de Scikit-learn. Tres métodos que son muy utilizados cuando se trabaja con esta librería. También se ha visto los métodos equivalentes que existen en los transformers.

Imagen de macroworlds en Pixabay

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez
Tags: Scikit-Learn

Recent Posts

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…

16 horas ago

Augurios deportivos y portadas malditas, o cuando The Economist predice mejor al revés – El bestiario de los indicadores económicos absurdos (parte 3)

Cerramos la serie internacional con la categoría más estrambótica de todas: indicadores que predicen el…

2 días ago

El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning…

4 días ago

Analytics Lane lanza la versión 1.2 del laboratorio con nuevas herramientas de ajuste de curvas y cálculo matricial

Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…

1 semana ago

Cómo comparar tendencias con gráficos de líneas en Matplotlib: guía práctica paso a paso

Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…

2 semanas ago

This website uses cookies.