Solucionar el problema: Recall is ill-defined and being set to 0.0 in labels

Al trabajar con modelos de clasificación multiclase es posible que al intentar medir la exhaustividad (recal) en Scikit-learn nos aparezca un mensaje de advertencia del estilo: Recall is ill-defined and being set to 0.0 in labels with no true samples. Este es un problema que aparece porque entre los valores predichos existe una clase que no se observa en el conjunto de valores reales. Algo que se puede deber a diferentes motivos, un falso positivo en una clase minoritaria que no se encuentra en los datos reales o el modelo asigna los registros sin clasificar a una nueva clase, como sucede por ejemplo con el clasificador RadiusNeighborsClassifier, la cual no puede existir en los datos reales. Veamos a continuación el motivo por el que se genera el mensaje y cómo evitarlo.

Generar el mensaje: Recall is ill-defined and being set to 0.0 in labels

Al utilizar la función recall_score() de Scikit-learn es posible que se genere un mensaje como “Recall is ill-defined and being set to 0.0 in labels”. Lo que aparece cuando en el segundo parámetro, los valores predichos, existe una clase que no se observa en los datos originales. Por ejemplo, si en los datos hay dos clases y en las predicciones tres el mensaje aparecerá. Esto es lo que sucede en el siguiente código.

import numpy as np
from sklearn.metrics import recall_score

y_true = [1, 2, 1, 2]
y_pred = [1, 2, 3, 2]

# Produce warning
recall_score(y_true, y_pred, average='weighted')

Solucionar el problema con el mensaje

Una vez que se conoce el motivo por el que se produce el mensaje de advertencia se puede ver como solucionarlo. Para esto hay que indicar a la función cuales son las clases que puede esperar que aparezcan en los datos. Algo que se puede hacer mediante el uso del parámetro labels. Una forma rápida de solucionar el problema es obteniendo los valores únicos del vector de predicciones mediante la función np.unique() y asignar esto al parámetro. Algo como lo que se muestra en el siguiente código.

# No produce warning
recall_score(y_true, y_pred, average='weighted', labels=np.unique(y_pred))

Ahora se puede comprobar que con este pequeño truco ya no aparece el mensaje de error.

Conclusiones

En esta ocasión se ha visto cómo solucionar un problema que puede ser molesto con la función recall_score() de Scikit-learn. Al trabajar con modelos de clasificación multiclase es probable que en las predicciones aparezca una clase que no se encuentre en la muestra usada, lo que provoca el error indicado.

Imagen de bp cradd ock en Pixabay

Daniel Rodríguez

Next Semana sin publicaciones »

Previous « Borrar las carpetas .ipynb_checkpoints en Windows

Published by

Daniel Rodríguez

Tags: Machine learningScikit-LearnWarning Messages

4 años ago

El Binning en Credit Scoring: El Arte de Discretizar Variables
Si el WOE y el IV son la base matemática del credit scoring, el binning…
Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas
Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…

Las fórmulas con DNI, o cómo dividir cualquier cosa entre cualquier otra cosa puede acabar publicado en un titular serio – El bestiario de los indicadores económicos absurdos (parte 5)

En las cuatro entregas anteriores recorrimos los disparates más folclóricos del género: faldas que predicen…

2 días ago

Noticias

Analytics Lane lanza ScoreFlow, un SaaS para construir y desplegar scorecards de crédito

En Analytics Lane seguimos evolucionando nuestras herramientas y damos un paso más con el lanzamiento…

3 días ago

Ciencia de datos

DBSCAN y la selección de ε: teoría, intuición y aplicación práctica

Cuando hablamos de clustering, lo primero que viene a la mente suele ser k-means. Pero…

4 días ago

Opinión

El bestiario de los indicadores económicos absurdos: El zoo patrio

Cualquier país desarrollado tiene sus propios indicadores folclóricos. España, por motivos que tienen mucho que…

1 semana ago

Sin categoría

Por qué el banco te ofrece un 3% TAE y no es lo que parece

Entras a la web de tu banco. En la página principal, un banner llamativo: “Depósito…

2 semanas ago

Noticias

Analytics Lane lanza la versión 1.3 del laboratorio con nuevas herramientas de evaluación de modelos y utilidades prácticas

Seguimos ampliando el laboratorio de Analytics Lane con el lanzamiento de la versión 1.3, disponible…