Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un resultado excelente por cualquier estándar de la industria. Lo validas en el conjunto de test y el Gini se mantiene en 0,62. Publicas el modelo, lo pones en producción y empiezas a usarlo para tomar decisiones de crédito.
Seis meses después el departamento de riesgo detecta un problema: las pérdidas reales del portfolio son sistemáticamente superiores a las proyectadas. El modelo predice que los clientes aprobados tendrán una tasa de default del 3,5% — pero la tasa real está siendo del 5,8%. Algo falla.
¿Qué ha pasado? El modelo discrimina bien — sigue separando a los buenos de los malos pagadores con un Gini de 0,62. Pero está mal calibrado — las probabilidades que predice no corresponden con las tasas de default que se observan en la realidad.
Este es el error más común y más costoso en la práctica del credit scoring: confundir discriminación con calibración, medir solo una de las dos y asumir que la otra está bien. En este artículo explicamos en detalle qué mide cada concepto, por qué son independientes, cómo detectar problemas de calibración y qué hacer cuando los encuentras.
Antes de entrar en detalle, quédate con esta idea:
Son dos preguntas distintas, y un modelo puede responder muy bien a una mientras falla estrepitosamente en la otra. Es justo lo que le ocurrió al modelo del ejemplo inicial: discriminaba perfectamente —seguía distinguiendo buenos de malos—, pero las probabilidades que asignaba no se correspondían con la realidad. Y cuando el negocio depende de esas probabilidades para fijar tipos, calcular provisiones o decidir el punto de corte, el coste de no distinguirlas es tan alto como evitable.
Todos los análisis que veremos a continuación puedes reproducirlos de forma interactiva en el constructor de scorecards del laboratorio de Analytics Lane, que incluye la curva de calibración y las métricas de Brier Score, ECE y MCE en el paso de validación.
Tabla de contenidos
La discriminación mide la capacidad del modelo de asignar scores más altos a los buenos pagadores que a los malos. Es una medida de ranking: no importa el valor absoluto de las probabilidades predichas, sino que el modelo coloque a los buenos pagadores por encima de los malos en la ordenación.
Las principales métricas que se utilizan para cuantificar el poder discriminante de un modelo son:
La discriminación responde a la pregunta: ¿está este cliente entre los mejores o los peores del portfolio? Pero no responde a: ¿cuál es la probabilidad exacta de que este cliente impague?
Un modelo que asigna a todos los clientes probabilidades entre 2% y 4% puede tener el mismo Gini que uno que asigna probabilidades entre 1% y 20% — siempre que el orden sea el mismo. Pero sus implicaciones para la gestión del riesgo son completamente distintas.
La calibración mide si las probabilidades predichas por el modelo corresponden con las tasas de default observadas en la realidad. Un modelo bien calibrado que predice una probabilidad de default del 5% para un grupo de clientes debería observar que aproximadamente el 5% de esos clientes efectivamente impagan.
Esta distinción es fundamental: la discriminación evalúa el orden de las predicciones, la calibración evalúa su magnitud absoluta.
La forma más directa de evaluar la calibración es la curva de calibración, también conocida como diagrama de fiabilidad (reliability diagram). Se construye así:
Si el modelo está perfectamente calibrado todos los puntos caerían sobre la diagonal — la línea donde predicho = observado.
En la práctica los puntos no caen sobre la diagonal y el patrón de desviación nos dice qué tipo de problema de calibración tiene el modelo:
Igual que para la discriminación existen métricas numéricas como el Gini y el KS, para la calibración existen métricas que cuantifican cuánto se aleja el modelo de la calibración perfecta.
El Brier Score es la métrica de calibración más antigua y más usada. Se define como la media del cuadrado de la diferencia entre la probabilidad predicha y el valor real del target (0 o 1): BS = \frac{1}{n} \sum_{i=1}^{n} (p_i - y_i)^2, donde p_i es la probabilidad predicha para la observación i e y_i es el valor real (1 si impagó, 0 si no).
El Brier Score tiene rango entre 0 (predicción perfecta) y 1 (peor predicción posible). Un modelo que siempre predice la tasa de eventos base obtiene un Brier Score de \bar{y} \times (1 - \bar{y}). Con una tasa de eventos del 10%, ese valor sería 0{,}10 \times 0{,}90 = 0{,}09.
El Brier Skill Score normaliza el Brier Score respecto al modelo naive: BSS = 1 - \frac{BS}{BS_{naive}} = 1 - \frac{BS}{\bar{y}(1-\bar{y})}. Un BSS de 0 indica que el modelo no mejora sobre predecir siempre la tasa base. Un BSS de 1 indica predicción perfecta. Un BSS negativo indica que el modelo es peor que predecir siempre la tasa base.
El ECE mide la diferencia media ponderada entre la probabilidad predicha y la tasa observada en cada grupo de la curva de calibración: ECE = \sum_{g=1}^{G} \frac{n_g}{n} \times |p_g - o_g|, donde n_g es el número de observaciones en el grupo g, n es el total, p_g es la probabilidad media predicha en el grupo y o_g es la tasa de default observada en el grupo.
La interpretación del ECE es directa: si ECE = 0,03 el modelo se equivoca en media 3 puntos porcentuales en sus predicciones de probabilidad. Es la métrica de calibración más intuitiva para comunicar a audiencias no técnicas.
Los umbrales típicos en credit scoring son:
El MCE es el peor caso — la máxima diferencia entre probabilidad predicha y tasa observada en cualquier grupo: MCE = \max_{g} |p_g - o_g|. El MCE es especialmente relevante en credit scoring porque identifica en qué rango de probabilidades el modelo falla más gravemente. Un MCE elevado en el decil de mayor riesgo indica que el modelo subestima sistemáticamente el riesgo de los peores clientes — exactamente el segmento donde el error es más caro.
Este es el punto más importante de la entrada y uno de los menos explicados en la bibliografía: un modelo puede tener cualquier combinación de discriminación y calibración. Las dos métricas miden cosas distintas y son matemáticamente independientes.
Para entenderlo considera estos cuatro casos extremos:
El caso ideal. El modelo ordena correctamente los clientes y además las probabilidades que predice son precisas. Se puede usar tanto para tomar decisiones de aprobación/rechazo como para estimar pérdidas esperadas.
El caso más frecuente en la práctica. El modelo ordena bien los clientes — los buenos pagadores tienen scores más altos que los malos — pero las probabilidades predichas están sistemáticamente desplazadas respecto a la realidad.
Un modelo en este caso sigue siendo útil para ranking — para decidir qué clientes son relativamente mejores o peores. Pero no se puede usar directamente para estimar pérdidas esperadas porque las probabilidades son incorrectas.
Ejemplo típico: un modelo entrenado con datos de una época de alta tasa de default (recesión) aplicado en un período de baja tasa de default (bonanza). El modelo discrimina bien pero sobreestima el riesgo de todos los clientes.
Menos frecuente pero posible. El modelo predice probabilidades razonablemente precisas en promedio, pero no consigue discriminar bien entre clientes individuales — todos reciben probabilidades similares y el ranking es poco informativo.
Un modelo así puede ser útil para estimaciones agregadas (cuántos defaults habrá en el portfolio total) pero no para decisiones individuales de crédito.
El peor caso. El modelo no sirve ni para ordenar clientes ni para estimar probabilidades. Hay que replantearlo desde cero.
Supón que tienes dos modelos aplicados al mismo conjunto de datos de 1000 clientes con 100 defaults (tasa de default 10%):
Modelo A
Modelo B
Ambos modelos tienen exactamente el mismo Gini. Pero el Modelo A falla en calibración y el Modelo B falla en la amplitud de sus predicciones. Para tomar decisiones de aprobación individual el Modelo A es preferible — discrimina mejor. Para estimar cuántos defaults habrá en un segmento específico el Modelo B es preferible — sus probabilidades son más precisas.
La elección entre uno y otro depende de para qué se va a usar el modelo.
La calibración es especialmente crítica en tres contextos:
La pérdida esperada de una cartera de crédito se calcula como: EL = \sum_{i=1}^{n} PD_i \times LGD_i \times EAD_i, donde PD_i es la probabilidad de default del cliente i, LGD_i es la pérdida dado el default y $EAD_i es la exposición en el momento del default.
Si el modelo está mal calibrado, las PD_i son incorrectas y la pérdida esperada total estará sesgada. Una sobreestimación del 50% en las PD llevaría a constituir provisiones excesivas — inmovilizando capital innecesariamente. Una subestimación del 50% llevaría a provisiones insuficientes — exponiendo a la entidad a pérdidas no previstas.
Algunas entidades fijan el tipo de interés de cada préstamo en función del riesgo del cliente — un cliente con mayor probabilidad de default paga un tipo más alto que compensa el mayor riesgo esperado. Si la calibración es mala los tipos asignados serán incorrectos y la rentabilidad ajustada por riesgo no será la esperada.
La discriminación es la métrica más relevante cuando el objetivo principal es tomar decisiones de aprobación/rechazo con un umbral fijo.
Si el banco aprueba a todos los clientes con score por encima de 600 y rechaza a los demás, lo que importa es que los buenos pagadores estén mayoritariamente por encima de 600 y los malos por debajo — es decir, que el modelo discrimine bien en ese umbral. Las probabilidades absolutas predichas son irrelevantes para esta decisión.
En este contexto el Gini y el KS son las métricas adecuadas. La calibración pasa a un segundo plano — siempre que el umbral de decisión esté correctamente fijado.
La calibración no es solo una propiedad del modelo en el momento de su construcción — puede degradarse con el tiempo a medida que la distribución de los clientes cambia. Detectar esta degradación a tiempo es una parte fundamental de la monitorización del modelo.
El Population Stability Index (PSI) calculado sobre las probabilidades predichas (no sobre las variables individuales) mide si la distribución de probabilidades ha cambiado entre el período de entrenamiento y el período actual. Un PSI alto en las probabilidades indica que el modelo está operando fuera de su rango de validez.
Comparar sistemáticamente las tasas de default predichas con las observadas, por decil de score y por período temporal. Si las diferencias superan un umbral definido (típicamente 20% de error relativo en cualquier decil) se activa una alerta de recalibración.
El test estadístico formal de calibración. Contrasta la hipótesis nula de que las tasas predichas y observadas son iguales en todos los grupos. Un p-valor bajo (< 0,05) indica evidencia de descalibración. Sin embargo este test tiene una sensibilidad que crece con el tamaño muestral — con datasets muy grandes puede rechazar la hipótesis nula aunque las diferencias sean económicamente insignificantes. Usarlo junto con las métricas descriptivas (ECE, MCE) da una visión más completa.
Cuando se detecta un problema de calibración existen técnicas para corregirlo sin necesidad de reconstruir el modelo desde cero — lo que sería costoso en tiempo y recursos.
La forma más sencilla. Si el modelo sobreestima o subestima uniformemente el riesgo (desplazamiento sistemático), basta con ajustar el intercepto de la regresión logística para que la tasa de default media predicha coincida con la tasa observada en el período actual. Es una corrección de un solo parámetro que puede hacerse rápidamente cuando se detecta un cambio en la tasa de eventos del portfolio.
Ajusta una regresión logística simple con los scores del modelo como única variable predictora y las etiquetas reales como target. Los coeficientes de esta regresión corrigen la calibración del modelo original. Es especialmente efectiva para corregir el patrón en S de sobreconfianza.
Ajusta una función monótona no paramétrica que mapea los scores originales a probabilidades calibradas. Es más flexible que la regresión de Platt — puede corregir patrones de descalibración no lineales. Pero requiere más datos para ajustarse correctamente y puede sobreajustar con muestras pequeñas.
La recalibración es apropiada cuando el modelo sigue discriminando bien (Gini estable) pero las probabilidades han perdido precisión — típicamente por un cambio en la tasa de eventos del portfolio. Si la discriminación también se ha degradado (Gini cae significativamente) la recalibración no es suficiente y hay que reconstruir el modelo con datos más recientes.
| Discriminación | Calibración | Diagnóstico | Acción recomendada |
|---|---|---|---|
| ✅ Alta | ✅ Buena | Modelo ideal | Monitorizar periódicamente |
| ✅ Alta | ❌ Mala | Ranking correcto, PD incorrectas | Recalibrar — no reconstruir |
| ❌ Baja | ✅ Buena | PD correctas en promedio, mal ranking | Revisar variables y binning |
| ❌ Baja | ❌ Mala | Modelo inutilizable | Reconstruir desde cero |
En el proceso formal de validación de modelos en entidades financieras ambas dimensiones deben evaluarse explícitamente:
Discriminación y calibración son dos dimensiones ortogonales de la calidad de un modelo de credit scoring. Miden cosas distintas, pueden fallar de forma independiente y tienen implicaciones distintas para el uso del modelo.
La discriminación responde a: ¿pone el modelo a los buenos pagadores por encima de los malos? La calibración responde a: ¿son las probabilidades que predice el modelo las correctas?
Un modelo con buena discriminación y mala calibración puede seguir siendo útil para tomar decisiones de aprobación/rechazo pero no para estimar pérdidas esperadas ni para fijar precios ajustados por riesgo. Un modelo con mala discriminación y buena calibración puede servir para estimaciones agregadas del portfolio pero no para decisiones individuales.
El error más común — y más costoso — en la práctica del credit scoring es validar solo la discriminación y asumir que la calibración está bien. La historia del modelo que “funciona perfectamente” según el Gini pero subestima sistemáticamente las pérdidas reales se repite en demasiadas entidades financieras.
Medir ambas dimensiones, entender su relación y actuar cuando alguna de ellas se degrada es lo que distingue una gestión rigurosa del riesgo de crédito de una que simplemente confía en un número.
El constructor de scorecards del laboratorio de Analytics Lane incluye el análisis de calibración completo en el paso de validación — curva de calibración, Brier Score, ECE y MCE — junto con las métricas de discriminación habituales, para que puedas evaluar ambas dimensiones de tu modelo de forma simultánea.
Nota: La imágenes de este artículo fueron generadas utilizando un modelo de inteligencia artificial.
En un mundo donde los datos se han convertido en el lenguaje dominante de la…
Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…
Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse…
En un entrada previa explicamos qué son el WOE y el IV y por qué…
Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
This website uses cookies.