Ciencia de datos

Calibración vs Discriminación en Credit Scoring: diferencias clave y cómo evaluarlas

Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un resultado excelente por cualquier estándar de la industria. Lo validas en el conjunto de test y el Gini se mantiene en 0,62. Publicas el modelo, lo pones en producción y empiezas a usarlo para tomar decisiones de crédito.

Seis meses después el departamento de riesgo detecta un problema: las pérdidas reales del portfolio son sistemáticamente superiores a las proyectadas. El modelo predice que los clientes aprobados tendrán una tasa de default del 3,5% — pero la tasa real está siendo del 5,8%. Algo falla.

¿Qué ha pasado? El modelo discrimina bien — sigue separando a los buenos de los malos pagadores con un Gini de 0,62. Pero está mal calibrado — las probabilidades que predice no corresponden con las tasas de default que se observan en la realidad.

Este es el error más común y más costoso en la práctica del credit scoring: confundir discriminación con calibración, medir solo una de las dos y asumir que la otra está bien. En este artículo explicamos en detalle qué mide cada concepto, por qué son independientes, cómo detectar problemas de calibración y qué hacer cuando los encuentras.

Antes de entrar en detalle, quédate con esta idea:

  • Discriminación → ordena a los clientes (¿quién paga mejor o peor?)
  • Calibración → estima probabilidades (¿cuánto riesgo tiene cada uno?)

Son dos preguntas distintas, y un modelo puede responder muy bien a una mientras falla estrepitosamente en la otra. Es justo lo que le ocurrió al modelo del ejemplo inicial: discriminaba perfectamente —seguía distinguiendo buenos de malos—, pero las probabilidades que asignaba no se correspondían con la realidad. Y cuando el negocio depende de esas probabilidades para fijar tipos, calcular provisiones o decidir el punto de corte, el coste de no distinguirlas es tan alto como evitable.

Todos los análisis que veremos a continuación puedes reproducirlos de forma interactiva en el constructor de scorecards del laboratorio de Analytics Lane, que incluye la curva de calibración y las métricas de Brier Score, ECE y MCE en el paso de validación.

Discriminación: la capacidad de ordenar correctamente

La discriminación mide la capacidad del modelo de asignar scores más altos a los buenos pagadores que a los malos. Es una medida de ranking: no importa el valor absoluto de las probabilidades predichas, sino que el modelo coloque a los buenos pagadores por encima de los malos en la ordenación.

Las métricas de discriminación

Las principales métricas que se utilizan para cuantificar el poder discriminante de un modelo son:

  • Gini (o coeficiente de Gini): El Gini es la métrica de discriminación más usada en credit scoring. Se calcula como: Gini = 2 \times AUC - 1, donde AUC es el área bajo la curva ROC. Un Gini de 0 indica que el modelo no discrimina mejor que el azar. Un Gini de 1 indica discriminación perfecta. En la práctica valores por encima de 0,40 se consideran aceptables en consumer credit, y por encima de 0,60 buenos.
  • KS (Kolmogorov-Smirnov): El KS mide la máxima separación entre la distribución acumulada de scores de buenos y malos pagadores. Geométricamente es la distancia vertical máxima entre las dos curvas cuando se representan en el mismo gráfico. Un KS de 0 indica superposición completa — sin discriminación. Un KS de 1 indica separación perfecta.
  • AUC-ROC: El área bajo la curva ROC tiene una interpretación intuitiva: es la probabilidad de que, tomando un buen pagador y un mal pagador al azar, el modelo asigne un score más alto al buen pagador. Un AUC de 0,5 equivale al azar. Un AUC de 1 equivale a discriminación perfecta.

Lo que la discriminación no mide

La discriminación responde a la pregunta: ¿está este cliente entre los mejores o los peores del portfolio? Pero no responde a: ¿cuál es la probabilidad exacta de que este cliente impague?

Un modelo que asigna a todos los clientes probabilidades entre 2% y 4% puede tener el mismo Gini que uno que asigna probabilidades entre 1% y 20% — siempre que el orden sea el mismo. Pero sus implicaciones para la gestión del riesgo son completamente distintas.

Calibración: la precisión de las probabilidades

La calibración mide si las probabilidades predichas por el modelo corresponden con las tasas de default observadas en la realidad. Un modelo bien calibrado que predice una probabilidad de default del 5% para un grupo de clientes debería observar que aproximadamente el 5% de esos clientes efectivamente impagan.

Esta distinción es fundamental: la discriminación evalúa el orden de las predicciones, la calibración evalúa su magnitud absoluta.

La curva de calibración

La forma más directa de evaluar la calibración es la curva de calibración, también conocida como diagrama de fiabilidad (reliability diagram). Se construye así:

  1. Se ordenan todas las observaciones por probabilidad de default predicha, de menor a mayor
  2. Se dividen en 10 grupos de igual tamaño (deciles)
  3. Para cada grupo se calcula la probabilidad media predicha y la tasa de default observada real
  4. Se representan los puntos (probabilidad predicha, tasa observada) en un gráfico

Si el modelo está perfectamente calibrado todos los puntos caerían sobre la diagonal — la línea donde predicho = observado.

Los patrones de descalibración

En la práctica los puntos no caen sobre la diagonal y el patrón de desviación nos dice qué tipo de problema de calibración tiene el modelo:

  • Desplazamiento sistemático hacia arriba: Todos los puntos están por encima de la diagonal. El modelo subestima sistemáticamente la probabilidad de default — predice menos riesgo del que hay. Causa típica: la tasa de default del portfolio en producción es mayor que la del conjunto de entrenamiento, por ejemplo porque han cambiado las condiciones económicas.
  • Desplazamiento sistemático hacia abajo: Todos los puntos están por debajo de la diagonal. El modelo sobreestima el riesgo. Causa típica: la tasa de eventos del conjunto de entrenamiento era mayor que la del portfolio actual, o el modelo fue entrenado en un período de recesión y se aplica en un período de bonanza.
  • Patrón en S (sobreconfianza): Los puntos para probabilidades bajas están por debajo de la diagonal y los de probabilidades altas por encima. El modelo es demasiado extremo en sus predicciones — asigna probabilidades demasiado bajas a los mejores clientes y demasiado altas a los peores. Es el patrón más común en modelos de regresión logística cuando el conjunto de entrenamiento tiene un ratio de eventos muy diferente al portfolio real.
  • Patrón en S invertida (infraconfianza): El patrón opuesto: el modelo comprime sus predicciones hacia el centro, sin diferencia suficiente entre los mejores y los peores clientes. Menos frecuente pero posible en modelos con regularización excesiva.
  • Descalibración en las colas: Solo los grupos extremos (el primer y el último decil) están mal calibrados. El centro de la distribución está bien calibrado pero el modelo falla en los perfiles más extremos — los clientes de muy bajo riesgo y los de muy alto riesgo.

Las métricas de calibración

Igual que para la discriminación existen métricas numéricas como el Gini y el KS, para la calibración existen métricas que cuantifican cuánto se aleja el modelo de la calibración perfecta.

Brier Score

El Brier Score es la métrica de calibración más antigua y más usada. Se define como la media del cuadrado de la diferencia entre la probabilidad predicha y el valor real del target (0 o 1): BS = \frac{1}{n} \sum_{i=1}^{n} (p_i - y_i)^2, donde p_i es la probabilidad predicha para la observación i e y_i es el valor real (1 si impagó, 0 si no).

El Brier Score tiene rango entre 0 (predicción perfecta) y 1 (peor predicción posible). Un modelo que siempre predice la tasa de eventos base obtiene un Brier Score de \bar{y} \times (1 - \bar{y}). Con una tasa de eventos del 10%, ese valor sería 0{,}10 \times 0{,}90 = 0{,}09.

El Brier Skill Score normaliza el Brier Score respecto al modelo naive: BSS = 1 - \frac{BS}{BS_{naive}} = 1 - \frac{BS}{\bar{y}(1-\bar{y})}. Un BSS de 0 indica que el modelo no mejora sobre predecir siempre la tasa base. Un BSS de 1 indica predicción perfecta. Un BSS negativo indica que el modelo es peor que predecir siempre la tasa base.

Expected Calibration Error (ECE)

El ECE mide la diferencia media ponderada entre la probabilidad predicha y la tasa observada en cada grupo de la curva de calibración: ECE = \sum_{g=1}^{G} \frac{n_g}{n} \times |p_g - o_g|, donde n_g es el número de observaciones en el grupo g, n es el total, p_g es la probabilidad media predicha en el grupo y o_g es la tasa de default observada en el grupo.

La interpretación del ECE es directa: si ECE = 0,03 el modelo se equivoca en media 3 puntos porcentuales en sus predicciones de probabilidad. Es la métrica de calibración más intuitiva para comunicar a audiencias no técnicas.

Los umbrales típicos en credit scoring son:

  • ECE < 0,02 → calibración buena
  • ECE 0,02 – 0,05 → calibración aceptable
  • ECE > 0,05 → calibración problemática

Maximum Calibration Error (MCE)

El MCE es el peor caso — la máxima diferencia entre probabilidad predicha y tasa observada en cualquier grupo: MCE = \max_{g} |p_g - o_g|. El MCE es especialmente relevante en credit scoring porque identifica en qué rango de probabilidades el modelo falla más gravemente. Un MCE elevado en el decil de mayor riesgo indica que el modelo subestima sistemáticamente el riesgo de los peores clientes — exactamente el segmento donde el error es más caro.

Por qué discriminación y calibración son independientes

Este es el punto más importante de la entrada y uno de los menos explicados en la bibliografía: un modelo puede tener cualquier combinación de discriminación y calibración. Las dos métricas miden cosas distintas y son matemáticamente independientes.

Para entenderlo considera estos cuatro casos extremos:

Caso 1: buena discriminación, buena calibración

El caso ideal. El modelo ordena correctamente los clientes y además las probabilidades que predice son precisas. Se puede usar tanto para tomar decisiones de aprobación/rechazo como para estimar pérdidas esperadas.

Caso 2: buena discriminación, mala calibración

El caso más frecuente en la práctica. El modelo ordena bien los clientes — los buenos pagadores tienen scores más altos que los malos — pero las probabilidades predichas están sistemáticamente desplazadas respecto a la realidad.

Un modelo en este caso sigue siendo útil para ranking — para decidir qué clientes son relativamente mejores o peores. Pero no se puede usar directamente para estimar pérdidas esperadas porque las probabilidades son incorrectas.

Ejemplo típico: un modelo entrenado con datos de una época de alta tasa de default (recesión) aplicado en un período de baja tasa de default (bonanza). El modelo discrimina bien pero sobreestima el riesgo de todos los clientes.

Caso 3: mala discriminación, buena calibración

Menos frecuente pero posible. El modelo predice probabilidades razonablemente precisas en promedio, pero no consigue discriminar bien entre clientes individuales — todos reciben probabilidades similares y el ranking es poco informativo.

Un modelo así puede ser útil para estimaciones agregadas (cuántos defaults habrá en el portfolio total) pero no para decisiones individuales de crédito.

Caso 4: mala discriminación, mala calibración

El peor caso. El modelo no sirve ni para ordenar clientes ni para estimar probabilidades. Hay que replantearlo desde cero.

Un ejemplo numérico que ilustra la independencia

Supón que tienes dos modelos aplicados al mismo conjunto de datos de 1000 clientes con 100 defaults (tasa de default 10%):

Modelo A

  • Predice probabilidades entre 1% y 40%
  • Gini = 0,65 (excelente discriminación)
  • Los clientes con probabilidad predicha del 20% tienen tasa de default real del 35%
  • ECE = 0,08 (mala calibración — sobreestima consistentemente)

Modelo B

  • Predice probabilidades entre 8% y 12%
  • Gini = 0,65 (idéntica discriminación que el Modelo A)
  • Los clientes con probabilidad predicha del 10% tienen tasa de default real del 10%
  • ECE = 0,01 (excelente calibración — pero predicciones muy poco discriminantes)

Ambos modelos tienen exactamente el mismo Gini. Pero el Modelo A falla en calibración y el Modelo B falla en la amplitud de sus predicciones. Para tomar decisiones de aprobación individual el Modelo A es preferible — discrimina mejor. Para estimar cuántos defaults habrá en un segmento específico el Modelo B es preferible — sus probabilidades son más precisas.

La elección entre uno y otro depende de para qué se va a usar el modelo.

Cuándo importa más la calibración

La calibración es especialmente crítica en tres contextos:

Estimación de pérdidas esperadas

La pérdida esperada de una cartera de crédito se calcula como: EL = \sum_{i=1}^{n} PD_i \times LGD_i \times EAD_i, donde PD_i es la probabilidad de default del cliente i, LGD_i es la pérdida dado el default y $EAD_i es la exposición en el momento del default.

Si el modelo está mal calibrado, las PD_i son incorrectas y la pérdida esperada total estará sesgada. Una sobreestimación del 50% en las PD llevaría a constituir provisiones excesivas — inmovilizando capital innecesariamente. Una subestimación del 50% llevaría a provisiones insuficientes — exponiendo a la entidad a pérdidas no previstas.

Fijación del precio del riesgo (risk-based pricing)

Algunas entidades fijan el tipo de interés de cada préstamo en función del riesgo del cliente — un cliente con mayor probabilidad de default paga un tipo más alto que compensa el mayor riesgo esperado. Si la calibración es mala los tipos asignados serán incorrectos y la rentabilidad ajustada por riesgo no será la esperada.

Cuándo importa más la discriminación

La discriminación es la métrica más relevante cuando el objetivo principal es tomar decisiones de aprobación/rechazo con un umbral fijo.

Si el banco aprueba a todos los clientes con score por encima de 600 y rechaza a los demás, lo que importa es que los buenos pagadores estén mayoritariamente por encima de 600 y los malos por debajo — es decir, que el modelo discrimine bien en ese umbral. Las probabilidades absolutas predichas son irrelevantes para esta decisión.

En este contexto el Gini y el KS son las métricas adecuadas. La calibración pasa a un segundo plano — siempre que el umbral de decisión esté correctamente fijado.

Cómo detectar problemas de calibración en producción

La calibración no es solo una propiedad del modelo en el momento de su construcción — puede degradarse con el tiempo a medida que la distribución de los clientes cambia. Detectar esta degradación a tiempo es una parte fundamental de la monitorización del modelo.

PSI de probabilidades

El Population Stability Index (PSI) calculado sobre las probabilidades predichas (no sobre las variables individuales) mide si la distribución de probabilidades ha cambiado entre el período de entrenamiento y el período actual. Un PSI alto en las probabilidades indica que el modelo está operando fuera de su rango de validez.

Backtesting de tasas de default

Comparar sistemáticamente las tasas de default predichas con las observadas, por decil de score y por período temporal. Si las diferencias superan un umbral definido (típicamente 20% de error relativo en cualquier decil) se activa una alerta de recalibración.

Test de Hosmer-Lemeshow

El test estadístico formal de calibración. Contrasta la hipótesis nula de que las tasas predichas y observadas son iguales en todos los grupos. Un p-valor bajo (< 0,05) indica evidencia de descalibración. Sin embargo este test tiene una sensibilidad que crece con el tamaño muestral — con datasets muy grandes puede rechazar la hipótesis nula aunque las diferencias sean económicamente insignificantes. Usarlo junto con las métricas descriptivas (ECE, MCE) da una visión más completa.

Cómo corregir la calibración sin reconstruir el modelo

Cuando se detecta un problema de calibración existen técnicas para corregirlo sin necesidad de reconstruir el modelo desde cero — lo que sería costoso en tiempo y recursos.

Recalibración del intercepto

La forma más sencilla. Si el modelo sobreestima o subestima uniformemente el riesgo (desplazamiento sistemático), basta con ajustar el intercepto de la regresión logística para que la tasa de default media predicha coincida con la tasa observada en el período actual. Es una corrección de un solo parámetro que puede hacerse rápidamente cuando se detecta un cambio en la tasa de eventos del portfolio.

Regresión de Platt (Platt Scaling)

Ajusta una regresión logística simple con los scores del modelo como única variable predictora y las etiquetas reales como target. Los coeficientes de esta regresión corrigen la calibración del modelo original. Es especialmente efectiva para corregir el patrón en S de sobreconfianza.

Calibración isotónica

Ajusta una función monótona no paramétrica que mapea los scores originales a probabilidades calibradas. Es más flexible que la regresión de Platt — puede corregir patrones de descalibración no lineales. Pero requiere más datos para ajustarse correctamente y puede sobreajustar con muestras pequeñas.

Cuándo recalibrar vs reconstruir

La recalibración es apropiada cuando el modelo sigue discriminando bien (Gini estable) pero las probabilidades han perdido precisión — típicamente por un cambio en la tasa de eventos del portfolio. Si la discriminación también se ha degradado (Gini cae significativamente) la recalibración no es suficiente y hay que reconstruir el modelo con datos más recientes.

La tabla de los cuatro casos: una referencia práctica

DiscriminaciónCalibraciónDiagnósticoAcción recomendada
✅ Alta✅ BuenaModelo idealMonitorizar periódicamente
✅ Alta❌ MalaRanking correcto, PD incorrectasRecalibrar — no reconstruir
❌ Baja✅ BuenaPD correctas en promedio, mal rankingRevisar variables y binning
❌ Baja❌ MalaModelo inutilizableReconstruir desde cero

Discriminación y calibración en el proceso de validación

En el proceso formal de validación de modelos en entidades financieras ambas dimensiones deben evaluarse explícitamente:

Discriminación

  • Gini en train y test — con umbral mínimo aceptable definido por la entidad (típicamente Gini > 0,35 en consumer credit)
  • Estabilidad del Gini entre train y test — si la diferencia supera 5 puntos porcentuales hay sobreajuste
  • Curva ROC y curva KS representadas gráficamente

Calibración

  • Curva de calibración representada gráficamente
  • ECE con umbral de aceptación (típicamente < 0,05)
  • Brier Score y Brier Skill Score
  • Test de Hosmer-Lemeshow con interpretación cautelosa del p-valor

Conclusiones

Discriminación y calibración son dos dimensiones ortogonales de la calidad de un modelo de credit scoring. Miden cosas distintas, pueden fallar de forma independiente y tienen implicaciones distintas para el uso del modelo.

La discriminación responde a: ¿pone el modelo a los buenos pagadores por encima de los malos? La calibración responde a: ¿son las probabilidades que predice el modelo las correctas?

Un modelo con buena discriminación y mala calibración puede seguir siendo útil para tomar decisiones de aprobación/rechazo pero no para estimar pérdidas esperadas ni para fijar precios ajustados por riesgo. Un modelo con mala discriminación y buena calibración puede servir para estimaciones agregadas del portfolio pero no para decisiones individuales.

El error más común — y más costoso — en la práctica del credit scoring es validar solo la discriminación y asumir que la calibración está bien. La historia del modelo que “funciona perfectamente” según el Gini pero subestima sistemáticamente las pérdidas reales se repite en demasiadas entidades financieras.

Medir ambas dimensiones, entender su relación y actuar cuando alguna de ellas se degrada es lo que distingue una gestión rigurosa del riesgo de crédito de una que simplemente confía en un número.

El constructor de scorecards del laboratorio de Analytics Lane incluye el análisis de calibración completo en el paso de validación — curva de calibración, Brier Score, ECE y MCE — junto con las métricas de discriminación habituales, para que puedas evaluar ambas dimensiones de tu modelo de forma simultánea.

Nota: La imágenes de este artículo fueron generadas utilizando un modelo de inteligencia artificial.

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

Ley de Benford: cómo detectar datos manipulados con ejemplos reales

En un mundo donde los datos se han convertido en el lenguaje dominante de la…

5 días ago

Subplots en Matplotlib: cómo organizar múltiples gráficos en una sola figura

Llevas un rato analizando datos y tienes cuatro gráficos abiertos en ventanas separadas: ventas, usuarios,…

1 semana ago

Síndrome del objeto brillante en ciencia de datos: el error simétrico a los costes hundidos

Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse…

2 semanas ago

De la Regresión Logística al Scorecard: La Transformación Matemática

En un entrada previa explicamos qué son el WOE y el IV y por qué…

2 semanas ago

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…

2 semanas ago

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…

3 semanas ago

This website uses cookies.