Si el WOE y el IV son la base matemática del credit scoring, el binning es el arte que hace que esa matemática funcione en la práctica. Es el paso más crítico, probablemente el más subjetivo y también el menos documentado de todo el proceso de construcción de un scorecard.
Dicho de forma simple: el binning consiste en discretizar las variables continuas en intervalos y agrupar las categorías de las variables categóricas. Parece una operación técnica menor: dividir un rango de valores en grupos. Pero las decisiones que se toman en este paso determinan en gran medida la calidad, estabilidad e interpretabilidad del scorecard final.
Un binning mal hecho puede destruir el poder predictivo de una variable excelente. Un binning bien hecho puede extraer información predictiva de una variable aparentemente débil. Y a diferencia de la regresión logística o del cálculo del WOE — que son procedimientos matemáticos con una respuesta única — el binning implica decisiones de juicio que ningún algoritmo puede tomar completamente solo.
En este artículo explicamos los principios del buen binning, los algoritmos más usados, las restricciones que debe cumplir un binning correcto y los errores más frecuentes. Todos los conceptos se pueden explorar de forma interactiva en el constructor de scorecards del laboratorio de Analytics Lane, que implementa binning automático con ajuste manual en el paso 3.
Tabla de contenidos
La regresión logística asume que la relación entre cada variable predictora y las log-odds de default es lineal. Para una variable continua como ingreso_anual esto significa asumir que cada euro adicional de ingreso reduce las log-odds de default en una cantidad fija, independientemente de si el ingreso pasa de 10.000€ a 10.001€ o de 100.000€ a 100.001€.
Esta asunción raramente se cumple en la realidad. La relación entre el ingreso y el riesgo de crédito no es lineal — la diferencia entre ganar 15.000€ y 20.000€ al año tiene un impacto muy distinto sobre el riesgo que la diferencia entre ganar 80.000€ y 85.000€. El binning resuelve este problema convirtiendo la variable continua en una serie de bins, cada uno con su propio WOE, que captura la relación real entre la variable y el riesgo sin imponer linealidad.
Además el binning tiene otras ventajas prácticas:
ingreso_anual — por ejemplo 2.500.000€ — simplemente cae en el bin más alto y recibe el WOE de ese bin. No distorsiona el modelo como lo haría en una regresión sobre valores continuos.Existen varios algoritmos para generar bins automáticamente. Ninguno es óptimo en todos los casos, todos requieren revisión y ajuste manual posterior.
Divide el rango de la variable en intervalos de igual tamaño. Si ingreso_anual va de 0 a 200.000€ y queremos 10 bins, cada bin tiene una anchura de 20.000€.
Problema fundamental: las distribuciones de variables financieras raramente son uniformes. Con igual anchura la mayoría de las observaciones caen en los primeros bins y los últimos quedan casi vacíos. Bins con pocas observaciones producen WOE inestables. Este método prácticamente nunca se usa.
Divide las observaciones en grupos de igual tamaño. Con 50.000 observaciones y 10 bins cada bin tiene exactamente 5.000 observaciones. Los puntos de corte se determinan por los percentiles de la distribución.
Es el método más usado como punto de partida porque garantiza que todos los bins tienen suficientes observaciones. El punto de corte entre el primer y el segundo bin es el percentil 10 de la distribución, entre el segundo y el tercero el percentil 20, y así sucesivamente.
Limitación: los puntos de corte no tienen por qué coincidir con umbrales con significado económico. Un punto de corte en 23.847€ es estadísticamente correcto pero difícil de justificar ante un comité de riesgo.
A diferencia de los métodos anteriores, el binning supervisado usa la variable objetivo para determinar los puntos de corte. El objetivo es encontrar los puntos de corte que maximizan la separación entre eventos y no eventos, es decir, que maximizan el IV de la variable.
Los algoritmos más comunes son:
El binning automático es solo el punto de partida. Un binning correcto para un scorecard de credit scoring debe cumplir varias restricciones que los algoritmos no garantizan automáticamente.
Esta es la restricción más importante y la más específica del credit scoring.
El WOE de los bins debe ser monótono — siempre creciente o siempre decreciente al ordenar los bins por el valor de la variable. Para ingreso_anual esperamos que a mayor ingreso, mayor WOE (menor riesgo) — una relación monótona creciente. Un WOE que sube, baja y vuelve a subir al aumentar el ingreso viola la monotonía.
Pero, ¿por qué es tan importante la monotonía en credit scoring? Por tres razones:
Cada bin debe tener un número mínimo de observaciones para que su WOE sea estadísticamente estable. Las reglas prácticas más comunes son:
La última restricción — mínimo de eventos y no eventos — es especialmente importante. Un bin con 1.000 observaciones pero solo 2 defaults tiene una tasa de default del 0,2%, pero ese 0,2% tiene un intervalo de confianza enorme. Con 2 defaults más el porcentaje sería del 0,4%, el doble. El WOE de este bin es estadísticamente inestable y no debe usarse.
Esta restricción es la más subjetiva pero también la más importante para la sostenibilidad del scorecard a largo plazo.
Los puntos de corte deben tener, en la medida de lo posible, una interpretación económica o de negocio. En la práctica esto significa:
ingreso_anual, representa un umbral de riesgo con significado en el mercado laboralLos puntos de corte con significado económico hacen el scorecard más robusto ante cambios en la distribución de los datos. Si la distribución de ingresos cambia pero el significado del salario mínimo no, el punto de corte sigue siendo relevante.
El analista debe validar que la relación que muestra el WOE es coherente con la intuición del negocio. Si el binning muestra que los clientes con ingresos más altos tienen mayor tasa de default — WOE decreciente con el ingreso — algo está mal, ya sea en los datos o en el binning.
Esta validación no es trivial. A veces la relación observada en los datos es contraintuitiva pero correcta — por ejemplo porque la entidad tiene sesgos de selección en su portfolio. Un analista con experiencia sabe distinguir cuándo una relación inesperada es genuina y cuándo indica un problema en los datos.
Las variables categóricas requieren un tratamiento distinto al de las variables numéricas. No hay un orden natural entre categorías como “Asalariado”, “Autónomo” y “Desempleado”, así que no se pueden definir puntos de corte, hay que agrupar categorías.
El proceso estándar es:
La agrupación por WOE similar tiene la ventaja de que los bins resultantes son coherentes con el riesgo, cada bin agrupa categorías con comportamiento crediticio similar. Un analista con conocimiento del negocio puede además validar que las agrupaciones tienen sentido: que “Funcionario” y “Asalariado en empresa grande” queden en el mismo bin de bajo riesgo es razonable.
Las variables categóricas con muchas categorías — provincia (50), sector de actividad (100+), código postal (miles) — tienen inevitablemente muchas categorías con pocas observaciones. Estas categorías raras producen WOE inestables y deben agruparse antes de incluirse en el modelo.
La regla práctica es que una categoría con menos del 5% de las observaciones o menos de 50 observaciones absolutas se considera rara. Las estrategias de agrupación son:
Un problema específico de las variables categóricas es qué hacer cuando en producción aparece una categoría que no existía en el entrenamiento. Por ejemplo si el modelo se entrenó con datos de 2022-2024 y en 2025 aparece una nueva categoría de empleo no contemplada.
Las opciones son:
La elección debe documentarse explícitamente en las especificaciones del modelo y registrarse en el JSON de exportación para que el scoring en producción sea consistente con el entrenamiento.
Los valores nulos en credit scoring no son simplemente datos faltantes, son información. Un cliente que no declara su ingreso anual no es equivalente a uno que declara 30.000€. La ausencia de información es en sí misma una señal de riesgo.
La práctica estándar en credit scoring es tratar los nulos como una categoría separada con su propio WOE. Este enfoque tiene varias ventajas:
En algunos casos el bin separado para nulos no es apropiado:
El binning automático es el punto de partida, no el destino. Siempre requiere revisión y ajuste manual por parte del analista. Los motivos más frecuentes de ajuste son:
El algoritmo automático puede producir WOE no monótonos. El analista fusiona los bins que rompen la monotonía hasta conseguir una relación monótona estrictamente creciente o decreciente.
Si el algoritmo automático coloca un punto de corte en 23.847€, el analista puede ajustarlo a 24.000€ o al salario mínimo interprofesional. Siempre que el ajuste no degrade significativamente el IV y mejore la interpretabilidad es una decisión correcta.
Si algún bin no cumple las restricciones de tamaño mínimo, el analista lo fusiona con el bin adyacente de WOE más similar.
A veces el algoritmo fusiona categorías que el analista sabe que tienen comportamiento crediticio distinto, aunque su WOE calculado sea similar debido a pocos datos. Por ejemplo “Funcionario” y “Temporal” pueden tener WOE similares en el conjunto de datos de entrenamiento pero comportamientos muy distintos en ciclos económicos adversos.
Una vez definido el binning, antes de pasar al ajuste del modelo, el analista debe validar que el binning es correcto. Los criterios de validación son:
| Criterio | Umbral típico |
|---|---|
| N mínimo por bin | ≥ 5% del total o ≥ 50 observaciones |
| N mínimo de eventos por bin | ≥ 10 |
| N mínimo de no eventos por bin | ≥ 10 |
| Monotonía del WOE | Estrictamente creciente o decreciente |
| IV total de la variable | Entre 0,02 y 0,50 |
| Pérdida de IV por ajuste manual | < 20% respecto al binning óptimo |
El error más común y el más costoso. El binning automático es un punto de partida que requiere revisión. Un analista que acepta el binning automático sin ajuste manual está delegando decisiones críticas en un algoritmo que no conoce el negocio.
Permitir WOE no monótonos porque el IV total de la variable es alto. Un WOE no monótono es casi siempre señal de inestabilidad estadística o de un problema en los datos, no de una relación genuinamente no monótona.
No incluir un bin separado para nulos o no revisar su WOE. Los nulos son información y su tratamiento debe ser explícito y documentado.
Demasiados bins con pocas observaciones. Un scorecard con 15 bins por variable es más difícil de mantener, más inestable en producción y más difícil de explicar que uno con 5-8 bins bien definidos.
El extremo opuesto, tan pocos bins que se pierde información predictiva. Si una variable con IV potencial de 0,35 acaba con un IV de 0,12 por tener solo 3 bins muy gruesos, el binning es demasiado conservador.
No registrar por qué se fusionaron ciertos bins o por qué se ajustaron ciertos puntos de corte. Esta documentación es esencial para la validación del modelo y para los ciclos de reentrenamiento futuros.
Una propiedad deseable del binning que raramente se menciona es la estabilidad temporal — que los bins sigan siendo válidos cuando la distribución de los datos cambia con el tiempo.
Un bin definido como “ingresos entre el percentil 30 y el percentil 50 de la distribución de entrenamiento” perderá su significado si la distribución de ingresos cambia significativamente. Un bin definido como “ingresos entre 20.000€ y 40.000€” mantiene su significado aunque la distribución cambie.
Por eso los puntos de corte con significado económico no son solo una preferencia estética — son una garantía de que el binning seguirá siendo válido y explicable cuando las condiciones del mercado cambien.
El PSI (Population Stability Index) aplicado a cada variable es la herramienta para detectar cuándo la distribución ha cambiado tanto que el binning ya no es representativo. Un PSI alto en una variable es una señal de que su binning debe revisarse, incluso si el modelo sigue discriminando bien en otras variables.
El binning es el paso donde la estadística se encuentra con el conocimiento del negocio. No es un procedimiento mecánico que un algoritmo puede ejecutar sin supervisión, es un proceso iterativo que requiere criterio analítico, conocimiento del mercado de crédito y capacidad de justificar cada decisión ante el regulador y el comité de riesgo.
Un buen binning produce un scorecard que:
Un mal binning puede destruir el poder predictivo de variables excelentes, producir un modelo inestable que se degrada rápidamente en producción o generar un scorecard que no puede explicarse al regulador.
El constructor de scorecards del laboratorio de Analytics Lane implementa binning automático con equal frequency como punto de partida, con ajuste manual completo — añadir y eliminar puntos de corte, fusionar bins, arrastrar categorías entre grupos — y recálculo en tiempo real del WOE e IV tras cada modificación. El log de decisiones registra cada ajuste manual con su justificación, para que el proceso de binning sea completamente auditable.
En última instancia, el binning no es solo una técnica: es donde se decide si un modelo será útil en producción o solo correcto en teoría.
Nota: Las imágenes de este artículo fueron generadas utilizando un modelo de inteligencia artificial.
Seguimos iterando sobre el laboratorio de Analytics Lane y lanzamos la versión 1.2, disponible en:https://www.analyticslane.com/lab/es…
En la primera entrega vimos cómo se puede medir la economía mirando lo que la…
Tienes los datos de tráfico web de los últimos cinco meses desglosados por canal: orgánico,…
La economía es una de las pocas disciplinas donde puedes proponer que el largo de…
Imagina que construyes un modelo de credit scoring y obtienes un Gini de 0,65. Un…
En un mundo donde los datos se han convertido en el lenguaje dominante de la…
This website uses cookies.