El Binning en Credit Scoring: El Arte de Discretizar Variables

Si el WOE y el IV son la base matemática del credit scoring, el binning es el arte que hace que esa matemática funcione en la práctica. Es el paso más crítico, probablemente el más subjetivo y también el menos documentado de todo el proceso de construcción de un scorecard.

Dicho de forma simple: el binning consiste en discretizar las variables continuas en intervalos y agrupar las categorías de las variables categóricas. Parece una operación técnica menor: dividir un rango de valores en grupos. Pero las decisiones que se toman en este paso determinan en gran medida la calidad, estabilidad e interpretabilidad del scorecard final.

Un binning mal hecho puede destruir el poder predictivo de una variable excelente. Un binning bien hecho puede extraer información predictiva de una variable aparentemente débil. Y a diferencia de la regresión logística o del cálculo del WOE — que son procedimientos matemáticos con una respuesta única — el binning implica decisiones de juicio que ningún algoritmo puede tomar completamente solo.

En este artículo explicamos los principios del buen binning, los algoritmos más usados, las restricciones que debe cumplir un binning correcto y los errores más frecuentes. Todos los conceptos se pueden explorar de forma interactiva en el constructor de scorecards del laboratorio de Analytics Lane, que implementa binning automático con ajuste manual en el paso 3.

Qué es el binning y por qué es necesario

La regresión logística asume que la relación entre cada variable predictora y las log-odds de default es lineal. Para una variable continua como ingreso_anual esto significa asumir que cada euro adicional de ingreso reduce las log-odds de default en una cantidad fija, independientemente de si el ingreso pasa de 10.000€ a 10.001€ o de 100.000€ a 100.001€.

Esta asunción raramente se cumple en la realidad. La relación entre el ingreso y el riesgo de crédito no es lineal — la diferencia entre ganar 15.000€ y 20.000€ al año tiene un impacto muy distinto sobre el riesgo que la diferencia entre ganar 80.000€ y 85.000€. El binning resuelve este problema convirtiendo la variable continua en una serie de bins, cada uno con su propio WOE, que captura la relación real entre la variable y el riesgo sin imponer linealidad.

Además el binning tiene otras ventajas prácticas:

Robustez ante outliers: Un valor extremo de ingreso_anual — por ejemplo 2.500.000€ — simplemente cae en el bin más alto y recibe el WOE de ese bin. No distorsiona el modelo como lo haría en una regresión sobre valores continuos.
Manejo natural de valores nulos: Los nulos reciben su propio bin con su propio WOE. No necesitan imputación previa y su comportamiento se modela explícitamente.
Interpretabilidad: Un scorecard con bins tiene puntos de corte que el analista puede explicar en lenguaje natural: “clientes con ingresos inferiores a 20.000€ anuales reciben −15 puntos”. Una regresión sobre valores continuos no permite este tipo de explicación.
Estabilidad en producción: Un modelo con bins es menos sensible a pequeñas variaciones en los valores de las variables. Un cliente cuyo ingreso cambia de 45.200€ a 45.800€ entre dos evaluaciones seguirá en el mismo bin y recibirá los mismos puntos.

Los algoritmos de binning automático

Existen varios algoritmos para generar bins automáticamente. Ninguno es óptimo en todos los casos, todos requieren revisión y ajuste manual posterior.

Equal Width (igual anchura)

Divide el rango de la variable en intervalos de igual tamaño. Si ingreso_anual va de 0 a 200.000€ y queremos 10 bins, cada bin tiene una anchura de 20.000€.

Problema fundamental: las distribuciones de variables financieras raramente son uniformes. Con igual anchura la mayoría de las observaciones caen en los primeros bins y los últimos quedan casi vacíos. Bins con pocas observaciones producen WOE inestables. Este método prácticamente nunca se usa.

Equal Frequency (igual frecuencia)

Divide las observaciones en grupos de igual tamaño. Con 50.000 observaciones y 10 bins cada bin tiene exactamente 5.000 observaciones. Los puntos de corte se determinan por los percentiles de la distribución.

Es el método más usado como punto de partida porque garantiza que todos los bins tienen suficientes observaciones. El punto de corte entre el primer y el segundo bin es el percentil 10 de la distribución, entre el segundo y el tercero el percentil 20, y así sucesivamente.

Limitación: los puntos de corte no tienen por qué coincidir con umbrales con significado económico. Un punto de corte en 23.847€ es estadísticamente correcto pero difícil de justificar ante un comité de riesgo.

Binning supervisado (optimal binning)

A diferencia de los métodos anteriores, el binning supervisado usa la variable objetivo para determinar los puntos de corte. El objetivo es encontrar los puntos de corte que maximizan la separación entre eventos y no eventos, es decir, que maximizan el IV de la variable.

Los algoritmos más comunes son:

CART (Classification and Regression Trees): Ajusta un árbol de decisión con la variable como única predictora y usa los nodos del árbol como puntos de corte. Tiene la ventaja de encontrar automáticamente los puntos de corte más informativos, pero tiende a sobreajustar si no se regula la profundidad del árbol.
Programación dinámica: Encuentra el conjunto de K puntos de corte que maximiza el IV total. Es el método óptimo por definición pero computacionalmente costoso para K grande.
Binning jerárquico aglomerativo: Empieza con un bin por cada valor único (o por percentiles finos) y va fusionando bins adyacentes según un criterio de similitud de WOE. Es el método más usado en implementaciones prácticas por su equilibrio entre optimalidad y eficiencia computacional.

Las restricciones del buen binning

El binning automático es solo el punto de partida. Un binning correcto para un scorecard de credit scoring debe cumplir varias restricciones que los algoritmos no garantizan automáticamente.

Restricción 1: monotonía del WOE

Esta es la restricción más importante y la más específica del credit scoring.

El WOE de los bins debe ser monótono — siempre creciente o siempre decreciente al ordenar los bins por el valor de la variable. Para ingreso_anual esperamos que a mayor ingreso, mayor WOE (menor riesgo) — una relación monótona creciente. Un WOE que sube, baja y vuelve a subir al aumentar el ingreso viola la monotonía.

Pero, ¿por qué es tan importante la monotonía en credit scoring? Por tres razones:

Interpretabilidad: Una relación monótona entre una variable y el riesgo es fácil de explicar y de defender ante el regulador. “A mayor ingreso, menor riesgo” es una afirmación que cualquier comité de riesgo puede entender y validar. Una relación no monótona requiere una explicación más compleja y puede indicar un binning defectuoso.
Estabilidad: Los bins no monótonos suelen estar calculados sobre pocas observaciones y su WOE es estadísticamente inestable. En el siguiente período de observación el WOE puede cambiar significativamente, lo que hace el modelo inestable en producción.
Coherencia con el scorecard: En un scorecard los puntos deben aumentar monótonamente con la variable si la relación con el riesgo es monótona. Un cliente con ingreso de 50.000€ debe recibir más puntos que uno con 40.000€. Si el WOE no es monótono los puntos tampoco lo serán — lo que es difícil de explicar y de implementar correctamente.
Cómo forzar la monotonía: Cuando el binning automático produce WOE no monótono la solución es fusionar los bins que rompen la monotonía. Si el bin 4 tiene WOE inferior al bin 3, se fusionan los bins 3 y 4 en un único bin. El proceso se repite hasta que todos los WOE son monótonos.

Restricción 2: tamaño mínimo de bin

Cada bin debe tener un número mínimo de observaciones para que su WOE sea estadísticamente estable. Las reglas prácticas más comunes son:

Al menos el 5% del total de observaciones por bin
Al menos 50 observaciones absolutas por bin
Al menos 10 eventos (defaults) por bin
Al menos 10 no eventos por bin

La última restricción — mínimo de eventos y no eventos — es especialmente importante. Un bin con 1.000 observaciones pero solo 2 defaults tiene una tasa de default del 0,2%, pero ese 0,2% tiene un intervalo de confianza enorme. Con 2 defaults más el porcentaje sería del 0,4%, el doble. El WOE de este bin es estadísticamente inestable y no debe usarse.

Restricción 3: puntos de corte con significado económico

Esta restricción es la más subjetiva pero también la más importante para la sostenibilidad del scorecard a largo plazo.

Los puntos de corte deben tener, en la medida de lo posible, una interpretación económica o de negocio. En la práctica esto significa:

El punto de corte del salario mínimo interprofesional (en España, 17.094€ anuales en 2026) tiene sentido como punto de corte para ingreso_anual, representa un umbral de riesgo con significado en el mercado laboral
El percentil 23,7 de la distribución de ingresos no tiene ningún significado económico

Los puntos de corte con significado económico hacen el scorecard más robusto ante cambios en la distribución de los datos. Si la distribución de ingresos cambia pero el significado del salario mínimo no, el punto de corte sigue siendo relevante.

Restricción 4: coherencia con el conocimiento del negocio

El analista debe validar que la relación que muestra el WOE es coherente con la intuición del negocio. Si el binning muestra que los clientes con ingresos más altos tienen mayor tasa de default — WOE decreciente con el ingreso — algo está mal, ya sea en los datos o en el binning.

Esta validación no es trivial. A veces la relación observada en los datos es contraintuitiva pero correcta — por ejemplo porque la entidad tiene sesgos de selección en su portfolio. Un analista con experiencia sabe distinguir cuándo una relación inesperada es genuina y cuándo indica un problema en los datos.

El binning de variables categóricas

Las variables categóricas requieren un tratamiento distinto al de las variables numéricas. No hay un orden natural entre categorías como “Asalariado”, “Autónomo” y “Desempleado”, así que no se pueden definir puntos de corte, hay que agrupar categorías.

El proceso de agrupación

El proceso estándar es:

Calcular el WOE de cada categoría individualmente
Ordenar las categorías por WOE de mayor a menor
Agrupar categorías con WOE similar en bins
Verificar que cada bin cumple las restricciones de tamaño mínimo

La agrupación por WOE similar tiene la ventaja de que los bins resultantes son coherentes con el riesgo, cada bin agrupa categorías con comportamiento crediticio similar. Un analista con conocimiento del negocio puede además validar que las agrupaciones tienen sentido: que “Funcionario” y “Asalariado en empresa grande” queden en el mismo bin de bajo riesgo es razonable.

El problema de las categorías raras

Las variables categóricas con muchas categorías — provincia (50), sector de actividad (100+), código postal (miles) — tienen inevitablemente muchas categorías con pocas observaciones. Estas categorías raras producen WOE inestables y deben agruparse antes de incluirse en el modelo.

La regla práctica es que una categoría con menos del 5% de las observaciones o menos de 50 observaciones absolutas se considera rara. Las estrategias de agrupación son:

Agrupar con la categoría más similar por WOE: La categoría rara se fusiona con la categoría no rara cuyo WOE es más próximo. Minimiza la pérdida de IV.
Crear una categoría “Otros”: Todas las categorías raras se agrupan en un único bin. Simple pero puede generar un bin heterogéneo si las categorías raras tienen WOE muy distintos entre sí.
Agrupación jerárquica: Algoritmo de clustering sobre los WOE de todas las categorías. Produce grupos coherentes por nivel de riesgo pero puede ignorar el significado de negocio de las categorías.

El tratamiento de categorías nuevas en producción

Un problema específico de las variables categóricas es qué hacer cuando en producción aparece una categoría que no existía en el entrenamiento. Por ejemplo si el modelo se entrenó con datos de 2022-2024 y en 2025 aparece una nueva categoría de empleo no contemplada.

Las opciones son:

Asignar al bin “Otros”, si existe
Asignar al bin de mayor riesgo, tratamiento conservador, el más recomendado en credit scoring
Asignar al bin de WOE más cercano a cero, tratamiento neutro
Marcar como error, rechazar la observación si tiene categorías desconocidas

La elección debe documentarse explícitamente en las especificaciones del modelo y registrarse en el JSON de exportación para que el scoring en producción sea consistente con el entrenamiento.

El tratamiento de valores nulos

Los valores nulos en credit scoring no son simplemente datos faltantes, son información. Un cliente que no declara su ingreso anual no es equivalente a uno que declara 30.000€. La ausencia de información es en sí misma una señal de riesgo.

El bin separado para nulos

La práctica estándar en credit scoring es tratar los nulos como una categoría separada con su propio WOE. Este enfoque tiene varias ventajas:

No requiere imputación previa: No hay que decidir cómo imputar los nulos antes del binning, el propio binning los maneja.
Modela el comportamiento de los nulos: Si los clientes con ingreso no declarado tienen una tasa de default distinta a la media, esa información se captura en el WOE del bin de nulos y se incorpora al scorecard.
Es transparente y reproducible: En producción, un cliente con ingreso nulo siempre recibe el WOE del bin de nulos, no depende de ninguna lógica de imputación que pueda cambiar.

Cuándo no usar bin separado

En algunos casos el bin separado para nulos no es apropiado:

Cuando la tasa de nulos es muy alta: Si el 80% de los clientes tienen nulo en una variable, el bin de nulos domina la distribución y la variable tiene poco valor predictivo. En ese caso es mejor excluir la variable.
Cuando los nulos tienen una explicación técnica: Si los nulos se deben a un fallo en el sistema de captura de datos — no a que el cliente no tenga ingreso — imputar con la mediana puede ser más apropiado que crear un bin separado.
Cuando la variable es obligatoria en el proceso de solicitud: Si una variable es obligatoria y su valor nulo indica que el proceso no se completó correctamente, esa observación probablemente debería excluirse del conjunto de datos en lugar de incluirse con un bin de nulos.

El ajuste manual del binning automático

El binning automático es el punto de partida, no el destino. Siempre requiere revisión y ajuste manual por parte del analista. Los motivos más frecuentes de ajuste son:

Forzar monotonía

El algoritmo automático puede producir WOE no monótonos. El analista fusiona los bins que rompen la monotonía hasta conseguir una relación monótona estrictamente creciente o decreciente.

Ajustar puntos de corte a umbrales con significado

Si el algoritmo automático coloca un punto de corte en 23.847€, el analista puede ajustarlo a 24.000€ o al salario mínimo interprofesional. Siempre que el ajuste no degrade significativamente el IV y mejore la interpretabilidad es una decisión correcta.

Fusionar bins con pocas observaciones

Si algún bin no cumple las restricciones de tamaño mínimo, el analista lo fusiona con el bin adyacente de WOE más similar.

Separar bins que el algoritmo ha fusionado incorrectamente

A veces el algoritmo fusiona categorías que el analista sabe que tienen comportamiento crediticio distinto, aunque su WOE calculado sea similar debido a pocos datos. Por ejemplo “Funcionario” y “Temporal” pueden tener WOE similares en el conjunto de datos de entrenamiento pero comportamientos muy distintos en ciclos económicos adversos.

La validación del binning

Una vez definido el binning, antes de pasar al ajuste del modelo, el analista debe validar que el binning es correcto. Los criterios de validación son:

Criterios cuantitativos

Criterio	Umbral típico
N mínimo por bin	≥ 5% del total o ≥ 50 observaciones
N mínimo de eventos por bin	≥ 10
N mínimo de no eventos por bin	≥ 10
Monotonía del WOE	Estrictamente creciente o decreciente
IV total de la variable	Entre 0,02 y 0,50
Pérdida de IV por ajuste manual	< 20% respecto al binning óptimo

Criterios cualitativos

Los puntos de corte tienen sentido económico o de negocio
La dirección de la relación (mayor variable → mayor o menor riesgo) es coherente con la intuición del negocio
El bin de nulos tiene un WOE interpretable — los nulos representan un nivel de riesgo coherente con lo esperado
Las agrupaciones de categorías tienen coherencia — no se agrupan categorías que el negocio considera fundamentalmente distintas

Los errores más frecuentes en el binning

Error 1: aceptar el binning automático sin revisión

El error más común y el más costoso. El binning automático es un punto de partida que requiere revisión. Un analista que acepta el binning automático sin ajuste manual está delegando decisiones críticas en un algoritmo que no conoce el negocio.

Error 2: no forzar monotonía

Permitir WOE no monótonos porque el IV total de la variable es alto. Un WOE no monótono es casi siempre señal de inestabilidad estadística o de un problema en los datos, no de una relación genuinamente no monótona.

Error 3: ignorar el bin de nulos

No incluir un bin separado para nulos o no revisar su WOE. Los nulos son información y su tratamiento debe ser explícito y documentado.

Error 4: bins demasiado finos

Demasiados bins con pocas observaciones. Un scorecard con 15 bins por variable es más difícil de mantener, más inestable en producción y más difícil de explicar que uno con 5-8 bins bien definidos.

Error 5: bins demasiado gruesos

El extremo opuesto, tan pocos bins que se pierde información predictiva. Si una variable con IV potencial de 0,35 acaba con un IV de 0,12 por tener solo 3 bins muy gruesos, el binning es demasiado conservador.

Error 6: no documentar las decisiones de ajuste manual

No registrar por qué se fusionaron ciertos bins o por qué se ajustaron ciertos puntos de corte. Esta documentación es esencial para la validación del modelo y para los ciclos de reentrenamiento futuros.

El binning y la estabilidad temporal

Una propiedad deseable del binning que raramente se menciona es la estabilidad temporal — que los bins sigan siendo válidos cuando la distribución de los datos cambia con el tiempo.

Un bin definido como “ingresos entre el percentil 30 y el percentil 50 de la distribución de entrenamiento” perderá su significado si la distribución de ingresos cambia significativamente. Un bin definido como “ingresos entre 20.000€ y 40.000€” mantiene su significado aunque la distribución cambie.

Por eso los puntos de corte con significado económico no son solo una preferencia estética — son una garantía de que el binning seguirá siendo válido y explicable cuando las condiciones del mercado cambien.

El PSI (Population Stability Index) aplicado a cada variable es la herramienta para detectar cuándo la distribución ha cambiado tanto que el binning ya no es representativo. Un PSI alto en una variable es una señal de que su binning debe revisarse, incluso si el modelo sigue discriminando bien en otras variables.

Conclusiones

El binning es el paso donde la estadística se encuentra con el conocimiento del negocio. No es un procedimiento mecánico que un algoritmo puede ejecutar sin supervisión, es un proceso iterativo que requiere criterio analítico, conocimiento del mercado de crédito y capacidad de justificar cada decisión ante el regulador y el comité de riesgo.

Un buen binning produce un scorecard que:

Discrimina bien entre buenos y malos pagadores
Es interpretable y explicable en lenguaje de negocio
Es estable en producción ante cambios en la distribución de los datos
Puede ser auditado y reproducido por otro analista

Un mal binning puede destruir el poder predictivo de variables excelentes, producir un modelo inestable que se degrada rápidamente en producción o generar un scorecard que no puede explicarse al regulador.

El constructor de scorecards del laboratorio de Analytics Lane implementa binning automático con equal frequency como punto de partida, con ajuste manual completo — añadir y eliminar puntos de corte, fusionar bins, arrastrar categorías entre grupos — y recálculo en tiempo real del WOE e IV tras cada modificación. El log de decisiones registra cada ajuste manual con su justificación, para que el proceso de binning sea completamente auditable.

En última instancia, el binning no es solo una técnica: es donde se decide si un modelo será útil en producción o solo correcto en teoría.

Nota: Las imágenes de este artículo fueron generadas utilizando un modelo de inteligencia artificial.