El problema de desequilibrio de clases en conjuntos de datos de entrenamiento

Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se conoce como el Problema del Desequilibrio de Clases (Class Imbalance Problem).

Por ejemplo, en los problemas de fraude la situación más habitual es encontrar un caso positivo por cientos o miles negativos. En estos conjuntos de datos es normal esperar una reducción del rendimiento de los clasificadores. Siendo esta mayor cuanto mayor sea el desequilibrio existente en los datos.

¿Por qué es difícil aprender en dominios no balanceados?

El motivo por el que los clasificadores no función bien con conjunto de datos desbalanceados se debe a diferentes casusas, entre las que se pueden destacar:

Existencia de subclases poco representadas (Small Disjuncts): las subclases poco representadas en los conjuntos de datos pueden ser confundidas con ruido o datos atípico. Provocando que el clasificador ignore estos registros.
Falta de densidad en los datos de entrenamiento (Lack of density): al no disponer de una densidad suficiente en los datos los algoritmos pueden no ser capaces de llevar a cabo una generalización. Al no encontrar una zona en el espacio de atributos con suficiente densidad como para inducir un patrón.
Solape entre clases (Class Separability Problem): puede aparecer un solape entre las clases en las zonas fronterizas. Dando lugar a que ambas clases tenga una representación similar en estos tramos. Esto hace que sea imposible separar ambas. En los conjuntos de datos desbalanceados la subrepresentación de una clase hace que la dominante prevalezca. Provocando que aparezcan errores de falso negativo para los registros minoritarios.
Confusión con ruido (Noisy data): los registros atípicos toman especial importancia en los conjuntos de datos no balanceados. Esto es debido a dificultad para poder discriminarlos frente a los sobrerrepresentados.
Separación del conjunto de datos (Dataset shift): este problema apara cuando las instancias de entrenamiento y test siguen una distribución de probabilidad diferente. Por lo que aparece una reducción del rendimiento del clasificador en el conjunto de test. Este problema se puede solucionar con una estrategia bien diseñada de validación. Pero en los conjuntos desbalanceados la poca representación de la clase minoritaria hace que los resultados sean especialmente sensibles.

Soluciones al problema

Existen tres estrategias principales para trabajar con conjuntos de datos desbalanceados, estos son

Remuestreo: es la estrategia más directa, simplemente se modifica la distribución de las clases en el conjunto de entrenamiento. Existiendo dos aproximaciones diferentes: sobremuestreo y submuestreo. El sobremuestreo consiste en aumentar la presencia de la clase minoritaria. Por el otro lado, el submuestreo consiste en reducir la presencia de la clase mayoritaria.
Ensemble: se basan en la construcción de distintas hipótesis sobre el mismo conjunto de datos. Ya se mediante la utilización de subconjuntos de entrenamiento o una penalización sucesiva que corrija los errores de clasficación.
Técnicas híbridas: estas son una combinación de las técnicas anteriores.

Remuestreo aleatorio

Las estrategias de remuestreo más fáciles de implementar son las aleatorias. Tanto sea el sobremuestreo aleatorio (Random Over-Sampling, ROS) o el submuestreo aleatorio (Random Under-Sampling, RUS).

El ROS se basa en la duplicación de un subconjunto aleatorio de los registros de la clase minoritaria seleccionados dentro del conjunto original. Esta técnica permite que el número total de registros de la case minoritaria aumente. Ajustándose de este modo la distribución de las clases en el conjunto de entrenamiento.

Por otro lado, el RUS se basa en la eliminación aleatoria de un subconjunto de datos de clase mayoritaria hasta que la ratio se aproxime a la deseada. Modificando la distribución de las clases. Obteniendo un conjunto de menor tamaños que el original.

Problemas asociados al remuestreo aleatorio

La principal desventaja de RUS es la pérdida de patrones en los conjuntos de entrenamiento. Debido a que no se tiene control sobre la información de la clase mayoritaria que se descartar. Pudiéndose eliminar información relevante para los modelos.

ROS, por otro lado, no tiene la desventaja de eliminar registros y, por lo tanto, patrones existentes en los datos. Pero al duplicar información puede facilitar la aparición de soberajuste.

Submuestreo informado

Cómo se ha indicado anteriormente el remuestreo aleatorio presenta problemas. Por un lado, las RUS elimina información de los conjuntos de datos. Por otro lado, ROS puede producir sobreajuste al duplicar información. Para solucionar estos problemas se pueden utilizar técnicas de submuestreo informado. Las cuales proponen distintas aproximaciones para seleccionar los registros a eliminar. Algunas de las técnicas disponibles son:

NearMiss
One-Sided Selection (OSS)
Cluster Centroids (ClC)

Conclusiones

En esta entrada se han presentados los problemas que aparecen en los subconjuntos de datos en los que existe un desequilibrio de las clases. Las técnicas más básicas que se pueden aplicar son el remuestreo aleatorio, que puede llevar a la aparición de diferentes problemas.

Daniel Rodríguez

Next Agrupación de datos por fecha en pandas »

Previous « GridSearchCV

Published by

Daniel Rodríguez

Tags: EstadísticaMachine learning

7 años ago

¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en…
Cómo calcular el tamaño de la muestra para encuestas
Calcular adecuadamente el tamaño de la muestra es una parte esencial en el diseño de…
Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia
En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos—…

Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia

En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos—…

3 días ago

Ciencia de datos

¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia

El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en…

5 días ago

Opinión

Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo

En el mundo del análisis de datos solemos escuchar una idea poderosa: cuantos más datos,…

1 semana ago

JavaScript

Error npm ERR! code EACCES al instalar paquetes en Node.js: Cómo solucionarlo paso a paso

¿Te has encontrado con este error al intentar instalar paquetes con npm? npm ERR! code…

2 semanas ago

Opinión

Curiosidad: La Paradoja de Simpson, o por qué no siempre debes fiarte de los promedios

En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir…

2 semanas ago

Productividad

Copias de seguridad automáticas en SQL Server con rotación de archivos

Las bases de datos son el corazón de casi cualquier sistema de información moderno. Ya…

3 semanas ago

This website uses cookies.