Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se conoce como el Problema del Desequilibrio de Clases (Class Imbalance Problem).
Por ejemplo, en los problemas de fraude la situación más habitual es encontrar un caso positivo por cientos o miles negativos. En estos conjuntos de datos es normal esperar una reducción del rendimiento de los clasificadores. Siendo esta mayor cuanto mayor sea el desequilibrio existente en los datos.
El motivo por el que los clasificadores no función bien con conjunto de datos desbalanceados se debe a diferentes casusas, entre las que se pueden destacar:
Existen tres estrategias principales para trabajar con conjuntos de datos desbalanceados, estos son
Las estrategias de remuestreo más fáciles de implementar son las aleatorias. Tanto sea el sobremuestreo aleatorio (Random Over-Sampling, ROS) o el submuestreo aleatorio (Random Under-Sampling, RUS).
El ROS se basa en la duplicación de un subconjunto aleatorio de los registros de la clase minoritaria seleccionados dentro del conjunto original. Esta técnica permite que el número total de registros de la case minoritaria aumente. Ajustándose de este modo la distribución de las clases en el conjunto de entrenamiento.
Por otro lado, el RUS se basa en la eliminación aleatoria de un subconjunto de datos de clase mayoritaria hasta que la ratio se aproxime a la deseada. Modificando la distribución de las clases. Obteniendo un conjunto de menor tamaños que el original.
La principal desventaja de RUS es la pérdida de patrones en los conjuntos de entrenamiento. Debido a que no se tiene control sobre la información de la clase mayoritaria que se descartar. Pudiéndose eliminar información relevante para los modelos.
ROS, por otro lado, no tiene la desventaja de eliminar registros y, por lo tanto, patrones existentes en los datos. Pero al duplicar información puede facilitar la aparición de soberajuste.
Cómo se ha indicado anteriormente el remuestreo aleatorio presenta problemas. Por un lado, las RUS elimina información de los conjuntos de datos. Por otro lado, ROS puede producir sobreajuste al duplicar información. Para solucionar estos problemas se pueden utilizar técnicas de submuestreo informado. Las cuales proponen distintas aproximaciones para seleccionar los registros a eliminar. Algunas de las técnicas disponibles son:
En esta entrada se han presentados los problemas que aparecen en los subconjuntos de datos en los que existe un desequilibrio de las clases. Las técnicas más básicas que se pueden aplicar son el remuestreo aleatorio, que puede llevar a la aparición de diferentes problemas.
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…
Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…
En el octavo aniversario de Analytics Lane seguimos ampliando nuestro laboratorio de aplicaciones interactivas y,…
Hoy, 2 de mayo de 2026, Analytics Lane cumple exactamente ocho años. Todo empezó con…
This website uses cookies.