Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se conoce como el Problema del Desequilibrio de Clases (Class Imbalance Problem).
Por ejemplo, en los problemas de fraude la situación más habitual es encontrar un caso positivo por cientos o miles negativos. En estos conjuntos de datos es normal esperar una reducción del rendimiento de los clasificadores. Siendo esta mayor cuanto mayor sea el desequilibrio existente en los datos.
El motivo por el que los clasificadores no función bien con conjunto de datos desbalanceados se debe a diferentes casusas, entre las que se pueden destacar:
Existen tres estrategias principales para trabajar con conjuntos de datos desbalanceados, estos son
Las estrategias de remuestreo más fáciles de implementar son las aleatorias. Tanto sea el sobremuestreo aleatorio (Random Over-Sampling, ROS) o el submuestreo aleatorio (Random Under-Sampling, RUS).
El ROS se basa en la duplicación de un subconjunto aleatorio de los registros de la clase minoritaria seleccionados dentro del conjunto original. Esta técnica permite que el número total de registros de la case minoritaria aumente. Ajustándose de este modo la distribución de las clases en el conjunto de entrenamiento.
Por otro lado, el RUS se basa en la eliminación aleatoria de un subconjunto de datos de clase mayoritaria hasta que la ratio se aproxime a la deseada. Modificando la distribución de las clases. Obteniendo un conjunto de menor tamaños que el original.
La principal desventaja de RUS es la pérdida de patrones en los conjuntos de entrenamiento. Debido a que no se tiene control sobre la información de la clase mayoritaria que se descartar. Pudiéndose eliminar información relevante para los modelos.
ROS, por otro lado, no tiene la desventaja de eliminar registros y, por lo tanto, patrones existentes en los datos. Pero al duplicar información puede facilitar la aparición de soberajuste.
Cómo se ha indicado anteriormente el remuestreo aleatorio presenta problemas. Por un lado, las RUS elimina información de los conjuntos de datos. Por otro lado, ROS puede producir sobreajuste al duplicar información. Para solucionar estos problemas se pueden utilizar técnicas de submuestreo informado. Las cuales proponen distintas aproximaciones para seleccionar los registros a eliminar. Algunas de las técnicas disponibles son:
En esta entrada se han presentados los problemas que aparecen en los subconjuntos de datos en los que existe un desequilibrio de las clases. Las técnicas más básicas que se pueden aplicar son el remuestreo aleatorio, que puede llevar a la aparición de diferentes problemas.
En casi cualquier análisis estadístico —ya sea en medicina, psicología, economía o ciencia de datos—…
El MSCI World Index suele presentarse como “la ventana al mundo” para quienes invierten en…
En el mundo del análisis de datos solemos escuchar una idea poderosa: cuantos más datos,…
¿Te has encontrado con este error al intentar instalar paquetes con npm? npm ERR! code…
En ciencia de datos y estadística, los promedios y porcentajes son herramientas fundamentales para resumir…
Las bases de datos son el corazón de casi cualquier sistema de información moderno. Ya…
This website uses cookies.