• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Encuestas: Tamaño de Muestra
    • Lotería: Probabilidad de Ganar
    • Reparto de Escaños (D’Hondt)
    • Tres en Raya con IA
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

El problema de desequilibrio de clases en conjuntos de datos de entrenamiento

julio 4, 2018 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Modelos de datos

Al enfrentarse a la situación de crear un modelo de clasificación es habitual que las clases no se encuentran balanceadas. Esto es, el número de registros para una de las clases es inferior al resto. Cuando el desequilibrio es pequeño, uno a dos, esto no supone un problema, pero cuando es grande es un problema para la mayoría de los modelos de clasificación. Esta situación se conoce como el Problema del Desequilibrio de Clases (Class Imbalance Problem).

Por ejemplo, en los problemas de fraude la situación más habitual es encontrar un caso positivo por cientos o miles negativos. En estos conjuntos de datos es normal esperar una reducción del rendimiento de los clasificadores. Siendo esta mayor cuanto mayor sea el desequilibrio existente en los datos.

¿Por qué es difícil aprender en dominios no balanceados?

El motivo por el que los clasificadores no función bien con conjunto de datos desbalanceados se debe a diferentes casusas, entre las que se pueden destacar:

  • Existencia de subclases poco representadas (Small Disjuncts): las subclases poco representadas en los conjuntos de datos pueden ser confundidas con ruido o datos atípico. Provocando que el clasificador ignore estos registros.
  • Falta de densidad en los datos de entrenamiento (Lack of density): al no disponer de una densidad suficiente en los datos los algoritmos pueden no ser capaces de llevar a cabo una generalización. Al no encontrar una zona en el espacio de atributos con suficiente densidad como para inducir un patrón.
  • Solape entre clases (Class Separability Problem): puede aparecer un solape entre las clases en las zonas fronterizas. Dando lugar a que ambas clases tenga una representación similar en estos tramos. Esto hace que sea imposible separar ambas. En los conjuntos de datos desbalanceados la subrepresentación de una clase hace que la dominante prevalezca. Provocando que aparezcan errores de falso negativo para los registros minoritarios.
  • Confusión con ruido (Noisy data): los registros atípicos toman especial importancia en los conjuntos de datos no balanceados. Esto es debido a dificultad para poder discriminarlos frente a los sobrerrepresentados.
  • Separación del conjunto de datos (Dataset shift): este problema apara cuando las instancias de entrenamiento y test siguen una distribución de probabilidad diferente. Por lo que aparece una reducción del rendimiento del clasificador en el conjunto de test. Este problema se puede solucionar con una estrategia bien diseñada de validación. Pero en los conjuntos desbalanceados la poca representación de la clase minoritaria hace que los resultados sean especialmente sensibles.

Publicidad


Soluciones al problema

Existen tres estrategias principales para trabajar con conjuntos de datos desbalanceados, estos son

Balance de 2025 en Analytics Lane
En Analytics Lane
Balance de 2025 en Analytics Lane

  • Remuestreo: es la estrategia más directa, simplemente se modifica la distribución de las clases en el conjunto de entrenamiento. Existiendo dos aproximaciones diferentes: sobremuestreo y submuestreo. El sobremuestreo consiste en aumentar la presencia de la clase minoritaria. Por el otro lado, el submuestreo consiste en reducir la presencia de la clase mayoritaria.
  • Ensemble: se basan en la construcción de distintas hipótesis sobre el mismo conjunto de datos. Ya se mediante la utilización de subconjuntos de entrenamiento o una penalización sucesiva que corrija los errores de clasficación.
  • Técnicas híbridas: estas son una combinación de las técnicas anteriores.

Remuestreo aleatorio

Las estrategias de remuestreo más fáciles de implementar son las aleatorias. Tanto sea el sobremuestreo aleatorio (Random Over-Sampling, ROS) o el submuestreo aleatorio (Random Under-Sampling, RUS).

El ROS se basa en la duplicación de un subconjunto aleatorio de los registros de la clase minoritaria seleccionados dentro del conjunto original. Esta técnica permite que el número total de registros de la case minoritaria aumente. Ajustándose de este modo la distribución de las clases en el conjunto de entrenamiento.

Por otro lado, el RUS se basa en la eliminación aleatoria de un subconjunto de datos de clase mayoritaria hasta que la ratio se aproxime a la deseada. Modificando la distribución de las clases. Obteniendo un conjunto de menor tamaños que el original.

Publicidad


Problemas asociados al remuestreo aleatorio

La principal desventaja de RUS es la pérdida de patrones en los conjuntos de entrenamiento. Debido a que no se tiene control sobre la información de la clase mayoritaria que se descartar. Pudiéndose eliminar información relevante para los modelos.

ROS, por otro lado, no tiene la desventaja de eliminar registros y, por lo tanto, patrones existentes en los datos. Pero al duplicar información puede facilitar la aparición de soberajuste.

Submuestreo informado

Cómo se ha indicado anteriormente el remuestreo aleatorio presenta problemas. Por un lado, las RUS elimina información de los conjuntos de datos. Por otro lado, ROS puede producir sobreajuste al duplicar información. Para solucionar estos problemas se pueden utilizar técnicas de submuestreo informado. Las cuales proponen distintas aproximaciones para seleccionar los registros a eliminar. Algunas de las técnicas disponibles son:

  • NearMiss
  • One-Sided Selection (OSS)
  • Cluster Centroids (ClC)

Publicidad


Conclusiones

En esta entrada se han presentados los problemas que aparecen en los subconjuntos de datos en los que existe un desequilibrio de las clases. Las técnicas más básicas que se pueden aplicar son el remuestreo aleatorio, que puede llevar a la aparición de diferentes problemas.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Balance de 2025 en Analytics Lane
  • El promedio engañoso: cuando la media no cuenta toda la historia
  • Comprender las pruebas de hipótesis para no especialistas
  • Ordenadores para Machine Learning e Inteligencia Artificial en 2026: Guía completa para elegir el equipo adecuado según tu perfil y presupuesto
  • ¿Qué significa realmente un porcentaje? Por qué no es lo mismo subir un 20% que bajar un 20%
  • null y undefined en JavaScript y TypeScript: ¿son realmente lo mismo?
  • Riesgo relativo vs riesgo absoluto: la trampa de los titulares alarmistas
  • Guía práctica de categorías para changelogs en inglés y castellano
  • El valor esperado: la mejor herramienta que casi nadie usa

Publicado en: Ciencia de datos Etiquetado como: Estadística, Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

El valor esperado: la mejor herramienta que casi nadie usa

febrero 5, 2026 Por Daniel Rodríguez

Guía práctica de categorías para changelogs en inglés y castellano

febrero 3, 2026 Por Daniel Rodríguez

Riesgo relativo vs riesgo absoluto: la trampa de los titulares alarmistas

enero 29, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • ¿Qué es la estadística y por qué todos deberíamos comprenderla? publicado el noviembre 22, 2024 | en Opinión
  • Correlación y causalidad: no es lo mismo publicado el junio 13, 2025 | en Ciencia de datos
  • Gráfica con los datos y las anomalías detectadas con OneClass SVM One-Class SVM: Detección de anomalías con máquinas de vector soporte publicado el marzo 15, 2024 | en Ciencia de datos
  • Cómo encontrar la posición de elementos en una lista de Python publicado el abril 12, 2021 | en Python
  • pandas Optimización con Chunks en archivos grandes: Uso de pd.read_csv() con el Parámetro chunksize publicado el febrero 17, 2025 | en Python

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto