• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Encuestas: Tamaño de Muestra
    • Lotería: Probabilidad de Ganar
    • Reparto de Escaños (D’Hondt)
    • Tres en Raya con IA
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Aprendizaje Semisupervisado

noviembre 8, 2024 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 7 minutos

En el campo del Aprendizaje Automático (Machine Learning) los enfoques de aprendizaje se suelen dividir en tres: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. Siendo los dos primeros los más utilizados. En el aprendizaje supervisado se usan conjuntos de datos etiquetados para entrenar modelos que buscan identificar estas etiquetas. Mientras que en aprendizaje supervisado se usan conjuntos de datos sin etiquetar. Cuando se necesita entrenar un modelo de aprendizaje supervisado pero no se dispone de suficientes datos etiquetados, el aprendizaje semisupervisado surge como una alternativa que combina el aprendizaje supervisado con el aprendizaje no supervisado.

En esta entrada, se explorará qué es el aprendizaje semisupervisado, cómo se diferencia del aprendizaje supervisado y no supervisado, y por qué es tan útil en escenarios donde el etiquetado de grandes volúmenes de datos resulta costoso o no es práctico. También se mostrarán ejemplos y casos prácticos para entender cómo se puede aplicar este enfoque.

Tabla de contenidos

  • 1 Aprendizaje supervisado y no supervisado
    • 1.1 Aprendizaje supervisado
    • 1.2 Aprendizaje no supervisado
  • 2 La dificultad de encontrar datos etiquetados
  • 3 Aprendizaje semisupervisado
    • 3.1 Cómo funciona el aprendizaje semisupervisado
    • 3.2 Ejemplos de técnicas de aprendizaje semisupervisado
  • 4 Casos Prácticos
    • 4.1 Caso 1: Clasificación de imágenes médicas
    • 4.2 Caso 2: Análisis de sentimientos en redes sociales
  • 5 Ventajas del aprendizaje semisupervisado
  • 6 Problemas del aprendizaje semisupervisado
  • 7 Conclusiones

Aprendizaje supervisado y no supervisado

Antes de profundizar en el aprendizaje semisupervisado, es crucial entender los dos enfoques principales de aprendizaje automático: supervisado y no supervisado. Así como conocer sus ventajas y desventajas. Aunque existe una entrada anterior en la que se habla de ambos en profundidad, a continuación, se explica en que consiste cada uno de estos enfoques.

Faker en Python: qué es, para qué sirve y cómo generar datos sintéticos realistas
En Analytics Lane
Faker en Python: qué es, para qué sirve y cómo generar datos sintéticos realistas

Publicidad


Aprendizaje supervisado

El aprendizaje supervisado es un enfoque de aprendizaje automático donde los modelos se entrenan usando un conjunto de datos etiquetados, es decir, datos donde cada ejemplo tiene un par de entradas y salidas. El objetivo es que el modelo aprenda los patrones para relacionar correctamente las entradas con las salidas. Algo que se logra ajustando los parámetros para minimizar el error entre las predicciones del modelo y las etiquetas reales.

Por ejemplo, en un problema de clasificación de imágenes, el modelo puede entrenarse con miles de imágenes etiquetadas con sus respectivas categorías, como pueden ser “perro” o “gato”. Una vez entrenado, el modelo debería ser capaz de clasificar correctamente nuevas imágenes que no se han usado en su entrenamiento.

Las aplicaciones típicas del aprendizaje supervisado incluyen:

  • Clasificación: asignar una categoría a una entrada (como clasificar correos electrónicos en “spam” o “no spam”).
  • Regresión: predecir un valor continuo (como el precio de una vivienda basado en características como tamaño y ubicación).

Ventajas del aprendizaje supervisado:

  • Ofrece una alta precisión cuando se dispone de datos etiquetados de calidad.
  • Fácil de evaluar y ajustar mediante métricas claras como la precisión, sensibilidad o error cuadrático medio.

Desventajas:

  • Requiere una gran cantidad de datos etiquetados, lo cual puede ser costoso y consumir mucho tiempo.

Aprendizaje no supervisado

En contraste al aprendizaje supervisado, el aprendizaje no supervisado trabaja con datos no etiquetados. Por lo que el modelo solamente puede buscar patrones ocultos o estructuras subyacentes en los datos sin tener una salida específica asociada a cada entrada. El objetivo de este enfoque es agrupar o segmentar los datos de manera que se revele alguna estructura interna que no es obvia.

Ejemplos comunes de aprendizaje no supervisado incluyen:

  • Agrupamiento (clustering): dividir un conjunto de datos en grupos o clústeres donde los objetos dentro de un grupo son más similares entre sí que con los de otros grupos. Un ejemplo típico es el algoritmo K-means.
  • Reducción de dimensionalidad: técnicas como PCA (Análisis de Componentes Principales) que permiten reducir el número de variables en un conjunto de datos para hacerlo más manejable y comprensible.

Ventajas del aprendizaje no supervisado:

  • No requiere etiquetas, por lo que se puede usar grandes volúmenes de datos no etiquetados.
  • Útil para explorar datos y descubrir relaciones ocultas.

Desventajas:

  • Más difícil de evaluar, ya que no se dispone de un valor ”correcto” con el cual medir los resultados del modelo.
  • Los patrones descubiertos pueden no siempre ser útiles o interpretables.

Publicidad


La dificultad de encontrar datos etiquetados

Una de las barreras más importantes para implementar modelos de aprendizaje supervisado es la necesidad de contar con grandes cantidades de datos correctamente etiquetados. Para lo que puede ser necesario el trabajo de muchas personas. En algunos casos, como el reconocimiento de imágenes o el procesamiento de lenguaje natural, etiquetar los datos puede ser una tarea extremadamente costosa y que consume mucho tiempo, por ejemplo:

  • En el reconocimiento de imágenes médicas, se requieren expertos (como radiólogos) para revisar miles de imágenes y etiquetarlas correctamente (por ejemplo, identificar tumores en imágenes de resonancia magnética).
  • En el procesamiento de lenguaje natural (NLP), etiquetar grandes conjuntos de datos de texto puede requerir intervención humana para identificar categorías correctas o relaciones sintácticas complejas.

Además del coste del proceso de etiquetado de datos, también existe el riesgo de errores humanos y sesgos, lo que puede afectar negativamente al rendimiento del modelo.

Esta es la razón por la que se ha puesto un gran énfasis en el desarrollo de métodos que pueden aprovechar no solo datos etiquetados, sino también la abundancia de datos no etiquetados. Siendo en estos casos cuando el aprendizaje semisupervisado es una opción.

Aprendizaje semisupervisado

El aprendizaje semisupervisado se encuentra en un punto intermedio entre el aprendizaje supervisado y no supervisado. En este enfoque, los modelos se entrenan usando una pequeña cantidad de datos etiquetados junto con una gran cantidad de datos no etiquetados. La idea es que, aunque solamente los datos etiquetados contienen la información que se quiere identificar, los datos no etiquetados también contienen información útil sobre la estructura subyacente de los datos que puede ayudar a mejorar la precisión del modelo.

Publicidad


Cómo funciona el aprendizaje semisupervisado

El aprendizaje semisupervisado se basa en la premisa de que las instancias no etiquetadas pueden proporcionar pistas sobre la organización de los datos, lo que permite al modelo aprender mejor las relaciones entre las variables. A continuación, se explica el funcionamiento de un caso típico:

  1. Modelo inicial: Se entrena un modelo básico utilizando únicamente el conjunto de datos etiquetados. Este modelo es el punto de partida.
  2. Uso de datos no etiquetados: El modelo entrenado se aplica a los datos no etiquetados para realizar predicciones. La predicciones con mayor grado de confianza se utilizan para ”etiquetar” de manera provisional los datos no etiquetados.
  3. Reentrenamiento: Con este nuevo conjunto de datos (etiquetados y no etiquetados), el modelo se reentrena, ajustando sus parámetros en función de las nuevas etiquetas que han generado.

Este ciclo puede repetirse varias veces, con el objetivo de que el modelo mejore su rendimiento a medida que aprovecha tanto los datos etiquetados como los no etiquetados.

Ejemplos de técnicas de aprendizaje semisupervisado

Algunas de las más populares de aprendizaje semisupervisado son:

  1. Self-training (autoentrenamiento): El modelo se entrena inicialmente con los datos etiquetados, luego predice etiquetas para los datos no etiquetados, y las instancias con las predicciones más confiables se utilizan como etiquetas adicionales para reentrenar el modelo.
  2. Co-training: Se utilizan dos modelos diferentes que se entrenan con diferentes subconjuntos de características de los datos. Cada modelo etiqueta una parte de los datos no etiquetados, y las etiquetas generadas se intercambian entre los dos modelos para mejorar el rendimiento.
  3. Transductive Support Vector Machines (TSVMs): Es una extensión de las máquinas de vectores soporte (SVM) tradicionales, pero diseñada para funcionar con un conjunto mixto de datos etiquetados y no etiquetados.

Publicidad


Casos Prácticos

A continuación, se muestra un par de casos prácticos en los que el aprendizaje semisupervisado es una opción para el entrenamiento de los modelos.

Caso 1: Clasificación de imágenes médicas

En el caso de que se desee desarrollar un sistema para clasificar imágenes de resonancias magnéticas (MRI) en imágenes normales o con signos de tumores es necesario contar con miles de imágenes etiquetadas. Pero, etiquetar cada una de las imágenes requiere la intervención de un radiólogo, por lo que el coste de obtener nuevas imágenes correctamente etiquetadas es elevado.

Si se emplea un enfoque de aprendizaje semisupervisado, se podría entrenar un modelo inicialmente con el pequeño conjunto de datos. Luego, se podría aplicar el modelo a una gran cantidad de imágenes no etiquetadas para generar etiquetas provisionales, aumentando el conjunto de datos etiquetados sin intervención humana adicional. Al reentrenar el modelo con este conjunto expandido, se podría mejorar su precisión sin la necesidad etiquetar más imágenes.

Publicidad


Caso 2: Análisis de sentimientos en redes sociales

Las empresas desean analizar el sentimiento de los usuarios en redes sociales para conocer la percepción de sus productos o servicios. Sin embargo, etiquetar manualmente cada mensaje o comentario como positivo, negativo o neutral es una tarea ardua y costosa.

Al igual que en el caso de caso anterior, utilizar un enfoque semisupervisado podría obtener buenos resultados con un coste menor. Entrenado un modelo inicial con un pequeño conjunto de datos etiquetados. Posteriormente, este modelo se podría aplicar a miles de comentarios no etiquetados para generar predicciones sobre el sentimiento en los nuevos registros. Con este conjunto de datos expandido, se podría mejorar el análisis sin necesidad de etiquetar manualmente todos los datos.

Ventajas del aprendizaje semisupervisado

Como se ha visto, el uso de aprendizaje semisupervisado tiene algunas ventajas:

  1. Reducción del coste de etiquetado: Al requerir menos datos etiquetados, se puede ahorrar tiempo y dinero en el proceso.
  2. Uso eficiente de datos no etiquetados: Dado que los datos no etiquetados son más fáciles de recolectar, este enfoque permite que esos datos no queden sin uso.
  3. Mejora en la precisión: Al utilizar los datos no etiquetados se puede mejorar significativamente el rendimiento en comparación con usar solo datos etiquetados.

Publicidad


Problemas del aprendizaje semisupervisado

A pesar de sus ventajas, también es necesario tener en cuenta algunas de los problemas que existe al usar un enfoque de aprendizaje semisupervisado:

  1. Calidad de las etiquetas provisionales: Si el modelo inicial es inexacto, las etiquetas generadas para los datos no etiquetados pueden ser incorrectas, lo que afecta negativamente el rendimiento.
  2. Sesgo en los datos etiquetados: Si los pocos datos etiquetados contienen sesgos, estos se transferirán al conjunto de datos expandido, perpetuando errores.
  3. Dificultad en la selección del modelo: Elegir la técnica adecuada de aprendizaje semisupervisado para un problema específico puede ser complicado, y requiere experimentación.

Conclusiones

El aprendizaje semisupervisado es una técnica que permite combinar datos etiquetados y no etiquetados para entrenar modelos. Consiguiendo aumentar la eficiencia del proceso de entrenamiento. A medida que el volumen de datos no etiquetados sigue creciendo, el aprendizaje semisupervisado se está volviendo cada vez más importante en aplicaciones del mundo real, desde la visión por computadora hasta el procesamiento del lenguaje natural. Sin embargo, como cualquier técnica, presenta problemas que se deben tener en cuenta y gestionarse correctamente para maximizar sus beneficios.

Nota: La imagen de este artículo fue generada utilizando un modelo de inteligencia artificial.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicidad


Publicaciones relacionadas

  • Faker en Python: qué es, para qué sirve y cómo generar datos sintéticos realistas
  • Probabilidades y tests: por qué un resultado positivo no significa lo que crees
  • JSON en bases de datos: cuándo es buena idea y cuándo no
  • Roles en ciencia de datos: Guía completa de perfiles técnicos
  • Exactitud, precisión, recall… qué mide realmente cada métrica (y qué no)
  • Hardening de SSH en Rocky Linux 9: cómo desactivar KEX débiles y reforzar la seguridad
  • Nueva herramienta en Analytics Lane: generador de contraseñas seguras y frases de contraseña
  • Hardening de NGINX en 2026: configuración segura básica paso a paso

Publicado en: Ciencia de datos Etiquetado como: Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Hardening de NGINX en 2026: configuración segura básica paso a paso

marzo 12, 2026 Por Daniel Rodríguez

Nueva herramienta en Analytics Lane: generador de contraseñas seguras y frases de contraseña

marzo 10, 2026 Por Daniel Rodríguez

Hardening de SSH en Rocky Linux 9: cómo desactivar KEX débiles y reforzar la seguridad

marzo 5, 2026 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Identificar y eliminar duplicados en Excel publicado el marzo 13, 2019 | en Herramientas
  • Hoja en la que se puede obtener el último valor de una columna en Excel Obtener el último valor de una columna en Excel publicado el mayo 5, 2021 | en Herramientas
  • Gráficos de barras en Matplotlib publicado el julio 5, 2022 | en Python
  • pandas Pandas: Aplicar una función a las filas o columnas de un DataFrame publicado el junio 28, 2021 | en Python
  • Buscar en Excel con dos o más criterios publicado el septiembre 7, 2022 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • M. Pilar en Cómo eliminar las noticias en Windows 11 y recuperar tu concentración
  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2026 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto