• Ir al contenido principal
  • Skip to secondary menu
  • Ir a la barra lateral primaria
  • Ir al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Noticias
    • Opinión
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Boletín
  • Contacto
  • Acerca de Analytics Lane
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • GearBest
      • GeekBuying
      • JoyBuy

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Criptografía
  • Python
  • Matlab
  • R
  • Julia
  • JavaScript
  • Herramientas
  • Opinión
  • Noticias

Aprendizaje supervisado y aprendizaje no supervisado

julio 13, 2018 Por Daniel Rodríguez Dejar un comentario

Aprendizaje supervisado y no supervisado

Los modelos de aprendizaje automático se pueden dividir en dos grandes familias: aprendizaje supervisado y aprendizaje no supervisado. La principal diferencia entre estas dos familias se encuentra en los datos de entrenamiento. En el aprendizaje supervisado los resultados que se desean obtener del modelo son conocidos previamente. Siendo utilizados para guiar su entrenamiento. Por otro lado, en el aprendizaje no supervisado el resultado deseado no se utiliza durante el entrenamiento. En la mayoría de los casos tampoco se conoce previamente, siendo descubierto durante el proceso aprendizaje.

Aprendizaje supervisado

En el entrenamiento de los algoritmos de aprendizaje supervisado, además de los datos necesarios para realizar la predicción, es necesario disponer de una característica objetivo para cada una de las instancias. Siendo este el valor que el modelo ha de reproducir. Pudiendo ser este un valor tanto de tipo numérico como categórico. Una vez finalizado el proceso de entrenamiento, el valor objetivo ya no es necesario, ya que es la predicción que realiza el modelo. Solamente son necesarias el resto de las características. A partir de este momento, el valor objetivo únicamente se suele utilizar en los procesos de validación. Para comprobar si el modelo sigue siendo valido.

Clasificación

El aprendizaje supervisado es bastante común en problemas de clasificación en los que se desea obtener una categoría. Por ejemplo, son adecuados para la detección del fraude. En estos problemas se utilizan todos los datos de una operación y se busca predecir si esta es fraudulenta o legitima. Otro problema típico es el reconocimiento de caracteres en imágenes. En estos la entrada es un mapa de bits y el resultado es cualquiera de los posibles caracteres de un alfabeto.

Regresión

Otras situaciones en los que el aprendizaje supervisado es bastante habitual son en los problemas de regresión. En estos se intenta predecir un valor continuo. Por ejemplo, se puede intentar predecir las unidades producidas en una factoría en base a diferentes factores que afecten a esta. En general, el aprendizaje supervisado es adecuado para los problemas en los que se puede conocer, por lo menos para el conjunto de datos de entrenamiento, el valor o categoría que le corresponde a cada uno de los registros.

Proceso de entrenamiento

Independientemente del problema, el aprendizaje se realiza mediante la minimización del error que comente el modelo sobre el conjunto de datos de entrenamiento. Aunque solamente minimizando el error no se puede garantizar un aprendizaje correcto. Pudiendo suceder que el modelo memorice los resultados, lo que se conoce como sobreajuste. Al memorizar los datos de entrenamiento la precisión obtenida es muy alta en este conjunto, pero suele ser baja fuera de los mismos. Este efecto se observa cuando el modelo utilizado es demasiado complejo para los datos. Por otro lado, cuando en los datos una de las categorías domina sobre el resto, el modelo puede asignar todas las respuestas a la clase mayoritaria para minimizar el error. Esto es lo que se conoce como el problema de desequilibrio de clases.

El sobreajuste se resuelve reduciendo la complejidad del modelo, lo que conduce a modelos menos precisos en el conjunto de entrenamiento. Pero más realistas precisos en otros conjuntos de datos. Para el problema de desequilibrio de clases es necesario equilibrar las clases en las muestras.

Aprendizaje no supervisado

A diferencia de los algoritmos de aprendizaje supervisado, en los no supervisados no es necesario disponer de la respuesta correcta en los datos de entrenamiento. Ya que no se busaca la reproducción de un resultado conocido, sino el descubrimiento de nuevos patrones o resultados.

Estos problemas aparentan ser más complejos que los anteriores. Ya que se espera que el modelo aprenda sin decirle el qué. Los problemas más habituales en este tipo de aprendizaje son los de clúster. En estos se busca grupos de registros que son similares entres si y, al mismo tiempo, diferentes del resto. Una vez obtenidos los grupos se le ha de asignar una clasificación a cada uno, la cual puede ser conocida o no antes de entrenar el modelo. Lo que muchas veces lleva al descubrimiento de patrones desconocidos. Por ejemplo, en una tienda la agrupación de clientes puede llevar a diferencias entre los clientes fieles o de conveniencia. Descubriendo al mismo tiempo otras categorías de estos que se desconocían previamente. Estos nuevos grupos se pueden utilizar posteriormente para realizar campañas especificas al poder identificar sus intereses y preferencias comunes.

Aprendizaje por refuerzo

Otro de los problemas habituales de este tipo son los que se resuelven mediante el aprendizaje por refuerzo. En estos problemas no se conoce la solución y la forma de entrenar el modelo es mediante la introducción de refuerzos positivos o negativos en función en función de los resultados. Provocando de esta forma que el modelo pueda tomar una decisión, no predecir una categoría o un valor numérico.  

La utilizad de este enfoque se encuentra en problemas para los que se puede asignar una recompensa o penalizaciones, pero no se conoce cómo llegar al resultado. El mejor proceso para llegar al resultado es lo que lo descubre el algoritmo, ya que conoce las recompensa o la penalización asociada a cada una de sus posibles acciones y resultados. Una de sus posibles aplicaciones es en juegos, por ejemplo, el ajedrez. En estas el modelo conoce el valore de cada pieza y las posibles recompensas de sus acciones.

Conclusiones

En esta entrada se ha visto la diferencia entre las principales familias de aprendizaje que existen en el aprendizaje automático: aprendizaje supervisado y aprendizaje no supervisado. En el caso del supervisado se lo que se busca es reproducir un valor conocido en un conjunto de datos de entrenamiento. Por otro lado, en el no supervisado lo que se intenta encontrar patrones nuevos, que en muchos casos no son conocidos antes de entrenar el modelo.

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 0 / 5. Votos emitidos: 0

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Contenido relacionado

Archivado en:Ciencia de datos Etiquetado con:Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicidad


Barra lateral primaria

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

¡Síguenos en redes sociales!

  • facebook
  • github
  • telegram
  • pinterest
  • rss
  • tumblr
  • twitter
  • youtube

Publicidad

Tiendas afiliadas

Ayúdanos realizando tus compras sin coste adicional con los enlaces de la tienda. ¡Gracias!

Entradas recientes

Convertir números en cadenas y cadenas en números en Python

enero 25, 2021 Por Daniel Rodríguez Dejar un comentario

Creación de un certificado Let’s Encrypt en Windows con Win-Acme

enero 22, 2021 Por Daniel Rodríguez Dejar un comentario

Aplicaciones de Node en producción con PM2

enero 20, 2021 Por Daniel Rodríguez Dejar un comentario

Publicidad

Es tendencia

  • Seleccionar filas y columnas en Pandas con iloc y loc bajo Python
  • ¿Cómo eliminar columnas y filas en un dataframe pandas? bajo Python
  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas bajo Python
  • Unir y combinar dataframes con pandas en Python bajo Python
  • Codificación JSON Archivos JSON con Python: lectura y escritura bajo Python

Publicidad

Lo mejor valorado

5 (3)

Ordenar una matriz en Matlab en base a una fila o columna

5 (3)

Automatizar el análisis de datos con Pandas-Profiling

5 (5)

Diferencias entre var y let en JavaScript

5 (6)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

5 (3)

Unir y combinar dataframes con pandas en Python

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Calculadora de probabilidades de ganar a la lotería
  • abel en Calculadora de probabilidades de ganar a la lotería
  • David Arias en Diferencias entre regresión y clasificación en aprendizaje automático
  • Juan Aguilar en Archivos JSON con Python: lectura y escritura
  • Camilo en Contar palabras en una celda Excel

Publicidad

Footer

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Noticias
  • Opinión

Programación

  • JavaScript
  • Julia
  • Matlab
  • Python
  • R

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Lo más popular
  • Tienda

Tiendas Afiliadas

  • AliExpress
  • Amazon
  • BangGood
  • GearBest
  • Geekbuying
  • JoyBuy

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Tiendas afiliadas

Ayúdanos realizando tus compras sin coste adicional con los enlaces de la tienda. ¡Gracias!

Amazon

2018-2020 Analytics Lane · Términos y condiciones · Política de Cookies · Política de Privacidad · Herramientas de privacidad · Contacto