• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Encuestas: Tamaño de Muestra
    • Lotería: Probabilidad de Ganar
    • Reparto de Escaños (D’Hondt)
    • Tres en Raya con IA
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • Excel
  • Matlab

Comparación entre la regresión logística y SVM (máquinas de vectores de soporte)

febrero 6, 2019 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

Unos de los problemas más habituales en aprendizaje automático son los problemas de clasificación. El objetivo en este tipo de problemas es asignar la clase correcta a cada uno de los registros de un conjunto de datos. Un caso particular de estos es la clasificación binaria, en el que solamente existen dos clases que suelen etiquetadas como verdadero y falso. Los algoritmos de clasificación buscan una función que separe de la mejor forma posible los registros. Entre los algoritmos que se utilizan para resolver este tipo de problemas dos de los más habituales son la regresión logística y las máquinas de vector soporte (SVM, “Support Vector Machine”). En esta entrada se realizará una comparación entre la regresión logística y SVM.

La regresión logística

En la regresión logística se utiliza la función sigmoide para asignar un valor entre 0 y 1 a cada punto del espacio de características. La etiqueta que se le asigna a cada registro dependerá del valor que tome la función. Por encima de un valor umbral, generalmente 0,5, se le asigna el valor positivo y por debajo el valor negativo. La función sigmoidea es una curva en forma de S que solamente puede tener valores entre 0 y 1, pero nunca valores fuera de estos límites. La expresión que define la función sigmoidea es

Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo
En Analytics Lane
Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo

f(x) = \frac{1}{1 + e^{-\omega x}}

Publicidad


Máquinas de vector soporte (SVM)

En objetivo de SVM es localizar el hiperplano del espacio de características que separe de forma optima a los puntos de cada clase. Siendo el hiperplano la extensión del concepto de plano en espacios de tres dimensiones a espacios con N dimensiones. Ya que, en tres dimensiones, los planos dividen el espacio en dos mitades. Por ejemplo, en una recta (espacio de una dimensión) el punto es el hiperplano y en un plano (espacio de dos dimensiones) la recta es el hiperplano. Así los puntos que caen a un lado del hiperplano se pueden atribuir a una clase y el resto a otra.

Comparación de la función de coste

Ambos métodos se entrenan minimizando su función de coste, la que nos indica el error que se comete al clasificar. Las diferencias que existen entre ambas nos pueden ayudar a comprender las diferencias que existen entre los dos métodos. En el caso de la regresión logística la función de coste es:

J_{LR}(\omega) = \sum_i \log\left(1 + \exp\left(1 -y_i \omega^T x_i\right) \right)

Por otro lado, para las máquinas de vector soporte la función de coste es:

J_{SVM}(\omega) = \sum_i \max\left\{0, 1 - y_i \omega^T x_i\right\}

Al analizar ambas funciones de esfuerzo de la regresión logística frente a SVM hay dos aspectos a tener en cuenta:

  • La función de coste de la regresión logística diverge más rápido que la de las SVM, por lo que será más sensible a la presencia de datos atípicos. Provocando peores resultados cuando existe este tipo de valores en el conjunto de datos.
  • La función de coste logística no puede ser cero, aunque la clasificación sea muy precisa. Lo que podría conducir a una menor degradación en la precisión.

Ambos puntos indican que normalmente las SVM ofrecerán un rendimiento superior al de la regresión logística. Además, se puede observar que en el caso de SVM se maximiza el margen entre los vectores de soporte más cercanos, mientras que en la regresión logística busca maximizar la probabilidad de la clase posterior. Por lo que SVM suele encontrar soluciones que son más económicas para las dos categorías.

Otra diferencia entre ambos métodos es que la regresión logística ofrece un valor probabilístico de la clase, en lugar de una predicción como SVM. Lo que puede ser una ventaja, dado que ofrece una gran flexibilidad. En la regresión logística la predicción se realiza a fijando un valor umbral, por encima del cual la clase es verdadera y por debajo falsa. Esto permite adaptar las predicciones para reducir los falsos positivos o los falsos negativos, según nos interese en cada situación.

Publicidad


Conclusiones

Generalmente es aconsejable probar primero con la regresión logística, para ver cómo clasifica el algoritmo más sencillo. En caso de que falle o los resultados no sean satisfactorios se puede probar con SVM. La regresión logística y SVM pueden fallar porque los datos no se pueden separar linealmente. En estas situaciones se puede probar evaluar SVM con kernels no lineales.

En la entrada de hoy se han comparado la regresión logística frente a SVM, dos de los métodos más utilizados en aprendizaje automático. Ambos ofrecen buenos resultados en la mayoría de las ocasiones, aunque cada uno tiene sus ventajas.

Imágenes: Unsplash (Franck V.)

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Curiosidad: La maldición de la dimensionalidad, o por qué añadir más datos puede empeorar tu modelo
  • ¿Está concentrado el MSCI World? Un análisis con Gini, Lorenz y leyes de potencia
  • Curiosidad: ¿Por qué usamos p < 0.05? Un umbral que cambió la historia de la ciencia
  • Programador de tareas de Windows: Guía definitiva para automatizar tu trabajo (BAT, PowerShell y Python)
  • La Paradoja del Cumpleaños, o por qué no es tan raro compartir fecha de nacimiento
  • Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows
  • Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte
  • Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)
  • Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

Publicado en: Ciencia de datos Etiquetado como: Machine learning

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato

octubre 23, 2025 Por Daniel Rodríguez

Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)

octubre 21, 2025 Por Daniel Rodríguez

Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte

octubre 16, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • La tabla de la web finalmente importada en Excel Importar tablas desde la web en Excel publicado el octubre 21, 2020 | en Herramientas
  • Cómo calcular el tamaño de la muestra para encuestas publicado el septiembre 9, 2025 | en Ciencia de datos
  • Hoja de cálculo para repartir los escaños en base al método D’Hont Aplicar el método D’Hondt en Excel publicado el abril 14, 2021 | en Herramientas
  • Número óptimo de clústeres con Silhouette e implementación en Python publicado el junio 23, 2023 | en Ciencia de datos
  • Introducción a igraph en R (Parte 9): Centralidad de Prestigio y Autoridad (modelo HITS, Hyperlink-Induced Topic Search) publicado el mayo 14, 2025 | en R

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown
  • Daniel Rodríguez en Tutorial de Mypy para Principiantes

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto