• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Laboratorio
    • Encuestas: Tamaño de Muestra
    • Lotería: Probabilidad de Ganar
    • Reparto de Escaños (D’Hondt)
    • Tres en Raya con IA
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • IA Generativa
  • Python
  • Pandas
  • NumPy
  • R
  • Excel

Solucionar la multicolinealidad con VIF

abril 22, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus variables asociadas están relacionadas. Por otro lado, no en el conjunto de datos no existen ejemplos en los que esas variables se mueven independientemente. Lo que nos lleva a unos parámetros con menor p-valor. En esta entrada vamos a ver cómo solucionar la multicolinealidad con VIF (Factor de Inflación de Varianza, del inglés “Variance Inflation Factor”).

Factor de Inflación de Varianza

El Factor de Inflación de Varianza (VIF, del inglés “Variance Inflation Factor”) de una variable independiente es en un valor que indica el grado de indecencia de esa variable. Para obtener el VIF en primer lugar ha de calcular la regresión lineal de una variable independiente frente a resto de variables independientes. Posteriormente se usa el R^2 de esta regresión para obtener el VIF de esta variable

VIF = \frac{1}{1-R^2}

Al fijarnos en la definición de VIF podemos ver que una variable independiente es realmente independiente del resto si el valor de VIF es igual a la unidad. Esto es el valor de R^2 es cero. Por otro lado, si el valor tiende a infinito la variable no es independiente, sino que se puede calcular a partir del resto de variables independientes.

Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows
En Analytics Lane
Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows

Publicidad


Utilizar VIF para solucionar la multicolinealidad

Una vez obtenido el valor de VIF para cada una de las variables independientes de un conjunto de datos es posible identificar las variables más dependientes y eliminarlas. El proceso que se debería seguir para solucionar la multicolinealidad con VIF es:

  1. Obtener el VIF para todas las variables independientes
  2. Identificar la que tiene el valor máximo de VIF, solamente una, aunque existan dos o más con el mismo valor
  3. Si esta variable supera un valor umbral, por ejemplo 5, eliminarla y volver al punto 1. En caso contrario se termina el proceso.

Es importante eliminar únicamente una variable en cada paso, ya que en caso contrario se podría eliminar todas las variables relacionadas. Por ejemplo, si tenemos una variable que es dos veces otra, en tal caso ambas tendrán un valor de VIF que tiende a infinito, ya que el R^2 es igual a uno. Si eliminamos ambas se eliminan todas las ocurrencias de esa variable, que no es lo que se desea.

Los valore umbrales típicos que se suelen utilizara son entre 5 y 10, siendo más exigentes los valore más bajos.

Implementación en Python

La eliminación de características se puede implementar fácilmente en Python, solamente hay que importar LinearRegression de Scikit Learn. En primer lugar, se tiene que hacer un método para calcular el VIF al que se le debe de pasar las variables independientes y las columnas a probar. Una función que puede devolver un vector con los valores de VIF.

Una vez se crea esta función simplemente se tiene que implementar un bucle while que elimine las características con mayor valor de VIF siempre que esta supere el límite marcado. Esto es lo que se muestra en el siguiente ejemplo.

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

def calculate_vif(X, used_cols):
    VIF = []

    for col in used_cols:
        cols = used_cols.copy()
        cols.remove(col)

        model = LinearRegression().fit(X[:, cols], X[:, col])
        VIF.append(1 / (1 - model.score(X[:, cols], X[:, col])))
    
    return VIF


X, y = load_boston(return_X_y=True)
max_vif = 5
used_cols = list(range(X.shape[1]))

VIF = calculate_vif(X, used_cols)

while max(VIF) > max_vif:
    col = VIF.index(max(VIF))
    
    print('Elimina columna:', used_cols[col], 'con VIF', max(VIF));
    used_cols.pop(col)

    VIF = calculate_vif(X, used_cols)

En este caso se ha importado los datos de Boston que existe en Scikit Learn. Una vez aplicado el método se puede ver que se ha eliminado la columna 9 que tiene un valor de VIF cercano a 9. Una vez elimina esta columna ya no es necesario eliminar más.

En este ejemplo se ha de notar que en la primera iteración hay dos columnas con VIF que supera el límite de 5. La columna 8, con un valor de 7 y la 9 con un valor de 9. Al eliminar la columna 9 la columna 8 ya es independiente. Lo que refuerza lo que se ha comentado, solamente se tiene que eliminar una variable en cada iteración.

Publicidad


Conclusiones

En esta entrada se ha visto un método para solucionar la multicolinealidad con VIF. Siendo la multicolinealidad un problema que afecta negativamente al rendimiento de los modelos de regresión. Por lo que si sabemos como identificar y eliminar la variables en las que existe multicolinealidad podremos evitar los efectos no deseados.

Imagen de wei zhu en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Cómo abrir una ventana de Chrome con tamaño y posición específicos desde la línea de comandos en Windows
  • Curiosidad: El sesgo de supervivencia, o por qué prestar atención sólo a los que “llegaron” puede engañarte
  • Documentar tu API de Express con TypeScript usando OpenAPI (Swagger)
  • Data Lake y Data Warehouse: diferencias, usos y cómo se complementan en la era del dato
  • ¿Media, mediana o moda en variables ordinales? Guía práctica para el análisis de datos
  • Cómo ejecutar JavaScript desde Python: Guía práctica con js2py
  • Cómo generar contraseñas seguras con Python (y entender su nivel de seguridad)
  • Curiosidad: ¿Por qué los datos “raros” son tan valiosos?
  • Detectan vulnerabilidad crítica en MLflow que permite ejecución remota de código

Publicado en: Ciencia de datos, Python Etiquetado como: Machine learning, Scikit-Learn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Cómo crear un Data Lake en Azure paso a paso

noviembre 13, 2025 Por Daniel Rodríguez

¿Por qué el azar no es tan aleatorio como parece?

noviembre 11, 2025 Por Daniel Rodríguez

Noticias

Detectan vulnerabilidad crítica en MLflow que permite ejecución remota de código

noviembre 10, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Cómo calcular el tamaño de la muestra para encuestas publicado el septiembre 9, 2025 | en Ciencia de datos
  • Hoja de cálculo para repartir los escaños en base al método D’Hont Aplicar el método D’Hondt en Excel publicado el abril 14, 2021 | en Herramientas
  • Visualización de valores faltantes en el conjunto de datos planets Visualización de valores faltantes con Missingno publicado el diciembre 6, 2021 | en Python
  • pandas Pandas: Mostrar todos los elementos de un DataFrame publicado el agosto 26, 2021 | en Python
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • Pepe en Probabilidad básica: cómo entender el azar en nuestra vida diaria
  • CARLOS ARETURO BELLO CACERES en Justicio: La herramienta gratuita de IA para consultas legales
  • Piera en Ecuaciones multilínea en Markdown
  • Daniel Rodríguez en Tutorial de Mypy para Principiantes

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto