• Saltar al contenido principal
  • Skip to secondary menu
  • Saltar a la barra lateral principal
  • Saltar al pie de página
  • Inicio
  • Secciones
    • Ciencia de datos
    • Criptografía
    • Herramientas
    • Machine Learning
    • Noticias
    • Opinión
    • Productividad
    • Programación
      • JavaScript
      • Julia
      • Matlab
      • Python
      • R
  • Programación
    • JavaScript
    • Julia
    • Matlab
    • Python
    • R
  • Noticias
  • Boletín
  • Contacto
  • Tienda
    • Libros
    • Equipamiento de oficina
    • Equipamiento en movilidad
    • Tiendas afiliadas
      • AliExpress
      • Amazon
      • Banggood
      • GeekBuying
      • Lenovo

Analytics Lane

Ciencia e ingeniería de datos aplicada

  • Ciencia de datos
  • Machine Learning
  • Python
  • Pandas
  • NumPy
  • Matlab
  • Julia
  • Excel
  • IA Generativa

Solucionar la multicolinealidad con VIF

abril 22, 2020 Por Daniel Rodríguez Deja un comentario
Tiempo de lectura: 4 minutos

La multicolinealidad es un problema que afecta negativamente a los modelos de regresión. Cuando existe una relación entre algunas de las variables independientes tanto el proceso de entrenamiento como la interpretación de los modelos se hace más complicado. Por un lado, en el entrenamiento existe más de un parámetro que mejorar las predicciones en el mismo sentido, ya que sus variables asociadas están relacionadas. Por otro lado, no en el conjunto de datos no existen ejemplos en los que esas variables se mueven independientemente. Lo que nos lleva a unos parámetros con menor p-valor. En esta entrada vamos a ver cómo solucionar la multicolinealidad con VIF (Factor de Inflación de Varianza, del inglés “Variance Inflation Factor”).

Factor de Inflación de Varianza

El Factor de Inflación de Varianza (VIF, del inglés “Variance Inflation Factor”) de una variable independiente es en un valor que indica el grado de indecencia de esa variable. Para obtener el VIF en primer lugar ha de calcular la regresión lineal de una variable independiente frente a resto de variables independientes. Posteriormente se usa el R^2 de esta regresión para obtener el VIF de esta variable

VIF = \frac{1}{1-R^2}

Al fijarnos en la definición de VIF podemos ver que una variable independiente es realmente independiente del resto si el valor de VIF es igual a la unidad. Esto es el valor de R^2 es cero. Por otro lado, si el valor tiende a infinito la variable no es independiente, sino que se puede calcular a partir del resto de variables independientes.

Tutorial de Mypy para Principiantes
En Analytics Lane
Tutorial de Mypy para Principiantes

Publicidad


Utilizar VIF para solucionar la multicolinealidad

Una vez obtenido el valor de VIF para cada una de las variables independientes de un conjunto de datos es posible identificar las variables más dependientes y eliminarlas. El proceso que se debería seguir para solucionar la multicolinealidad con VIF es:

  1. Obtener el VIF para todas las variables independientes
  2. Identificar la que tiene el valor máximo de VIF, solamente una, aunque existan dos o más con el mismo valor
  3. Si esta variable supera un valor umbral, por ejemplo 5, eliminarla y volver al punto 1. En caso contrario se termina el proceso.

Es importante eliminar únicamente una variable en cada paso, ya que en caso contrario se podría eliminar todas las variables relacionadas. Por ejemplo, si tenemos una variable que es dos veces otra, en tal caso ambas tendrán un valor de VIF que tiende a infinito, ya que el R^2 es igual a uno. Si eliminamos ambas se eliminan todas las ocurrencias de esa variable, que no es lo que se desea.

Los valore umbrales típicos que se suelen utilizara son entre 5 y 10, siendo más exigentes los valore más bajos.

Implementación en Python

La eliminación de características se puede implementar fácilmente en Python, solamente hay que importar LinearRegression de Scikit Learn. En primer lugar, se tiene que hacer un método para calcular el VIF al que se le debe de pasar las variables independientes y las columnas a probar. Una función que puede devolver un vector con los valores de VIF.

Una vez se crea esta función simplemente se tiene que implementar un bucle while que elimine las características con mayor valor de VIF siempre que esta supere el límite marcado. Esto es lo que se muestra en el siguiente ejemplo.

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

def calculate_vif(X, used_cols):
    VIF = []

    for col in used_cols:
        cols = used_cols.copy()
        cols.remove(col)

        model = LinearRegression().fit(X[:, cols], X[:, col])
        VIF.append(1 / (1 - model.score(X[:, cols], X[:, col])))
    
    return VIF


X, y = load_boston(return_X_y=True)
max_vif = 5
used_cols = list(range(X.shape[1]))

VIF = calculate_vif(X, used_cols)

while max(VIF) > max_vif:
    col = VIF.index(max(VIF))
    
    print('Elimina columna:', used_cols[col], 'con VIF', max(VIF));
    used_cols.pop(col)

    VIF = calculate_vif(X, used_cols)

En este caso se ha importado los datos de Boston que existe en Scikit Learn. Una vez aplicado el método se puede ver que se ha eliminado la columna 9 que tiene un valor de VIF cercano a 9. Una vez elimina esta columna ya no es necesario eliminar más.

En este ejemplo se ha de notar que en la primera iteración hay dos columnas con VIF que supera el límite de 5. La columna 8, con un valor de 7 y la 9 con un valor de 9. Al eliminar la columna 9 la columna 8 ya es independiente. Lo que refuerza lo que se ha comentado, solamente se tiene que eliminar una variable en cada iteración.

Publicidad


Conclusiones

En esta entrada se ha visto un método para solucionar la multicolinealidad con VIF. Siendo la multicolinealidad un problema que afecta negativamente al rendimiento de los modelos de regresión. Por lo que si sabemos como identificar y eliminar la variables en las que existe multicolinealidad podremos evitar los efectos no deseados.

Imagen de wei zhu en Pixabay

¿Te ha parecido de utilidad el contenido?

¡Puntúalo entre una y cinco estrellas!

Puntuación promedio 5 / 5. Votos emitidos: 1

Ya que has encontrado útil este contenido...

¡Síguenos en redes sociales!

¡Siento que este contenido no te haya sido útil!

¡Déjame mejorar este contenido!

Dime, ¿cómo puedo mejorar este contenido?

Publicaciones relacionadas

  • Tutorial de Mypy para Principiantes
  • Semana sin nuevas publicaciones
  • Combinar gráficos con FacetGrid: Cómo analizar tendencias complejas en múltiples paneles con Seaborn
  • Introducción a igraph en R (Parte 6): Centralidad de Katz en grafos
  • Cómo modificar los mensajes de commit en Git
  • Optimización de memoria en Pandas: Usar tipos de datos personalizados para manejar grandes conjuntos de datos
  • Introducción a igraph en R (Parte 7): Centralidad de Bonacich
  • ¡Analytics Lane cumple siete años!
  • Sincronizar múltiples ejes con twinx(): Comparación de datos con diferentes escalas en un solo gráfico con Matplotlib

Publicado en: Ciencia de datos, Python Etiquetado como: Machine learning, Scikit-Learn

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

I accept the Terms and Conditions and the Privacy Policy

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Barra lateral principal

Suscríbete a nuestro boletín

Suscríbete al boletín semanal para estar al día de todas las publicaciones.

Política de Privacidad

Analytics Lane en redes sociales

  • Amazon
  • Bluesky
  • Facebook
  • GitHub
  • Instagram
  • Mastodon
  • Pinterest
  • RSS
  • Telegram
  • Tumblr
  • Twitter
  • YouTube

Publicidad

Entradas recientes

Variables globales en Python: Problemas y cómo evitarlos

mayo 12, 2025 Por Daniel Rodríguez

Los valores numéricos en los ordenadores: Entendiendo enteros, flotantes y más

mayo 9, 2025 Por Daniel Rodríguez

Introducción a igraph en R (Parte 8): PageRank

mayo 7, 2025 Por Daniel Rodríguez

Publicidad

Es tendencia

  • Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas publicado el mayo 10, 2019 | en Python
  • Copiar y pegar Activar copiar y pegar en VirtualBox publicado el mayo 1, 2019 | en Herramientas
  • Seleccionar filas y columnas en Pandas con iloc y loc publicado el junio 21, 2019 | en Python
  • Creación de documentos Word con Python publicado el septiembre 7, 2020 | en Python
  • pandas Pandas: Cómo iterar sobre las filas de un DataFrame en Pandas publicado el septiembre 13, 2021 | en Python

Publicidad

Lo mejor valorado

4.9 (24)

Seleccionar filas y columnas en Pandas con iloc y loc

4.6 (16)

Archivos JSON con Python: lectura y escritura

4.4 (14)

Ordenación de diccionarios en Python mediante clave o valor

4.7 (13)

Operaciones de filtrado de DataFrame con Pandas en base a los valores de las columnas

4.5 (10)

Diferencias entre var y let en JavaScript

Publicidad

Comentarios recientes

  • Daniel Rodríguez en Tutorial de Mypy para Principiantes
  • Javier en Tutorial de Mypy para Principiantes
  • javier en Problemas con listas mutables en Python: Cómo evitar efectos inesperados
  • soldado en Numpy básico: encontrar la posición de un elemento en un Array de Numpy
  • plataformas AéReas en Numpy básico: encontrar la posición de un elemento en un Array de Numpy

Publicidad


Footer

Analytics Lane

  • Acerca de Analytics Lane
  • Boletín de noticias
  • Contacto
  • Libros
  • Lo más popular
  • Noticias
  • Tienda
  • Tiendas afiliadas

Secciones

  • Ciencia de datos
  • Criptografía
  • Herramientas
  • Machine Learning
  • Opinión
  • Productividad
  • Programación
  • Reseñas

Sobre de Analytics Lane

En Analytics Lane tratamos de explicar los principales conceptos de la ciencia e ingeniería de datos con un enfoque práctico. Los principales temas tratados son ciencia de datos, ingeniería de datos, inteligencia artificial, machine learning, deep learning y criptografía. Además, también se habla de los principales lenguajes de programación y herramientas utilizadas por los científicos e ingenieros de datos.

Copyright © 2018-2025 Analytics Lane ·Términos y condiciones ·Política de Cookies ·Política de Privacidad ·Herramientas de privacidad ·Contacto