Ciencia de datos

Test de causalidad de Wiener-Granger

El test de causalidad de Wiener-Granger, o causalidad de Granger, es una prueba estadística empleada para determinar si una serie temporal puede predecir a otra. Para ello se basa en la idea de que si una serie temporal X causa otra Y, los modelos de Y en los que se emplean datos retrasados de X e Y deben funcionar mejor los basados únicamente en datos retrasados de Y. Permitiendo identificar en series temporales en las que se observa una correlación que variable antecede a la otra.

Causalidad no significa causa-efecto

El concepto de causalidad que mide el test de Wiener-Granger se puede relacionar con el concepto de causa-efecto, aunque no es lo mismo. El test solamente identifica si una variable antecede a otra en una serie temporal. Lo que la convierte en una buena predictora para la serie temporal. Es decir, si en unos datos se observa causalidad de Granger, no existe necesariamente un vínculo causal en el verdadero sentido de la palabra. Por ejemplo, ahora que se acercan las Navidades se podría observar que las ventas de turrón muestran causalidad de Granger con la Navidad, pero no causan esta. Sino que las ventas de turrón se producen por la misma causa que la Navidad, el calendario.

El test de causalidad de Wiener-Granger en Python

Una implementación en Python del test de causalidad de Wiener-Granger se puede encontrar en el paquete statsmodel. Implementación a la que se puede acceder mediante la función grangercausalitytests. Función que admite una matriz bidimensional en la que la primera columna se encuentran los valores de la serie que se desea predecir y en la segunda el posible predictor. El segundo elemento de la función indica el máximo retraso con el que se realiza el test a las series temporales.

El test realiza la siguiente hipótesis nula: la serie de la segunda columna no es causa de la primera con un cierto retraso. Así, si se obtiene p-valores por debajo del nivel de significancia se puede rechazar la hipótesis concluyendo que la causalidad existe.

Por ejemplo, se puede probar relaciones en conjuntos de datos macroeconómicos de los Estados Unidos que se pueden encontrar en el paquete statsmodel. Así se puede ver que existe una relación entre el PIB y la inversión privada.

import statsmodels.api as sm
from statsmodels.tsa.stattools import grangercausalitytests
import numpy as np

data = sm.datasets.macrodata.load_pandas()
data = data.data[['realgdp', 'realcons']].pct_change().dropna()

grangercausalitytests(data, maxlag=1)
Granger Causality
number of lags (no zero) 1
ssr based F test:         F=28.7248 , p=0.0000  , df_denom=198, df_num=1
ssr based chi2 test:   chi2=29.1600 , p=0.0000  , df=1
likelihood ratio test: chi2=27.2295 , p=0.0000  , df=1
parameter F test:         F=28.7248 , p=0.0000  , df_denom=198, df_num=1

En este caso los p-value son cero con lo que podemos rechazar la hipótesis nula, es decir, podemos rechazar que no existe una relación entre el PIB y la inversión privada.

Pero la relación no es tan clara entre el PIB y la inversión federal.

data = sm.datasets.macrodata.load_pandas()
data = data.data[['realgdp', 'realgovt']].pct_change().dropna()
grangercausalitytests(data, maxlag=1)
Granger Causality
number of lags (no zero) 1
ssr based F test:         F=3.8125  , p=0.0523  , df_denom=198, df_num=1
ssr based chi2 test:   chi2=3.8703  , p=0.0491  , df=1
likelihood ratio test: chi2=3.8335  , p=0.0502  , df=1
parameter F test:         F=3.8125  , p=0.0523  , df_denom=198, df_num=1

En este caso los p-value son cercanos a 0,05, por lo que no se puede rechazar tan claramente como en el caso anterior la hipótesis nula.

Conclusiones

En esta entrada se ha visto el test de causalidad de Wiener-Granger con el que se puede comprobar si existe causalidad entre ellas. Algo que nos permite saber si se pueden emplear para predecir.

Imágenes: Pixabay (SparrowsHome)

¿Te ha parecido de utilidad el contenido?

Daniel Rodríguez

Share
Published by
Daniel Rodríguez

Recent Posts

De la Regresión Logística al Scorecard: La Transformación Matemática

En un entrada previa explicamos qué son el WOE y el IV y por qué…

24 horas ago

Analytics Lane lanza la versión 1.1 del laboratorio con nuevas suites de CLV y Scoring

Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…

2 días ago

Interés compuesto: la fuerza que multiplica tu dinero (y los errores que la anulan)

“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…

6 días ago

Cómo comparar datos con barras en Matplotlib: agrupadas, apiladas y porcentuales

Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…

1 semana ago

Costes hundidos en ciencia de datos: cuándo mantener un modelo y cuándo migrar

Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…

2 semanas ago

WOE e IV: La Base Matemática del Credit Scoring

Cuando un banco evalúa una solicitud de crédito necesita responder a una pregunta aparentemente simple:…

2 semanas ago

This website uses cookies.