Instrumentos de trabajo

La Estadística General el concepto de correlación ha probado ser un excelente instrumento para analizar el enlace lineal entre dos variables aleatorias denotadas por Y, Z

La Correlación entre dos variables aleatorias  Y y Z mide el grado al cual tienden a moverse conjuntamente, es una medición sobre el co-movimiento que manifiestan.

G = Cov[(Y -mY)/sY ,(Z -mZ)/sZ)] = E[(Y -mY)/sY]× [(Z -mZ)/sZ)]

y la Covarianza entre W y V es Cov(W, V) = E[(W -m w)× (V -m V)]

Si se toma W = (Y -mY)/sY , V = (Z -mZ)/sZ se comprenden ambas relaciones.

Note que se tiene la relación Cov(Zt, Zt) = Var [Zt] = s 2

La correlación es la covarianza con los datos centrados y ajustados por la dispersión. Por lo que ambos conceptos miden el grado de enlace lineal entre Y y Z. Cuando nos interesa aplicar esta medida para una variable con su pasado, pasamos a estudiar el comportamiento de las observaciones con su historia, esto es, se mide la tendencia de la serie a moverse como antes lo hizo, para llevar esto a cabo tomamos el par Zt, Zt-k y nos fijaremos en su enlace lineal a k periodos de distancia. Como el valor de k es variable llegamos a una correspondencia; a cada k le asocia el enlace que presenta el par ( Zt, Zt-k). Esta historia de co-movimiento de la variable con su pasado es la función de Autocorrelación definida como:

r (k) = Corr(Zt, Zt-k ) = E[(Zt - m )/s ][Zt-k - m )/s ]

Recuerde que para procesos estacionarios del segundo orden la media es constante y por lo tanto E[Zt ] = E[Zt+k] = m y la varianza también es constante, esto es: s ² = Var(Zt,) = Var(Zt+k) para todo valor de k.

El símbolo r (k) denota a la función de autocorrelación, ya que su labor es medir la correlación de la serie consigo misma a distancia k, esta función no depende del punto en el tiempo de referencia solo depende de la distancia que separa a las observaciones, ( no afecta t pero si influye k) ya que si cambiamos de t a s nos queda que:

r (k) = Corr( Zt, Zt+k ) = E[(Zs - m )/s ]× E[(Zs+k - m )/s ]

La autocorrelación tiene tres propiedades importantes:

A) r (0) = 1

B) -1 £ r (k) £ 1

C) r (k) = r ( - k)

A) La autocorrelación de una variable a tiempo presente es igual a uno ya que el grado de asociación es perfecto.

B) Nos indica el grado de tendencia a moverse juntas (Zt, Zt+k), en el caso de que sea una autocorrelación positiva, 0 £ r (k) £ 1, O a moverse en la dirección opuesta, bajo autocorrelación negativa -1 £ r (k) £ 0.

C) Nos indica que con tabular los valores positivos de k se obtiene toda la información que es requerida.

Esta ultima relación se obtiene de observar las igualdades:

r (k) = Corr(Zt, Zt+k ) = Corr(Zt-k ,Zt) = r ( - k)

Su gráfica se obtiene poniendo en el eje horizontal los valores de k, mientras que en el eje vertical la autocorrelación.

 

Veamos el aspecto de estimación:

La covarianza puede ser estimada por cualquiera de los dos estimadores:

Peligro, note que ambos estimadores son sesgados:

Como la varianza de la media muestral tiende a cero, para muestras grandes puede ser ignorado este termino, con lo cual se ve que el primer estimador tiene un mayor sesgo que el segundo, note que si desea mantener acotado este sesgo se debe tomar k< T/4

En resumen para la práctica se utiliza la función de autocorrelación muestral a partir de una muestra de tamaño T, con esta se calculan las covarianzas muestrales.

vea que la suma va desde 1 hasta T-k, Y se pasa a la función de autocorrelación muestral:

Un resultado útil en las aplicaciones es que Bartlett (1946) mostró, que si no se presenta correlación entre observaciones a distancia mayor a q [o sea que r (k) = 0 si k > q], la varianza de la autocorrelación muestral r ~(k), para valores k > q, se puede aproximar por:

Var(r ~(k)) = [1/T] [ 1 + 2× S r ²(s)] donde la suma va de 1 a q

Si las observaciones no presentan autocorrelación, entonces la anterior afirmación se reduce a: si la serie no es autocorrelada r (k) = 0 para k > 0 entonces se debe de tener: Var(r (k)) = [1/T] para k > 0.

A partir de aquí es posible mostrar que para muestras grandes, la autocorrelación muestral r ~(k) es aproximadamente normal con media cero y varianza 1/T, así un intervalo de confianza al 95% para el valor parámetro poblacional r (k) esta dado por:

[ r ~(k) - 1.96/Ö T , r ~(k) + 1.96/Ö T ]

Para que la autocorrelación sea significativa es suficiente con comprobar que

r ~(k) cae afuera de la banda: [ - 1.96/Ö T , + 1.96/Ö T]. O sea se rechaza, la idea de que la autocorrelación es nula toda vez que se cumpla la desigualdad El lector debe recordar que se buscan "picos" en la función de autocorrelación muestral, ya que estos exhiben una alta correlación entre observaciones k periodos aparte; se define como pico un valor de la autocorrelación que esta afuera de esta banda.

La gráfica de la función de autocorrelación muestral se le llama el correlograma, en esta a cada valor de k le asocia la correlación revelada en la muestra entre la variable y su pasado a distancia k. En otras palabras los picos revelan un co-movimiento significativo.

Interesa mirar los picos, donde la autocorrelación muestral se sale de la banda, cuando uno mira el correlograma.

En el dibujo se tienen picos o sea valores elevados para k=1, 2,3,y 5,6 esto significa que las correlaciónes entre (Zt y Zt-1), (Zt y Zt-2), (Zt y Zt-3), (Zt y Zt-5), (Zt y Zt-6) se muestran significativas, mientras que el valor de k=4,7,8,9,… tienen una correlación baja. Para localizar los picos en la función de autocorrelación uno puede tomar las primeras 20 autocorrelaciones.

Note que la función de autocorrelación muestral es también una función simétrica alrededor del origen:

Ya que la autocovarianza muestral es simétrica:

Tiene una consecuencia práctica importante en lugar de perder las ultimas k observaciones, tomar los datos desde t=1, hasta T - k. Es mejor se gastan las primeras k observaciones en los retrasos y se toman los datos desde t=k + 1, hasta T.

 

 

 

La Autocorrelación parcial. Ya que contamos con la experiencia lograda de las ideas de la regresión, podemos decir que el último parámetro de la autoregresión (la variable contra su pasado) nos da el valor de la autocorrelación parcial de orden k.

La autocorrelación parcial de orden k denotada por f k, mide la correlación que existe entre Zt y Zt + k después de que ha sido removida la dependencia lineal de las componentes intermedias, Zt + 1 , Zt + 2 , Zt + 3,......,Zt + k-2 ,Zt + k-1 o sea, mide la contribución que se logra al agregar Zt para explicar Zt+k.

Se define como la correlación condicional:

Pk = Corr[ Zt , Zt + k | Zt + 1 , Zt + 2 , Zt + 3, ........Zt + k-2 ,Zt + k-1]

Donde Zt es una serie de media cero E[Zt ] = 0. Un resultado interesante de la teoría es hacer ver que es posible obtener la autocorrelación parcial por medio de una regresión como sigue:

ya que es la autocorrelación parcial.

El termino Pk se obtienen de la ultima coordenada de la regresión con k términos sin constante, (los datos ya han sido centrados). Esta será la ruta a seguir en adelante para estimar la autocorrelación parcial siempre se tomara el último coeficiente en una autoregresión.

Bajo la hipótesis que el proceso { Zt } que se estudia es ruido blanco la varianza de Pk es aproximada por Var[ Pk ] ~ 1/T, por lo que los limites al 95% dados por ± 1.96/Ö T pueden ser usados para cotejar si el proceso es ruido blanco.

Diciendo la idea de otra manera para que la autocorrelación parcial sea significativa es suficiente con comprobar que Pk cae afuera de la banda:

[ - 1.96/Ö T , + 1.96/Ö T].

o sea, se rechaza la idea de que la autocorrelación parcial es nula toda vez que se cumpla la desigualdad

                                               

 

El lector debe notar que se buscan picos en la función de autocorrelación parcial muestral, ya que estos exhiben una alta contribución a explicar el proceso.

El papel de la Autocorrelación Parcial es ayudar a establecer la determinación del valor de p en un AR(p). Ya que para estimar un proceso autoregresivo se usa una regresión, podemos decir que el último parámetro significativo nos da el valor correcto de p para un proceso AR(p), repitiendo; la función de autocorrelación parcial de orden k mide la correlación que existe entre zt y zt-k que no ha sido tomada en cuenta por el modelo AR(k-1), mide la contribución que se logra al agregar zt-k para explicar zt. Cuando ya no son significativas las nuevas , porque ya no son significativas sus contribuciones se halla que el valor correcto es p para el proceso AR(p). De esta manera la autocorrelación parcial nos da un punto de corte en p.

Se puede mostrar que en un proceso AR(p), que la autocorrelación parcial f ^k converge a una distribución normal con media cero y varianza 1/T para k > p con lo cual se establecen los intervalos de confianza al 95% dados por

( f k - 1.96/Ö T , f k + 1.96/Ö T )

equivalentemente es suficiente comprobar que para k > p cada f k cae adentro de la banda [ - 1.96/Ö T , + 1.96/Ö T ]. Para tomar la idea de que se trata de un proceso AR(p), se debe presentar un punto de corte.

Interesa hallar los picos, están donde la autocorrelación muestral parcial se sale de la banda.

En suma, se sacan las autocorrelaciones parciales f 1, f 2, ...., f k , ... y se busca el primer valor de k, para el cual la autocorrelación parcial f k cae adentro de la banda indicando que su contribución ya no es significativa, este valor de k no debe ser incluido en el modelo AR(p), ya que los regresores a usar, incorporan el pasado relevante, los que si contribuyen a explicar zt, y que se manifiesta por una autocorrelación parcial significativa, están fuera de la banda de ancho 1.96/Ö T

Los valores de k que se salen de la banda, son los que nos van a importar.

Uno saca los primeros k <T/4 rezagos y debe mirar que solamente los retrasos que arrojan valores significativos, o sea que están afuera de la banda ± 1.96 / Ö T , T es el tamaño de la muestra. Estos serán llamados picos, por lo que identificar es saber hallar los picos en la autocorrelación muestral y en la autocorrelación parcial muestral.