BOX-JENKINS

Al finalizar esta parte el lector deberá estar en la posibilidad de elaborar sus propios modelos usando el método de Box-Jenkins. Al ir siguiendo las etapas él verá como es la experiencia práctica. No es aquí una parte teórica donde se revise digamos el teorema de Wold, sino el objetivo es usar la técnica. Es por tanto necesario que al revisar sus lecturas, simultáneamente use su PC para analizar las series económicas de su interés.

Transformaciones útiles en la práctica. Es común que la serie inicial que se desea analizar sea una serie evolutiva, el lector puede recordar las gráficas del PIB, las manufacturas, el nivel general de precios, la masa monetaria, etc. Estas son series evolutivas, ya que la variable va creciendo conforme pasa el tiempo.

Las series con las que se trabaja se les llama: series estacionarias en covarianza, lo que esto quiere decir es que son series que:

A) Oscilan alrededor de un nivel constante.

B) Estas oscilaciones presentan regularidad en su comportamiento, ya que no hay explosiones de volatilidad (la desviación estandar) y por último.

C) Los patrones de co-movimiento (la autocorrelación)  de la serie con su pasado no dependen del momento (en el tiempo) donde se le mire.

Este último punto mostrará ser vital; ya que si analizamos la   tendencia a moverse ayer (usando los datos) y obtenemos una ecuación que la reproduzca, esta formula va a generar los pronósticos, ¿por que funciona? porque el co-movimiento revelado en la muestra es el mismo que presentará a futuro. En otras palabras la teoría establece una correspondencia entre funciones de autocovarianza (y autocorrelacion) y modelos ARMA. Los datos nos llevan a la función de autocorrelación, la teoría nos dice su modelo ARMA con este proyectamos y por ser una serie estacionaria en covarianza el patrón de co-movimiento ayer es el de mañana. El modelo correcto debe ser capaz de anticipar, puesto que captura la estructura del proceso que genera a los datos.

Si se tiene una serie que no sea estacionaria, ya sea que la media m(t), la varianza s²(t), o la autocorrelación r(t,k) dependan de t.  Lo que implica que al pasar el tiempo cambia el nivel,  la dispersión o el grado de enlace lineal entre las observaciones que están a la misma distancia.

Las variables económicas observadas en general presentan una tendencia hacia el crecimiento, por lo que esta teoría no se puede aplicar directamente. Lo que se hace es realizar una transformación que modifique a la serie original en otra serie que si sea estacionaria en covarianza, lo usual es pasar a tasas de crecimiento o primeras diferencias (llamada también variación absoluta)

Las transformaciones frecuentes de aplicar son:

1. Cambio porcentual: Zt% = 100*( Zt - Zt-1) / Zt-1

2. Cambio porcentual en Logs: Zt%= 100* Log( Zt / Zt-1 )

Note que: 100* Log( Zt / Zt-1 )= 100*[ Log( Zt ) - Log(Zt-1)]

Si el crecimiento de Z es chico los dos caminos dan resultados muy similares ya que al desarrollar hasta orden dos en la serie de Taylor se tiene:

Log( Zt / Zt-1) ~ [ Zt - Zt-1] / Zt-1 - { [Zt / Zt-1] -1}² /2

El termino cuadrático  [ { [Zt / Zt-1] -1}² /2   ]  es chico si el crecimiento es moderado.

3. Logaritmos Zt= Log( Zt ) este requiere que Zt>0.

4. Diferencias de logaritmos:

    Wt = Log( Xt) - Log( Yt ) = Log( Xt / Yt)

5. Primeras diferencias DZt = ( Zt - Zt-1)

6. Segundas diferencias D²Zt = DZt - DZt-1

     o sea:  D²Zt = Zt - 2 Zt-1 + Zt-2

7. d-esimas diferencias DdZt =  (1-B)dZt

8. Diferencia estacional   (1 - B4) Zt = Zt - Zt-4

9. Diferencia estacional   (1 - B12) Zt = Zt - Zt-12

Las dos últimas son usadas con datos trimestrales y mensuales respectivamente, lo que hacen es filtrar la componente estacional, es decir la eliminan.

Una decisión importante al construir un modelo si la serie original, { Zt } no es estacionaria pero es posible asumir que existen (p,d,q) tales que:

A.-   Hay una valor d que es el orden de diferenciación Wt= (1-B)dZt,  pasamos a una serie ya diferenciada Wt la cual si es estacionaria ya que son constantes la media  m , la varianza  s2 y  la covarianza r(k) ya no depende del tiempo.

B.-   Debido a que Wt ya es un proceso estacionario puramente no determinista,. Existe una representación MA que se puede reparametrizar como un ARMA(p,q).

Esta idea siempre estará presente en el desarrollo, trabajaremos con series que ya son estacionarias y que les podemos asociar su modelo ARMA.

El método de trabajo de Box-Jenkins es constructivo, o sea no se trata de decir que existe el modelo y ya, sino de mostrar como se establece esta representación lineal. La idea es ir por etapas: transformaciones iniciales, identificación, estimación, validación,  pronóstico son las componentes del método que muestra explícitamente que la serie original Zt se puede modelar por un ARIMA(p,d,q).

 Si solo se han aplicado primeras diferencias  será un ARIMA(p,1,q), si requiere segundas diferencias es un ARIMA(p,2,q), en general si se aplica (1-B)d se llega a un ARIMA(p,d, q).

Uno debe evitar el sobre-diferenciar la serie original y eliminar información valiosa que se manifestaría en la función de autocorrelación. Ya que en un caso de sobre-diferenciación las autocorrelaciones se hacen aún más complicadas, y el modelo pierde parsimonia, se incrementa la varianza y se pierden d-observaciones.

Uno podría tomar otra ruta y afirmar: No se reacciona de la misma manera ante buenas noticias que ante las malas nuevas por lo que la variable responde de modo asimétrico. El modelo que hace este trabajo es un TAR, Treshold Autoregresive Model. El umbral (treshold) esta dado por el valor d, las buenas noticias son cuando X>d, mientras que las malas X<d.

Un ejemplo de un modelo TAR es:

El lector puede tomar como punto de corte entre los dos regímenes (treshold) a d=0 y la variable X es el rendimiento de un título financiero, el modelo se usa para modelar ajuste asimétrico.

Se presenta una gráfica de un TAR si el rendimiento (simulado)   es positivo la reacción es diferente a cuando el rendimiento es negativo.

Datos generados en la PC por el modelo:

                                                                     a=0.0251*N(0,1)

r(t)  =     (0.1-0.8*r(t-1)+a(t) )                     si    r(t -1)>=0.005

               (a(t)+0.73*r(t -1)+0.16*r(t -2))    si     r(t -1)<0.005

Los movimiento hacia la alza son  diferentes a los movimientos a la baja, revelan una reacción asimétrica. esta especificación es usada en Finanzas, en Comercio Exterior se usan modelos con dos regimenes para la banda cambiaria. Cuando el tipo de cambio esta adentro de la banda todo va bien para la divisa.

Se presenta el movimiento (simulado) de una  divisa,  con dos umbrales:

  ( d1 = 0.05 y   d2= -0.01 )    a=0.021*N(0,1)

x(t) =   ( 0.5*x(t-1)+a(t))                       si    x(t-1) >= d1

            (a(t)+0.73*x(t-1)-0.8*x(t-2))    si   x(t-1) < d1  y x(t-1) > d2)

            (a(t) +0.6*x(t-1)+0.3*x(t-2))    si   x(t-1) <= d2

El lector puede imaginar que es posible hablar de los casos análogos a AR(p), MA(q), ARMA(p,q) y de k regímenes. Estos modelos modelos se deben a Howell Tong quien los presenta en su libro Non-linear Time Series Oxford Press.1990.

Otra clase importante de modelos no lineales es la de los modelos bilineales, iniciada por T.W. Anderson. Uno los aplica cuando el comportamiento de la serie es claramente no-lineal.

donde at es una colección de variables aleatorias de media cero, varianza constante e independientes entre sí, se le llama ruido blanco fuerte en la literatura. En el caso de que el ruido blanco sea gaussiano las dos nociones coinciden.

Si las g ´s son ceros es un modelo ARMA, si g es no nula para i < j se le llama superdiagonal, si g es no nula para i > j se le llama subdiagonal.

Ambos tipos de modelos requieren métodos de estimación no-lineal, y pueden ser estudiados en Tong Howell, (pag 114) Non-linear Time Series, Oxford University Press 1990. 

A diferencia del caso lineal que la teoría esta ya terminada ( en el sentido que para toda pregunta ya se conoce su respuesta), el caso bilineal aún es tierra extraña. Se conocen modelos aislados sin una presentación general, por ejemplo:

xt = b xt-1+ c xt-1 at-1+ at  

tiene el requerimiento         b2 + c2 S2<1

Se presenta una gráfica de un modelo bilineal,

xt = b xt-1+ c xt-1 at-1+ at    donde  b = -0.79,  c = -0.972,   S = 0.55 

son los parámetros  y  S2   es  la varianza   en  a = s* N(0,1)  

vea que   b2 + c2 S2 =  0.9098  < 1

   

Cuando tenga la gráfica haga un minucioso examen sobre lo que ve. Tiene la serie una línea de tendencia, ¿de que tipo, determinista ó estocástica?. ¿Ve un patrón cíclico?, ¿cuantos datos tiene para afirmar este comportamiento?, ¿la varianza es constante o se ven con claridad episodios de alta y baja volatilidad?.

Si tiene problemas con la varianza (condicional no constante) lo primero que debe ajustar es una transformación que estabilice la varianza y después aplicar primeras o segundas diferencias, etc. Muchas series económicas presentan este problema y tomando logaritmos se resuelve. A partir de los 90´s han surgido los modelos ARCH, GARCH, M-ARCH que incorporan de otra manera el fenómeno de la volatilidad variable. Que será visto después.

Un sencillo ejemplo consiste en tomar  a(t) = s(t)*nrnd

S2(t) = 0.1+0.001*S2(t-1)+0.0032*S2(t-2)+0.623*a2(t-1) +0.13*a2(t-2)

Un modelo Garch se usa para modelar periodos de volatilidad variable presenta una varianza condicional no constante, por lo que son muy usados en finanzas.

Si desea pude aplicar una transformación que estabilice la varianza a través de la transformación de Box y Cox;   Note que estas transformaciones se aplican solo para series que son positivas. Una transformación que estabiliza la varianza va antes de cualquier otra transformación, es donde se comienza el trabajo.

Ya vimos antes la prueba de Dickey- Fuller esta se debe aplicar para cotejar que ya se tiene una serie estacionaria.

Una modificación útil en la práctica es tomar la costumbre de restar la media a las observaciones originales para hacerlas centradas. Si la serie estacionaria Yt tiene media mY, es muy conveniente ajustar la serie original y formar la serie centrada: {Zt}, Zt = Yt - mY, en la práctica siempre es recomendable tomar datos centrados.

 

Identificar de que proceso se trata es proponer los valores de p y q en el modelo ARMA(p,q), para llevar a cabo la identificación se requieren cruzar varias etapas. A saber, se estimar la media del proceso aquí se toma el estimador de la media simple el cual es un estimador consistente e insesgado y por otra parte están las funciones de autocorrelación y autocorrelación parcial.

Los valores grandes de la autocorrelación y la autocorrelación parcial denotan componentes importantes a ser incluidas en el modelo que se proponga. En otras palabras los picos revelan un co-movimiento significativo. Interesa mirar los picos, donde la autocorrelación se sale de la banda, (T es el tamaño de la muestra):

-1.96/Ö T £ r(s) £ 1.96/Ö T.

 

En el dibujo se tienen picos o sea valores elevados para k=1, 2,3,y 5,6 esto significa que las correlaciónes entre (Zt y Zt-1), (Zt y Zt-2), (Zt y Zt-3), (Zt y Zt-5),         (Zt y Zt-6) se muestran significativas, mientras que en los  valores  de k = 4,7,8,9,… tienen una correlación baja. Para localizar los picos en la función de autocorrelación uno puede tomar los primeros k=20 valores. El valor de k no se toma mayor a T/4 donde T es el tamaño de la muestra.

Es enteramente análogo para la autocorrelación parcial,   también se buscan picos en la gráfica de esta función, con la misma banda   (T es el tamaño de la muestra):

-1.96/Ö T £ r(s) £ 1.96/Ö T.

Las ideas importante que se deben rocordar son:

Un MA(q) tiene una autocorrelación que presenta un punto de corte en el valor q. La autocorrelación parcial de un MA(q) presenta un decaimiento que puede oscilar bajo ondas seno/coseno.

Un AR(p) tiene una autocorrelación que presenta un decaimiento que puede oscilar bajo ondas seno/coseno.  La autocorrelación parcial en un AR(p) presenta un punto de corte en p.

Se sugiere un ARMA(p,q) si se presenta un decaimiento en ambas. El patrón general es que eventualmente las autocorrelaciones en un ARMA(p,q) siguen un patrón AR(p). Mientras que las autocorrelaciones parciales siguen un comportamiento de un MA(q).

Si la función de autocorrelación no parece decaer, puede ser que:   a) el proceso no es estacionario en covarianza  o b) que es un proceso de memoria larga.

En una tabla se ponen los resultados para mejor referencia.

Proceso

Autocorrelación

Autocorrelación parcial

AR(p)

Decaimiento

Punto de corte en q

MA(q)

Punto de corte en p

Decaimiento

ARMA(p,q)

Decaimiento en el retraso q-p

Decaimiento en el retraso p-q

Un proceso autoregresivo del primer orden AR(1), esta dado por  zt = r×zt-1 + at    {at} es ruido blanco. -1 < r < 1 ,

Una media móvil de orden MA(2), en esta el ruido blanco y su pasado es quien describe la evolución del proceso estocástico {zt}

zt = at - m1 at-1 - m2 at-2

Es conveniente tomar los parámetros de modo que satisfagan las condiciones:

m2 + m1 < 1                m2 - m1 < 1                -1 < m2 < 1

Otros tipo de procesos estocásticos:

Autoregresivo de media móvil (1,1), ARMA(1,1)

zt = r×zt-1 + at - m1 at-1

Autoregresivo de media móvil (3,2),  ARMA(3,2)

zt = r1 zt-1 + r2 zt-2 + r3 zt-3 + at - m1 at-1 - m2 at-2

Recuerde lo usual es que p,q  sean chicos, digamos no mayores a 6.

Estimación del modelo. Cuando uno ya tiene los picos localizados en realidad uno ya tiene una  propuesta de   modelo ARIMA(p,d,q), ahora debe mirar si lleva una constante q , ¡¡peligro!! en caso de que d>0 debe tener cuidado con la interpretación que haga de este parámetro q

En suma uno ha comenzado con la serie { Wt }, no fué estacionaria por lo que se requirio pasar a la nueva serie { Zt } y perdimos las d primeras observaciones.

Zt = (1-B)dWt, luego  usamos las funciones de autocorrelación y autocorrelación parcial, buscando los picos, estos nos dan los terminos a proponer en el modelo general:

Ya tiene un fuerte candidato ahora estímelo, en la práctica esta es una labor de cómputo. Uno debe escoger el paquete a usar por la flexibilidad que le ofrece, utilice ante toda posible alternativa el software que le ofrezca la estimación de máxima verosimilitud o en su caso mínimos cuadrados ordinarios.

Lo usual es pasar de la estimación inicial, al análisis de los residuos aquí uno vuelve a buscar picos pero en los residuos. estos picos revelan terminos que uno debe incluir en la nueva formulación ARMA que volverá a estimar. Este ciclo de re-especificación dinámica termina cuando los residuos ya no presentan correlaciones (picos)  y se puede decir que son residuos de ruido blanco.

La estimación moderna es únicamente por computadora lo se necesita es tener el software adecuado. Lo puede hallar entre otros:

http://www.estima.com                      producen el RATS.

http://www.eviews.com                      producen el Eviews.

http://www.mathematica.com           producen el Mathematica.

http://www.matlab.com                      producen el Matlab.

http://www.mathsoft.com                   producen el MathCad.

http://www.aptech.com                      producen el Gauss.

Si quiere saber de uno en particular y no sabe adonde lo podría hallar, vaya a  google y  escriba   el nombre. 

¿Que desea?.

Rutinas ya establecidas, todo funciona automáticamente, uno solo mira al monitor y todo lo hace el programa de cómputo, use AutoBox la compañía es Automatic Forecasting.

Rutinas simples con otras avanzadas, en un programa amigable de fácil manejo use MicroTSP o Econometric Views en Windows.

Rutinas donde uno pueda programar y estar al día. Haciendo uno mismo sus programas personales.

Un programa de alto nivel, use Mathematica, MATHCAD, MAPLE, Microfit, Rats o Matlab (use este si piensa aplicar sus análisis  a Finanzas). Con un mes de aprendizaje Ud. programa y tiene todo el control sobre sus resultados.

Un programa de bajo nivel, use Fortran++, o Visual C++ en este caso va a dar estos programas ejecutables a un tercero para que él los use. Esta es la ruta si piensa abrir una empresa que venda programas de acuerdo a las necesidades de sus clientes ya sea en Internet ( en cuyo caso requiere de los lenguajes HTML,  XML, y Java ).

Pruebas de diagnóstico. La validación del modelo es la última puerta para salvarlo de un equivocado pronóstico, es importante mirar esta etapa más que un examen al modelo -que eso es- sino también enfocar este trabajo como una autocrítica al método usado para obtener el mejor modelo.

Debe lograr ser hábil en las pruebas de diagnóstico, ¿ya esta seguro de su modelo?, hágalo pasar por múltiples pruebas de hipótesis, actualmente existe una gran variedad de pruebas y en la práctica estas vienen incluidas en los programas de cómputo. Ponga especial cuidado en el análisis de los residuos.

Una vez que el modelo ha sido estimado debe ser sometido a pruebas de validación estas se apoyan en la idea de que los residuos no poseen una componente sistemática ya que no presentan ninguna autocorrelación significativa, esta condición es que {at} sea ruido blanco.

Los residuos deben de manifestar las características:

A) Una media constante e igual a cero, si es el caso los residuos se ven oscilando alrededor del eje X.

B) Una varianza constante, grafique residuos contra tiempo y vea si observa una banda paralela al eje X, donde se mueve la variable.

C) No presentar correlación, así la función de autocorrelación de los residuos ser nula, para s>0, ( no hay picos) por lo que en cada nivel debe de mantenerse dentro de la banda:           -1.96/Ö T £ r(s) £ 1.96/Ö T.

D) Se puede generar un histograma con los residuos, ¿están distribuidos bajo la normal? Aplique la prueba de Jarque-Bera.

2.- Cotejar el modelo adecuado vía una sobreparametrización.

Si se esta considerando un modelo ARMA(p,q), uno puede estimar los modelos ARMA(p+1, q) ARMA(p,q+1) y realizar una prueba de significación.

3.- Es útil aplicar la prueba de Ljung-Box: se escoge un valor de k < T/4  para mirar los cuadrados de las primeras K autocorrelaciones muestrales del ARMA(p,q),

Se plantea la prueba de hipótesis de que se trata de ruido blanco así sus autocorrelaciones deben ser nulas.  Es claro que si la serie aún tiene una estructura interna de correlación la cual es importante, algunas cifras r ~ (j) son significativas, ya que hay picos mostrando una importante correlación  a distancia j, al ser cuadrados no pueden darse cancelaciones, por lo que el estadístico de prueba será grande y por tanto se debe rechazar la hipótesis nula.

Ljung y Box es utilizado ahora ampliamente:

 

este estadístico de prueba, para muestras grandes, sigue una distribución de ji-cuadrada con g.l. = (K-p-q) en un modelo ARMA(p,q), se rechaza la nula, que los errores carecen de autocorrelación, toda vez que se obtenga un valor grande en el estadístico de prueba.

Selección de modelos. Es usual encontrarse con varios modelos alternativos y uno debe decidirse por cual escoger. Uno tiene de primera mano a la función de autocorrelación y a la autocorrelación parcial las cuales se aplican a los residuos del modelo final. Uno tiene los estimadores y sus varianzas con los que se puede hacer una prueba t a cada parámetro del modelo, tiene el Durbin-Watson que es posible usarlo en este contexto, tiene la suma de los cuadrados de los residuos, así como la función logaritmo de máxima verosimilitud, están las pruebas de Jarque-Bera, Bartlett,  Ljung-Box. Esta batería de pruebas nos lleva algunas veces a tener varios modelos alternativos, por lo tanto uno se pregunta ¿cual escoger?, vamos a mirar dos grupos amplios de criterios para escoger un modelo.

 A) Criterios basados en parsimonia y la calidad de ajuste que tiene el modelo.

B) Criterios por su eficiencia en los pronósticos.

A) Criterios basados en parsimonia y la calidad de ajuste que tiene el modelo. La idea de parsimonia es que un buen modelo tiene pocos parámetros ya que ha capturado las propiedades intrínsecas de la serie que se analiza, un modelo complicado con demasiados parámetros es un modelo sin parsimonia.

Todo este método usa la historia de los datos para después extrapolar hacia adelante la serie, la idea es que un modelo que reproduce adecuadamente la realización ya observada ha capturado el proceso y por tanto sirve para pronosticar, en este sentido la calidad de ajuste que es la suma de los cuadrados de los residuos dividida por el tamaño de la muestra. Esta cifra mide la habilidad del modelo para reproducir los datos de la muestra.

En esta dirección esta el Criterio de Akaike, aqui el modelo tiene en total M parámetros que van a ser ajustados a los datos se define:

El criterio de información de Akaike pondera entre la función logaritmo de máxima verosimilitud, usando la varianza residual, y el número de parámetros en el modelo. El modelo a escoger es donde AIC es mínimo.

El Criterio de Schwartz va en la dirección similar este ajusta por tamaño de la muestra, El modelo a escoger es donde S(M) es mínimo.

se define:

 

B) Criterios por su eficiencia en los pronósticos.

Hay quien pueda afirmar, el modelo es útil solo en la medida que anticipa la evolución de la variable. En este sentido se esta aceptando que uno espere a que vengan las futuras observaciones para después analizar la calidad del modelo. Esto se le llama una evaluación ex-post.

Uno puede hacer una evaluación ex-ante, o sea, no incluir las ultimas 1, 2, 3,....  en total guardar "s"  observaciones de la serie mientras construye al modelo, con el modelo calculado en la submuestra uno proyecta los valores y los compara con los "s" datos que separó, esta acción permite analizar el error de pronóstico  y evaluar al modelo, si los errores son pequeños el modelo es aceptable.

Una vez terminado el análisis entre datos proyectados versus datos reales. Se incluyen estas ultimas observaciones y se vuelve a estimar el modelo con la muestra completa y generar sus pronósticos.

El error de pronóstico se define como:

ZT(j) es el pronóstico de ZT+j realizado al momento T para j periodos adelante, los criterios de pronóstico son los siguientes: