Média Móvel Integrada Autoregressiva - ARIMA DEFINIÇÃO de Média Móvel Integrada Autoregressiva - ARIMA Modelo de análise estatística que utiliza dados de séries temporais para prever tendências futuras. É uma forma de análise de regressão que procura predizer movimentos futuros ao longo da caminhada aparentemente aleatória feita pelas ações e pelo mercado financeiro examinando as diferenças entre os valores da série em vez de usar os valores dos dados reais. Lags das séries diferenciadas são referidos como auto-regressivos e os atrasos dentro dos dados previstos são referidos como média móvel. BREAKING DOWN Média Movente Integrada Autoregressiva - ARIMA Este tipo de modelo é geralmente referido como ARIMA (p, d, q), com os inteiros referindo-se ao autorregressivo. Integradas e móveis do conjunto de dados, respectivamente. ARIMA modelagem pode levar em conta tendências, sazonalidade. Ciclos, erros e aspectos não-estacionários de um conjunto de dados ao fazer previsões. Introdução para ARIMA: modelos não-temporais ARIMA (p, d, q) previsão de equação: modelos ARIMA são, em teoria, a classe mais geral de modelos de previsão de um tempo Série que pode ser feita para ser 8220stationary8221 por diferenciação (se necessário), talvez em conjunto com transformações não-lineares, como logging ou deflação (se necessário). Uma variável aleatória que é uma série de tempo é estacionária se suas propriedades estatísticas são todas constantes ao longo do tempo. Uma série estacionária não tem tendência, suas variações em torno de sua média têm uma amplitude constante, e ele se move de forma consistente. Isto é, os seus padrões de tempo aleatório a curto prazo têm sempre o mesmo aspecto num sentido estatístico. Esta última condição significa que suas autocorrelações (correlações com seus próprios desvios prévios em relação à média) permanecem constantes ao longo do tempo, ou de forma equivalente, que seu espectro de poder permanece constante ao longo do tempo. Uma variável aleatória desta forma pode ser vista (como de costume) como uma combinação de sinal e ruído, eo sinal (se for aparente) poderia ser um padrão de reversão média rápida ou lenta, ou oscilação sinusoidal, ou rápida alternância no sinal , E poderia também ter uma componente sazonal. Um modelo ARIMA pode ser visto como um 8220filter8221 que tenta separar o sinal do ruído, e o sinal é então extrapolado para o futuro para obter previsões. A equação de previsão de ARIMA para uma série de tempo estacionária é uma equação linear (isto é, tipo de regressão) na qual os preditores consistem em atrasos da variável dependente e / ou atrasos dos erros de previsão. Ou seja: Valor previsto de Y uma constante e / ou uma soma ponderada de um ou mais valores recentes de Y e / ou uma soma ponderada de um ou mais valores recentes dos erros. Se os preditores consistem apenas em valores defasados de Y., é um modelo autoregressivo puro (8220 auto-regressado8221), que é apenas um caso especial de um modelo de regressão e que poderia ser equipado com software de regressão padrão. Por exemplo, um modelo autoregressivo de primeira ordem (8220AR (1) 8221) para Y é um modelo de regressão simples no qual a variável independente é apenas Y retardada por um período (LAG (Y, 1) em Statgraphics ou YLAG1 em RegressIt). Se alguns dos preditores são defasagens dos erros, um modelo ARIMA não é um modelo de regressão linear, porque não há maneira de especificar o erro 8222 como uma variável independente: os erros devem ser calculados em base período a período Quando o modelo é ajustado aos dados. Do ponto de vista técnico, o problema com o uso de erros defasados como preditores é que as previsões do modelo não são funções lineares dos coeficientes. Mesmo que sejam funções lineares dos dados passados. Portanto, os coeficientes em modelos ARIMA que incluem erros retardados devem ser estimados por métodos de otimização não-lineares (8220hill-climbing8221) ao invés de apenas resolver um sistema de equações. O acrônimo ARIMA significa Auto-Regressive Integrated Moving Average. Lags das séries estacionalizadas na equação de previsão são chamados de termos quotautorregressivos, os atrasos dos erros de previsão são chamados de quotmoving termos médios e uma série de tempo que precisa ser diferenciada para ser estacionária é dito ser uma versão quotintegrada de uma série estacionária. Modelos de Random-walk e tendência aleatória, modelos autorregressivos e modelos de suavização exponencial são casos especiais de modelos ARIMA. Um modelo ARIMA não sazonal é classificado como um modelo quotARIMA (p, d, q) quot, onde: p é o número de termos autorregressivos, d é o número de diferenças não sazonais necessárias para a estacionaridade e q é o número de erros de previsão defasados em A equação de predição. A equação de previsão é construída como se segue. Em primeiro lugar, vamos dizer a d diferença de Y. o que significa: Note que a segunda diferença de Y (o caso d2) não é a diferença de 2 períodos atrás. Pelo contrário, é a primeira diferença de primeira diferença. Que é o análogo discreto de uma segunda derivada, isto é, a aceleração local da série em vez da sua tendência local. Em termos de y. A equação de previsão geral é: Aqui os parâmetros da média móvel (9528217s) são definidos de modo que seus sinais sejam negativos na equação, seguindo a convenção introduzida por Box e Jenkins. Alguns autores e software (incluindo a linguagem de programação R) definem-los para que eles tenham mais sinais em vez disso. Quando números reais são conectados à equação, não há ambigüidade, mas é importante saber qual convenção seu software usa quando está lendo a saída. Muitas vezes os parâmetros são indicados por AR (1), AR (2), 8230 e MA (1), MA (2), 8230, etc. Para identificar o modelo ARIMA apropriado para Y. você começa por determinar a ordem de diferenciação (D) necessidade de estacionarizar a série e remover as características brutas da sazonalidade, talvez em conjunto com uma transformação estabilizadora de variância, tal como o desmatamento ou desinflação. Se você parar neste ponto e prever que a série diferenciada é constante, você tem apenas montado uma caminhada aleatória ou modelo de tendência aleatória. No entanto, a série estacionária pode ainda ter erros autocorrelacionados, sugerindo que algum número de termos AR (p 8805 1) e / ou alguns termos MA (q 8805 1) também são necessários na equação de previsão. O processo de determinar os valores de p, d e q que são melhores para uma dada série temporal será discutido em seções posteriores das notas (cujos links estão no topo desta página), mas uma prévia de alguns dos tipos De modelos não-sazonais ARIMA que são comumente encontrados é dada abaixo. ARIMA (1,0,0) modelo autoregressivo de primeira ordem: se a série é estacionária e autocorrelacionada, talvez possa ser predita como um múltiplo de seu próprio valor anterior, mais uma constante. A equação de previsão neste caso é 8230, que é regressão Y sobre si mesma retardada por um período. Este é um modelo 8220ARIMA (1,0,0) constant8221. Se a média de Y for zero, então o termo constante não seria incluído. Se o coeficiente de inclinação 981 1 for positivo e menor que 1 em magnitude (ele deve ser menor que 1 em magnitude se Y estiver parado), o modelo descreve o comportamento de reversão de média no qual o valor do próximo período deve ser 981 vezes 1 Longe da média como valor deste período. Se 981 1 for negativo, ele prevê o comportamento de reversão de média com alternância de sinais, isto é, também prevê que Y estará abaixo do próximo período médio se estiver acima da média neste período. Em um modelo autorregressivo de segunda ordem (ARIMA (2,0,0)), haveria um termo Y t-2 à direita também, e assim por diante. Dependendo dos sinais e magnitudes dos coeficientes, um modelo ARIMA (2,0,0) poderia descrever um sistema cuja reversão média ocorre de forma sinusoidal oscilante, como o movimento de uma massa sobre uma mola submetida a choques aleatórios . Se a série Y não for estacionária, o modelo mais simples possível para ela é um modelo randômico randômico, que pode ser considerado como um caso limitante de um modelo AR (1) em que o modelo autorregressivo Coeficiente é igual a 1, ou seja, uma série com reversão média infinitamente lenta. A equação de predição para este modelo pode ser escrita como: onde o termo constante é a variação média período-período (ou seja, a deriva a longo prazo) em Y. Este modelo poderia ser montado como um modelo de regressão sem interceptação em que o A primeira diferença de Y é a variável dependente. Uma vez que inclui (apenas) uma diferença não sazonal e um termo constante, é classificada como um modelo de ARIMA (0,1,0) com constante. quot O modelo randômico-sem-desvio seria um ARIMA (0,1, 0) sem constante ARIMA (1,1,0) modelo autoregressivo de primeira ordem diferenciado: Se os erros de um modelo de caminhada aleatória são autocorrelacionados, talvez o problema possa ser corrigido adicionando um lag da variável dependente à equação de predição - Eu Pela regressão da primeira diferença de Y sobre si mesma retardada por um período. Isto resultaria na seguinte equação de predição: que pode ser rearranjada para Este é um modelo autorregressivo de primeira ordem com uma ordem de diferenciação não sazonal e um termo constante - isto é. Um modelo ARIMA (1,1,0). ARIMA (0,1,1) sem suavização exponencial simples constante: Uma outra estratégia para corrigir erros autocorrelacionados em um modelo de caminhada aleatória é sugerida pelo modelo de suavização exponencial simples. Lembre-se que para algumas séries temporais não-estacionárias (por exemplo, as que exibem flutuações barulhentas em torno de uma média de variação lenta), o modelo de caminhada aleatória não funciona tão bem quanto uma média móvel de valores passados. Em outras palavras, ao invés de tomar a observação mais recente como a previsão da próxima observação, é melhor usar uma média das últimas observações para filtrar o ruído e estimar com mais precisão a média local. O modelo de suavização exponencial simples usa uma média móvel exponencialmente ponderada de valores passados para conseguir esse efeito. A equação de predição para o modelo de suavização exponencial simples pode ser escrita em um número de formas matematicamente equivalentes. Uma das quais é a chamada 8220error correction8221, na qual a previsão anterior é ajustada na direção do erro que ela fez: Como e t-1 Y t-1 - 374 t-1 por definição, isso pode ser reescrito como : Que é uma equação de previsão ARIMA (0,1,1) sem constante com 952 1 1 - 945. Isso significa que você pode ajustar uma suavização exponencial simples especificando-a como um modelo ARIMA (0,1,1) sem Constante, eo coeficiente MA (1) estimado corresponde a 1-menos-alfa na fórmula SES. Lembre-se que no modelo SES, a idade média dos dados nas previsões de 1 período antecipado é de 1 945, o que significa que tendem a ficar aquém das tendências ou pontos de viragem em cerca de 1 945 períodos. Segue-se que a média de idade dos dados nas previsões de 1 período de um modelo ARIMA (0,1,1) sem constante é de 1 (1 - 952 1). Assim, por exemplo, se 952 1 0,8, a idade média é 5. Quando 952 1 aproxima-se de 1, o modelo ARIMA (0,1,1) sem constante torna-se uma média móvel de muito longo prazo e como 952 1 Aproxima-se 0 torna-se um modelo randômico-caminhada-sem-deriva. Nos dois modelos anteriores discutidos acima, o problema dos erros autocorrelacionados em um modelo de caminhada aleatória foi fixado de duas maneiras diferentes: adicionando um valor defasado da série diferenciada Para a equação ou adicionando um valor defasado do erro de previsão. Qual abordagem é a melhor Uma regra para esta situação, que será discutida em mais detalhes mais adiante, é que a autocorrelação positiva é geralmente melhor tratada pela adição de um termo AR para o modelo e autocorrelação negativa é geralmente melhor tratada pela adição de um MA termo. Nas séries econômicas e de negócios, a autocorrelação negativa muitas vezes surge como um artefato de diferenciação. Portanto, o modelo ARIMA (0,1,1), no qual a diferenciação é acompanhada por um termo de MA, é mais freqüentemente usado do que um modelo de auto-correlação positiva. Modelo ARIMA (1,1,0). ARIMA (0,1,1) com suavização exponencial simples constante com crescimento: Ao implementar o modelo SES como um modelo ARIMA, você realmente ganha alguma flexibilidade. Em primeiro lugar, o coeficiente MA (1) estimado pode ser negativo. Isto corresponde a um factor de suavização maior do que 1 num modelo SES, o que normalmente não é permitido pelo procedimento de ajustamento do modelo SES. Em segundo lugar, você tem a opção de incluir um termo constante no modelo ARIMA se desejar, para estimar uma tendência média não-zero. O modelo ARIMA (0,1,1) com constante tem a equação de predição: As previsões de um período de adiantamento deste modelo são qualitativamente semelhantes às do modelo SES, exceto que a trajetória das previsões de longo prazo é tipicamente uma Inclinada (cuja inclinação é igual a mu) em vez de uma linha horizontal. ARIMA (0,2,1) ou (0,2,2) sem suavização exponencial linear constante: Os modelos lineares de suavização exponencial são modelos ARIMA que utilizam duas diferenças não sazonais em conjunto com os termos MA. A segunda diferença de uma série Y não é simplesmente a diferença entre Y e ela mesma retardada por dois períodos, mas sim é a primeira diferença da primeira diferença - i. e. A mudança na mudança de Y no período t. Assim, a segunda diferença de Y no período t é igual a (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Uma segunda diferença de uma função discreta é análoga a uma segunda derivada de uma função contínua: ela mede a quotaccelerationquot ou quotcurvaturequot na função em um dado ponto no tempo. O modelo ARIMA (0,2,2) sem constante prevê que a segunda diferença da série é igual a uma função linear dos dois últimos erros de previsão: que pode ser rearranjada como: onde 952 1 e 952 2 são MA (1) e MA (2) coeficientes. Este é um modelo de suavização exponencial linear geral. Essencialmente o mesmo que Holt8217s modelo, e Brown8217s modelo é um caso especial. Ele usa médias móveis exponencialmente ponderadas para estimar um nível local e uma tendência local na série. As previsões a longo prazo deste modelo convergem para uma linha recta cujo declive depende da tendência média observada no final da série. ARIMA (1,1,2) sem suavização exponencial linear de tendência amortecida constante. Este modelo é ilustrado nos slides acompanhantes nos modelos ARIMA. Ele extrapola a tendência local no final da série, mas aplana-lo em horizontes de previsão mais longos para introduzir uma nota de conservadorismo, uma prática que tem apoio empírico. Veja o artigo sobre "Por que a tendência de amortecimento" trabalha por Gardner e McKenzie e o artigo de "Rule of Gold" de Armstrong et al. para detalhes. É geralmente aconselhável aderir a modelos nos quais pelo menos um de p e q não é maior do que 1, ou seja, não tente encaixar um modelo como ARIMA (2,1,2), uma vez que isto é susceptível de conduzir a sobre-adaptação E quotcommon-factorquot questões que são discutidas em mais detalhes nas notas sobre a estrutura matemática dos modelos ARIMA. Implementação de planilhas: modelos ARIMA como os descritos acima são fáceis de implementar em uma planilha. A equação de predição é simplesmente uma equação linear que se refere a valores passados de séries temporais originais e valores passados dos erros. Assim, você pode configurar uma planilha de previsão ARIMA armazenando os dados na coluna A, a fórmula de previsão na coluna B e os erros (dados menos previsões) na coluna C. A fórmula de previsão em uma célula típica na coluna B seria simplesmente Uma expressão linear referindo-se a valores nas linhas precedentes das colunas A e C, multiplicada pelos coeficientes AR ou MA apropriados armazenados em outras células na planilha. Modelos ARIMA sazonais gerais: (0,1,1) x (0,1,1 ) Etc. Esboço da modelagem ARIMA sazonal: A parte sazonal de um modelo ARIMA tem a mesma estrutura que a parte não sazonal: pode ter um fator AR, um fator MA e / ou uma ordem de diferenciação. Na parte sazonal do modelo, todos esses fatores operam em múltiplos de lag s (o número de períodos em uma estação). Um modelo ARIMA sazonal é classificado como um modelo ARIMA (p, d, q) x (P, D, Q), onde Pnúmero de termos sazonais autorregressivos (SAR), Dnúmero de diferenças sazonais, Na identificação de um modelo sazonal, o primeiro passo é determinar se é necessária ou não uma diferença sazonal, além ou talvez em vez de uma diferença não sazonal. Você deve olhar as parcelas de séries temporais e as parcelas ACF e PACF para todas as combinações possíveis de 0 ou 1 diferença não-sazonal e 0 ou 1 diferença sazonal. Cuidado: nunca use mais de uma diferença sazonal, nem mais do que duas diferenças totais (sazonal e não sazonal combinado). Se o padrão sazonal é forte e estável ao longo do tempo (por exemplo, alto no verão e baixa no inverno, ou vice-versa), então você provavelmente deve usar uma diferença sazonal, independentemente de usar uma diferença não sazonal, uma vez que isso vai Evitar o padrão sazonal de quotdying outquot nas previsões de longo prazo. Regra 12: Se a série tem um padrão sazonal forte e consistente, então você deve usar uma ordem de diferenciação sazonal - mas nunca use mais de uma ordem de diferenciação sazonal ou mais de 2 Ordens de diferenças totais (sazonais). A assinatura do SAR puro ou do comportamento SMA puro é semelhante à assinatura do AR puro ou do comportamento MA puro, exceto que o padrão aparece em múltiplos de lag s no ACF e no PACF. Por exemplo, um processo SAR puro (1) tem picos no ACF em defasagens s, 2s, 3s, etc. enquanto o PACF corta após o atraso s. Por outro lado, um processo puro de SMA (1) tem picos no PACF em defasagens s, 2s, 3s, etc. enquanto o ACF corta após o atraso s. Uma assinatura SAR geralmente ocorre quando a autocorrelação no período sazonal é positiva, ao passo que uma assinatura SMA geralmente ocorre quando a autocorrelação sazonal é negativa. Portanto: Regra 13: Se a autocorrelação no período sazonal é positiva. Considere a adição de um termo SAR ao modelo. Se a autocorrelação no período sazonal é negativa. Considere a adição de um termo SMA para o modelo. Tente evitar misturar os termos SAR e SMA no mesmo modelo e evite usar mais de um dos dois tipos. Geralmente, um termo SAR (1) ou SMA (1) é suficiente. Você raramente encontrará um processo SAR genuíno (2) ou SMA (2) e ainda mais raramente terá dados suficientes para estimar 2 ou mais coeficientes sazonais sem que o algoritmo de estimação entre em um loop quotfeedback. Embora um modelo ARIMA sazonal pareça ter Apenas alguns parâmetros, lembre-se que backforecasting requer a estimativa de uma ou duas estações vale de parâmetros implícitos para inicializá-lo. Portanto, você deve ter pelo menos 4 ou 5 temporadas de dados para caber um modelo ARIMA sazonal. Provavelmente, o modelo ARIMA sazonal mais comumente usado é o modelo (0,1,1) x (0,1,1) - isto é. Um modelo MA (1) xSMA (1) com uma diferença sazonal e não sazonal. Este é essencialmente um modelo de suavização exponencial quotseasonal. Quando os modelos ARIMA sazonais são montados em dados registrados, eles são capazes de rastrear um padrão sazonal multiplicativo. Exemplo: série AUTOSALE revisitada Lembre-se de que anteriormente previamos a série de vendas de varejo de automóveis usando uma combinação de deflação, ajuste sazonal e suavização exponencial. Vamos agora tentar montar a mesma série com modelos ARIMA sazonais, usando a mesma amostra de dados de janeiro de 1970 a maio de 1993 (281 observações). Como antes vamos trabalhar com vendas deflated auto - i. e. Vamos usar a série AUTOSALECPI como a variável de entrada. Aqui estão o diagrama de séries temporais e os gráficos ACF e PACF da série original, que são obtidos no procedimento de Previsão, traçando os quotresiduais de um modelo ARIMA (0,0,0) x (0,0,0) com constante: Quotsuspension bridgequot padrão no ACF é típico de uma série que é tanto nonstationary e fortemente sazonal. É claro que precisamos de pelo menos uma ordem de diferenciação. Se considerarmos uma diferença não sazonal, as parcelas correspondentes são as seguintes: A série diferenciada (os resíduos de um modelo de caminhada aleatória com crescimento) parece mais ou menos estacionária, mas ainda há autocorrelação muito forte no período sazonal (Intervalo 12). Como o padrão sazonal é forte e estável, sabemos (a partir da Regra 12) que queremos usar uma ordem de diferenciação sazonal no modelo. Aqui está a aparência da imagem após uma diferença sazonal (apenas): A série sazonalmente diferenciada mostra um padrão muito forte de autocorrelação positiva, como podemos lembrar de nossa tentativa anterior de encaixar um modelo de caminhada aleatória sazonal. Isso poderia ser uma assinatura quotAR - ou poderia sinalizar a necessidade de outra diferença. Se considerarmos uma diferença sazonal e não sazonal, obtêm-se os seguintes resultados: Estes são, naturalmente, os resíduos do modelo de tendência aleatória sazonal que foram ajustados aos dados de vendas de automóveis anteriormente. Agora vemos os sinais indicadores de overdifferencing suave. Os picos positivos no ACF e no PACF tornaram-se negativos. Qual é a ordem correta de diferenciação? Uma outra peça de informação que pode ser útil é um cálculo das estatísticas de erro da série em cada nível de diferenciação. Podemos calculá-los ajustando os correspondentes modelos ARIMA em que apenas é utilizada a diferenciação: Os menores erros, tanto no período de estimação quanto no período de validação, são obtidos pelo modelo A, que utiliza uma diferença de cada tipo. Isto, juntamente com o aparecimento das parcelas acima, sugere fortemente que devemos usar uma diferença sazonal e não sazonais. Observe que, exceto para o termo constante gratuíto, o modelo A é o modelo de tendência aleatória sazonal (SRT), enquanto que o modelo B é apenas o modelo de caminhada aleatória sazonal (SRW). Como observamos anteriormente ao comparar esses modelos, o modelo SRT parece se encaixar melhor do que o modelo SRW. Na análise que se segue, vamos tentar melhorar esses modelos através da adição de termos sazonais ARIMA. Voltar ao topo da página. O modelo ARIMA (0,1,1) x (0,1,1) frequentemente usado: modelo SRT mais MA (1) e SMA (1) termos Retornando ao último conjunto de gráficos acima, observe que com uma diferença de Cada tipo existe um pico negativo no ACF no retardo 1 e também um pico negativo no ACF no retardo 12. Enquanto que o PACF mostra um padrão mais gradual na vizinhança de ambos os intervalos. Aplicando nossas regras para identificar modelos ARIMA (especificamente, Regra 7 e Regra 13), podemos agora concluir que o modelo SRT seria melhorado pela adição de um termo MA (1) e também um termo SMA (1). Além disso, pela Regra 5, excluímos a constante, uma vez que estão envolvidas duas ordens de diferenciação. Se fizermos tudo isso, obtemos o modelo ARIMA (0,1,1) x (0,1,1). Que é o modelo ARIMA sazonal mais utilizado. Sua equação de previsão é: onde 952 1 é o coeficiente MA (1) e 920 1 (capital theta-1) é o coeficiente SMA (1). Observe que este é apenas o modelo de tendência aleatória sazonal adotado pela adição de múltiplos dos erros nos intervalos 1, 12 e 13. Além disso, observe que o coeficiente do erro lag-13 é o produto do MA (1) e SMA (1). Este modelo é conceitualmente similar ao modelo de Winters, na medida em que aplica efetivamente o alisamento exponencial ao nível, tendência e sazonalidade de uma só vez, embora assente em bases teóricas mais sólidas, particularmente no que se refere ao cálculo dos intervalos de confiança para as previsões de longo prazo. As suas parcelas residuais neste caso são as seguintes: Embora uma pequena quantidade de autocorrelação permaneça no retardo 12, o aspecto geral das parcelas é bom. Os resultados de ajuste do modelo mostram que os coeficientes MA (1) e SMA (1) estimados (obtidos após 7 iterações) são realmente significativos: As previsões do modelo se assemelham às do modelo de tendência aleatória sazonal - isto é. Eles pegar o padrão sazonal ea tendência local no final da série -, mas eles são ligeiramente mais suave na aparência, uma vez que tanto o padrão sazonal ea tendência estão sendo efetivamente média (em um tipo de suavização exponencial) durante o último Algumas estações: O que esse modelo realmente está fazendo Você pode pensar nisso da seguinte maneira. Primeiro calcula a diferença entre o valor de cada mês e uma média histórica ponderada exponencial 8222 para aquele mês que é calculado aplicando a suavização exponencial a valores que foram observados no mesmo mês em anos anteriores, onde a quantidade de suavização é determinada pela SMA (1 ). Em seguida, aplica a suavização exponencial simples a essas diferenças para prever o desvio da média histórica que será observada no próximo mês. O valor do coeficiente SMA (1) próximo de 1,0 sugere que muitas estações de dados estão sendo usadas para calcular a média histórica para um dado mês do ano. Lembre-se que um coeficiente de MA (1) em um modelo ARIMA (0,1,1) corresponde a 1-menos-alfa no modelo de suavização exponencial correspondente e que a idade média dos dados em um modelo de suavização exponencial é 1alpha. O coeficiente SMA (1) tem uma interpretação similar em relação às médias entre estações. Aqui seu valor de 0,91 sugere que a idade média dos dados utilizados para estimar o padrão sazonal histórico é um pouco mais de 10 anos (quase metade do comprimento do conjunto de dados), o que significa que um padrão sazonal quase constante está sendo assumido. O valor muito menor de 0,5 para o coeficiente MA (1) sugere que relativamente pouco alisamento está sendo feito para estimar o desvio atual da média histórica para o mesmo mês, de modo próximo mês 8217s predito desvio de sua média histórica será perto dos desvios Da média histórica observada nos últimos meses. Modelo ARIMA (1,0,0) x (0,1,0) com constante: modelo SRW mais AR (1) termo O modelo anterior foi um modelo de tendência aleatória sazonal (SRT) ajustado pela adição de MA 1) e SMA (1). Um modelo ARIMA alternativo para esta série pode ser obtido substituindo um termo AR (1) pela diferença não sazonal - isto é. Adicionando um termo AR (1) ao modelo Random Walk (SRW) sazonal. Isso nos permitirá preservar o padrão sazonal no modelo, ao mesmo tempo em que reduzimos a quantidade total de diferenciação, aumentando assim a estabilidade das projeções de tendência, se desejado. (Lembre-se que com uma única diferença sazonal, a série mostrou uma forte assinatura AR (1).) Se fizermos isso, obtemos um modelo ARIMA (1,0,0) x (0,1,0) com constante, Que produz os seguintes resultados: O coeficiente AR (1) é de fato altamente significativo eo RMSE é apenas 2,06, comparado a 3,00 para o modelo SRW (Modelo B no relatório de comparação acima). A equação de previsão para este modelo é: O termo adicional no lado direito é um múltiplo da diferença sazonal observada no último mês, o que tem o efeito de corrigir a previsão para o efeito de um ano excepcionalmente bom ou ruim. Aqui 981 1 denota o coeficiente AR (1), cujo valor estimado é 0,73. Assim, por exemplo, se as vendas no mês passado fossem X dólares à frente das vendas um ano antes, então a quantidade 0.73X seria adicionada à previsão para este mês. 956 denota o CONSTANTE na equação de previsão, cujo valor estimado é 0,20. A MEAN estimada, cujo valor é 0,75, é o valor médio das séries sazonalmente diferenciadas, que é a tendência anual nas previsões de longo prazo deste modelo. A constante é (por definição) igual à média vezes 1 menos o coeficiente AR (1): 0,2 0,75 (1 8211 0,73). O gráfico de previsão mostra que o modelo realmente faz um trabalho melhor do que o modelo SRW de acompanhamento de mudanças cíclicas (isto é, anormalmente bons ou maus anos): No entanto, o MSE para este modelo ainda é significativamente maior do que o obtido para o ARIMA (0, 1,1) x (0,1,1). Se olharmos para as parcelas de resíduos, veremos espaço para melhorias. Os resíduos mostram ainda algum sinal de variação cíclica: O ACF e o PACF sugerem a necessidade de ambos os coeficientes MA (1) e SMA (1): Uma versão melhorada: ARIMA (1,0,1) x (0,1,1) Com constante Se adicionarmos os termos MA (1) e SMA (1) indicados ao modelo precedente, obtemos um modelo ARIMA (1,0,1) x (0,1,1) com constante, cuja equação de previsão é This É quase o mesmo que o modelo ARIMA (0,1,1) x (0,1,1), exceto que substitui a diferença não sazonal por um termo AR (1) (uma diferença quotpartial) e incorpora um termo constante representando a Tendência de longo prazo. Assim, este modelo assume uma tendência mais estável do que o modelo ARIMA (0,1,1) x (0,1,1), e essa é a principal diferença entre eles. Os resultados de ajuste do modelo são os seguintes: Observe que o coeficiente estimado de AR (1) (981 1 na equação do modelo) é 0,96, que é muito próximo de 1,0, mas não tão próximo que sugere que ele deve ser substituído por Uma primeira diferença: seu erro padrão é 0,02, então é cerca de 2 erros padrão de 1,0. As outras estatísticas do modelo (os coeficientes estimados de MA (1) e SMA (1) e as estatísticas de erro nos períodos de estimação e de validação) são quase idênticas às do ARIMA (0,1,1) x (0,1 , 1) modelo. (Os coeficientes estimados de MA (1) e SMA (1) são 0,45 e 0,91 neste modelo versus 0,48 e 0,91 no outro.) A MEAN estimada de 0,68 é a tendência de longo prazo prevista (aumento anual médio). Este é essencialmente o mesmo valor que foi obtido no modelo (1,0,0) x (0,1,0) com constante. O erro padrão da média estimada é 0,26, portanto a diferença entre 0,75 e 0,68 não é significativa. Se a constante não fosse incluída neste modelo, seria um modelo de tendência atenuada: a tendência em suas previsões de muito longo prazo iria gradualmente se esvaindo. As previsões pontuais deste modelo parecem bastante semelhantes às do modelo (0,1,1) x (0,1,1), porque a tendência média é semelhante à tendência local no final da série. No entanto, os intervalos de confiança para este modelo aumentam um pouco menos rapidamente devido ao seu pressuposto de que a tendência é estável. Observe que os limites de confiança para as previsões de dois anos em frente agora permanecem dentro das linhas de grade horizontal em 24 e 44, enquanto que os do modelo (0,1,1) x (0,1,1) não: ARIMA sazonal Versus alisamento exponencial e ajuste sazonal: Agora vamos comparar o desempenho dos dois melhores modelos ARIMA contra modelos de suavização exponencial simples e linear acompanhados de ajuste sazonal multiplicativo, eo modelo de Winters, como mostrado nos slides sobre a previsão com ajuste sazonal: As estatísticas de erro para As previsões de um período antecipado para todos os modelos estão extremamente próximas neste caso. É difícil escolher um 8220winner8221 com base nesses números sozinho. Voltar ao topo da página. Quais são os tradeoffs entre os vários modelos sazonais Os três modelos que usam o ajuste sazonal multiplicativo lidar com a sazonalidade de uma forma explícita - ou seja. Os índices sazonais são explodidos como uma parte explícita do modelo. Os modelos ARIMA lidar com a sazonalidade de forma mais implícita - não podemos ver facilmente na saída ARIMA como a média de dezembro, digamos, difere da média de julho. Dependendo se é considerado importante isolar o padrão sazonal, isso pode ser um fator na escolha entre os modelos. Os modelos ARIMA têm a vantagem de que, uma vez inicializados, eles têm menos peças quotmoving do que os modelos exponenciais de suavização e ajuste e, como tal, eles podem ser menos propensos a sobrecarregar os dados. Os modelos ARIMA também têm uma teoria subjacente mais sólida no que se refere ao cálculo de intervalos de confiança para previsões de horizonte mais longo do que os outros modelos. Há diferenças mais dramáticas entre os modelos com relação ao comportamento de suas previsões e intervalos de confiança para as previsões de mais de um período no futuro. Este é o lugar onde as suposições que são feitas com relação às mudanças na tendência e padrão sazonal são muito importantes. Between the two ARIMA models, one (model A) estimates a time-varying trend, while the other (model B) incorporates a long-term average trend. (We could, if we desired, flatten out the long-term trend in model B by suppressing the constant term.) Among the exponential-smoothing-plus-adjustment models, one (model C) assumes a flat trend, while the other (model D) assumes a time-varying trend. The Winters model (E) also assumes a time-varying trend. Models that assume a constant trend are relatively more confident in their long-term forecasts than models that do not, and this will usually be reflected in the extent to which confidence intervals for forecasts get wider at longer forecast horizons. Models that do not assume time-varying trends generally have narrower confidence intervals for longer-horizon forecasts, but narrower is not better unless this assumption is correct. The two exponential smoothing models combined with seasonal adjustment assume that the seasonal pattern has remained constant over the 23 years in the data sample, while the other three models do not. Insofar as the seasonal pattern accounts for most of the month-to-month variation in the data, getting it right is important for forecasting what will happen several months into the future. If the seasonal pattern is believed to have changed slowly over time, another approach would be to just use a shorter data history for fitting the models that estimate fixed seasonal indices. For the record, here are the forecasts and 95 confidence limits for May 1995 (24 months ahead) that are produced by the five models: The point forecasts are actually surprisingly close to each other, relative to the widths of all the confidence intervals. The SES point forecast is the lowest, because it is the only model that does not assume an upward trend at the end of the series. The ARIMA (1,0,1)x(0,1,1)c model has the narrowest confidence limits, because it assumes less time-variation in the parameters than the other models. Also, its point forecast is slightly larger than those of the other models, because it is extrapolating a long-term trend rather than a short-term trend (or zero trend). The Winters model is the least stable of the models and its forecast therefore has the widest confidence limits, as was apparent in the detailed forecast plots for the models. And the forecasts and confidence limits of the ARIMA(0,1,1)x(0,1,1) model and those of the LESseasonal adjustment model are virtually identical To log or not to log Something that we have not yet done, but might have, is include a log transformation as part of the model. Seasonal ARIMA models are inherently additive models, so if we want to capture a multiplicative seasonal pattern . we must do so by logging the data prior to fitting the ARIMA model. (In Statgraphics, we would just have to specify quotNatural Logquot as a modeling option--no big deal.) In this case, the deflation transformation seems to have done a satisfactory job of stabilizing the amplitudes of the seasonal cycles, so there does not appear to be a compelling reason to add a log transformation as far as long term trends are concerned. If the residuals showed a marked increase in variance over time, we might decide otherwise. There is still a question of whether the errors of these models have a consistent variance across months of the year . If they don8217t, then confidence intervals for forecasts might tend to be too wide or too narrow according to the season. The residual-vs-time plots do not show an obvious problem in this regard, but to be thorough, it would be good to look at the error variance by month. If there is indeed a problem, a log transformation might fix it. Return to top of page.
No comments:
Post a Comment