Introduksjon til ARIMA nonseasonal modeller. ARIMA p, d, q prognose ligning ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres for å være stasjonær ved differensiering om nødvendig, kanskje sammen med ikke-lineære transformasjoner for eksempel logging eller deflating hvis nødvendig En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstant over tid En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude og den vri på en konsistent måte dvs. at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjonskorrelasjoner med sine egne tidligere avvik fra middelværdien forblir konstant over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid En tilfeldig variabel i dette skjemaet kan sees som vanlig som en kombinasjon av signal og støy, og signalet hvis det er tydelig kan være en patt ern med rask eller langsom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i tegn, og det kan også ha en sesongkomponent. En ARIMA-modell kan sees som et filter som forsøker å skille signalet fra støyen, og signalet er da ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær ie-regresjonstypekvasjon der prediktorene består av lag av den avhengige variabelen og eller lagrer prognosefeilene som er. Forutsatt verdi av Y en konstant og eller vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene bare består av forsinkede verdier av Y, er det en ren autoregressiv selvregressert modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kan forsynes med standard regresjonsprogramvare. For eksempel er en første-ordens autoregressiv AR 1-modell for Y en enkel regresjonsmodell der den uavhengige variabelen i s bare Y forsinket med en periode LAG Y, 1 i Statgraphics eller YLAG1 i RegressIt Hvis noen av prediktorene lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere siste periode s feil Som en uavhengig variabel må feilene beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellens spådommer ikke er lineære funksjoner av koeffisienter, selv om de er lineære funksjoner i fortidens data. Således skal koeffisienter i ARIMA-modeller som inneholder forsinkede feil estimeres ved ikke-lineære optimaliseringsmetoder bakkeklatring i stedet for bare å løse et system av ligninger. Akronym ARIMA står for automatisk regressiv integrert Flytte gjennomsnittlig Lags av den stationære serien i prognosen ligningen kalles autoregressive vilkår, lags av prognosen feilene kalles glidende gjennomsnittlige vilkår og en tidsserie som trenger å bli differensiert for å bli gjort stasjonære, sies å være en integrert versjon av en stasjonær serie Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En ikke-sasonlig ARIMA-modell er klassifisert som en ARIMA p, d, q modell, hvor. p er antall autoregressive termer. d er antall ikke-soneforskjeller som trengs for stasjonar, og. q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger Først, la y betegne den forskjellen på Y som betyr. Merk at den andre forskjellen på Y d2-tilfellet ikke er forskjellen fra 2 perioder siden. Det er først den forskjellen som er den første forskjellen som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for den lokale trenden. Med hensyn til y er den generelle prognosekvasjonen her. De bevegelige gjennomsnittsparametrene s er definert slik at deres tegn er negative i ekv. Uasjon, etter konvensjonen som ble innført av Box og Jenkins. Noen forfattere og programvare, inkludert R-programmeringsspråket, definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er plugget i ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren din bruker når du leser utdata Ofte er parameterne angitt der med AR 1, AR 2, og MA 1, MA 2 osv. For å identifisere riktig ARIMA-modell for Y begynner du ved å bestemme rekkefølgen av differensiering d som trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessigheten, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating Hvis du stopper på dette punktet og forutser at differensierte serier er konstante, har du bare montert en tilfeldig tur eller tilfeldig Trendsmodell Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen AR-vilkår p 1 og eller noen nummer MA-termer q 1 også trengs i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt i notatene hvis koblinger er øverst på denne siden, men en forhåndsvisning av noen av de typer ikke-sasonlige ARIMA-modellene som ofte oppstår, er gitt nedenfor. ARIMA 1,0,0 førsteordens autoregressive modell hvis serien er stasjonær og autokorrelert, kanskje den kan forutsies som et flertall av sin egen tidligere verdi, pluss en konstant Forutsigelsesligningen i dette tilfellet er. som er Y regressert i seg selv forsinket av en periode Dette er en ARIMA 1,0,0 konstant modell Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis skråningen er koeffisient 1 er positiv og mindre enn 1 i størrelsesorden skal den være mindre enn 1 i størrelsesorden hvis Y er stasjonær, beskriver modellen gjennomsnittsreferanseadferd, der neste periode s-verdi skal anslås å være 1 ganger så langt unna gjennomsnittlig som denne perioden s verdi Hvis 1 er negativ, det forutser gjennombruddsadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet i denne perioden. I en andreordens autoregressiv modell ARIMA 2,0,0 ville det være en Y t-2 termen til høyre også, og så videre. Avhengig av tegn og størrelser av koeffisientene, kunne en ARIMA 2,0,0 modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelsen av en masse på en fjær som er utsatt for tilfeldige støt. ARIMA 0,1,0 tilfeldig tur Hvis serien Y ikke er stasjonær, er den enkleste mulige modellen for en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR 1-modell hvor den autoregressive koeffisienten er lik 1, dvs. en serie med uendelig sakte, gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som. hvor konstant sikt er den gjennomsnittlige perioden til periode-endringen, dvs. langsiktig Drift i Y Denne modellen kan monteres som en ikke-avskjæringsrekkefølge gryningsmodell hvor den første forskjellen i Y er den avhengige variabelen Siden den bare inneholder en ikke-soneforskjell og en konstant periode, er den klassifisert som en ARIMA 0,1,0-modell med konstant. Den tilfeldige-walk-uten-drift-modellen ville være en ARIMA 0,1,0-modell uten konstant. ARIMA 1,1,0 differensiert førsteordens autoregressiv modell Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligning - dvs. ved å regresse den første forskjellen på Y i seg selv forsinket av en periode. Dette ville gi følgende prediksjonsligning. Det kan omarrangeres til. Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term - en ARIMA 1,1,0 modell. ARIMA 0,1,1 uten konstant enkel eksponensiell utjevning En annen strategi for å korrigere autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier, for eksempel de som har støyende fluktuasjoner rundt et sakte varierende middel, utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnitt av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon , er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig estimere det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for Enkel eksponensiell utjevningsmodell kan skrives i en rekke matematisk ekvivalente former, hvorav en er den såkalte feilkorreksjonsformen, der den forrige prognosen er justert i retning av feilen som den gjorde. Fordi e t-1 Y t - 1 - t-1 per definisjon, dette kan omskrives som. som er en ARIMA 0,1,1-uten konstant prognosekvasjon med 1 1 - Dette betyr at du kan passe en enkel eksponentiell smoo ting ved å spesifisere det som en ARIMA 0,1,1 modell uten konstant, og den estimerte MA 1-koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1- Forutgående prognoser er 1, noe som betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca. 1 perioder. Det følger at gjennomsnittsalderen for dataene i de 1-årige prognosene for en ARIMA 0,1,1-uten - konstant modell er 1 1 - 1 For eksempel hvis 1 0 8 er gjennomsnittsalderen 5 Når 1 nærmer seg 1, blir ARIMA 0,1,1-uten-konstant modell et veldig langsiktig glidende gjennomsnitt, og som 1 nærmer seg 0 blir det en tilfeldig walk-without-drift-modell. Hva er den beste måten å korrigere for autokorrelasjon, legge til AR-vilkår eller legge til MA-termer I de to foregående modeller diskutert problemet med autokorrelerte feil i en tilfeldig walk-modell ble løst på to forskjellige måter ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av forecaen st feil Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best av legge til en MA-term I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. Generelt reduserer differensiering positiv autokorrelasjon og kan til og med forårsake en bytte fra positiv til negativ autokorrelasjon. Så, ARIMA 0,1,1-modellen, i hvilke differensier er ledsaget av en MA-term, brukes hyppigere enn en ARIMA 1,1,0-modell. ARIMA 0,1,1 med konstant enkel eksponensiell utjevning med vekst Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk noen fleksibilitet Først og fremst kan den estimerte MA 1-koeffisienten være negativ, dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren Sec ond, du har muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA 0,1,1-modellen med konstant har prediksjonsligningen. En-tiden fremover prognosene fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene typisk er en skrånende linje hvis skråning er lik mu i stedet for en horisontal linje. ARIMA 0,2,1 eller 0, 2,2 uten konstant lineær eksponensiell utjevning Linjære eksponensielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-sekundære forskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket med to perioder, men heller er det den første forskjellen i den første forskjellen - Y-endringen av Y ved periode t Således er den andre forskjellen på Y ved periode t lik Y t-Y t-1 - Y t-1 - Y T-2 Y t - 2Y t-1 Y t-2 En annen forskjell på en diskret funksjon er analog s til et andre derivat av en kontinuerlig funksjon, måles akselerasjonen eller krumningen i funksjonen på et gitt tidspunkt. ARIMA 0,2,2-modellen uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av den siste to prognosefeil. som kan omarrangeres som. hvor 1 og 2 er MA 1 og MA 2-koeffisientene Dette er en generell lineær eksponensiell utjevningsmodell som i det vesentlige er den samme som Holt s-modellen, og Brown s-modellen er et spesielt tilfelle. Det bruker eksponentielt vektet Flytte gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA 1,1,2 uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modeller. Det ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisont for å introdusere en Conservatism, en praksis som har empirisk støtte. Se artikkelen om Hvorfor Damped Trend fungerer av Gardner og McKenzie og Golden Rule-artikkelen av Armstrong et al for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q er ikke større enn 1, det vil si ikke å passe på en modell som ARIMA 2,1,2, da dette sannsynligvis vil føre til overfitting og fellesfaktorproblemer som blir nærmere omtalt i notatene om matematisk struktur av ARIMA modeller. Spreadsheet implementering ARIMA modeller som de som er beskrevet ovenfor er enkle å implementere på et regneark. Prediksjonsligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B og feildataene minus prognosene i kolonne C Forutsigelsesformelen i en typisk celle i kolonne B ville rett og slett være en lineær ekspresjon n refererer til verdier i forrige rader med kolonner A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Utviklingsbevisende Gjennomsnittlig ARMA p, q Modeller for Time Series Analysis - Del 3.Dette er den tredje og siste innlegg i mini-serien på Autoregressive Moving Gjennomsnittlig ARMA-modeller for tidsserieanalyse Vi har introdusert Autoregressive modeller og Moving Average-modeller i de to tidligere artiklene Nå er det på tide å kombinere dem for å produsere en mer sofistikert modell. Det vil nok føre oss til ARIMA - og GARCH-modellene som gjør at vi kan forutsi avkastning og prognosevolatilitet Disse modellene vil danne grunnlag for handelssignaler og risikostyringsteknikker. Hvis du har lest del 1 og del 2, vil du ha sett at vi pleier å følge en mønster for vår analyse av en tidsseriemodell Jeg vil gjenta det kort her. Rationale - Hvorfor er vi interessert i denne modellen. Definisjon - En matematisk definisjon for å redusere ambig uoritet. Korrelogram - Plotting av et prøvekorrelogram for å visualisere modellmodeller. Simulering og montering - Tilpasning av modellen til simuleringer, for å sikre at vi har forstått modellen riktig. Real Financial Data - Bruk modellen til ekte historiske eiendomspriser. Redegjørelse - Varsle etterfølgende verdier for å bygge handelssignaler eller filtre. For å følge denne artikkelen, er det tilrådelig å ta en titt på tidligere artikler om tidsserieanalyse. De kan alle finnes her. Bayesian Information Criterion. In Del 1 av denne artikkelserien vi så på Akaike Information Criterion AIC som et middel til å hjelpe oss med å velge mellom separate beste tidsseriemodeller. Et nært beslektet verktøy er det bayesiske informasjonskriteriet BIC. Vesentlig har det lignende oppførsel til AIC ved at det straffer modeller for å ha for mange parametere. Dette kan føre til overfitting Forskjellen mellom BIC og AIC er at BIC er strengere med straffen på ytterligere parametere. Bayesian Infor mation Criterion. If vi tar sannsynligheten for en statistisk modell, som har k parametere, og L maksimerer sannsynligheten, så er Bayesian Information Criterion gitt av. Hvor n er antall datapunkter i tidsseriene. Vi vil bruke AIC og BIC nedenfor når du velger passende ARMA p, q modeller. Ljung-Box Test. I del 1 av denne artikkelen ser serien Rajan nevnt i Disqus på at Ljung-Box-testen var mer hensiktsmessig enn å bruke Akaike Information Criterion of the Bayesian Informasjonskriterium for å avgjøre om en ARMA-modell var en god passform til en tidsserie. Ljung-Box-testen er en klassisk hypotesetest som er laget for å teste om et sett av autokorrelasjoner av en tilpasset tidsseriemodell skiller seg vesentlig fra null. ikke teste hvert enkelt lag for tilfeldighet, men heller teste tilfeldigheten over en gruppe lags. Ljung-Box Test. We definerer null hypotesen som Tidsseriedataene ved hvert lag er iid, det vil si korrelasjonene mellom populasjonsserieverdiene er null. Vi definerer alternative hypoteser da Tidsseriedataene ikke er iid og har seriell korrelasjon. Vi beregner følgende teststatistikk Q. Hvor n er lengden på tidsserieprøven, er hatten k prøven autokorrelasjon ved lag k og h er antall lags under testen. Beslutningsregelen om å nullstille nullhypotesen er å sjekke om Q chi 2, for en chi-kvadrert fordeling med h frihetsgrader ved de 100 1- alfa prosentandelen. Selv om detaljene i testen kan virke litt komplekse, kan vi faktisk bruke R for å beregne testen for oss, forenkle prosedyren noe. Utløsende Gjennomsnittlig ARMA Modeller av rekkefølge p, q. Nå som vi har diskutert BIC og Ljung-Box-testen, er vi klar til å diskutere vår første blandede modell, nemlig det autoregressive flytende gjennomsnittet av orden p, q eller ARMA p, q. Tid dato har vi vurdert autoregressive prosesser og bevegelige gjennomsnittsprosesser. Den tidligere modellen anser sin egen pappa st oppførsel som innganger for modellen og som et slikt forsøk på å fange markedsdeltakendeeffekter, som for eksempel momentum og gjennombrudd i aksjehandel. Den sistnevnte modellen brukes til å karakterisere sjokkinformasjon til en serie, for eksempel en overraskende inntjeningsmelding eller uventet hendelse for eksempel BP Deepwater Horizon oljeutslipp. Derfor forsøker en ARMA-modell å fange begge disse aspektene når man modellerer økonomiske tidsserier. Merk at en ARMA-modell ikke tar hensyn til volatilitetsklynging, et sentralt empirisk fenomen i mange økonomiske tidsserier. er ikke en betinget heteroscedastisk modell. For det må vi vente på ARCH - og GARCH-modellene. ARMA p, q-modellen er en lineær kombinasjon av to lineære modeller, og er dermed i seg selv lineær. Utviklingsbevisende Gjennomsnittlig Modell av rekkefølge p, qA Tidsseriemodell,, er en autoregressiv glidende gjennomsnittlig rekkefølgen p, q ARMA p, q, hvis. start xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w end. Where er hvit støy med E wt 0 og variance sigma 2.If vi vurderer Backward Shift Operator se en tidligere artikkel så kan vi omskrive ovennevnte som en funksjon theta og phi of. We kan rett og slett se det ved å sette p neq 0 og q 0 vi gjenoppretter AR p-modellen Tilsvarende hvis vi setter p 0 og q neq 0 gjenoppretter vi MA q-modellen. En av hovedfunksjonene til ARMA-modellen er at det er parsimonious og overflødig i sine parametere Det vil si at en ARMA-modell vil ofte kreve færre parametere enn en AR p eller MA q-modell alene. I tillegg, hvis vi skriver om ligningen i form av BSO, kan theta - og phi-polynomene Noen ganger deler en felles faktor, og dermed fører til en enklere modell. Simuleringer og korrelogrammer. Som med de autoregressive og bevegelige gjennomsnittsmodellene vil vi nå simulere ulike ARMA-serier og deretter prøve å passe ARMA-modeller til disse realisasjonene. Vi bærer dette ut fordi vi vil sørge for at vi forstår monteringsprosedyren, inkludert hvordan man beregner konfidensintervaller for modellene, samt sørge for at prosedyren faktisk gjenoppretter rimelige estimater for de opprinnelige ARMA parametrene. I del 1 og del 2 konstruerte vi manuelt AR - og MA-serien ved å tegne N-eksempler fra en normal distribusjon og deretter lage den spesifikke tidsseriemodellen ved hjelp av lags av disse prøvene. Det er imidlertid en enklere måte å simulere AR, MA, ARMA og til og med ARIMA-data, ganske enkelt ved å bruke metoden i R. Lets s starter med den enkleste mulige ikke-trivielle ARMA-modellen, nemlig ARMA 1,1-modellen Det er en autoregressiv modell av orden en kombinert med en bevegelig gjennomsnittsmodell av ordre en slik modell har bare to koeffisienter, alfa og beta, som representerer den første lags av tidsseriene selv og støt hvite støyvilkår En slik modell er gitt av. Vi må spesifisere koeffisientene før simulering La oss ta alfa 0 5 og beta -0 5. Utgangen er som følger. Realisering o f en ARMA 1,1 modell, med alfa 0 5 og beta 0 5.Let s også plotte korrelogrammet. Korrelogram av en ARMA 1,1 modell med alfa 0 5 og beta 0 5.Vi kan se at det ikke er noen signifikant autokorrelasjon, som kan forventes fra en ARMA 1,1-modell. La oss prøve å bestemme koeffisientene og deres standardfeil ved å bruke arima-funksjonen. Vi kan beregne konfidensintervallene for hver parameter ved hjelp av standardfeilene. inneholder de sanne parameterverdiene for begge tilfeller, men vi bør merke at 95 konfidensintervaller er svært store en konsekvens av de relativt store standardfeilene. La oss nå prøve en ARMA 2,2-modell Det er en AR 2-modell kombinert med en MA 2-modell Vi må spesifisere fire parametere for denne modellen alpha1, alpha2, beta1 og beta2 La oss ta alpha1 0 5, alpha2 -0 25 beta1 0 5 og beta2 -0 3. Utgangen av vår ARMA 2,2-modell er som følger. Realisering av en ARMA 2,2-modell, med alpha1 0 5, alpha2 -025, beta1 05 og beta2 - 0 3.And tilsvarende autocorelation. Correlogram av en ARMA 2,2 modell, med alpha1 0 5, alpha2 -0 25, beta1 0 5 og beta2 -0 3.We kan nå prøve å montere en ARMA 2,2 modell til dataene. Vi kan også beregne konfidensintervaller for hver parameter. Merk at konfidensintervaller for koeffisientene for den bevegelige gjennomsnittskomponent beta1 og beta2 ikke faktisk inneholder den opprinnelige parameterverdien. Dette skisserer faren for å forsøke å tilpasse modeller til data, selv når Vi kjenner de sanne parameterverdiene. Men for handelsformål trenger vi bare å ha en prediktiv kraft som overskrider sjansen, og produserer nok overskudd over transaksjonskostnader for å være lønnsomt i det lange løp. Nå har vi sett noen eksempler på simulert ARMA-modeller trenger vi mekanisme for å velge verdiene p og q når de passer til modellene til ekte økonomiske data. Å velge den beste ARMA p, q-modellen. For å bestemme hvilken rekkefølge p, q av ARMA-modellen er egnet for en serie , vi må bruke AIC eller BIC over en undergruppe av verdier for p, q, og bruk Ljung-Box-testen for å finne ut om en god passform har blitt oppnådd, for spesielle verdier av p, q. For å vise denne metoden skal vi først simulere en spesiell ARMA p, q prosess Vi vil da løse over alle parvisverdier av p i og q inn og beregne AIC Vi vil velge modellen med lavest AIC og deretter kjøre en Ljung-Box-test på residualene for å avgjøre om vi har oppnådd en god passform. La oss begynne med å simulere en ARMA 3,2-serie. Vi skal nå opprette et objekt som er endelig for å lagre den beste modellen passer og laveste AIC-verdi. Vi slår over de forskjellige p, q-kombinasjonene og bruker det nåværende objektet til å lagre passe på en ARMA i, j-modell, for loopingvariablene i og j. Hvis den nåværende AIC er mindre enn noen tidligere beregnet AIC, setter vi den endelige AIC til denne nåværende verdien og velger den rekkefølgen Ved avslutning av løkken har vi bestillingen av ARMA-modellen lagret i og ARIMA p, d, q passer seg med den integrerte d-komponenten satt til 0 lagret as. Let s utdata AIC, ordre og ARIMA koeffisienter. Vi kan se at den opprinnelige rekkefølgen på den simulerte ARMA modellen ble gjenopprettet, nemlig med p 3 og q 2 Vi kan plotte corelogrammet av resterne av modellen for å se hvis de ser ut som en realisering av diskrete hvite støy DWN. Correlogram av resterne av den best passende ARMA p, q-modellen, s. 3 og q 2. Korelogrammet ser virkelig ut som en realisering av DWN Til slutt utfører vi Ljung-Box test for 20 lags for å bekrefte dette. Merk at p-verdien er større enn 0 05, som sier at residualene er uavhengige på 95-nivået og dermed en ARMA 3,2-modell gir en god modellpasning. Klart bør dette være tilfelle siden vi har simulert dataene selv. Dette er nettopp prosedyren vi skal bruke når vi kommer til å passe ARMA p, q modeller til S P500-indeksen i følgende seksjon. Finansielle data. Nå har vi skissert prosedyren for å velge Den optimale tidsseriemodellen for en simulert serie, det er ganske strai ghtforward å bruke den på økonomiske data For dette eksempelet skal vi igjen velge S P500 US Equity Index. La oss laste ned de daglige sluttkursene ved hjelp av quantmod, og opprett deretter logg returneringsstrømmen. La oss utføre samme tilpasningsprosedyre som for den simulerte ARMA 3,2-serien over på loggen returnerer serien av S P500 ved hjelp av AIC. Den beste monteringsmodellen har rekkefølgen ARMA 3,3. Lets plotte resterne av den monterte modellen til S P500 logg daglig returstrøm. Korrelogram av residualene til den best passende ARMA p, q Modell, p 3 og q 3, til S P500 daglig logg returnerer strøm. Merk at det er noen signifikante topper, spesielt ved høyere lags Dette er tegn på dårlig passform La oss utfør en Ljung-Box-test for å se om vi har statistisk bevis for dette. Som vi mistenker er p-verdien mindre enn 0 05 og som sådan kan vi ikke si at residualene er en realisering av diskret hvit støy. Derfor er det ytterligere autokorrelasjon i residuals som ikke er forklart av montert ARMA 3,3 modell. Som vi har diskutert hele tiden i denne artikkelserien har vi sett bevis på betinget heteroscedastisitetsvolatilitetsklynging i S P500-serien, spesielt i perioder rundt 2007-2008 Når vi bruker en GARCH-modell senere i artikkelen serier vil vi se hvordan å eliminere disse autokorrelasjonene. I praksis er ARMA-modeller aldri generelt gode tilpasninger for logg-aksjer tilbake. Vi må ta hensyn til betinget heteroscedasticitet og bruke en kombinasjon av ARIMA og GARCH. Neste artikkel vil vurdere ARIMA og vise hvordan Den integrerte komponenten adskiller seg fra ARMA-modellen vi har vurdert i denne artikkelen. Bare å komme i gang med kvantitativ handel. Utviklingsbevisende Flytende Gjennomsnittlig ARMA p, q Modeller for Time Series-analyse - Del 2. I del 1 betraktet vi den autoregressive bestillingsmodellen p , også kjent som AR p-modellen Vi introduserte den som en forlengelse av den tilfeldige turmodellen i et forsøk på å forklare ytterligere seriell korrelasjon i økonomisk tid e-serien. Umiddelbart innså vi at det ikke var tilstrekkelig fleksibelt å virkelig fange all autokorrelasjon i sluttkursene på Amazon Inc AMZN og S P500 US Equity Index. Den primære årsaken til dette er at begge disse eiendelene er betinget heteroskedastiske, hvilket betyr at at de er ikke-stasjonære og har perioder med varierende varians eller volatilitetsklynging, som ikke tas i betraktning av AR p-modellen. I fremtidige artikler vil vi etter hvert bygge opp til de autoregressive integrerte, flytende gjennomsnittlige ARIMA-modellene, så vel som betinget heteroskedastiske modeller av ARCH - og GARCH-familiene Disse modellene vil gi oss våre første realistiske forsøk på å prognostisere eiendomspriser. I denne artikkelen vil vi imidlertid introdusere Moving Average av ordre q-modellen, kjent som MA q Dette er en komponent av den mer generelle ARMA-modellen og som sådan må vi forstå det før du går videre. Jeg anbefaler at du leser de forrige artiklene i Time Series Anal ysis samling hvis du ikke har gjort det. De kan alle bli funnet her. Gjennomsnittlig MA-modeller av rekkefølge qA Moving Gjennomsnittlig modell ligner en Autoregressiv modell, bortsett fra at i stedet for å være en lineær kombinasjon av tidligere tidsserier, er det en lineær kombinasjon av de tidligere hvite lydvilkårene. Dette betyr at MA-modellen ser slike tilfeldige hvite støysjokk direkte ved hver nåværende verdi av modellen. Dette er i motsetning til en AR p-modell, der de hvite støychockene bare ses indirekte via regresjon på tidligere vilkår i serien. En viktig forskjell er at MA-modellen bare vil se de siste q-støtene for en bestemt MA q-modell, mens AR p-modellen tar hensyn til alle tidligere sjokk, om enn i svakt svakt måte. Matematisk er MA q en lineær regresjonsmodell og strukturert på samme måte som AR p. Moving Gjennomsnittlig modell av rekkefølge qA tidsseriemodell,, er en bevegelig gjennomsnittlig ordningsorden q MA q, hvis. begynn xt wt beta1 w ldots betaq w end. Where er hvit støy med E wt 0 og variance sigma 2.If vi vurderer Backward Shift Operator se en tidligere artikkel så kan vi omskrive ovenstående som en funksjon phi av. begynn xt 1 beta1 beta2 2 ldots betaq q wt phiq wt end. We vil gjøre bruk av phi-funksjonen i senere artikler. Sekundær Order Properties. As med AR p er gjennomsnittet av en MA q-prosess null. Dette er lett å se som mener er bare en sum av middel til hvite støyvilkår, som alle er selv null. start tekst enspace mux E xt sum E wi 0 slutt begynn tekst enspace sigma 2w 1 beta 21 ldots beta 2q slutttekst enspace rhok venstre q slutt right. Where beta0 1.We re nå skal generere noen simulerte data og bruke den til å lage korrelogrammer Dette vil gjøre ovennevnte formel for rhok noe mer konkret. Simuleringer og korrelogrammer. La oss starte med en MA 1-prosess Hvis vi setter beta1 0 6 får vi den følgende modellen. Som med AR p-modellene i forrige artikkel kan vi bruke R å simulere en slik serie og deretter plotte korrelogramet Siden vi har hatt mye øvelse i den tidligere Time Series Analysis-artikkelserien med å utføre plott, vil jeg skrive R-koden i sin helhet, i stedet for å dele den opp. Utgangen er som følger. Realisering av MA 1-modell, med beta1 0 6 og tilknyttet korrelogram. Som vi så over i formelen for rhok, for kq, bør alle autokorrelasjoner være null. Siden q 1, bør vi se en signifikant topp ved k 1 og deretter ubetydelig toppene etter det Men på grunn av prøvetaking bias vi bør forvente å se 5 marginalt signifikante topper på en prøve autokorrelasjonsplot. Dette er akkurat hva korrelogrammet viser oss i dette tilfellet Vi har en betydelig topp på k 1 og så ubetydelige topper for k 1, bortsett fra ved k 4 hvor vi har en marginell signifikant topp. Faktisk er dette en nyttig måte å se om en MA q-modell er riktig. Ved å se på korrelogrammet til en bestemt serie kan vi se hvor mange sekvensielle ikke-null-lag eksisterer. Hvis q slike lag eksisterer da vi kan legitimt forsøke å passe en MA q-modell til en bestemt serie. Siden vi har bevis fra våre simulerte data om en MA 1-prosess, skal vi nå prøve å passe en MA 1-modell til våre simulerte data. Dessverre er det ikke en ekvivalent ma-kommando til kommandoen for autoregressiv modell ar i R. I stedet må vi bruke den mer generelle arima-kommandoen og sette de autoregressive og integrerte komponentene til null Vi gjør dette ved å lage en 3-vektor og sette de to første komponentene den autogressive a nd integrerte parametere til henholdsvis null. Vi mottar noen nyttige resultater fra arima-kommandoen. For det første kan vi se at parameteren er estimert som hue 0 602, som ligger svært nær den sanne verdien av beta1 0 6 For det andre er standardfeilene er allerede beregnet for oss, noe som gjør det enkelt å beregne konfidensintervall. For det tredje mottar vi en estimert varians, loggbarhet og Akaike Informationskriterium som er nødvendig for modelljämförelse. Hovedforskjellen mellom arima og ar er at arima anslår en avkortingsperiode fordi den gjør ikke trekke middelverdien av serien. Derfor må vi være forsiktige når du utfører spådommer ved hjelp av arima-kommandoen. Vi kommer tilbake til dette punktet senere. Som en rask sjekk skal vi beregne konfidensintervall for hatten. Vi kan se at 95 konfidensintervall inneholder den sanne parameterverdien av beta1 0 6 og slik at vi kan dømme modellen til en god passform. Selvfølgelig bør dette forventes siden vi simulerte dataene i den første sted. Hvordan endres ting hvis vi endrer tegnet på beta1 til -06 La oss utføre den samme analysen. Produksjonen er som følger. Realisering av MA 1-modell, med beta1-0 og Associated Correlogram. Vi kan se at ved k 1 vi har en signifikant topp i korrelogrammet, bortsett fra at det viser negativ korrelasjon, som vi forventer av en MA 1-modell med negativ første koeffisient Igjen er alle toppene utenfor k 1 ubetydelige. La oss passe en MA 1-modell og estimere parameter. hat -0 730, som er et lite underestimat av beta1 -0 6 Endelig, la s beregne konfidensintervallet. Vi kan se at den sanne parameterverdien av beta1 -06 er inneholdt i 95 konfidensintervallet, og gir oss bevis for en god modellpasning. Vi går gjennom samme prosedyre for en MA 3-prosess. Denne gangen bør vi forvente betydelige topper ved k og ubetydelige topper for k 3. Vi skal bruke følgende koeffisienter beta1 0 6, beta2 0 4 og beta3 0 2 La oss simulere en MA 3-prosess fra denne modellen. Jeg har økt antall tilfeldige prøver til 1000 i denne simuleringen, noe som gjør det lettere å se den ekte autokorrelasjonsstrukturen, på bekostning av at den originale serien blir vanskeligere å tolke . Produksjonen er som følger. Realisering av MA 3-modell og tilknyttet korrelogram. Som forventet er de tre første toppene signifikante. Det er imidlertid den fjerde. Men vi kan lovlig foreslå at dette kan skyldes prøvetaking av bias som vi regner med å se 5 av toppene er tegnet ificant utover k q. Nå sitter en MA 3-modell til dataene for å prøve å estimere parametere. Estimatene hatten 0 544, hatten 0 345 og hatten 0 298 er nær de ekte verdiene for beta1 0 6, beta2 0 4 og beta3 0 3. Vi kan også produsere konfidensintervaller ved hjelp av de respektive standardfeilene. I hvert tilfelle inneholder de 95 konfidensintervallene den ekte parameterverdien, og vi kan konkludere med at vi har en god passform med vår MA 3-modell, som det forventes. Finansielle data. I del 1 betraktet vi Amazon Inc AMZN og S P500 US Equity Index. Vi monterte AR p-modellen til begge og fant ut at modellen ikke kunne effektivt fange kompleksiteten til seriell korrelasjon, spesielt i cast av S P500, hvor langhukommelseeffektene ser ut til å være til stede. Jeg har ikke plot diagramene igjen for priser og autokorrelasjon, i stedet vil jeg henvise deg til forrige innlegg. Amazon Inc AMZN. Vi begynner med å prøve å passe et utvalg av MA q modeller til AMZN, nemlig med q i Som i del 1, skal vi bruke q uantmod å laste ned de daglige prisene for AMZN og deretter konvertere dem til en logg returnerer strømmen av avsluttende priser. Nå som vi har loggen returnerer strømmen, kan vi bruke arima kommandoen til å passe MA 1, MA 2 og MA 3 modeller og deretter anslå parametere for hver For MA 1 har vi. Vi kan plotte resterne av den daglige loggen retur og den monterte modellen. Residuals av MA 1 modell utstyrt til AMZN Daily Log Prices. Notice at vi har noen betydelige topper ved lag k 2, k 11, k 16 og k 18, som indikerer at MA 1-modellen er usannsynlig å være god egnet for oppførelsen av AMZN-loggen, siden dette ikke ser ut som en realisering av hvit støy. La oss prøve en MA 2-modell. Begge estimatene for beta-koeffisientene er negative. La oss plotte resterne igjen. Residualer av MA 2-modell Tilpasset til AMZN Daily Log-priser. Vi kan se at det er nesten null autokorrelasjon i de første parene. Vi har imidlertid fem marginalt signifikante topper ved lags k 12, k 16, k 19, k 25 og k 27 Dette er su Ggestive at MA 2-modellen tar stor del av autokorrelasjonen, men ikke alle langminneteffektene. Hva med en MA 3-modell. I tillegg kan vi plotte resterne. Residualer av MA 3-modell Tilpasset til AMZN Daily Log Prices . MA 3-residensplottet ser nesten ut som det som er på MA 2-modellen. Dette er ikke overraskende, siden vi legger til en ny parameter på en modell som tilsynelatende har forklart bort mye av korrelasjonene med kortere lag, men det har ikke vunnet mye av en effekt på lengre sikt lags. Alle dette beviset tyder på det faktum at en MA q modell er usannsynlig å være nyttig for å forklare all seriell korrelasjon isolert i det minste for AMZN. If du husker, i del 1 vi så at den første rekkefølgen forskjellig daglig logg returnerer strukturen til S P500 hadde mange signifikante topper i ulike lag, både korte og lange. Dette ga bevis for både betinget heteroskedastisitet, dvs. volatilitetsklynging og langminneseffekter. Det fører oss til å konkludere at AR p mo del var utilstrekkelig til å fange all autokorrelasjonen tilstede. Som vi har sett ovenfor, var MA q-modellen ikke tilstrekkelig til å fange ytterligere seriell korrelasjon i residualene til den monterte modellen til den første rekkefølge forskjellige daglige loggprisserier. Vi vil nå forsøke å passe MA q modell til S P500. Man kan spørre hvorfor vi gjør dette, hvis vi vet at det er lite sannsynlig å være god passform. Dette er et godt spørsmål. Svaret er at vi trenger å se nøyaktig hvordan det passer godt, fordi dette er den ultimate prosessen vi vil følge når vi kommer over mye mer sofistikerte modeller, som er potensielt vanskeligere å tolke. Vi begynner med å skaffe dataene og konvertere det til en første ordens differensierte rekke logaritmisk omformede daglige sluttpriser som i den forrige artikkelen. Vi skal nå passe en MA 1, MA 2 og MA 3-modell til serien, som vi gjorde over for AMZN La oss starte med MA 1.Let s lage et plott av rester av denne monterte modellen. Rester av MA 1 Model Fi tted til S P500 Daily Log Prices. Den første betydelige toppen skjer ved k 2, men det er mange flere på k i. Dette er tydeligvis ikke en realisering av hvit støy, og derfor må vi avvise MA 1-modellen som en potensiell god passform for S P500. Gjør situasjonen bedre med MA 2.Nå igjen, la s lage en oversikt over resterne av denne monterte MA 2-modellen. Resuméer av MA 2-modell Tilpasset til S P500 Daily Log-priser. Mens toppet på k 2 er forsvunnet som vi forventer, er vi fortsatt igjen med de betydelige toppene ved mange lengre lags i residualene. Igjen finner vi at MA 2-modellen ikke er en god form. Vi burde forvente at MA 3-modellen ser mindre seriell korrelasjon på k 3 enn for MA 2, men igjen bør vi også forvente ingen reduksjon i ytterligere lags. La oss endelig lage en oversikt over resterne av denne monterte MA 3-modellen. Resuméer av MA 3-modell montert på S P500 Daily Log Priser. Dette er nettopp det vi ser i korrelogrammet av restene. Derfor er MA 3, som med de andre modellene ovenfor, ingen passe godt til S P500.Vi har nå undersøkt to store tidsseriemodeller i detalj, nemlig den autogressive bestillingsmodellen p, ARp og deretter Moving Average of order q, MA q Vi har sett at de begge er i stand til å forklare vekk noen av autokorrelasjonen i residualene av første ordens forskjellige daglige loggpriser på aksjer og indekser, men volatilitetsklynging og langminnedeffekter vedvarer. Det er endelig tid til å gjøre oppmerksomheten vår på kombinasjonen av disse to modellene, nemlig den autoregressive flyttingen Gjennomsnittlig av orden p, q, ARMA p, q for å se om det vil forbedre situasjonen ytterligere. Men vi må vente til neste artikkel for en full diskusjon. Bare kom i gang med kvantitativ handel.
No comments:
Post a Comment