Monday 13 November 2017

Ruch średnia wygładzanie danych


Wygładzanie danych z wykresu Excel z funkcją wygładzania dynamicznego Wygładzanie danych wykresu Excel ze stałą średnią ruchoma działa, gdy masz doświadczenie z danymi i jak ma to zmienną. Ale jeśli dane ulegną zmianie lub gdy nowy lub zarząd chce eksperymentować z inną liczbą okresów w średniej wygładzania. W tym przykładzie formuła OFFSET jest używana do tworzenia średniej w zakresie dynamicznym. Ty podajesz liczbę miesięcy, które chcesz wykorzystać w okresie wygładzania, a AVERAGE i OFFSET obliczyć, ile komórek ma przeciętnie. Przed przystąpieniem do AVERAGE dynamic, let8217 zaczynają od zrozumienia, jak działa OFFSET. Na poniższej ilustracji komórka G26 zawiera formułę wygładzania danych w wierszu 20, wartość OFFSET określa zakres AVERAGE wygładzając dane. Ta formuła jest krokiem pośrednim, pomagającym zrozumieć sposób działania formuły dynamicznej. Funkcja OFFSET zwraca zakres, w którym AVERAGE będzie działać. Atrybuty OFFSETs są, W tym przykładzie, zakres obliczany przez OFFSET zaczyna się od G20 i ma zero wierszy lub kolumn. Innymi słowy, lewy górny róg zakresu OFFSET oblicza się tylko na G20. Nie będzie on przesuwany ani przesuwany przez dowolne wiersze lub kolumny. Obliczony zakres będzie większy niż 1 wiersz i zawiera bieżącą komórkę G26 i dwa pozostałe w lewo (to jest -3). Tak obliczony zakres to G20: E20. Skopiuj tę formułę w G26 po prawej stronie, a zobaczysz średnią komórkę danych nad nią w wierszu 20 i poprzednich dwóch komórkach po lewej stronie. Więc, to jest sztuczka, która sprawi, że będzie ona dynamiczna i średnia w wybranym zakresie. Co zrobić, jeśli zamienisz odniesienie do komórki dla tego -3 we wzorze Na poniższym rysunku wzór w komórce G26 został zmodyfikowany, więc szerokość jest określona przez numer w komórce E24, E24 jest zieloną zacienioną komórką. Liczba wpisana w komórce E24 określi szerokość komórek używanych do przeciętenia. Wprowadzenie wartości w E24 spowoduje zmianę zakresu używanego do wygładzania danych. W tym momencie można skorzystać z przędzarki lub menu rozwijanego, aby dać użytkownikowi wybór, jak szerokie jest wygładzenie. Wynik ich selekcji powinien znajdować się w komórce E24. Jest jeden problem z tym układem. Jeśli użytkownik wprowadzi większą liczbę w E24 niż komórki po lewej stronie, wówczas OFFSET będzie zawierać puste komórki i etykietę. Spowoduje to błędną średnią. Jeśli E24 jest tak duży, że OFFSET znika z arkusza, AVERAGE powoduje błąd. Co zrobić Potrzebujemy rozwiązania, które nie wystarczy zatrzymać błąd, np. ISERROR, potrzebujemy takiego, który zatrzyma błędne odpowiedzi. W następnej kolejności formuła jest komórka G26. Wiersz 25 ma serię liczb, które są granicami ważnych zakresów po lewej stronie. Nowa formuła w komórce G26 wygląda na wiersz 25 i jeśli liczba w komórce E24 jest większa niż wartość graniczna w wierszu 25, wówczas NA () jest tworzony. Ta nowa formuła korekcji błędów w G26 jest, gdy wykres Excel odwołuje NA () w komórce nic nie plotuje. To zapobiega spadaniu linii wygładzania do zera. Zmodyfikuj dynamiczną formułę wygładzania, aby uniknąć błędów. Problemy z wyrównywaniem danych i sposobem ich obejścia Teraz możesz pozwolić użytkownikowi na dowolny okres wygładzania. Jednak (wydaje się, że zawsze jest to jednak lub w tym przypadku) ma problem z wygładzaniem danych. Wygładzanie usuwa niestabilność, ale oznacza również, że nie będziesz widzieć zmian kierunku, punktów przegięcia lub nowych trendów aż do połowy okresu wygładzania. Ty jesteś za krzywą. Najlepszym z obu światów jest użycie funkcji ważenia średniej wygładzania. W ten sposób możesz dać większą wagę do danych o zbliżającym się terminie, aby zobaczyć trendy, ale można wygładzić w oparciu o starsze dane, aby wyeliminować pewne wahania. Brzmi jak dobra sprawa dla innego artykułu, wygładzanie wykresu Excel z użyciem średniej ważonej. Pobierz przykładowy plik do wygładzania danych wykresu programu Excel z funkcją wygładzania ruchomego lub dynamicznego Pomoc przyjaciela, dzieląc się tym: Dane wygładzające eliminują przypadkową odmianę i przedstawiają trendy i elementy cykliczne W kolekcji danych pobranych w czasie jest pewna forma losowej odmian. Istnieją metody zmniejszania anulowania efektu z powodu zmienności losowej. Wygładza się często stosowana w przemyśle technika. Technika ta, stosowana we właściwy sposób, ujawnia bardziej wyraźny trend, elementy sezonowe i cykliczne. Istnieją dwie odrębne grupy sposobów wygładzania Metody uśredniające Metody wygładzania wykładniczego Pobieranie średnich jest najprostszym sposobem na wygładzanie danych Najpierw zbadamy niektóre uśrednione metody, takie jak zwykła średnia wszystkich poprzednich danych. Kierownik magazynu chce wiedzieć, ile typowy dostawca dostarcza w jednostkach 1000 dolarów. Heshe pobiera próbę z 12 dostawców, przypadkowo, uzyskując następujące wyniki: obliczona średnia lub średnia danych 10. Kierownik decyduje się na wykorzystanie tego jako preliminarza wydatków typowego dostawcy. Czy jest to dobry lub złe oszacowanie Mean squared error jest sposobem na to, aby ocenić, jak dobry model jest Obliczamy średnie kwadratowe błędy. Błąd prawdziwej kwoty wydanej minus szacowana kwota. Błękitny kwadrat jest błędem powyżej, wyrównany. SSE jest sumą kwadratowych błędów. MSE jest średnią z kwadratów błędów. Wyniki MSE Na przykład Wyniki są następujące: Błędy błędów i kwadratów Szacunkowe 10 Powstaje pytanie: czy możemy użyć średniego do przewidywanego przychodu, jeśli podejrzewamy, że trend A na wykresie poniżej widać wyraźnie, że nie powinniśmy tego robić. Średnia waży wszystkie dotychczasowe obserwacje Podsumowując, stwierdzamy, że zwykła średnia lub średnia wszystkich wcześniejszych obserwacji jest tylko użytecznym oszacowaniem prognozowania, gdy nie ma żadnych trendów. Jeśli istnieją trendy, użyj różnych szacunków, które uwzględniają trend. Średnia waży wszystkie obserwacje w równym stopniu. Na przykład średnia z wartości 3, 4, 5 wynosi 4. Oczywiście wiemy, że średnia jest obliczana poprzez dodanie wszystkich wartości i podzielenie sumy przez liczbę wartości. Innym sposobem obliczania średniej jest dodanie każdej wartości podzielonej przez liczbę wartości, czyli 33 43 53 1 1.3333 1.6667 4. Mnożnik 13 nazywa się wagą. Ogólnie: bar frac suma w lewo (w prawo frac) x1 w lewo (frac w prawo) x2,. ,, w lewo (w prawo frac) xn. (Lewy (prawy frak)) to ciężary i oczywiście sumują się do 1. Przesuwanie średnich i wykładniczych modeli wygładzania Jako pierwszy krok w wychodzeniu poza średnie modele, losowe modele chodu i modele trendów liniowych, nieuzasadnione wzorce i trendy może być ekstrapolowana przy użyciu modelu ruchomo-średniego lub wygładzającego. Podstawowym założeniem za modelami uśredniania i wygładzania jest to, że szereg czasowy jest lokalnie stacjonarny, a powoli zmienia się średnio. W związku z tym bierzemy ruchomą (lokalną) średnią w celu oszacowania bieżącej wartości średniej, a następnie użyć jej jako prognozy na najbliższą przyszłość. Można to uznać za kompromis między średnim modelem a modelem losowego chodzenia bez dryfu. Ta sama strategia może być wykorzystana do oszacowania i ekstrapolacji lokalnego trendu. Średnia ruchoma jest często określana jako quotsmoothedquot wersja pierwotnej serii, ponieważ uśrednianie krótkotrwałe ma efekt wygładzania uderzeń w oryginalnej serii. Dostosowując stopień wygładzania (szerokość średniej ruchomej), możemy mieć nadzieję na osiągnięcie jakiegoś optymalnego balansu między osiągnięciem modelu średniej i losowej. Najprostszym modelem uśredniania jest. Prosta (równoważona wagą) Średnia ruchoma: Prognoza dla wartości Y w czasie t1, która jest wykonana w czasie t równa się zwykłej średniej z ostatnich obserwacji m: (Tutaj i gdzie indziej będę używać symbolu 8220Y-hat8221 do odstania dla prognozowania serii czasowej Y dokonanej najwcześniej w poprzednim terminie przez dany model). Ta średnia jest wyśrodkowana w okresie t - (m1) 2, co oznacza, że ​​oszacowanie lokalnej średniej będzie miało tendencję do opóźnienia w stosunku do prawdziwych wartość lokalnej średniej o około (m1) 2 okresów. Tak więc mówimy, że średni wiek danych w prostej średniej ruchomej wynosi (m1) 2 w stosunku do okresu, na który obliczana jest prognoza: jest to ilość czasu, w jakim prognozy będą się spóźniały za punktami zwrotnymi w danych . Na przykład, jeśli uśrednimy ostatnie 5 wartości, prognozy będą wynosić około 3 okresy późne w odpowiedzi na punkty zwrotne. Zauważ, że jeśli m1, model prostego ruchu średniego (SMA) odpowiada modelowi losowego chodzenia (bez wzrostu). Jeśli m jest bardzo duża (porównywalna z długością okresu szacowania), model SMA jest równoważny średniemu modelowi. Podobnie jak w przypadku dowolnego parametru modelu prognozowania, zwykle dostosowywana jest wartość k w celu uzyskania najlepszej jakości danych, tzn. Najmniejszych średnich błędów prognozy. Oto przykład serii, która wydaje się wykazywać losowe fluktuacje wokół średniej wolno zmieniającej. Po pierwsze, spróbuj dopasować go do modelu przypadkowego spaceru, co odpowiada prostej średniej ruchomej z jednej kadencji: model losowego spaceru reaguje bardzo szybko na zmiany w serii, ale w ten sposób robi to znacznie pobudzając kwintesencję dane (losowe fluktuacje), jak również kwotsignalquot (lokalna średnia). Jeśli weźmiemy pod uwagę prostą średnią ruchomą wynoszącą 5 terminów, otrzymamy gładszy zestaw prognoz: 5-letnia prosta średnia ruchoma daje w tym przypadku znacznie mniejsze błędy niż model losowego chodu. Przeciętny wiek danych w tej prognozie wynosi 3 ((51) 2), co oznacza, że ​​ma tendencję do pozostawania za punktami zwrotnymi przez około trzy okresy. (Na przykład spadek koniunktury wydaje się występować w okresie 21, ale prognozy nie odwracają się do kilku okresów później). Zauważ, że długoterminowe prognozy modelu SMA to poziome linie proste, podobnie jak w przypadku losowego spaceru Model. Tak więc, model SMA zakłada, że ​​nie ma tendencji w danych. Jednakże, mając na uwadze, że prognozy z modelu losowego spaceru są po prostu równoważne ostatniej obserwowanej wartości, prognozy z modelu SMA są równe średniej ważonej ostatnich wartości. Ograniczenia ufności obliczone przez Statgraphics w odniesieniu do długoterminowych prognoz dotyczących prostej średniej ruchomej nie są szersze, gdy horyzont prognoz wzrasta. To oczywiście nie jest poprawne Niestety, nie ma podstawowej teorii statystycznej, która mówi nam, w jaki sposób przedziały ufności powinny poszerzać się w tym modelu. Nie jest jednak zbyt trudno obliczyć empirycznych szacunków dopuszczalnych granic dla prognoz długoterminowych. Na przykład można utworzyć arkusz kalkulacyjny, w którym model SMA byłby wykorzystywany do prognozowania 2 kroków naprzód, 3 kroków do przodu, itd. W ramach historycznej próbki danych. Następnie można obliczyć próbkowe odchylenia standardowe błędów w każdym horyzoncie prognozy, a następnie skonstruować interwały zaufania dla prognoz długoterminowych przez dodawanie i odejmowanie wielokrotności odpowiedniego odchylenia standardowego. Jeśli będziemy próbować 9-letniej prostej średniej ruchomej, otrzymamy jeszcze gładsze prognozy i bardziej opóźniamy: średni wiek wynosi obecnie 5 okresów ((91) 2). Jeśli weźmiemy 19-letnią średnią ruchliwą, średni wiek wzrośnie do 10: Zauważ, że prognozy są już za punktami zwrotnymi o około 10 okresów. Która suma wygładzania jest najlepsza dla tej serii Poniżej znajduje się tabela porównująca ich statystykę błędów, w tym również średnia 3-letnia: Model C, 5-letnia średnia ruchoma, daje najniższą wartość RMSE przez mały margines w ciągu 3 średnie i średnie 9-dniowe oraz inne statystyki są niemal identyczne. Wśród modeli o bardzo podobnych statystykach błędów możemy wybrać, czy wolelibyśmy nieco lepiej reagować lub trochę bardziej sprawnie. (Powtórz początek strony). Browns Simple Exponential Smoothing (średnia wykładana ważona średnią ruchoma) Opisany wyżej prosty model średniej średniej ma niepożądaną właściwość, która traktuje ostatnie obserwacje równomiernie i całkowicie ignoruje wszystkie poprzednie obserwacje. Intuicyjnie dane z przeszłości powinny być dyskontowane w sposób bardziej stopniowy - na przykład ostatnie obserwacje powinny mieć nieco więcej niż druga ostatnia, a druga ostatnia powinna być nieco większa niż ostatnia z trzech, a wkrótce. Dokonuje tego prostokątny wygładzający (SES). Niech 945 oznacza stałą kwotową konsystencji (liczba między 0 a 1). Jednym ze sposobów zapisania modelu jest zdefiniowanie serii L, która reprezentuje aktualny poziom (tzn. Średnia wartość lokalna) szeregu szacowana na podstawie danych do dnia dzisiejszego. Wartość L w czasie t obliczana jest rekurencyjnie z własnej poprzedniej wartości: W ten sposób bieżąca wygładzona wartość jest interpolacją pomiędzy poprzednią wygładzoną wartością a bieżącą obserwacją, gdzie 945 kontroluje bliskość interpolowanej wartości do najnowszej obserwacja. Prognoza na następny okres jest po prostu aktualną wygładzoną wartością: równoważnie możemy wyrazić następną prognozę bezpośrednio w odniesieniu do poprzednich prognoz i wcześniejszych obserwacji w dowolnej z następujących równoważnych wersji. W pierwszej wersji prognoza jest interpolacją między poprzednią prognozą a poprzednią obserwacją: w drugiej wersji następna prognoza uzyskuje się przez dostosowanie poprzedniej prognozy w kierunku poprzedniego błędu w ułamkowej wartości 945. jest błędem dokonanym w czas t. W trzecim projekcie prognoza jest średnią ruchoma ważoną wykładnicą (tzn. Zdyskontowaną) z współczynnikiem dyskontowania 1 - 945: wersja interpolacyjna formuły prognozowania jest najprostszym sposobem użycia, jeśli model jest wdrażany w arkuszu kalkulacyjnym: jest on dopasowany do pojedynczą komórkę i zawiera odwołania do komórek wskazujące na poprzednią prognozę, poprzednią obserwację oraz komórkę, w której zapisana jest wartość 945. Zauważ, że jeśli 945 1, model SES jest równoważny modelowi losowego spaceru (bez wzrostu). Jeśli 945 0, model SES jest odpowiednikiem średniego modelu, zakładając, że pierwsza wygładzona wartość jest równa średniej. (Powrót na górę strony.) Przeciętny wiek danych w prognozie wygładzania według wykładników prostych i wykładniczych wynosi 1 945 w stosunku do okresu, w którym obliczana jest prognoza. (Nie powinno to być oczywiste, ale można to łatwo wykazać przez ocenę nieskończonej serii). W związku z tym, prosta średnia ruchoma przebiega za punktami zwrotnymi przez około 1 945 okresów. Na przykład, gdy 945 0,5 opóźnienie to 2 okresy, gdy 945 0,2 opóźnienie wynosi 5 okresów, gdy 945 0,1 opóźnienia wynosi 10 okresów itd. Dla pewnego przeciętnego wieku (czyli ilości opóźnień), prosta prognoza wygładzania wykładniczego (SES) jest nieco lepsza od prognozy SMA (Simple moving average), ponieważ w ostatnim obserwowaniu obserwuje się relatywnie większą wagę. jest nieco bardziej odpowiadający na zmiany zachodzące w niedawnej przeszłości. Na przykład model SMA z 9 terminami i model SES z 945 0.2 mają średni wiek 5 lat dla danych w ich prognozach, ale model SES daje większą wagę w stosunku do ostatnich 3 wartości niż model SMA i na poziomie w tym samym czasie nie robi nic 8220forget8221 o wartościach powyżej 9 okresów, jak pokazano na poniższym wykresie: Inną ważną zaletą modelu SES w modelu SMA jest to, że model SES wykorzystuje parametr wygładzania, który jest ciągle zmienny, dzięki czemu można z łatwością zoptymalizować za pomocą algorytmu quotsolverquot w celu zminimalizowania średniego kwadratu. Optymalna wartość 945 w modelu SES dla tej serii okazała się wynosić 0.2961, jak pokazano poniżej: średni wiek danych w tej prognozie to 10.2961 3.4 okresy, które są podobne do średniej 6-letniej prostej średniej ruchomej. Długoterminowe prognozy z modelu SES są poziomej prostej. jak w modelu SMA i modelu przypadkowego spacerowania bez wzrostu. Należy jednak pamiętać, że przedziały ufności obliczane przez Statgraphics różnią się w rozsądny sposób i że są one znacznie węższe niż przedziały ufności dla modelu losowego spaceru. Model SES zakłada, że ​​seria jest nieco bardziej przewidywalna niż model losowego chodu. Model SES jest faktycznie szczególnym przypadkiem modelu ARIMA. tak więc statystyczna teoria modeli ARIMA stanowi solidną podstawę do obliczania przedziałów ufności dla modelu SES. W szczególności model SES jest modelem ARIMA z odmienną różnicą, terminem MA (1), a nie określonym terminem. inaczej znany jako model quotARIMA (0,1,1) bez stałej ilości. Współczynnik MA (1) w modelu ARIMA odpowiada ilościowi 1- 945 w modelu SES. Na przykład, jeśli dopasujesz model ARIMA (0,1,1) bez stałej do analizowanej serii, szacowany współczynnik MA (1) okazuje się wynosić 0.7029, czyli prawie dokładnie minus minus 0.2961. Możliwe jest dodanie założenia niezerowej stałej tendencji liniowej do modelu SES. W tym celu wystarczy podać model ARIMA z jedną różniczkową różnicą i terminem MA (1) ze stałą, tj. Model ARIMA (0,1,1) ze stałą. Prognozy długoterminowe będą wtedy miały tendencję, która jest równa średniej tendencji obserwowanej w całym okresie szacunkowym. Nie można tego zrobić w połączeniu z dostosowaniem sezonowym, ponieważ opcje dopasowania sezonowego są wyłączone, gdy typ modelu jest ustawiony na ARIMA. Można jednak dodać stałą długoterminową tendencję wykładniczą do prostego modelu wygładzania wykładniczego (z korektą sezonową lub bez), korzystając z opcji regulacji inflacji w procedurze Prognozowania. Odpowiednia szybkość wzrostu kwotowania (stopa wzrostu procentowego) w danym okresie może być oszacowana jako współczynnik nachylenia w modelu liniowego tendencji dopasowany do danych w połączeniu z naturalną transformacją logarytmiczną lub może opierać się na innych, niezależnych informacjach dotyczących długoterminowych perspektyw wzrostu . (Powrót na początek strony). Browns Linear (tj. Podwójne) Wyrównywanie wykładnicze Modele SMA i modele SES zakładają, że w danych nie ma żadnego trendu (co zwykle jest OK lub przynajmniej nie jest zbyt złe dla 1- prognozy stopniowe, gdy dane są stosunkowo hałaśliwe) i można je zmodyfikować, aby uwzględnić stały trend liniowy, jak pokazano powyżej. Co z trendami krótkoterminowymi Jeśli seria wykazuje zróżnicowaną stopę wzrostu lub cykliczny wzór wyraźnie wyróżniający się w stosunku do hałasu, a jeśli istnieje potrzeba prognozowania więcej niż jednego okresu, szacunek lokalnej tendencji może być również problem. Prosty model wygładzania wykładniczego można uogólnić w celu uzyskania liniowego modelu wygładzania wykładniczego (LES), który oblicza lokalne szacunki zarówno poziomu, jak i tendencji. Najprostszym modelem trendów jest Browns liniowy model wygładzania wykładniczego, który wykorzystuje dwie różne wygładzone serie, które są wyśrodkowane w różnych punktach w czasie. Formuła prognozy opiera się na ekstrapolacji linii przez dwa centra. (Poniżej omówiono bardziej wyrafinowaną wersję tego modelu, Holt8217). Algorytm liniowy linearyzacji Brown8217s, podobnie jak model prostokątnego wygładzania, może być wyrażony w wielu różnych, ale równoważnych formach. Niewątpliwą formą tego modelu jest zwykle wyrażona w następujący sposób: Niech S oznacza pojedynczo wygładzoną serię otrzymaną przez zastosowanie prostego wygładzania wykładniczego do serii Y. Oznacza to, że wartość S w okresie t jest wyrażona przez: (Przypomnijmy, że według prostego wyrównywanie wykładnicze, to byłaby prognoza dla Y w okresie t1). Pozwólmy Squot oznaczać podwójnie wygładzoną serię otrzymaną przez zastosowanie prostego wygładzania wykładniczego (przy użyciu tego samego 945) do serii S: Wreszcie prognoza dla Y tk. dla każdego kgt1, podaje: Otrzymuje e 1 0 (to znaczy trochę oszukiwać, a pierwsza prognoza jest równa faktycznej pierwszej obserwacji) i e 2 Y 2 8211 Y 1. po których generowane są prognozy przy użyciu powyższego wzoru. Daje to takie same wartości, jak wzór na podstawie S i S, jeśli te ostatnie zostały uruchomione przy użyciu S 1 S 1 Y 1. Ta wersja modelu jest używana na następnej stronie, która ilustruje kombinację wygładzania wykładniczego z dostosowaniem sezonowym. Model LES firmy Holt8217s oblicza lokalny szacunek poziomu i trendu, wygładając ostatnie dane, ale fakt, że wykonuje to za pomocą pojedynczego parametru wygładzania, ogranicza wzorce danych, które można dopasować: poziom i trend nie mogą zmieniać się w niezależnych stawkach. Model LES firmy Holt8217s rozwiązuje ten problem przez uwzględnienie dwóch stałych wygładzania, po jednym dla poziomu i jednego dla tego trendu. W dowolnym momencie t, podobnie jak w modelu Brown8217s, szacuje się, że na poziomie lokalnym jest szacunkowa t t lokalnego trendu. Tutaj są obliczane rekurencyjnie z wartości Y obserwowanej w czasie t oraz poprzednich szacunków poziomu i tendencji przez dwa równania, które nakładają na siebie wyrównywanie wykładnicze. Jeśli szacowany poziom i tendencja w czasie t-1 to L t82091 i T t-1. odpowiednio, wówczas prognoza dla Y tshy, która została dokonana w czasie t-1, jest równa L t-1 T t-1. Gdy rzeczywista wartość jest zaobserwowana, zaktualizowany szacunek poziomu jest obliczany rekurencyjnie przez interpolowanie pomiędzy Y tshy a jego prognozą, L t-1 T t-1, przy użyciu odważników 945 i 1 945. Zmiana szacowanego poziomu, mianowicie L t 8209 L t82091. można interpretować jako hałasujący pomiar tendencji w czasie t. Zaktualizowane oszacowanie trendu jest następnie obliczane rekurencyjnie przez interpolowanie pomiędzy L t 8209 L t82091 a poprzednim oszacowaniem tendencji T t-1. przy użyciu odważników 946 i 1-946: Interpretacja stałej 946 wyrównania tendencji jest analogiczna do stałej stymulacji 945. Modele o małych wartościach 946 zakładają, że tendencja zmienia się bardzo powoli w czasie, podczas gdy modele z większy rozmiar 946 zakłada, że ​​zmienia się szybciej. Model z dużą liczbą 946 uważa, że ​​dalsza przyszłość jest bardzo niepewna, ponieważ błędy w oszacowaniu tendencji stają się bardzo ważne, gdy prognozuje się więcej niż jeden rok. (Powrót na początek strony). Stałe wygładzania 945 i 946 można oszacować w zwykły sposób minimalizując średnie kwadratowe błędy prognoz na jeden etap. Gdy to nastąpi w Statgraphics, szacunki wyniosły 945 0,3048 i 946 0,008. Bardzo mała wartość 946 oznacza, że ​​model zakłada bardzo niewielką zmianę tendencji z jednego okresu do następnego, więc w zasadzie ten model próbuje oszacować długoterminowy trend. Przez analogię do pojęcia średniego wieku danych używanych do oszacowania lokalnego poziomu szeregu, średni wiek danych wykorzystywanych do oszacowania tendencji lokalnej jest proporcjonalny do 1 946, chociaż nie jest dokładnie taki sam . W tym przypadku okazuje się, że jest to 10.006 125. Jest to bardzo dokładna liczba, ponieważ dokładność szacowania 946 isn8217t rzeczywiście wynosi 3 miejsca po przecinku, ale ma ten sam ogólny porządek wielkości co rozmiar próbki 100, więc ten model uśrednia wiele historii w szacowaniu tendencji. Poniższa wykres prognozuje, że model LES szacuje nieco większą tendencję lokalną na końcu serii niż stała tendencja szacowana w modelu SEStrend. Ponadto szacowana wartość 945 jest niemal identyczna z uzyskaną przez dopasowanie modelu SES do trendu lub bez, więc jest to prawie ten sam model. Teraz wyglądają jak rozsądne prognozy modelu, które ma być szacowaniem tendencji lokalnej Jeśli wygląda to na wykresie, wygląda na to, że lokalny trend spadł na koniec serii Co się stało Parametry tego modelu zostały oszacowane przez zminimalizowanie kwadratu błędów prognoz na jeden etap, a nie prognoz długoterminowych, w których to przypadku tendencja ta ma wiele różnic. Jeśli wszystko, na co patrzysz, to błędy z jednopodstawowym wyprzedzeniem, nie widzisz większego obrazu trendów w ciągu 10 lub 20 okresów (powiedzmy). Aby uzyskać ten model bardziej zgodny z naszą ekstrapolacją danych oczu, możemy ręcznie dostosować stałą wygładzania trendu, tak aby używała krótszej linii odniesienia dla oszacowania tendencji. Na przykład, jeśli zdecydujemy się na ustawienie 946 0,1, średni wiek danych wykorzystywanych do oszacowania lokalnego trendu to 10 okresów, co oznacza, że ​​uśrednimy tendencję w ciągu ostatnich 20 okresów. Here8217s jak wygląda prognoza wykresu, jeśli ustawimy 946 0.1 przy zachowaniu 945 0.3. To wydaje się intuicyjnie rozsądne w tej serii, chociaż najprawdopodobniej jest to niebezpieczne, aby wyliczyć tę tendencję w przyszłości o więcej niż 10 okresów. Co ze statystykami o błędach Oto porównanie modelu dwóch modeli przedstawionych powyżej oraz trzech modeli SES. Optymalna wartość 945 dla modelu SES wynosi około 0,3, ale uzyskuje się podobne wyniki (z nieco większą lub mniejszą czułością na reakcję) przy wartości 0,5 i 0,2. (A) Holts liniowy exp. wygładzanie z alfa 0,3048 i beta 0,008 (B) liniowe liniowe exp. wygładzanie za pomocą alfa 0.3 i beta 0.1 (C) proste wyrównywanie wykładnicze z alfa 0.5 (D) proste wyrównywanie wykładnicze z alfa 0.3 (E) proste wyrównywanie wykładnicze z alfa 0.2 ich statystyka jest prawie identyczna, więc naprawdę możemy8217t dokonać wyboru na podstawie Błędy prognozy dotyczące etapu wyprzedzania w ramach próbki danych. Musimy pogodzić się z innymi względami. Jeśli uważamy, że sensowne jest oparcie bieżącej tendencji szacunkowej na to, co wydarzyło się w ciągu ostatnich 20 okresów, możemy zrobić przypadek modelu LES z 945 0,3 i 946 0,1. Jeśli chcemy być agnostyczni, czy istnieje tendencja lokalna, jeden z modeli SES może być łatwiejszy do wyjaśnienia, a także dałby więcej prognoz średniej wielkości na najbliższe 5 lub 10 okresów. (Powrót na początek strony.) Który typ tendencji - ekstrapolacja jest najlepsza: pozioma lub liniowa Dane empiryczne sugerują, że jeśli dane zostały już skorygowane (jeśli to konieczne) dla inflacji, może okazać się nieroztropne, aby ekstrapolować krótkoterminową liniową trendy bardzo daleko w przyszłość. Trendy widoczne dziś mogą się spowolnić w przyszłości ze względu na różne przyczyny, takie jak nieaktualność produktu, zwiększona konkurencja i cykliczne spowolnienie gospodarcze lub wzrost w przemyśle. Z tego powodu prosty wygładzanie wykładnicze często wykonuje lepszą próbę poza próbą niż oczekiwano inaczej, pomimo ekstrapolacji tendencji poziomej. Często w praktyce często stosuje się modyfikacje trendu tłumiącego liniowego modelu wygładzania wykładniczego, aby w praktyce wprowadzić do konserwacji swój zapis konserwatyzmu. Model "LES" z tendencjami tłumionymi może być realizowany jako szczególny przypadek modelu ARIMA, w szczególności modelu ARIMA (1,1,2). Możliwe jest obliczanie przedziałów ufności wokół prognoz długoterminowych wytworzonych przez wykładnicze modele wygładzania, biorąc pod uwagę je jako szczególne przypadki modeli ARIMA. (Uwaga: nie wszystkie programy obliczają prawidłowe przedziały ufności dla tych modeli.) Szerokość przedziałów ufności zależy od (i) błędu RMS modelu, (ii) rodzaju wygładzania (prostego lub liniowego) (iii) wartości (-ów) wygładzania (a) i (iv) liczbę prognozowanych okresów. Ogólnie rzecz biorąc, odstępy czasowe rozciągają się szybciej, gdy 945 staje się większe w modelu SES i rozciągają się znacznie szybciej, gdy stosuje się linearne, a nie proste wygładzanie. Ten temat jest omówiony w dalszej części sekcji ARIMA w uwagach. (Powrót na początek strony.) 5.2 Wygładzanie Seria Wygładzanie Zwykle wygładza się, aby lepiej zobaczyć wzorce, trendy, na przykład w serii czasowych. Ogólnie wygładzić nieregularne szorstkości, aby zobaczyć jaśniejszy sygnał. W przypadku danych sezonowych możemy wygładzić sezonowość, abyśmy mogli zidentyfikować ten trend. Wygładzanie nie dostarcza nam modelu, ale może być dobrym pierwszym krokiem w opisie różnych elementów serii. Filtr terminowy jest czasami używany do opisania procedury wygładzania. Na przykład, jeśli wygładzona wartość dla określonego czasu jest obliczana jako liniowa kombinacja obserwacji dla otaczających czasów, można powiedzieć, że weve zastosował filtr liniowy do danych (nie to samo co powiedzenie wyniku jest prostą linią, droga). Tradycyjne użycie średniej ruchomej oznacza, że ​​w każdym punkcie wyznaczamy (ewentualnie ważone) średnie obserwowanych wartości otaczających określony czas. Na przykład w czasie t. średnia średnica ruchoma o długości 3 przy równych obciążeniach byłaby średnią wartości w czasie t-1. t. i t1. Aby wyeliminować sezonowość z serii, więc lepiej widzieć trend, użyjemy średniej ruchomej z długością sezonową. Tak więc w wygładzonych seriach każda wygładzona wartość została uśredniona we wszystkich porach roku. Można to zrobić, patrząc na jednostronną średnią ruchową, w której przeciętnie wszystkie wartości z poprzednich lat są warte danych lub średnia ruchoma średnia, w której używasz wartości przed i po bieżącym czasie. Dla danych kwartalnych, na przykład, możemy wyznaczyć wygładzoną wartość dla czasu t jako (x t x t-1 x t-2 x t-3) 4, średnio tego czasu i poprzednich 3 kwartałów. W kodzie R będzie to jednostronny filtr. Wyśrodkowana średnia ruchoma jest trochę trudna, gdy mamy parzystą liczbę okresów w sezonie (jak zwykle). Aby wygładzić sezonowość danych kwartalnych. w celu zidentyfikowania tendencji, zwykła konwencja polega na użyciu średniej ruchomej wygładzonej w czasie t jest złagodzenie sezonowości danych miesięcznych. w celu zidentyfikowania tendencji, zwykła konwencja polega na użyciu średniej ruchomej wygładzonej w czasie t jest to, że stosujemy ciężar 124 do wartości w czasach t6 i t6 oraz waga 112 do wszystkich wartości w każdym czasie między t5 a t5. W poleceniu filtrowania R należy określić filtr dwustronny, jeśli chcemy używać wartości, które pojawiły się zarówno przed, jak i po upływie czasu wygładzania. Zauważ, że na stronie 71 naszej książki autorzy stosują równe odważniki w średniej średniej ruchomej sezonie. Też dobrze. Na przykład co kwartał gładsza może być wygładzona w czasie t Frost x frac x frac x frac x Miesiąc miesięcznie gładszy może zastosować wagę 113 do wszystkich wartości od razy t-6 do t6. Kod wykorzystywany przez autorów na stronie 72 wykorzystuje polecenie rep, które powtarza wartość pewnej liczby razy. Nie używają filtru w poleceniu filtra. Przykład 1 Kwartalna produkcja piwa w Australii W obu lekcjach 1 i lekcji 4 przyjrzeliśmy się serii kwartalnych produkcji piwa w Australii. Poniższy kod R tworzy wygładzoną serię, która pozwala nam zobaczyć wzór tendencji i posługuje się wykresem tendencji na tym samym wykresie, co seria czasu. Drugie polecenie tworzy i zapisuje wygładzone serie w obiekcie zwanym trendpattern. Zauważ, że w poleceniu filtra parametr o nazwie filtra daje współczynniki wygładzania i boki 2 powoduje wyrównanie wyśrodkowanej gładkości. beerprod (beerprod. dat) filtr trendpattern (beerprod, filtr c (18, 14, 14, 18), boki2) wykres (beerprod, typ b, główny ruch średnioroczny) linie (trendpattern) może odjąć wzorzec trendu od wartości danych, aby lepiej przyjrzeć się sezonowości. Heres how that would be done: seasonals beerprod - trendpattern plot (seasonals, type b, main Seasonal pattern for beer production) The result follows: Another possibility for smoothing series to see trend is the one-sided filter trendpattern2 filter (beerprod, filter c(14, 14, 14, 14), sides1) With this, the smoothed value is the average of the past year. Example 2 . U. S. Monthly Unemployment In the homework for week 4 you looked at a monthly series of U. S. Unemployment for 1948-1978. Heres a smoothing done to look at the trend. trendunemployfilter(unemploy, filterc(124,112,112,112,112,112,112,112,112,112,112,112,124), sides2) trendunemploy ts(trendunemploy, start c(1948,1), freq 12) plot(trendunemploy, mainTrend in U. S. Unemployment, 1948-1978, xlab Year) Only the smoothed trend is plotted. The second command identifies the calendar time characteristics of the series. That makes the plot have a more meaningful axis. The plot follows. For non-seasonal series, you arent bound to smooth over any particular span. For smoothing you should experiment with moving averages of different spans. Those spans of time could be relatively short. The objective is to knock off the rough edges to see what trend or pattern might be there. Other Smoothing Methods (Section 2.4) Section 2.4 describes several sophisticated and useful alternatives to moving average smoothing. The details may seem sketchy, but thats okay because we dont want to get bogged down in lots of details for those methods. Of the alternative methods described in Section 2.4, lowess (locally weighted regression) may be the most widely used. Example 2 Continued The following plot is smoothed trend line for the U. S. Unemployment series, found using a lowess smoother in which a substantial amount (23) contributed to each smoothed estimate. Note that this smoothed the series more aggressively than the moving average. The commands used were unemploy ts(unemploy, start c(1948,1), freq12) plot(lowess(unemploy, f 23), main Lowess smoothing of U. S. Unemployment Trend) Single Exponential Smoothing The basic forecasting equation for single exponential smoothing is often given as hat alpha xt (1-alpha)hat t text We forecast the value of x at time t1 to be a weighted combination of the observed value at time t and the forecasted value at time t . Although the method is called a smoothing method, its principally used for short run forecasting. The value of is called the smoothing constant . For whatever reason, 0.2 is a popular default choice of programs. This puts a weight of .2 on the most recent observation and a weight of 1 .2 .8 on the most recent forecast. With a relatively small value of , the smoothing will be relatively more extensive. With a relatively large value of , the smoothing is relatively less extensive as more weight will be put on the observed value. This is simple one-step ahead forecasting method that at first glance seems not to require a model for the data. In fact, this method is equivalent to the use of an ARIMA(0,1,1) model with no constant. The optimal procedure is to fit an ARIMA (0,1,1) model to the observed dataset and use the results to determine the value of . This is optimal in the sense of creating the best for the data already observed. Although the goal is smoothing and one step ahead forecasting, the equivalence to the ARIMA(0,1,1) model does bring up a good point. We shouldnt blindly apply exponential smoothing because the underlying process might not be well modeled by an ARIMA(0,1,1). ARIMA(0,1,1) and Exponential Smoothing Equivalence Consider an ARIMA(0,1,1) with mean 0 for the first differences, x t - x t-1 : begin hat amp amp xt theta1 wt amp amp xt theta1(xt-hat t) amp amp (1 theta1)xt - theta1hat tend . If we let (1 1 ) and thus -( 1 ) 1, we see the equivalence to equation (1) above. Why the Method is Called Exponential Smoothing This yields the following: begin hat amp amp alpha xt (1-alpha)alpha x (1-alpha)hat amp amp alpha xt alpha(1-alpha)x (1-alpha)2hat end Continue in this fashion by successively substituting for the forecasted value on the right side of the equation. This leads to: hat alpha xt alpha(1-alpha)x alpha(1-alpha)2 x dots alpha(1-alpha)j x dots alpha(1-alpha) x1 text Equation 2 shows that the forecasted value is a weighted average of all past values of the series, with exponentially changing weights as we move back in the series. Optimal Exponential Smoothing in R Basically, we just fit an ARIMA(0,1,1) to the data and determine the coefficient. We can examine the fit of the smooth by comparing the predicted values to the actual series. Exponential smoothing tends to be used more as a forecasting tool than a true smoother, so were looking to see if we have a good fit. Example 3 . n 100 monthly observations of the logarithm of an oil price index in the United States. The data series is: An ARIMA(0,1,1) fit in R gave an MA(1) coefficient 0.3877. Thus (1 1 ) 1.3877 and 1- -0.3877. The exponential smoothing forecasting equation is hat 1.3877xt - 0.3877hat t At time 100, the observed value of the series is x 100 0.86601. The predicted value for the series at that time is Thus the forecast for time 101 is hat 1.3877x - 0.3877hat 1.3877(0.86601)-0.3877(0.856789) 0.8696 Following is how well the smoother fits the series. Its a good fit. Thats a good sign for forecasting, the main purpose for this smoother. Here are the commands used to generate the output for this example: oilindex scan(oildata. dat) plot (oilindex, type b, main Log of Oil Index Series) expsmoothfit arima (oilindex, order c(0,1,1)) expsmoothfit to see the arima results predicteds oilindex - expsmoothfitresiduals predicted values plot (oilindex, typeb, main Exponential Smoothing of Log of Oil Index) lines (predicteds) 1.3877oilindex100-0.3877predicteds100 forecast for time 101 Double Exponential Smoothing Double exponential smoothing might be used when theres trend (either long run or short run), but no seasonality. Essentially the method creates a forecast by combining exponentially smoothed estimates of the trend (slope of a straight line) and the level (basically, the intercept of a straight line). Two different weights, or smoothing parameters, are used to update these two components at each time. The smoothed level is more or less equivalent to a simple exponential smoothing of the data values and the smoothed trend is more or less equivalent to a simple exponential smoothing of the first differences. The procedure is equivalent to fitting an ARIMA(0,2,2) model, with no constant it can be carried out with an ARIMA(0,2,2) fit. (1-B)2 xt (1theta1B theta2B2)wt. Navigation

No comments:

Post a Comment