Friday 25 August 2017

Rmse moving average


Penyebaran spreadsheet penyesuaian musiman dan eksponensial smoothing Sangat mudah melakukan penyesuaian musiman dan model pemulusan eksponensial yang sesuai dengan Excel. Gambar layar dan grafik di bawah diambil dari spreadsheet yang telah disiapkan untuk menggambarkan penyesuaian musiman multiplikatif dan pemulusan eksponensial linier pada data penjualan kuartalan berikut dari Outboard Marine: Untuk mendapatkan salinan file spreadsheet itu sendiri, klik di sini. Versi pemulusan eksponensial linier yang akan digunakan di sini untuk tujuan demonstrasi adalah versi Brown8217s, hanya karena dapat diimplementasikan dengan satu kolom formula dan hanya ada satu smoothing constant yang bisa dioptimalkan. Biasanya lebih baik menggunakan versi Holt8217 yang memiliki konstanta pemulusan terpisah untuk tingkat dan tren. Proses peramalan berjalan sebagai berikut: (i) pertama data disesuaikan secara musiman (ii) maka prakiraan dihasilkan untuk data penyesuaian musiman melalui pemulusan eksponensial linier dan (iii) perkiraan musim yang disesuaikan secara musiman adalah kuotimasi untuk mendapatkan perkiraan untuk rangkaian aslinya. . Proses penyesuaian musiman dilakukan di kolom D sampai G. Langkah pertama dalam penyesuaian musiman adalah menghitung rata-rata pergerakan terpusat (dilakukan di kolom D). Hal ini dapat dilakukan dengan menghitung rata-rata dua rata-rata satu tahun yang diimbangi dengan satu periode relatif terhadap satu sama lain. (Kombinasi dua rata-rata offset daripada rata-rata tunggal diperlukan untuk tujuan pemetikan saat jumlah musim genap.) Langkah selanjutnya adalah menghitung rasio terhadap rata-rata pergerakan - i. Data asli dibagi dengan rata-rata bergerak pada setiap periode - yang dilakukan di sini pada kolom E. (Ini juga disebut komponen siklus-trenwot dari pola, sejauh kecenderungan dan efek siklus bisnis dapat dianggap sebagai semua hal Tetap setelah rata-rata selama satu tahun penuh data. Tentu saja, perubahan bulan ke bulan yang bukan karena musiman dapat ditentukan oleh banyak faktor lainnya, namun rata-rata 12 bulan di atas mereka untuk sebagian besar.) Indeks musiman diperkirakan untuk setiap musim dihitung dengan rata-rata pertama untuk semua rasio untuk musim tertentu, yang dilakukan di sel G3-G6 menggunakan formula AVERAGEIF. Rasio rata-rata kemudian dikompres sehingga jumlahnya mencapai 100 kali jumlah periode dalam satu musim, atau 400 dalam kasus ini, yang dilakukan pada sel H3-H6. Di bawah kolom F, formula VLOOKUP digunakan untuk memasukkan nilai indeks musiman yang sesuai di setiap baris tabel data, sesuai dengan kuartal tahun yang diwakilinya. Rata-rata pergerakan terpusat dan data yang disesuaikan musiman akhirnya terlihat seperti ini: Perhatikan bahwa rata-rata bergerak biasanya terlihat seperti versi yang lebih halus dari rangkaian yang disesuaikan secara musiman, dan ini lebih pendek pada kedua ujungnya. Lembar kerja lain dalam file Excel yang sama menunjukkan penerapan model smoothing eksponensial linier ke data yang disesuaikan secara musiman, dimulai pada kolom G. Nilai untuk konstanta pemulusan (alpha) dimasukkan di atas kolom perkiraan (di sini, di sel H9) dan Untuk kenyamanan itu diberi nama kisaran quotAlpha. quot (Nama tersebut diberikan dengan menggunakan perintah quotInsertNameCreatequot.) Model LES diinisialisasi dengan menetapkan dua prakiraan pertama yang sama dengan nilai sebenarnya dari seri yang disesuaikan secara musiman. Rumus yang digunakan di sini untuk perkiraan LES adalah bentuk rekursif tunggal model Brown8217s: Formula ini dimasukkan ke dalam sel yang sesuai dengan periode ketiga (di sini, sel H15) dan disalin dari sana. Perhatikan bahwa perkiraan LES untuk periode saat ini mengacu pada dua observasi sebelumnya dan dua kesalahan perkiraan sebelumnya, serta nilai alpha. Dengan demikian, rumus peramalan pada baris 15 hanya mengacu pada data yang tersedia pada baris 14 dan sebelumnya. (Tentu saja, jika kita ingin menggunakan yang sederhana daripada pemulusan eksponensial linier, kita bisa mengganti formula SES di sini sebagai gantinya. Kita juga bisa menggunakan model LES Holt8217s daripada Brown8217s, yang memerlukan dua kolom rumus untuk menghitung tingkat dan tren. Yang digunakan dalam ramalan.) Kesalahan dihitung di kolom berikutnya (di sini, kolom J) dengan mengurangi perkiraan dari nilai sebenarnya. Kesalahan kuadrat rata-rata akar dihitung sebagai akar kuadrat dari varians kesalahan ditambah kuadrat mean. (Berikut ini dari identitas matematis: MSE VARIANCE (error) (RATA-RATA (kesalahan)) 2.) Dalam menghitung mean dan varians dari kesalahan dalam formula ini, dua periode pertama dikeluarkan karena model tidak benar-benar mulai meramalkan sampai Periode ketiga (baris 15 di spreadsheet). Nilai alfa yang optimal dapat ditemukan baik dengan mengubah alpha secara manual sampai RMSE minimum ditemukan, atau Anda dapat menggunakan quotSolverquot untuk melakukan minimisasi yang tepat. Nilai alfa yang ditemukan Solver ditunjukkan di sini (alpha0.471). Biasanya ide bagus untuk merencanakan kesalahan model (dalam unit yang diubah) dan juga untuk menghitung dan merencanakan autokorelasi mereka pada kelambatan hingga satu musim. Berikut adalah rangkaian rangkaian waktu dari kesalahan (yang disesuaikan secara musiman): Autokorelasi kesalahan dihitung dengan menggunakan fungsi CORREL () untuk menghitung korelasi kesalahan dengan sendirinya yang tertinggal oleh satu atau beberapa periode - rincian ditampilkan dalam model spreadsheet . Berikut adalah sebidang autocorrelations dari kesalahan pada lima kelambatan pertama: Autokorelasi pada lags 1 sampai 3 sangat mendekati nol, namun lonjakan pada lag 4 (yang nilainya 0,35) sedikit merepotkan - ini menunjukkan bahwa Proses penyesuaian musiman belum sepenuhnya berhasil. Namun, sebenarnya hanya sedikit signifikan. 95 pita signifikan untuk menguji apakah autokorelasi berbeda secara signifikan dari nol kira-kira plus-atau-minus 2SQRT (n-k), di mana n adalah ukuran sampel dan k adalah lag. Di sini n adalah 38 dan k bervariasi dari 1 sampai 5, jadi kuadrat-akar-of-n-minus-k adalah sekitar 6 untuk semua itu, dan karenanya batas untuk menguji signifikansi statistik penyimpangan dari nol kira-kira plus - Atau-minus 26, atau 0,33. Jika Anda memvariasikan nilai alfa dengan tangan dalam model Excel ini, Anda dapat mengamati pengaruhnya pada deret waktu dan plot autokorelasi dari kesalahan, serta pada kesalahan akar-mean-kuadrat, yang akan digambarkan di bawah ini. Di bagian bawah spreadsheet, rumus peramalan adalah quotbootstrappedquot ke masa depan dengan hanya mengganti perkiraan untuk nilai aktual pada titik di mana data aktual habis - yaitu. Dimana quotthe futurequot dimulai. (Dengan kata lain, di setiap sel di mana nilai data masa depan akan terjadi, referensi sel dimasukkan yang mengarah ke perkiraan yang dibuat untuk periode itu.) Semua rumus lainnya hanya disalin dari atas: Perhatikan bahwa kesalahan untuk perkiraan Masa depan semuanya dihitung menjadi nol. Ini tidak berarti kesalahan sebenarnya akan menjadi nol, namun ini hanya mencerminkan fakta bahwa untuk tujuan prediksi, kita mengasumsikan bahwa data masa depan akan sama dengan perkiraan rata-rata. Perkiraan LES yang dihasilkan untuk data penyesuaian musiman terlihat seperti ini: Dengan nilai alpha tertentu ini, yang optimal untuk prediksi satu periode di depan, tren yang diproyeksikan sedikit ke atas, yang mencerminkan tren lokal yang diamati selama 2 tahun terakhir. Atau lebih. Untuk nilai alpha lainnya, proyeksi tren yang sangat berbeda bisa didapat. Biasanya ide bagus untuk melihat apa yang terjadi pada proyeksi tren jangka panjang ketika alfa bervariasi, karena nilai yang terbaik untuk peramalan jangka pendek tidak akan menjadi nilai terbaik untuk memprediksi masa depan yang lebih jauh. Sebagai contoh, berikut ini adalah hasil yang diperoleh jika nilai alpha diatur secara manual menjadi 0,25: Tren jangka panjang yang diproyeksikan sekarang negatif daripada positif Dengan nilai alpha yang lebih kecil, model ini menempatkan bobot lebih pada data lama di Perkiraan tingkat dan tren saat ini, dan perkiraan jangka panjangnya mencerminkan tren penurunan yang diamati selama 5 tahun terakhir daripada tren kenaikan yang lebih baru. Bagan ini juga secara jelas mengilustrasikan bagaimana model dengan nilai alpha yang lebih kecil lebih lambat untuk merespons quotturning pointsquot dalam data dan oleh karena itu cenderung membuat kesalahan dari tanda yang sama untuk banyak periode berturut-turut. Kesalahan perkiraan 1 langkahnya lebih besar rata-rata dibandingkan yang diperoleh sebelumnya (RMSE 34,4 bukan 27,4) dan autokorelasi positif sangat positif. Autokorelasi lag-1 sebesar 0,56 sangat melebihi nilai 0,33 yang dihitung di atas untuk penyimpangan signifikan secara statistik dari nol. Sebagai alternatif untuk menurunkan nilai alpha dalam rangka memperkenalkan lebih banyak konservatisme ke dalam ramalan jangka panjang, faktor perendaman shortdown cenderung ditambahkan ke model untuk membuat tren yang diproyeksikan merata setelah beberapa periode. Langkah terakhir dalam membangun model peramalan adalah memperkirakan tingkat perkiraan LES dengan mengalikannya dengan indeks musiman yang sesuai. Dengan demikian, ramalan yang direvisi di kolom I hanyalah produk dari indeks musiman di kolom F dan perkiraan LES musiman yang disesuaikan di kolom H. Hal ini relatif mudah untuk menghitung interval kepercayaan untuk perkiraan satu langkah yang dibuat oleh model ini: pertama Menghitung RMSE (kesalahan akar-mean-kuadrat, yang merupakan akar kuadrat dari MSE) dan kemudian menghitung interval kepercayaan untuk ramalan musiman disesuaikan dengan menambahkan dan mengurangkan dua kali RMSE. (Secara umum interval kepercayaan 95 untuk perkiraan satu periode di depan kira-kira sama dengan perkiraan titik ditambah atau minus dua kali perkiraan deviasi standar dari kesalahan perkiraan, dengan asumsi distribusi kesalahan kira-kira normal dan ukuran sampel Cukup besar, katakanlah, 20 atau lebih. Berikut ini, RMSE daripada standar deviasi sampel dari kesalahan adalah perkiraan terbaik dari standar deviasi kesalahan perkiraan di masa depan karena diperlukan variasi yang bias dan juga variasi acak.) Batas kepercayaan Untuk perkiraan musiman disesuaikan kemudian reseasonalized. Bersama dengan perkiraan, dengan mengalikannya dengan indeks musiman yang sesuai. Dalam hal ini RMSE sama dengan 27,4 dan perkiraan penyesuaian musiman untuk periode depan pertama (Des-93) adalah 273,2. Sehingga interval kepercayaan 95 yang disesuaikan musiman adalah dari 273,2-227,4 218,4 sampai 273,2227,4 328,0. Mengalikan batas ini dengan indeks musiman Decembers sebesar 68,61. Kita memperoleh batas kepercayaan bawah dan atas 149,8 dan 225,0 sekitar perkiraan titik 93 Desember 187,4. Batas keyakinan untuk perkiraan lebih dari satu periode ke depan umumnya akan melebar seiring perkiraan horizon meningkat, karena ketidakpastian tentang tingkat dan kecenderungan serta faktor musiman, namun sulit untuk menghitungnya secara umum dengan metode analitik. (Cara yang tepat untuk menghitung batas kepercayaan untuk perkiraan LES adalah dengan menggunakan teori ARIMA, namun ketidakpastian dalam indeks musiman adalah masalah lain.) Jika Anda menginginkan interval kepercayaan yang realistis untuk perkiraan lebih dari satu periode di depan, mengambil semua sumber Dengan mempertimbangkan kesalahan, taruhan terbaik Anda adalah menggunakan metode empiris: misalnya, untuk mendapatkan interval kepercayaan untuk perkiraan 2 langkah di depan, Anda bisa membuat kolom lain di spreadsheet untuk menghitung perkiraan 2 langkah untuk setiap periode ( Dengan melakukan bootstrap perkiraan satu langkah di depan). Kemudian hitung RMSE dari perkiraan kesalahan 2 langkah di depan dan gunakan ini sebagai dasar untuk interval kepercayaan 2 langkah. Model rata-rata dan pemulusan eksponensial Sebagai langkah pertama dalam bergerak melampaui model mean, model jalan acak, dan Model tren linier, pola nonseasonal dan tren dapat diekstrapolasikan dengan menggunakan model rata-rata bergerak atau pemulusan. Asumsi dasar di balik model rata-rata dan perataan adalah bahwa deret waktu secara lokal bersifat stasioner dengan mean yang bervariasi secara perlahan. Oleh karena itu, kita mengambil rata-rata bergerak (lokal) untuk memperkirakan nilai rata-rata saat ini dan kemudian menggunakannya sebagai perkiraan untuk waktu dekat. Hal ini dapat dianggap sebagai kompromi antara model rata-rata dan model random-walk-without-drift-model. Strategi yang sama dapat digunakan untuk memperkirakan dan mengekstrapolasikan tren lokal. Rata-rata bergerak sering disebut versi quotmoothedquot dari rangkaian aslinya karena rata-rata jangka pendek memiliki efek menghaluskan benjolan pada rangkaian aslinya. Dengan menyesuaikan tingkat smoothing (lebar rata-rata bergerak), kita dapat berharap untuk mencapai keseimbangan optimal antara kinerja model jalan rata-rata dan acak. Jenis model rata - rata yang paling sederhana adalah. Simple Moving Average: Prakiraan untuk nilai Y pada waktu t1 yang dilakukan pada waktu t sama dengan rata-rata sederhana dari pengamatan m terakhir: (Disini dan di tempat lain saya akan menggunakan simbol 8220Y-hat8221 untuk berdiri Untuk ramalan dari deret waktu yang dibuat Y pada tanggal sedini mungkin dengan model yang diberikan.) Rata-rata ini dipusatkan pada periode t - (m1) 2, yang menyiratkan bahwa perkiraan mean lokal cenderung tertinggal dari yang sebenarnya. Nilai mean lokal sekitar (m1) 2 periode. Jadi, kita katakan bahwa rata-rata usia data dalam rata-rata pergerakan sederhana adalah (m1) 2 relatif terhadap periode dimana ramalan dihitung: ini adalah jumlah waktu dimana perkiraan akan cenderung tertinggal dari titik balik data. . Misalnya, jika Anda rata-rata mendapatkan 5 nilai terakhir, prakiraan akan sekitar 3 periode terlambat dalam menanggapi titik balik. Perhatikan bahwa jika m1, model simple moving average (SMA) sama dengan model random walk (tanpa pertumbuhan). Jika m sangat besar (sebanding dengan panjang periode estimasi), model SMA setara dengan model rata-rata. Seperti parameter model peramalan lainnya, biasanya menyesuaikan nilai k untuk memperoleh kuotil kuotil terbaik ke data, yaitu kesalahan perkiraan terkecil. Berikut adalah contoh rangkaian yang tampaknya menunjukkan fluktuasi acak di sekitar rata-rata yang bervariasi secara perlahan. Pertama, mari mencoba menyesuaikannya dengan model jalan acak, yang setara dengan rata-rata bergerak sederhana dari 1 istilah: Model jalan acak merespons dengan sangat cepat terhadap perubahan dalam rangkaian, namun dengan begitu, ia menggunakan banyak kuotimasi dalam Data (fluktuasi acak) serta quotsignalquot (mean lokal). Jika kita mencoba rata-rata bergerak sederhana dari 5 istilah, kita mendapatkan perkiraan perkiraan yang tampak lebih halus: Rata-rata pergerakan sederhana 5 langkah menghasilkan kesalahan yang jauh lebih kecil daripada model jalan acak dalam kasus ini. Usia rata-rata data dalam ramalan ini adalah 3 ((51) 2), sehingga cenderung tertinggal beberapa titik balik sekitar tiga periode. (Misalnya, penurunan tampaknya terjadi pada periode 21, namun prakiraan tidak berbalik sampai beberapa periode kemudian.) Perhatikan bahwa perkiraan jangka panjang dari model SMA adalah garis lurus horizontal, seperti pada pergerakan acak. model. Dengan demikian, model SMA mengasumsikan bahwa tidak ada kecenderungan dalam data. Namun, sedangkan prakiraan dari model jalan acak sama dengan nilai pengamatan terakhir, prakiraan dari model SMA sama dengan rata-rata tertimbang nilai terakhir. Batas kepercayaan yang dihitung oleh Statgraf untuk perkiraan jangka panjang rata-rata bergerak sederhana tidak semakin luas seiring dengan meningkatnya horizon peramalan. Ini jelas tidak benar Sayangnya, tidak ada teori statistik yang mendasari yang memberi tahu kita bagaimana interval kepercayaan harus melebar untuk model ini. Namun, tidak terlalu sulit untuk menghitung perkiraan empiris batas kepercayaan untuk perkiraan horizon yang lebih panjang. Misalnya, Anda bisa membuat spreadsheet di mana model SMA akan digunakan untuk meramalkan 2 langkah di depan, 3 langkah di depan, dan lain-lain dalam sampel data historis. Anda kemudian bisa menghitung penyimpangan standar sampel dari kesalahan pada setiap horison perkiraan, dan kemudian membangun interval kepercayaan untuk perkiraan jangka panjang dengan menambahkan dan mengurangi kelipatan dari deviasi standar yang sesuai. Jika kita mencoba rata-rata bergerak sederhana 9-istilah, kita mendapatkan perkiraan yang lebih halus dan lebih banyak efek lagging: Usia rata-rata sekarang adalah 5 periode ((91) 2). Jika kita mengambil moving average 19-term, rata-rata usia meningkat menjadi 10: Perhatikan bahwa, memang, ramalannya sekarang tertinggal dari titik balik sekitar 10 periode. Jumlah smoothing yang terbaik untuk seri ini Berikut adalah tabel yang membandingkan statistik kesalahan mereka, juga termasuk rata-rata 3-rata: Model C, rata-rata pergerakan 5-term, menghasilkan nilai RMSE terendah dengan margin kecil di atas 3 - term dan rata-rata 9-istilah, dan statistik lainnya hampir sama. Jadi, di antara model dengan statistik kesalahan yang sangat mirip, kita bisa memilih apakah kita lebih memilih sedikit responsif atau sedikit lebih kehalusan dalam prakiraan. (Lihat ke atas halaman.) Browns Simple Exponential Smoothing (rata-rata bergerak rata-rata tertimbang) Model rata-rata bergerak sederhana yang dijelaskan di atas memiliki properti yang tidak diinginkan sehingga memperlakukan pengamatan terakhir secara sama dan sama sekali mengabaikan semua pengamatan sebelumnya. Secara intuitif, data masa lalu harus didiskontokan secara lebih bertahap - misalnya, pengamatan terbaru harus mendapatkan bobot sedikit lebih besar dari yang terakhir, dan yang ke-2 terakhir harus mendapatkan bobot sedikit lebih banyak dari yang ke-3 terakhir, dan Begitu seterusnya Model pemulusan eksponensial sederhana (SES) menyelesaikan hal ini. Misalkan 945 menunjukkan kuototmothing constantquot (angka antara 0 dan 1). Salah satu cara untuk menulis model adalah dengan menentukan rangkaian L yang mewakili tingkat saat ini (yaitu nilai rata-rata lokal) dari seri yang diperkirakan dari data sampai saat ini. Nilai L pada waktu t dihitung secara rekursif dari nilai sebelumnya seperti ini: Dengan demikian, nilai smoothed saat ini adalah interpolasi antara nilai smoothed sebelumnya dan pengamatan saat ini, di mana 945 mengendalikan kedekatan nilai interpolasi dengan yang paling baru. pengamatan. Perkiraan untuk periode berikutnya hanyalah nilai merapikan saat ini: Secara ekivalen, kita dapat mengekspresikan ramalan berikutnya secara langsung dalam perkiraan sebelumnya dan pengamatan sebelumnya, dengan versi setara berikut. Pada versi pertama, ramalan tersebut merupakan interpolasi antara perkiraan sebelumnya dan pengamatan sebelumnya: Pada versi kedua, perkiraan berikutnya diperoleh dengan menyesuaikan perkiraan sebelumnya ke arah kesalahan sebelumnya dengan jumlah pecahan 945. adalah kesalahan yang dilakukan pada Waktu t. Pada versi ketiga, perkiraan tersebut adalah rata-rata bergerak tertimbang secara eksponensial (yaitu diskon) dengan faktor diskonto 1- 945: Versi perumusan rumus peramalan adalah yang paling mudah digunakan jika Anda menerapkan model pada spreadsheet: sesuai dengan Sel tunggal dan berisi referensi sel yang mengarah ke perkiraan sebelumnya, pengamatan sebelumnya, dan sel dimana nilai 945 disimpan. Perhatikan bahwa jika 945 1, model SES setara dengan model jalan acak (tanpa pertumbuhan). Jika 945 0, model SES setara dengan model rata-rata, dengan asumsi bahwa nilai smoothing pertama ditetapkan sama dengan mean. (Kembali ke atas halaman.) Usia rata-rata data dalam perkiraan pemulusan eksponensial sederhana adalah 1 945 relatif terhadap periode dimana ramalan dihitung. (Ini tidak seharusnya jelas, namun dengan mudah dapat ditunjukkan dengan mengevaluasi rangkaian tak terbatas.) Oleh karena itu, perkiraan rata-rata bergerak sederhana cenderung tertinggal dari titik balik sekitar 1 945 periode. Misalnya, ketika 945 0,5 lag adalah 2 periode ketika 945 0,2 lag adalah 5 periode ketika 945 0,1 lag adalah 10 periode, dan seterusnya. Untuk usia rata-rata tertentu (yaitu jumlah lag), ramalan eksponensial eksponensial sederhana (SES) agak lebih unggul daripada ramalan rata-rata bergerak sederhana karena menempatkan bobot yang relatif lebih tinggi pada pengamatan terakhir - i. Ini sedikit lebih responsif terhadap perubahan yang terjadi di masa lalu. Sebagai contoh, model SMA dengan 9 istilah dan model SES dengan 945 0,2 keduanya memiliki usia rata-rata 5 untuk data dalam perkiraan mereka, namun model SES memberi bobot lebih besar pada 3 nilai terakhir daripada model SMA dan pada Pada saat yang sama, hal itu sama sekali tidak sesuai dengan nilai lebih dari 9 periode, seperti yang ditunjukkan pada tabel ini: Keuntungan penting lain dari model SES dibandingkan model SMA adalah model SES menggunakan parameter pemulusan yang terus menerus bervariasi, sehingga mudah dioptimalkan. Dengan menggunakan algoritma quotsolverquot untuk meminimalkan kesalahan kuadrat rata-rata. Nilai optimal 945 dalam model SES untuk seri ini ternyata adalah 0,2961, seperti yang ditunjukkan di sini: Usia rata-rata data dalam ramalan ini adalah 10.2961 3,4 periode, yang serupa dengan rata-rata pergerakan sederhana 6-istilah. Perkiraan jangka panjang dari model SES adalah garis lurus horisontal. Seperti pada model SMA dan model jalan acak tanpa pertumbuhan. Namun, perhatikan bahwa interval kepercayaan yang dihitung oleh Statgraphics sekarang berbeda dengan mode yang tampak wajar, dan secara substansial lebih sempit daripada interval kepercayaan untuk model perjalanan acak. Model SES mengasumsikan bahwa seri ini agak dapat diprediksi daripada model acak berjalan. Model SES sebenarnya adalah kasus khusus model ARIMA. Sehingga teori statistik model ARIMA memberikan dasar yang kuat untuk menghitung interval kepercayaan untuk model SES. Secara khusus, model SES adalah model ARIMA dengan satu perbedaan nonseasonal, MA (1), dan tidak ada istilah konstan. Atau dikenal sebagai model quotARIMA (0,1,1) tanpa constantquot. Koefisien MA (1) pada model ARIMA sesuai dengan kuantitas 1- 945 pada model SES. Misalnya, jika Anda memasukkan model ARIMA (0,1,1) tanpa konstan pada rangkaian yang dianalisis di sini, koefisien MA (0) diperkirakan berubah menjadi 0,7029, yang hampir persis satu minus 0,2961. Hal ini dimungkinkan untuk menambahkan asumsi tren linear konstan non-nol ke model SES. Untuk melakukan ini, cukup tentukan model ARIMA dengan satu perbedaan nonseasonal dan MA (1) dengan konstan, yaitu model ARIMA (0,1,1) dengan konstan. Perkiraan jangka panjang kemudian akan memiliki tren yang sama dengan tren rata-rata yang diamati selama periode estimasi keseluruhan. Anda tidak dapat melakukan ini bersamaan dengan penyesuaian musiman, karena pilihan penyesuaian musiman dinonaktifkan saat jenis model disetel ke ARIMA. Namun, Anda dapat menambahkan tren eksponensial jangka panjang yang konstan ke model pemulusan eksponensial sederhana (dengan atau tanpa penyesuaian musiman) dengan menggunakan opsi penyesuaian inflasi dalam prosedur Peramalan. Kecepatan quotinflationquot (persentase pertumbuhan) yang sesuai per periode dapat diperkirakan sebagai koefisien kemiringan dalam model tren linier yang sesuai dengan data yang terkait dengan transformasi logaritma alami, atau dapat didasarkan pada informasi independen lain mengenai prospek pertumbuhan jangka panjang. . (Kembali ke atas halaman.) Browns Linear (yaitu ganda) Exponential Smoothing Model SMA dan model SES mengasumsikan bahwa tidak ada kecenderungan jenis apapun dalam data (yang biasanya OK atau setidaknya tidak terlalu buruk selama 1- Prakiraan ke depan saat data relatif bising), dan mereka dapat dimodifikasi untuk menggabungkan tren linier konstan seperti yang ditunjukkan di atas. Bagaimana dengan tren jangka pendek Jika suatu seri menampilkan tingkat pertumbuhan atau pola siklus yang berbeda yang menonjol dengan jelas terhadap kebisingan, dan jika ada kebutuhan untuk meramalkan lebih dari 1 periode di depan, maka perkiraan tren lokal mungkin juga terjadi. sebuah isu. Model pemulusan eksponensial sederhana dapat digeneralisasi untuk mendapatkan model pemulusan eksponensial linear (LES) yang menghitung perkiraan lokal tingkat dan kecenderungan. Model tren waktu yang paling sederhana adalah model pemulusan eksponensial Browns linier, yang menggunakan dua seri penghalusan berbeda yang berpusat pada berbagai titik waktu. Rumus peramalan didasarkan pada ekstrapolasi garis melalui dua pusat. (Versi yang lebih canggih dari model ini, Holt8217s, dibahas di bawah ini.) Bentuk aljabar model pemulusan eksponensial linier Brown8217s, seperti model pemulusan eksponensial sederhana, dapat dinyatakan dalam sejumlah bentuk yang berbeda namun setara. Bentuk quotstandardquot model ini biasanya dinyatakan sebagai berikut: Misalkan S menunjukkan deretan sumbu tunggal yang diperoleh dengan menerapkan smoothing eksponensial sederhana ke seri Y. Artinya, nilai S pada periode t diberikan oleh: (Ingat, bahwa dengan sederhana Eksponensial smoothing, ini akan menjadi perkiraan untuk Y pada periode t1.) Kemudian, biarkan Squot menunjukkan seri merapikan ganda yang diperoleh dengan menerapkan perataan eksponensial sederhana (menggunakan yang sama 945) ke seri S: Akhirnya, perkiraan untuk Y tk. Untuk setiap kgt1, diberikan oleh: Ini menghasilkan e 1 0 (yaitu menipu sedikit, dan membiarkan perkiraan pertama sama dengan pengamatan pertama yang sebenarnya), dan e 2 Y 2 8211 Y 1. Setelah itu prakiraan dihasilkan dengan menggunakan persamaan di atas. Ini menghasilkan nilai pas yang sama seperti rumus berdasarkan S dan S jika yang terakhir dimulai dengan menggunakan S 1 S 1 Y 1. Versi model ini digunakan pada halaman berikutnya yang menggambarkan kombinasi smoothing eksponensial dengan penyesuaian musiman. Model LES Linear Exponential Smoothing Brown8217s Ls menghitung perkiraan lokal tingkat dan tren dengan menghaluskan data baru-baru ini, namun kenyataan bahwa ia melakukannya dengan parameter pemulusan tunggal menempatkan batasan pada pola data yang dapat disesuaikan: tingkat dan tren Tidak diizinkan untuk bervariasi pada tingkat independen. Model LES Holt8217s membahas masalah ini dengan memasukkan dua konstanta pemulusan, satu untuk level dan satu untuk tren. Setiap saat, seperti pada model Brown8217s, ada perkiraan L t tingkat lokal dan perkiraan T t dari tren lokal. Di sini mereka dihitung secara rekursif dari nilai Y yang diamati pada waktu t dan perkiraan tingkat dan kecenderungan sebelumnya oleh dua persamaan yang menerapkan pemulusan eksponensial kepada mereka secara terpisah. Jika perkiraan tingkat dan tren pada waktu t-1 adalah L t82091 dan T t-1. Masing, maka perkiraan untuk Y tshy yang akan dilakukan pada waktu t-1 sama dengan L t-1 T t-1. Bila nilai aktual diamati, perkiraan tingkat yang diperbarui dihitung secara rekursif dengan menginterpolasi antara Y tshy dan ramalannya, L t-1 T t-1, dengan menggunakan bobot 945 dan 1- 945. Perubahan pada tingkat perkiraan, Yaitu L t 8209 L t82091. Bisa diartikan sebagai pengukuran yang bising pada tren pada waktu t. Perkiraan tren yang diperbarui kemudian dihitung secara rekursif dengan menginterpolasi antara L t 8209 L t82091 dan perkiraan sebelumnya dari tren, T t-1. Menggunakan bobot 946 dan 1-946: Interpretasi konstanta perataan tren 946 sama dengan konstanta pemulusan tingkat 945. Model dengan nilai kecil 946 beranggapan bahwa tren hanya berubah sangat lambat seiring berjalannya waktu, sementara model dengan Lebih besar 946 berasumsi bahwa itu berubah lebih cepat. Sebuah model dengan besar 946 percaya bahwa masa depan yang jauh sangat tidak pasti, karena kesalahan dalam estimasi tren menjadi sangat penting saat meramalkan lebih dari satu periode di masa depan. (Kembali ke atas halaman.) Konstanta pemulusan 945 dan 946 dapat diperkirakan dengan cara biasa dengan meminimalkan kesalahan kuadrat rata-rata dari perkiraan satu langkah ke depan. Bila ini dilakukan di Stategaf, perkiraannya adalah 945 0,3048 dan 946 0,008. Nilai yang sangat kecil dari 946 berarti bahwa model tersebut mengasumsikan perubahan sangat sedikit dalam tren dari satu periode ke periode berikutnya, jadi pada dasarnya model ini mencoba memperkirakan tren jangka panjang. Dengan analogi dengan pengertian umur rata-rata data yang digunakan dalam memperkirakan tingkat lokal seri, rata-rata usia data yang digunakan dalam memperkirakan tren lokal sebanding dengan 1 946, meskipun tidak sama persis dengan itu. . Dalam hal ini ternyata 10.006 125. Ini adalah jumlah yang sangat tepat karena keakuratan estimasi 946 tidak benar-benar ada 3 tempat desimal, namun urutannya sama besarnya dengan ukuran sampel 100, jadi Model ini rata-rata memiliki cukup banyak sejarah dalam memperkirakan tren. Plot perkiraan di bawah ini menunjukkan bahwa model LES memperkirakan tren lokal yang sedikit lebih besar di akhir rangkaian daripada tren konstan yang diperkirakan dalam model SEStrend. Juga, nilai estimasi 945 hampir sama dengan yang diperoleh dengan cara memasang model SES dengan atau tanpa tren, jadi model ini hampir sama. Sekarang, apakah ini terlihat seperti ramalan yang masuk akal untuk model yang seharusnya memperkirakan tren lokal Jika Anda memilih plot ini, sepertinya tren lokal telah berubah ke bawah pada akhir seri Apa yang telah terjadi Parameter model ini Telah diperkirakan dengan meminimalkan kesalahan kuadrat dari perkiraan satu langkah ke depan, bukan perkiraan jangka panjang, dalam hal ini tren tidak menghasilkan banyak perbedaan. Jika semua yang Anda lihat adalah kesalahan 1 langkah maju, Anda tidak melihat gambaran tren yang lebih besar mengenai (katakanlah) 10 atau 20 periode. Agar model ini lebih selaras dengan ekstrapolasi data bola mata kami, kami dapat secara manual menyesuaikan konstanta perataan tren sehingga menggunakan garis dasar yang lebih pendek untuk estimasi tren. Misalnya, jika kita memilih menetapkan 946 0,1, maka usia rata-rata data yang digunakan dalam memperkirakan tren lokal adalah 10 periode, yang berarti bahwa kita rata-rata mengalami trend selama 20 periode terakhir. Berikut ini perkiraan plot perkiraan jika kita menetapkan 946 0,1 sambil mempertahankan 945 0,3. Ini terlihat sangat masuk akal untuk seri ini, meskipun mungkin berbahaya untuk memperkirakan tren ini lebih dari 10 periode di masa depan. Bagaimana dengan statistik kesalahan Berikut adalah perbandingan model untuk kedua model yang ditunjukkan di atas dan juga tiga model SES. Nilai optimal 945. Untuk model SES adalah sekitar 0,3, namun hasil yang serupa (dengan sedikit atau kurang responsif, masing-masing) diperoleh dengan 0,5 dan 0,2. (A) Holts linear exp. Smoothing dengan alpha 0.3048 dan beta 0.008 (B) Holts linear exp. Smoothing dengan alpha 0.3 dan beta 0,1 (C) Smoothing eksponensial sederhana dengan alpha 0.5 (D) Smoothing eksponensial sederhana dengan alpha 0.3 (E) Smoothing eksponensial sederhana dengan alpha 0.2 Statistik mereka hampir identik, jadi kita benar-benar tidak dapat membuat pilihan berdasarkan dasar Kesalahan perkiraan 1 langkah di depan sampel data. Kita harus kembali pada pertimbangan lain. Jika kita sangat percaya bahwa masuk akal untuk mendasarkan perkiraan tren saat ini pada apa yang telah terjadi selama 20 periode terakhir, kita dapat membuat kasus untuk model LES dengan 945 0,3 dan 946 0,1. Jika kita ingin bersikap agnostik tentang apakah ada tren lokal, maka salah satu model SES mungkin akan lebih mudah dijelaskan dan juga akan memberikan prakiraan tengah jalan untuk periode 5 atau 10 berikutnya. (Apa yang dimaksud dengan tren-ekstrapolasi paling baik: Bukti empiris horizontal atau linier menunjukkan bahwa, jika data telah disesuaikan (jika perlu) untuk inflasi, maka mungkin tidak bijaksana untuk melakukan ekstrapolasi linier jangka pendek Tren sangat jauh ke depan. Trends evident today may slacken in the future due to varied causes such as product obsolescence, increased competition, and cyclical downturns or upturns in an industry. For this reason, simple exponential smoothing often performs better out-of-sample than might otherwise be expected, despite its quotnaivequot horizontal trend extrapolation. Damped trend modifications of the linear exponential smoothing model are also often used in practice to introduce a note of conservatism into its trend projections. The damped-trend LES model can be implemented as a special case of an ARIMA model, in particular, an ARIMA(1,1,2) model. It is possible to calculate confidence intervals around long-term forecasts produced by exponential smoothing models, by considering them as special cases of ARIMA models. (Beware: not all software calculates confidence intervals for these models correctly.) The width of the confidence intervals depends on (i) the RMS error of the model, (ii) the type of smoothing (simple or linear) (iii) the value(s) of the smoothing constant(s) and (iv) the number of periods ahead you are forecasting. In general, the intervals spread out faster as 945 gets larger in the SES model and they spread out much faster when linear rather than simple smoothing is used. This topic is discussed further in the ARIMA models section of the notes. (Return to top of page.)Predictive Analytics with Microsoft Excel: Working with Seasonal Time Series In This Chapter Simple Seasonal Averages Moving Averages and Centered Moving Averages Linear Regression with Coded Vectors Simple Seasonal Exponential Smoothing Holt-Winters Models Matters get incrementally more complicated when you have a time series that8217s characterized in part by seasonality: the tendency of its level to rise and fall in accordance with the passing of the seasons. We use the term season in a more general sense than its everyday meaning of the year8217s four seasons. In the context of predictive analytics, a season can be a day if patterns repeat weekly, or a year in terms of presidential election cycles, or just about anything in between. An eight-hour shift in a hospital can represent a season. This chapter takes a look at how to decompose a time series so that you can see how its seasonality operates apart from its trend (if any). As you might expect from the material in Chapters 3 and 4, several approaches are available to you. Simple Seasonal Averages The use of simple seasonal averages to model a time series can sometimes provide you with a fairly crude model for the data. But the approach pays attention to the seasons in the data set, and it can easily be much more accurate as a forecasting technique than simple exponential smoothing when the seasonality is pronounced. Certainly it serves as a useful introduction to some of the procedures used with time series that are both seasonal and trended, so have a look at the example in Figure 5.1 . Figure 5.1 With a horizontal model, simple averages result in forecasts that are no more than seasonal means. The data and chart shown in Figure 5.1 represent the average number of daily hits to a website that caters to fans of the National Football League. Each observation in column D represents the average number of hits per day in each of four quarters across a five-year time span. Identifying a Seasonal Pattern You can tell from the averages in the range G2:G5 that a distinct quarterly effect is taking place. The largest average number of hits occurs during fall and winter, when the main 16 games and the playoffs are scheduled. Interest, as measured by average daily hits, declines during the spring and summer months. The averages are easy to calculate whether or not you feel comfortable with array formulas. To get the mean of all five instances of Quarter 1, for example, you can use this array formula in cell G2 of Figure 5.1 : Array-enter it with CtrlShiftEnter. Or you can use the AVERAGEIF() function, which you can enter in the normal way, pressing the Enter key. In general, I prefer the array formula approach because it gives me scope for greater control over the functions and criteria involved. The charted data series includes data labels showing which quarter each data point belongs to. The chart echoes the message of the averages in G2:G5: Quarters 1 and 4 repeatedly get the most hits. There8217s clear seasonality in this data set. Calculating Seasonal Indexes After you8217ve decided that a time series has a seasonal component, you8217d like to quantify the size of the effect. The averages shown in Figure 5.2 represent how the simple-averages method goes about that task. Figure 5.2 Combine the grand mean with the seasonal averages to get the seasonal indexes. In Figure 5.2. you get additive seasonal indexes in the range G10:G13 by subtracting the grand mean in cell G7 from each seasonal average in G2:G5. The result is the 8220effect8221 of being in Quarter 1, that of being in Quarter 2, and so on. If a given month is in Quarter 1, you expect it to have 99.65 more average daily hits than the grand mean of 140.35 hits per day. This information gives you a sense of how important it is to be in a given season. Suppose that you own the web site in question and you want to sell advertising space on it. You can surely ask a higher price of advertisers during the first and fourth quarters than during the second and third. More to the point, you can likely charge twice as much during the first quarter than during either the second or the third. With the seasonal indexes in hand, you8217re also in a position to calculate seasonal adjustments. For example, still in Figure 5.2. the seasonally adjusted values for each quarter in 2005 appear in G16:G19. They8217re calculated by subtracting the index from the associated quarterly measurement. Traditionally, the term seasonal index refers to the increase or decrease in the level of a series that8217s associated with each season. The synonymous term seasonal effect has appeared in the literature in recent years. Because you8217ll see both terms, I8217ve used them both in this book. It8217s a small matter just bear in mind that the two terms have the same meaning. Notice that in the normal course of events from 2001 to 2005, you expect the second quarter8217s results to lag behind the first quarter8217s results by 133.6 (that is, 99.65 minus 821133.95). But in both 2004 and 2005, the seasonally adjusted results for the second quarter exceed those for the first quarter. That outcome might well prompt you to ask what has changed in the final two years that reverses the relationship between the seasonally adjusted results for the first two quarters. (I don8217t pursue that issue here. I bring it up to suggest that you often want to have a look at both the observed and the seasonally adjusted figures.) Forecasting from Simple Seasonal Averages: No Trend Although the method of simple averages is8212as I said earlier8212crude, it can be much more accurate than the more sophisticated alternative of exponential smoothing, particularly when the seasonal effects are pronounced and reliable. When the time series is untrended, as is the case with the example this section has discussed, the simple seasonal forecasts are nothing more than the seasonal averages. When the series is not trending either up or down, your best estimate of the value for the next season is that season8217s historic average. See Figure 5.3 . Figure 5.3 Combine the grand mean with the seasonal averages to get the seasonal indexes. In the chart in Figure 5.3. the dashed line represents the forecasts from simple smoothing. The two solid lines represent the actual seasonal observations and the seasonal averages. Notice that the seasonal averages track the actual seasonal observations quite closely8212much more closely than do the smoothed forecasts. You can see how much more closely from the two RMSEs in cells F23 and H23. The RMSE for the seasonal averages is just a little more than a third of the RMSE for the smoothed forecasts. You can chalk that up to the size of the seasonal effects as well as their consistency: Suppose, for example, that the difference between the average first and second quarters were 35.0 instead of 133.6 (which is the difference between cells G2 and G3 in Figure 5.2 ). Then, in a smoothing context, the actual value for Quarter 1 would be a much better predictor of the value for Quarter 2 than is the case with this time series. And exponential smoothing can rely heavily on the value of the current observation for its forecast of the next period. If the smoothing constant is set at 1.0, exponential smoothing resolves to na239ve forecasting and the forecast always equals the prior actual. The fact that the size of each seasonal swing is so consistent from quarter to quarter means that the simple seasonal averages are reliable forecasts: No actual quarterly observation departs very far from the overall seasonal average. Simple Seasonal Averages with Trend The use of simple seasonal averages with a trended series has some real drawbacks, and I8217m tempted to suggest that we ignore it and move on to meatier topics. But it8217s possible that you8217ll run into situations in which someone has used this method and then it won8217t hurt to know both how it works and why there are better choices. Any method of dealing with seasonality in a trended series must deal with the fundamental problem of disentangling the effect of the trend from that of the seasonality. Seasonality tends to obscure trend, and vice versa. See Figure 5.4 . Figure 5.4 The presence of trend complicates the calculation of seasonal effects. The fact that the trend in the series is upward over time means that simply averaging each season8217s observations, as was done in the no-trend case, confounds the general trend with the seasonal variation. The usual idea is to account for the trend separately from the seasonal effects. You could quantify the trend and subtract its effect from the observed data. The result is an untrended series that retains the seasonal variation. It could be handled in the same fashion as I illustrated earlier in this chapter. Calculating the Mean for Each Year One way to detrend the data (and other ways will doubtless occur to you) is to calculate the trend based on yearly averages rather than quarterly data. The idea is that the yearly average is insensitive to the seasonal effects. That is, if you subtract a year8217s mean from the value for each of its quarters, the sum (and thus the average) of the four quarterly effects is precisely zero. So a trend calculated using the yearly averages is unaffected by the seasonal variations. This calculation appears in Figure 5.5 . Figure 5.5 This method now imposes linear regression on the simple averages. The first step in detrending the data is to get the average daily hits for each year. That8217s done in the range H3:H7 in Figure 5.5. The formula in cell H3, for example, is AVERAGE(D3:D6) . Calculating the Trend Based on Annual Means With the yearly averages in hand, you8217re in a position to calculate their trend. That8217s managed by using LINEST() in the range I3:J7, using this array formula: If you don8217t supply x-values as the second argument to LINEST() . Excel supplies default x-values for you. The defaults are simply the consecutive integers beginning with 1 and ending with the number of y-values that you call for in the first argument. In this example, the default x-values are identical to those specified on the worksheet in G3:G7, so you could use LINEST(H3:H7. TRUE) . This formula uses two defaults, for the x-values and the constant, represented by the three consecutive commas. The point of this exercise is to quantify the year-to-year trend, and LINEST() does that for you in cell I3. That cell contains the regression coefficient for the x-values. Multiply 106.08 by 1 then by 2 then by 3, 4, and 5 and add to each result the intercept of 84.63. Although that gets you annual forecasts, the important point for this procedure is the value of the coefficient 106.08, which quantifies the annual trend. The step I just discussed is the source of my misgivings about the entire approach that this section describes. You typically have a small number of encompassing periods8212in this example, that8217s years8212to run through the regression. Regression8217s results tend to be terribly unstable when, as here, they8217re based on a small number of observations. And yet this procedure relies on those results heavily in order to detrend the time series. Prorating the Trend Across Seasons The simple-averages method of dealing with a trended, seasonal series such as this one continues by dividing the trend by the number of periods in the encompassing period to get a per-period trend. Here, the number of periods per year is four8212we8217re working with quarterly data8212so we divide 106.08 by 4 to estimate the trend per quarter at 26.5. The procedure uses that periodic trend by subtracting it from the average periodic result. The purpose is to remove the effect of the annual trend from the seasonal effects. First, though, we need to calculate the average result across all five years for Period 1, for Period 2 and so on. To do that, it helps to rearrange the list of actual quarterly hits, shown in the range D3:D22 of Figure 5.5. into a matrix of five years by four quarters, shown in the range G11:J15. Notice that the values in that matrix correspond to the list in column D. With the data arranged in that fashion, it8217s easy to calculate the average quarterly value across the five years in the data set. That8217s done in the range G18:J18. The effect of the trend returned by LINEST() appears in the range G19:J19. The starting value for each year is the observed mean daily hits for the first quarter, so we make no adjustment for the first quarter. One quarter8217s worth of trend, or 26.5, is subtracted from the second quarter8217s mean hits, resulting in an adjusted second-quarter value of 329.9 (see cell H21, Figure 5.5 ). Two quarters8217 worth of trend, 2 215 26.5 or 53 in cell I19, is subtracted from the third quarter8217s mean to get an adjusted third-quarter value of 282.6 in cell I21. And similarly for the fourth quarter, subtracting three quarters of trend from 454.4 to get 374.8 in cell J21. Keep in mind that if the trend were down rather than up, as in this example, you would add the periodic trend value to the observed periodic means instead of subtracting it. Converting the Adjusted Seasonal Means to Seasonal Effects Per the logic of this method, the values shown in rows 20821121 of Figure 5.5 are the average quarterly results for each of four quarters, with the effect of the general upward trend in the data set removed. (Rows 20 and 21 are merged in columns G through J.) With their trend out of the way, we can convert those figures to estimates of seasonal effects . the result of being in the first quarter, in the second quarter, and so on. To get those effects, start by calculating the grand mean of the adjusted quarterly means. That adjusted grand mean appears in cell I23. The analysis continues in Figure 5.6 . Figure 5.6 The quarterly effects, or indexes, are used to deseasonalize the observed quarterlies. Figure 5.6 repeats the quarterly adjustments and the adjusted grand mean from the bottom of Figure 5.5. They are combined to determine the quarterly indexes (which you can also think of as seasonal effects). For example, the formula in cell D8 is as follows: It returns 821133.2. That8217s the effect of being in the second quarter, vis-224-vis the grand mean: With respect to the grand mean, we can expect a result that belongs to the second quarter to fall below the grand mean by 33.2 units. Applying the Seasonal Effects to the Observed Quarterlies To recap: Thus far, we8217ve quantified the annual trend in the data via regression and divided that trend by 4 to prorate it to a quarterly value. Picking up in Figure 5.6. we adjusted the mean for each quarter (in C3:F3) by subtracting the prorated trends in C4:F4. The result is a detrended estimate of the mean for each quarter, regardless of the year in which the quarter takes place, in C5:F5. We subtracted the adjusted grand mean, in cell G5, from the adjusted quarterly means in C5:F5. That converts each quarter8217s mean to a measure of the effect of each quarter relative to the adjusted grand mean. Those are the seasonal indexes or effects in C8:F8. Next we remove the seasonal effects from the observed quarterlies. As shown in Figure 5.6. you do so by subtracting the quarterly indexes in C8:F8 from the corresponding values in C12:F16. And the easiest way to do that is to enter this formula in cell C20: Note the single dollar sign before the 8 in the reference to C8 . That8217s a mixed reference: partly relative and partly absolute. The dollar sign anchors the reference to the eighth row, but the column portion of the reference is free to vary. Therefore, after the latter formula is entered in cell C20, you can click on the cell8217s selection handle (the small square in the lower-right corner of a selected cell) and drag right into cell F20. The addresses adjust as you drag right and you wind up with the values, with the seasonal effects removed, for year 2001 in C20:F20. Select that range of four cells and use the multiple selection8217s handle, now in F20, to drag down into row 24. So doing fills the remainder of the matrix. It8217s important to bear in mind here that we8217re adjusting the original quarterly values for the seasonal effects. Whatever trend existed in the original values is still there, and8212in theory, at least8212remains there after we8217ve made the adjustments for seasonal effects. We have removed a trend, yes, but only from the seasonal effects. Thus, when we subtract the (detrended) seasonal effects from the original quarterly observations, the result is the original observations with the trend but without the seasonal effects. I have charted those seasonally adjusted values in Figure 5.6. Compare that chart to the chart in Figure 5.4. Notice in Figure 5.6 that although the deseasonalized values do not lie precisely on a straight line, much of the seasonal effect has been removed. Regressing the Deseasonalized Quarterlies onto the Time Periods The next step is to create forecasts from the seasonally adjusted, trended data in Figure 5.6. cells C20:F24, and at this point you have several alternatives available. You could use the differencing approach combined with simple exponential smoothing that was discussed in Chapter 3, 8220Working with Trended Time Series.8221 You could also use Holt8217s approach to smoothing trended series, discussed in both Chapter 3 and Chapter 4, 8220Initializing Forecasts.8221 Both methods put you in a position to create a one-step-ahead forecast, to which you would add the corresponding seasonal index. Another approach, which I8217ll use here, first puts the trended data through another instance of linear regression and then adds the seasonal index. See Figure 5.7 . Figure 5.7 The first true forecast is in row 25. Figure 5.7 returns the deseasonalized quarterly means from the tabular arrangement in C20:F24 of Figure 5.6 to the list arrangement in the range C5:C24 of Figure 5.7 . We could use LINEST() in conjunction with the data in B5:C24 in Figure 5.7 to calculate the regression equation8217s intercept and coefficient then, we could multiply the coefficient by each value in column B, and add the intercept to each product, to create the forecasts in column D. But although LINEST() returns useful information other than the coefficient and intercept, TREND() is a faster way to get the forecasts, and I use it in Figure 5.7 . The range D5:D24 contains the forecasts that result from regressing the deseasonalized quarterly figures in C5:C24 onto the period numbers in B5:B24. The array formula used in D5:D24 is this: That set of results reflects the effect of the general upward trend in the time series. Because the values that TREND() is forecasting from have been deseasonalized, it remains to add the seasonal effects, also known as seasonal indexes, back in to the trended forecast. Adding the Seasonal Indexes Back In The seasonal indexes, calculated in Figure 5.6. are provided in Figure 5.7. first in the range C2:F2 and then repeatedly in the range E5:E8, E9:E12, and so on. The reseasonalized forecasts are placed in F5:F24 by adding the seasonal effects in column E to the trend forecasts in column D. To get the one-step-ahead forecast in cell F25 of Figure 5.7. the value of t for the next period goes into cell B25. The following formula is entered in cell D25: It instructs Excel to calculate the regression equation that forecasts values in the range C5:C24 from those in B5:B24, and apply that equation to the new x-value in cell B25. The appropriate seasonal index is placed in cell E25, and the sum of D25 and E25 is placed in F25 as the first true forecast of the trended and seasonal time series. You8217ll find the entire set of deseasonalized quarterlies and the forecasts charted in Figure 5.8 . Figure 5.8 The seasonal effects are returned to the forecasts. Evaluating Simple Averages The approach to dealing with a seasonal time series, discussed in several prior sections, has some intuitive appeal. The basic idea seems straightforward: Calculate an annual trend by regressing annual means against a measure of time periods. Divide the annual trend among the periods within the year. Subtract the apportioned trend from the periodic effects to get adjusted effects. Subtract the adjusted effects from the actual measures to deseasonalize the time series. Create forecasts from the deseasonalized series, and add the adjusted seasonal effects back in. My own view is that several problems weaken the approach, and I would not have included it in this book except that you are likely to encounter it and therefore should be familiar with it. And it provides a useful springboard to discuss some concept and procedures found in other, stronger approaches. First, there8217s the issue (about which I complained earlier in this chapter) regarding the very small sample size for the regression of annual means onto consecutive integers that identify each year. Even with only one predictor, as few as 10 observations is really scraping the bottom of the barrel. At the very least you should look at the resulting R 2 adjusted for shrinkage and probably recalculate the standard error of estimate accordingly. It8217s true that the stronger the correlation in the population, the smaller the sample you can get away with. But working with quarters within years, you8217re fortunate to find as many as 10 years8217 worth of consecutive quarterly observations, each measured in the same way across that span of time. I8217m not persuaded that the answer to the problematic up-and-down pattern you find within a year (see the chart in Figure 5.4 ) is to average out the peaks and valleys and get a trend estimate from the annual means. Certainly it8217s one answer to that problem, but, as you8217ll see, there8217s a much stronger method of segregating the seasonal effects from an underlying trend, accounting for them both, and forecasting accordingly. I8217ll cover that method later in this chapter, in the 8220Linear Regression with Coded Vectors8221 section. Furthermore, there8217s no foundation in theory for distributing the annual trend evenly among the periods that compose the year. It8217s true that linear regression does something similar when it places its forecasts on a straight line. But there8217s a huge gulf between making a fundamental assumption because the analytic model can8217t otherwise handle the data, and accepting a flawed outcome whose flaws8212errors in the forecasts8212can be measured and evaluated. That said, let8217s move on to the use of moving averages instead of simple averages as a way of dealing with seasonality.

No comments:

Post a Comment