Hallo semua kali ini kita akan membahas salah satu asumsi yang harus terpenuhi apabila kita ingin melakukan regresi OLS (Ordinary Least Square) yaitu, asumsi normality. Asumsi ini mengatakan bahwa jika kita ingin melakukan regresi OLS dan mendapatkan hasil yang reliable atau BLUE (Best, Linier, Unbiased Estimator) maka error terms atau nilai residual pada hasil regresi kita harus terdistribusi secara NORMAL.
Hal ini diperlukan karena jika nilai residual atau error term tidak terdistribusi secara normal maka akan membuat confidence intervals pada regresi menjadi terlalu lebar atau sebaliknya terlalu sempit. Hal ini akan membuat prediksi dari regresi kita menjadi biased dan hasilnya tidak reliable.
Untuk penjelasan lebih lanjut mengenai asumsi normalitas dan mengapa asumsi ini penting dalam regresi OLS akan kita bahas di artikel lain ya!
Nah, setelah tau apa itu asumsi normality, kita akan bahas bagaimana caranya untuk uji asumsi normalitas nilai residual atau error term kita di STATA.
Langkah-Langkah Uji Asumsi Normalitas nilai residual/error term di STATA
- Untuk melakukan uji asumsi normalitas pertama kita perlu melakukan regresi OLS terlebih dahulu dan mencari nilai residual dari regresi kita. Untuk itu kita akan menggunakan dataset dari Stata, yaitu data Mobil di USA pada tahun 1978. Untuk itu kita bisa mengetikan command dibawah ini pada Stata
Webuse auto
Selanjutnya, kita bisa mulai melakukan regresi linier sederhana. Disini sebagai contoh kita mau meneliti faktor-faktor apa saja yang mempengaruhi panjang mobil dan mana yang paling berdampak. Kita menggunakan Panjang Mobil dalam inchi (length) sebagai variabel dependen dan ukuran bagasi (trunk) serta diameter lingkaran terkecil yang bisa dibuat ban mobil saat berbelok tajam (turn) sebagai variabel independen. Secara intuisi, mobil dengan ukuran bagasi yang lebih kecil dan diameter lingkaran ban saat berbelok yang lebih kecil akan memiliki body mobil yang lebih pendek. Hal ini bisa membantu pembuat mobil untuk mendesain mobil agar memiliki ukuran yang lebih kecil dengan menyesuaikan ukuran bagasi dan diameter putaran ban mobil.
length= a+b1.trunk+b2.turn
Kemudian kita bisa melanjutkan dengan melakukan regresi degan mengetik command berikut
Reg length trunk turn
Kemudian akan muncul hasil regresi seperti diatas, dan selanjutnya adalah memunculkan nilai residual yang akan kita cek apakah sudah mengikuti distribusi normal atau belum.
- Hasilkan nilai residual dari model regresi kita dengan mengetikan command dibawah ini
Predict resid, residuals
Command tersebut akan menghasilkan variabel baru bernama “resid” yang berisikan nilai residual atau error term dari model regresi OLS kita. Kita bisa melihat variabel baru ini di data editor STATA
Nah, setelah nilai residual atau error term dari regresi kita sudah ada, maka kita bisa melanjutkan dengan uji asumsi normalitas
Langkah Uji Asumsi Normalitas (Skewness and Kurtosis Test)
- Uji Skewness dan Kurtosis memiliki dua bagian. Pertama uji skewness yang mengukur distribusi probabilitas data dari rata-ratanya, dalam hal ini mengukur kecondongan data nilai residual dari rata-ratanya.Kedua, uji Kurtosis mengukur tinggi dan ketajaman puncak pusat dari data nilai residual relatif terhadap bentuk kurva lonceng standar. Untuk melakukan Skewness and Kurtosis Test pada variabel nilai residual kita bisa menuliskan command dibawah ini
Sktest resid
Pada Skewness and Kurtosis Test, Ho yang digunakan adalah data terdistribusi normal dan H1 nya adalah data terdistribusi tidak normal.
Hematnya ya teman-teman, apabila nilai Pr(skewness) kalian >0.05 nilai Pr(kurtosis) >0.05 dan nilai Prob>chi2 kalian juga >0.05 maka kita bisa bilang bilang jangan tolak Ho (terima Ho) yang menandakan data nilai residual kita mengikuti distribusi normal dan asumsi OLS terpenuhi. Apabila salah satu dari ketiga nilai yang disebutkan tadi TIDAK >0.05 maka bukti yang mengatakan bahwa nilai residual kamu mengikuti distribusi normal masih ambigu dan kemungkinan nilai residual terdistribusi tidak normal ada.
Pada hasil percobaan kita, nilai Pr(skewness) adalah 0.3609 > 0.05 ; Pr(kurtosis) adalah 0.3099 > 0.05 ; dan nilai Prob>chi2 adalah 0.3809 > 0.05 jadi bisa dibilang nilai residual mengikuti distribusi normal.
Jarque Beta Test
Ini juga merupakan salah satu cara yang bisa digunakan untuk menguji asumsi normalitas nilai residual kita. Untuk melakukannya kita bisa mengetik command
Ssc install jb
Tunggu sampai ada tulisan installation complete
Selanjutnya, kita bisa melanjutkan command dengan mengetik
Jb resid
Hasil yang akan kita dapatkan adalah seperti gambar diatas. Nah untuk interpretasinya adalah sebagai berikut.
Test ini akan menguji apakah data mengikuti distribusi normal atau tidak, untuk Ho sendiri data mengikuti distribusi normal dan H1 nya data tidak normal. Untuk hematnya, apabila nilai Chi (2) kalian >0.05 maka kita jangan tolak Ho (terima H0) yang menandakan nilai residual kita mengikuti distribusi normal. Dari hasil yang kita dapatkan, nilai Chi (2) adalah 0.5519 >0.05 sehingga kita bisa bilang bahwa asumsi normalitas sudah terpenuhi pada regresi OLS ini karena nilai residual yang ada sudah terdistribusi secara normal.
Menggunakan Histogram untuk Uji Asumsi Normalitas
Selain dari dua test diatas, kita juga bisa menggunakan histogram pada variabel nilai residual kita dan melihat distribusinya apakah sudah terdistribusi normal atau tidak normal. Untuk data yang terdistribusi normal maka bentuk histogramnya akan seperti bentuk bel dengan puncak berada di tengah. Untuk melakukan hal tersebut kita bisa melakukan langkah-langkah dibawah ini
Klik Menu Graphics di bagian atas menu Stata kalian
Kemudian klik Histogram dan menu dibawah ini akan muncul jendela baru seperti ini dan ikuti settingannya yaa, pastikan pilih variable resid
Kemudian klik bagian Density plots dan centang bagian Add normal-density plot kemudian klik OK
Apabila gambar yang terbentuk pada Histogram seperti bel atau setidaknya mendekati sepeti bel, maka kita bisa mengatakan bahwa data terdistribusi secara normal dan sesuai dengan 2 test yang sebelumnya sudah kita lakukan
Kesimpulan
Jadi, kita bisa simpulkan bahwa pada regresi faktor-faktor apa saja yang mempengaruhi panjang mobil dan mana yang paling berdampak dengan trunk dan turn sebagai variabel independen, asumsi OLS berupa error term atau nilai residual yang terdistribusi secara normal sudah terpenuhi dan kita bisa lebih mempercayai hasil regresi terutama jika digunakan untuk memprediksi nilai variabel dependen. Semoga bermanfaat yaa teman-teman Bisariset!