Pada tulisan sebelumnya, kita sudah mengetahui apa itu Multicollinearity dan masalah apa yang mungkin muncul apabila terjadi dalam model regresi kita. Apabila Multicollinearity menjadi masalah pada model regresi kalian, kita bisa mendeteksinya menggunakan Stata dan ada beberapa solusinya juga loh
Cara Mendeteksi Multicollinearity Menggunakan Stata
Untuk memulai percobaan kali ini, kita akan menggunakan dataset dari Stata, yaitu data Mobil di USA pada tahun 1978. Untuk itu kita bisa mengetikan command dibawah ini pada Stata
sysuse auto
Selanjutnya, kita bisa mulai melakukan regresi linier sederhana. Disini kita mau meneliti faktor-faktor apa saja yang menentukan harga mobil dan mana yang paling berdampak. Kita menggunakan Harga Mobil (price) sebagai variabel dependen dan Berat Mobil dalam Kg (weightkg), Berat Mobil dalam Pound (weightlb), Panjang Mobil (length), dan Jarak Tempuh (mpg) sebagai variabel independen.
price = a + b1.weightkg + b2.weightlb + b3.length + b4.mpg
Secara intuisi saja, mobil yang lebih panjang akan cenderung memiliki berat yang lebih besar. Dari intuisi ini saja kita bisa bilang bahwa variabel length dan weight memiliki korelasi yang cukup besar. Hal ini bisa berpotensi memunculkan masalah multicollinearity. Untuk itu kita bisa mengetik command berikut.
reg price weight length mpg
Kemudian akan terlihat hasil jendela Stata lengkap dengan tabel regresi yang sudah kita lakukan.
- Pada tutorial kali ini, alat ukur yang kita gunakan untuk mengukur Multicollinearity adalah angka VIF (Variance Inflation Factor). Angka VIF bisa mengukur korelasi dan kekuatan antarkorelasi yang ada diantara variabel-variabel independen dalam model regresi kita.
Untuk melakukan ini kita bisa menggunakan command vif
vif
Command tadi akan menghasilkan tabel angka VIF dimana nilai terendahnya adalah 1 dan nilai paling tingginya tak hingga.
Untuk mengecek apakah model kita mengalami Multicollinearity atau tidak, kita bisa melihat angka VIF ini dan ada rule of thumbs yang diyakini ahli Statistik bisa menjadi tanda dari adanya Multicollinearity, yaitu:
- Nilai 1 menunjukkan tidak ada korelasi antara salah satu variabel independen dengan variabel independen yang lainnya dalam model.
- Nilai antara 1 dan 5 menunjukkan korelasi sedang antara salah satu variabel independen dengan variabel independen lainnya dalam model, tetapi nilai VIF ini masih bisa ditoleransi dan tidak menunjukan Multicollinearity yang bisa menimbulkan masalah
- Nilai yang lebih besar dari 5 menunjukkan potensi korelasi yang tinggi antara salah satu variabel independen dengan variabel independen lainnya dalam model. Dalam hal ini, hasil koefisien dan nilai-p dalam keluaran regresi kemungkinan besar tidak dapat diandalkan dan Multicollinearity bisa menjadi masalah.
Pada hasil VIF kita bisa dilihat bahwa variabel weight dan length memiliki nilai VIF diatas 5 dan berpotensi memiliki korelasi kuat antara sesama variabel independen. Namun, hasil VIF ini belum menunjukan mana variabel yang memang memiliki banyak korelasi kuat dengan variabel-variabel independen lainnya, baru hanya berupa proxy. Bisa saja weight atau length yang bermasalah.
Solusi Untuk Multicollinearity
Solusi paling mudah dan umum untuk mengatasi Multicollinearity adalah dengan menghilangkan variabel independen yang memiliki korelasi terlalu tinggi dengan variabel independen lainnya. Hal ini bisa dilakukan sebab bisa saja pengaruh dan korelasi antara variabel-variabel independen yang ada terlalu kuat dan membuat interpretasi regresi menjadi tidak reliable. Dalam kasus kita, hasil regresi tidak bisa menentukan mana variabel yang paling menentukan harga mobil apakah Berat atau Panjang mobil, sebab kedua variabel ini memiliki korelasi yang kuat.
Untuk membuang salah satu variabel independen yang memiliki korelasi kuat dengan variabel independen lainnya pertama kita bisa mengecek dan mengidentifikasi dahulu variabel mana yang sangat berkorelasi satu sama lain dan menjadi biang masalah multicollinearity. Untuk kita bisa mengetik command dibawah ini
corr
Command corr akan menunjukan Matriks Korelasi antar variabel yang ada. Nilai 1 atau -1 menunjukan adanya korelasi yang kuat antara kedua variabel yang ada (nilai diatas 0.5 atau -0.5 bisa dikatakan memiliki korelasi yang cukup tinggi). Untuk memilih variabel mana yang akan kita drop antara weight dan length (sebab disuspect memiliki korelasi kuat dengan variabel independen lainnya) maka kita perlu memperhatikan matriks diatas.
Bisa dilihat variabel length memiliki korelasi yang paling rendah (0.4318) dengan variabel price (variabel dependen kita). Dan ternyata variabel length juga memiliki korelasi yang sangat tinggi justru dengan variabel-variabel independen lain seperti dengan weight (0.9460) dan mpg (-0.7958). Oleh karena itu, apabila kita mendrop variabel length dari model maka tidak terlalu merubah hasil regresi sebab pengaruhnya dengan variabel dependen (price) kecil dan juga ini merupakan variabel yang menyebabkan Multicollinearity dalam model kita sebab punya korelasi yang sangat tinggi dengan variabel independen lain.
Langkah terakhir adalah mengetest model yang baru dengan variabel-variabel baru (tanpa length). Kita bisa mengetik command berikut
reg price weight mpg
Bisa dilihat bahwa setelah mendrop variabel length nilai r-squared dari hasil regresi yang baru tidak berubah terlalu signifikan, yaitu 0.2934 (sebelumnya 0.3574). Ini menandakan model kita cenderung memiliki kualitas yang sama untuk menjelaskan faktor apa saja yang mempengaruhi harga mobil menurut dataset kita.
Untuk lebih memastikan lagi, kita bisa mencoba command VIF kembali dengan variabel yang baru
vif
Dari tabel VIF terbaru bisa dilihat bahwa nilai VIF untuk kedua variabel independen sudah dibawah 5 sehingga tidak ada lagi variabel independen yang memiliki korelasi dengan variabel-variabel independen lainnya dan masalah Multicollinearity sudah tidak ada.
Semoga Bermanfaat yaa 🙂
Sumber
Wooldridge, J. M. (2012). Introductory econometrics: A modern approach (5th ed.). Cengage Learning.