Dalam regresi linier, variabel dummy digunakan untuk menunjukan pengaruh variabel independen yang bersifat kategorikal. Contohnya, apabila dalam model regresi kita ingin mengetahui pengaruh variabel independen yang bersifat kategori seperti perbedaan jenis kelamin, ras, atau mungkin agama dalam variabel dependen kita maka kita memerlukan dummy variable.
Hal ini disebabkan dalam regresi linier, konsep yang digunakan adalah menghubungkan titik-titik angka (kuantitatif) yang saling berkorespondensi antara variabel dependen dan independen sehingga bisa menemukan nilai prediksi dan hubungan antara kedua variabel tersebut. Jika variabel independen bersifat kategorikal, maka hal ini tidak bisa dilakukan sebab variabel independen akan inkonsisten karena memiliki beberapa kategori (kualitatif) di dalamnya. Contohnya apabila ingin melihat pengaruh variabel independen berupa jenis kelamin (laki-laki dan perempuan) terhadap variabel dependen berupa tingkat gaji, maka variabel independen harus dijadikan konsisten dan memiliki nilai (kuantitatif) yang bisa berkorespondensi dengan variabel dependennya. Oleh karena itu, pembuatan dummy variabel diperlukan dalam regresi yang memiliki variabel independen berupa kategori.
Variabel Dummy dan Cara Membuatnya
Umumnya, variabel dummy bersifat kategorikal dan diubah menjadi nilai variabel kuantitatif. Agar lebih praktis, hasil regresi akan lebih mudah untuk ditafsirkan ketika variabel dummy mengambil dua nilai spesifik , yaitu 1 atau 0. Biasanya, 1 mewakili keberadaan atribut kualitatif, dan 0 mewakili sebaliknya.
Jumlah variabel dummy yang diperlukan untuk mewakili variabel independen yang bersifat kategorikal biasanya diperlukan sebanyak k -1 (total jumlah kategori dikurang satu). Misalnya, kita hendak membuat variabel dummy untuk variabel wilayah tempat tinggal yang memiliki tiga kategori, yaitu Kota Besar, Kota Kecil dan Desa. Maka kita hanya perlu membuat setidaknya 2 variabel dummy (k -1) atau (3-1 = 2).
Pada percobaan kali ini kita akan menggunakan dataset dari
http://data.princeton.edu/wws509/datasets/#salary
Dalam dataset ini menunjukan data dari 52 profesor di sebuah kampus kecil di Amerika. Ada beberapa variabel independen yang bersifat kategorikal seperti jenis kelamin, jabatan, dan pendidikan terakhir. Untuk variabel dependen kita menggunakan tingkat gaji yang diterima.
Kita berusaha mencari pengaruh antara variabel independen jabatan yang memiliki tiga kategori, yaitu: assistant professor, associate professor, dan full professor terhadap tingkat gaji.
Untuk mengetahui hal tersebut kita harus membentuk variabel dummy untuk variabel independen jabatan (rk).
Note: Untuk sekarang kita hanya mencoba melakukan regresi linier dengan variabel-variabel dummy ya jadi belum memasukan variabel lain.
Yuk, kita mulai!
- Kita bisa mendownload dahulu dataset yang ingin digunakan dengan mengklik link diatas dan membukanya langsung menggunakan Stata. Pada website diatas dan klik link salary.dta
- Selanjutnya, kita bisa memulai membentuk variabel dummy dengan mengecek detail variabel independen yang ingin kita jadikan variabel dummy dalam hal ini adalah variabel jabatan (rk)
Command: tab rk
- Setelah ini ada beberapa cara untuk membentuk variabel dummy
- Cara pertama bisa dengan membuat variabel baru dengan command generate dan kemudian menggunakan command replace untuk mengganti value variable dummy tersebut dengan angka 0 dan 1 sesuai dengan kategori yang ada. [Kita bahas dilain kesempatan ya yang ini 🙂 ]
- Cara kedua tergolong lebih mudah, yaitu dengan menggunakan command
tab, generate (nama baru variabel dummy)
tab, generate (nama baru variabel dummy)
Sebelum membentuk variabel dummy, kita harus menentukan dahulu Kategori Referensi yang tidak akan dimasukan dalam regresi (ingat hanya perlu sejumlah k-1 variabel dummy dalam regresi) jadi dengan tiga kategori maka kita hanya perlu 2 variabel dummy. Kali ini kita coba menjadikan kategori Assistant sebagai Kategori Referensi
Kategori Awal | dum_rank2 | dum_rank3 |
Assistant | 0 | 0 |
Associate | 1 | 0 |
Full | 0 | 1 |
Dengan demikian kategori Assistant akan mendapat nilai 0 pada dua variabel dummy baru yang akan dibentuk. Koefisien yang akan terbentuk dari variabel dum_rank2 dan dum_rank3 akan menunjukan perbedaan pengaruh kedua kategori, yaitu associate professor, full professor dengan assistant professor.
- Selanjutnya lakukan cara kedua dengan command
tab, generate (nama baru variabel dummy)
Jika kita melihat list variabel baru kita di Data Editor maka kita akan melihat ada tiga variabel baru yaitu dum_rank1, dum_rank2, dan dum_rank3
- Untuk mengecek apakah dummy variabel yang terbentuk sudah sesuai dan Assistant Professor sudah sesuai sebagai Kategori Referensi kita bisa mengeceknya dengan menggunakan command berikut
Tab rk dum_rank1
Dari tabel ini kita bisa mengetahui bahwa pada variabel dummy baru (dum_rank1) kategori assistant mendapat nilai 1 dan pada kategori associate dan full mendapat nilai 0, seperti yang sudah kita harapkan sebelumnya untuk memberikan kategori pada variabel independen jabatan (rk). Dengan demikian kita sudah bisa melakukan regresi linier dengan variabel independen jabatan (rk) terhadap tingkat gaji (sl). Perlu diingat dalam melakukan regresi kita hanya perlu memasukan dua variabel saja dan satu variabel lagi kita jadikan Kategori Referensi
- Selanjutnya untuk melakukan regresi linier antara gaji dan jabatan kita bisa memasukan command dibawah ini, kita tidak memasukan dum_rank1 karena berfungsi sebagai Kategori Referensi
Reg sl dum_rank2 dum_rank3
Interpretasi Hasil
Selanjutnya untuk bagian interpretasi, apabila kita hanya meregresikan variabel dummy seperti model diatas maka hasilnya bisa diinterpretasikan sebagai berikut
Variabel _cons disini menunjukan hasil regresi apabila seluruh variabel independen bernilai 0 dengan kata lain ketika variabel dum_rank2 (jabatan Associate Professor) dan dum_rank3 (jabatan Full Professor) bernilai 0. Berarti variabel _cons menunjukan pengaruh jabatan Assistant Professor terhadap tingkat gaji. Melalui variabel _cons kita bisa mengatakan bahwa rata-rata gaji Assistant Professor adalah sebanyak 17.768,67
Selanjutnya, variabel dum_rank2 (Jabatan Associate Professor) menunjukan perbedaan gaji antara jabatan Associate dan Assistant (karena Assistant kita jadikan kategori referensi). Jadi untuk melihat rata-rata gaji Jabatan Associate Professor kita perlu menambahkan variabel _cons dengan variabel dum_rank2 atau sebesar 17.768,67 + 5407,262 = 23.175,932
Demikian juga dengan variabel dum_rank3 (Jabatan Full Professor) menunjukan perbedaan gaji antara jabatan Full dan Assistant (karena Assistant kita jadikan kategori referensi). Jadi untuk melihat rata-rata gaji Jabatan Full Professor kita perlu menambahkan variabel _cons dengan variabel dum_rank3 atau sebesar 17.768,67 + 11.890,28 = 29.658,95
Selanjutnya, keuntungan regresi linier ini adalah kita bisa mengecek apakah benar ada perbedaan gaji antara setiap jabatan professor di Universitas tersebut dengan melihat apakah setiap variabel signifikan secara statistik atau tidak. Ternyata, ditemukan bahwa setiap variabel mulai dari _cons, dum_rank2, dan dum_rank3 signifikan secara statistik (p=0.000) pada alfa 5%. Jadi, kita bisa menyimpulkan bahwa variabel jabatan memiliki pengaruh yang signifikan pada perbedaan tingkat gaji.