Dalam regresi linier, variabel dummy digunakan untuk menunjukan pengaruh variabel independen yang bersifat kategorikal. Contohnya, apabila dalam model regresi kita ingin mengetahui pengaruh variabel independen yang bersifat kategori seperti perbedaan jenis kelamin, ras, atau mungkin agama dalam variabel dependen kita maka kita memerlukan dummy variable.
Umumnya, variabel dummy bersifat kategorikal dan diubah menjadi nilai variabel kuantitatif. Agar lebih praktis, hasil regresi akan lebih mudah untuk ditafsirkan ketika variabel dummy mengambil dua nilai spesifik , yaitu 1 atau 0. Biasanya, 1 mewakili keberadaan atribut kualitatif, dan 0 mewakili sebaliknya.
Jumlah variabel dummy yang diperlukan untuk mewakili variabel independen yang bersifat kategorikal biasanya diperlukan sebanyak k -1 (total jumlah kategori dikurang satu). Misalnya, kita hendak membuat variabel dummy untuk variabel wilayah tempat tinggal yang memiliki tiga kategori, yaitu Kota Besar, Kota Kecil dan Desa. Maka kita hanya perlu membuat setidaknya 2 variabel dummy (k -1) atau (3-1 = 2).
Cara Membuat Dummy Variabel Dengan Kategori Tertentu
Pada percobaan kali ini kita akan mencoba membuat sebuah dummy variabel dengan syarat dan kategori tertentu dari data yang tersedia. Kali ini kita akan menggunakan data dari http://fmwww.bc.edu/ec-p/data/wooldridge/hprice1.dta
Data diatas berisi mengenai data pasar perumahan lengkap mulai dari harga rumah, nilai jual, jumlah kamar, ukuran halaman, ukuran rumah dan tipe rumah tersebut. Totalnya ada 88 observasi data yang akan kita gunakan untuk latihan.
- Pertama, kita bisa mengakses data tersebut dengan menuliskan perintah dibawah ini
ssc install bcuse
Setelah loading dan instalasi selesai seperti gambar diatas kita bisa menuliskan perintah selanjutnya
bcuse hprice1
Jika tampilan Stata anda sudah seperti diatas, maka kita sudah mengakses data yang akan digunakan untuk latihan. Akan ada 88 observasi data dan 10 variabel yang bisa digunakan untuk latihan membuat dummy variable dan regresi.
- Selanjutnya, anggap kita ingin melakukan regresi untuk mengetahui apakah rumah dengan ukuran halaman (lotsize) diatas rata-rata memiliki pengaruh terhadap harga rumah (house price).
Untuk melakukan regresi tersebut maka kita perlu membuat dummy variable untuk mengkategorikan rumah yang memiliki ukuran halaman (lotsize) diatas rata-rata dan yang ukuran halamannya dibawah rata-rata. Untuk itu kita harus membuat kategori dengan aturan kita sendiri dan membuat dummy variable yang sesuai dengan tujuan kita.
Pertama, kita harus mengetahui dahulu nilai rata-rata (mean) dari variabel ukuran halaman (lotsize). Kita bisa menggunakan perintah dibawah
sum lotsize
Dari sini kita bisa mengetahui bahwa rata-rata ukuran halaman (lotsize) adalah 9019.864
Selanjutnya, kita bisa menentukan dan membuat dummy variable untuk keperluan regresi kita.
- Rumah yang memiliki ukuran halaman (lotsize) > 9019.864 akan memiliki nilai 1
- Rumah yang memiliki ukuran halaman (lotsize) ≤ 9019.864 akan memiliki nilai 0
Kedua, kita bisa mulai membuat dummy variable dengan menulis perintah-perintah dibawah ini
gen lotsizedummy=0
*perintah diatas akan membuat satu variabel dummy baru dimana semua nilainya adalah 0, kita bisa mengecek variabel baru tersebut pada data editor*
Ketiga, kita bisa menentukan nilai daripada variabel dummy baru kita sesuai dengan kategori yang sudah kita tentukan sebelumnya dengan perintah dibawah
Kategori yang diinginkan:
- Rumah yang memiliki ukuran halaman (lotsize) > 9019.864 akan memiliki nilai 1
- Rumah yang memiliki ukuran halaman (lotsize) ≤ 9019.864 akan memiliki nilai 0
replace lotsizedummy=1 if lotsize>9019.864
*perintah diatas akan mengganti nilai pada variabel dummy kita (lotsizedummy) yang tadinya semua bernilai 0 menjadi bernilai 1 apabila variabel ukuran halaman (lotsize) memiliki nilai >9019.864 atau diatas rata-rata*
Untuk memastikan, kita bisa mengecek kembali variabel lotsize dan lotsizedummy apakah kategori serta nilai 1 dan 0 nya sudah sesuai atau belum
bro lotsize lotsizedummy
Bisa dilihat apabila nilai variabel lotsizedummy sudah bernilai 1 ketika ukuran halaman (lotsize) > 9019.864 atau diatas rata-rata (seperti pada baris 2 dan baris 13) maka variabel dummy kita sudah sesuai dengan kategori yang kita inginkan diawal
- Selanjutnya, kita bisa melakukan regresi sederhana dengan variabel price sebagai dependent variable, lalu memasukan variabel dummy baru kita lotsizedummy sebagai independent variable, kita bisa juga menambahkan variabel lain (sepeti jumlah kamar) untuk mengetahui pengaruhnya terhadap harga rumah (prices)
Untuk melakukannya kita bisa menggunakan perintah dibawah ini
reg prices bdrms lotsizedummy
Selanjutnya akan muncul tabel regresi seperti diatas
- Interpretasi Hasil Regresi
Variabel bdrms signifikan berpengaruh terhadap harga rumah (prices) pada tingkat signifikansi 5%, bisa dilihat nilai p-value (0.00) kurang dari alfa (0.05). Koefisien 56.90 menunjukan bahwa apabila kamar pada suatu rumah bertambah 1 unit maka akan meningkatkan harga rumah sebanyak 56.90 USD.
Variabel lotsizedummy signifikan berpengaruh terhadap harga rumah (prices) pada tingkat signifikansi 5%, bisa dilihat nilai p-value (0.00) kurang dari alfa (0.05). Jadi kita bisa bilang bahwa ukuran halaman diatas rata-rata memiliki pengaruh signifikan pada harga rumah. Untuk variabel dummy, interpretasinya sedikit berbeda dan bisa dijelaskan dengan grafik dibawah
Nilai _cons 67.23 merupakan intercept dari model regresi kita dimana ketika sebuah rumah tidak memiliki kamar sama sekali maka harganya akan sama dengan 67.23 USD
Pada kasus kita, dummy variable berfungsi sebagai penambah intercept dalam model. Untuk rumah dengan ukuran halaman diatas rata-rata (lotsizedummy=1) maka diperkirakan akan menambah harga rumah (prices) sebesar 113.78 USD dibandingkan rumah yang memiliki ukuran halaman dibawah rata-rata (lotsizedummy=0)
Semoga bermanfaat ya!
Sumber: https://youtu.be/jNweiG8yl5I
Its so benefit