Cara Menjalankan dan Membaca Hasil Regresi Linier di Stata


Regresi linier atau OLS (ordinary least square) merupakan metode estimasi dengan cara mencari garis trend lurus (linier) yang dapat dengan baik memprediksi atau mengestimasi nilai data. Garis yang bisa mengestimasi nilai data dengan baik ini akan meminimalkan jarak antara data yang dapat diamati dengan garis trend tersebut.

Kita akan menggunakan data mroz pada contoh analisis kali ini, kamu dapat memasukkan command berikut

use http://www.stata.com/data/jwooldridge/eacsap/mroz

Kita akan membuat model sederhana terlebih dahulu dengan 1 variabel dependen (variabel yang dipengaruhi yaitu Y) dan 1 variabel independen (variabel yang mempengaruhi yaitu X). Berikut model yang akan kita gunakan

Wage = β0 +  β1educ + u

Dimana 

wage → jumlah gaji dalam jam

Educ → lama sekolah dalam tahun

β0 → konstanta (saat variabel independen bernilai 0, maka nilai dari variabel dependen adalah konstantanya)

β1 → parameter bagi educ (pengali dari efek educ ke wage)

u → adalah nilai error (residual)

Perlu digaris bawahi disini bahwa dalam regresi yang kita lakukan kita mencari sebuah pola, namun seringkali pola ini hanya berupa korelasi bukan kausalitas

Untuk melakukan regresi linear dengan model di atas kamu tinggal menuliskan command sebagai berikut

regress wage educ

regress merupakan command untuk melakukan regresi linier

Wage bertindak sebagai variabel dependen (Y)

Educ bertindak sebagai variabel independen (X)

Dengan kata lain command tersebut berarti lakukanlah regresi linier dengan wage sebagai variabel independen dan educ sebagai variabel independen

Pro tips* kamu bisa menyingkat regress menjadi reg saja, sehingga command yang dilakukan cukup reg wage educ

Stata akan menunjukkan hasil sebagai berikut, mari kita analisis bersama

Dalam regresi kali ini kita menggunakan dataset dari mroz yang menggunakan variabel gaji per jam (wage) sebagai variabel dependen dan lama sekolah dalam tahun (educ) sebagai variabel independen.  

Bagian pertama

Bagian ini ada di kiri atas output Stata yang merupakan tabel ANOVA (Analysis of Variances) yang merupakan analisis statistik untuk menguji tingkat perbedaan antara dua atau lebih kelompok percobaan. Dalam kasus kita untuk menguji tingkat perbedaan antara variabel wage dan educ. Dengan mengetahui tingkat perbedaan yang diwakili oleh nilai variasi, maka kita bisa memprediksi perkiraan data wage pada masa yang akan datang dengan melihat pola variasi antara data wage dan educ yang sudah ada.

  • Source: Merupakan sumber variasi data regresi kita. Total Variasi merupakan gabungan dari variasi yang bisa dijelaskan oleh variabel independen (disebut Model) dan variasi yang tidak dijelaskan oleh variabel independen (disebut Residual atau Error). Apabila kita menambahkan Sum of Square (SS) dari Model (SSmodel) dan Residual (SSerror) maka kita akan mendapat Sum of Square Total (SStotal). Nilai SSmodel yang besar menandakan variasi yang ada untuk membangun prediksi dijelaskan lebih banyak oleh variabel independen kita sehingga merupakan hal yang bagus. Kemudian, apabila SSerror kita lebih besar menandakan variasi yang terjadi untuk membangun prediksi lebih banyak dijelaskan oleh variabel lain diluar variabel independen kita.
  • SS (Sum of Square): Nilai penjumlahan akar kuadrat (Sum of Square) dari variasi-variasi yang ada.
    • SStotal: Sum of Square variasi antara data pengamatan dengan rata-rata (Y-Ybar)2 
    • SSmodel: Sum of Square variasi antara data prediksi dengan rata-rata (Ypredicted-Ybar)2
    • SSerror:  Sum of Square variasi antara data pengamatan dengan data prediksi (Y-Ypredicted)2
    • Bisa disimpulakan bahwa SStotal = SSmodel + SSerror
  • Df (Degree of Freedom): Derajat kebebasan (df) dikaitkan dengan sumber variasi.
    • Df total memiliki nilai N-1 derajat kebebasan. Dalam hal ini, ada N=753 pengamatan, sehingga DF totalnya adalah 752.
    • Df Model nilainya adalah jumlah prediktor (variabel independen) dikurangi 1 (K-1). Dalam kasus kita, ada setidaknya 2 prediktor (variabel independen) yaitu, educ dan juga nilai intercept (β0). Jadi, nilai df Model adalah 2-1=1. 
    • Df Residual/Error adalah df Total dikurangi df Model atau 752– 1 adalah 751.
  • MS (Mean Square): Mean Square adalah nilai Sum of Square dibagi dengan df masing-masing. Contohnya MSmodel = SSmodel : df Model → MSmodel = 801.095.644 : 1 = 801.095.644

Bagian Kedua, adalah bagian hasil regresi keseluruhan model

  • Number of Observation: Jumlah pengamatan dan data yang digunakan dalam analisis regresi
  • F(1, 751) & Prob > F: Nilai F(1, 751) adalah Nilai MSmodel (801.095.644) dibagi dengan MSresidual (9.45674443), menghasilkan F=84.71. Selanjutnya, Prob > F adalah nilai p-value yang diasosiasikan dengan nilai F (84.71) yang bisa dilihat pada tabel distribusi nilai F, pada kasus kita nilai Prob > F sangat kecil yaitu (0.000). 

Nilai ini digunakan untuk menjawab pertanyaan “Apakah variabel independen bisa memprediksi variabel dependen?”. Kemudian, P-value dibandingkan dengan tingkat alfa (biasanya 0,05) dan, jika lebih kecil, Anda dapat menyimpulkan “Ya, variabel independen bisa memprediksi variabel dependen”. Bisa dikatakan bahwa variabel lama sekolah dalam tahun (educ) (variabel independen) dapat digunakan untuk memprediksi gaji per jam (wage) (variabel dependen). Jika nilai p lebih besar dari 0,05, Anda akan mengatakan bahwa kelompok variabel independen tidak menunjukkan hubungan yang signifikan secara statistik dengan variabel dependen, atau bahwa grup variabel independen tidak dapat memprediksi variabel dependen. Nilai F ini hanya mengukur kemampuan kelompok variabel-variabel independen kita dalam memprediksi variabel dependen secara keseluruhan model regresi bukan kemampuan per variabelnya.

  • R-squared: R-Squared adalah proporsi variasi dalam variabel dependen (wage) yang dapat diprediksi dari variabel-variabel independen dalam hal ini hanya ada satu, yaitu (educ). Nilai ini menunjukkan bahwa 10.14% variasi dalam tingkat gaji per jam dapat diprediksi dari variabel lama pendidikan dalam tahun. Perhatikan bahwa ini adalah ukuran keseluruhan dari kekuatan asosiasi antara variabel-variabel independen dan variabel dependen kita, dan tidak mencerminkan sejauh mana variabel independen tertentu dikaitkan dan menjelaskan variasi dalam variabel dependen. Untuk penjelasan lebih terperinci akan kami bahas di artikel lain yaa 🙂
  • Adjusted R-squared: Saat variabel independen ditambahkan ke model, setiap variabel akan menjelaskan beberapa variasi dalam variabel dependen hanya karena kebetulan. Seseorang dapat terus menambahkan variabel independen ke model dan akan terus meningkatkan kemampuan variabel independennya untuk menjelaskan variabel dependen, meskipun beberapa peningkatan R-squared ini hanya karena variasi kebetulan dalam sampel tertentu. 

Adjusted R-squared mencoba untuk menghasilkan nilai yang lebih jujur ​​untuk memperkirakan R-squared untuk populasi. Nilai R-squared adalah 0.1014, sedangkan nilai Adjusted R-square adalah 0.1002 

Adjusted R-squared dihitung dengan menggunakan rumus 

1 – ((1 – Rsq)((N – 1) /( N – k – 1))

Dari rumus diatas, Anda dapat melihat bahwa ketika jumlah pengamatan (N) kecil dan jumlah variabel (k) banyak, akan ada perbedaan yang jauh lebih besar antara R-squared dan Adjusted R-squared (karena rasio (N – 1) / (N – k – 1) akan jauh lebih besar dari 1). Sebaliknya, ketika jumlah observasi sangat besar dibandingkan dengan jumlah variabel, nilai R-squared dan Adjusted R-squared akan menjadi semakin dekat karena rasio (N – 1)/(N – k – 1) akan mendekati 1.

  • Root MSE: Root MSE adalah standar deviasi dari error yang ada, dan merupakan akar kuadrat dari MSresidual (MSE).

Bagian Ketiga, adalah bagian bagian estimasi parameter yang berisi pengaruh dan signifikansi setiap variabel independen terhadap variabel dependen sesuai hasil regresi.

  • Wage (Kolom Pertama): Kolom ini menunjukkan variabel dependen di atas (wage) dengan variabel independen di bawahnya (educ dan _cons). Variabel terakhir (_cons) mewakili konstanta, dalam buku teks biasa disebut intercept Y, ketinggian garis regresi ketika melintasi sumbu Y. Dengan kata lain, ini adalah nilai prediksi wage (Y) ketika semua variabel independen (X) bernilai adalah 0.
  • Coef (Kolom Kedua): Ini adalah nilai yang dipakai dalam persamaan regresi untuk memprediksi variabel dependen dari variabel independen. Persamaan regresi biasanya berbentuk sebagai berikut, contohnya:
Ypredicted = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4

b1,b2,b3 dst merupakan perwakilan nama variabel independennya, sedangkan b0 merupakan intercept Y. Jika menulis persamaannya sesuai dengan nama variabel dependen dan indepennya maka akan menjadi

Wage Predicted = -3.186939 + 0.4526386*educ

Perkiraan ini memberitahu Anda tentang hubungan antara setiap variabel independen dan variabel dependen. Perkiraan ini menunjukkan jumlah gaji per jam yang akan diprediksi oleh peningkatan 1 unit dalam variabel independen. Catatan: Untuk variabel independen yang tidak signifikan, koefisiennya tidak berbeda dengan 0, yang berarti tidak memprediksi apapun. 

Untuk kasus kita bisa diinterpretasikan bahwa setiap peningkatan 1 unit educ (tahun belajar) maka akan meningkatkan wage sebanyak 0.4526386 dengan kondisi semua variabel lain konstan. 

Selanjutnya, apabila nilai variabel educ adalah 0 maka prediksi nilai wage adalah senilai -3.186939, nilai b0 tersebut adalah nilai intercept Y. 

  • Standard Error (Kolom Ketiga): Kolom ini berisi standard error yang terkait dengan koefisien. Standar error digunakan untuk menguji apakah suatu variabel independen signifikan atau tidak dengan membagi koefisien (0.4526386) dengan standar error (0.0491791) untuk mendapatkan nilai-t (9.20) (lihat tabel dengan nilai-t dan nilai-p). Standard error juga dapat digunakan untuk membentuk confidence interval untuk variabel independen, seperti yang ditunjukkan pada dua kolom terakhir dari tabel diatas.
  • t and P>|t| : Kolom ini memberikan nilai t-value dari tabel T dan nilai p-value two tailed yang digunakan dalam menguji hipotesis nol bahwa koefisien (parameter) adalah 0. Jika Anda menggunakan two tailed, maka Anda akan membandingkan p-value dengan nilai alpha yang sebelumnya sudah dipilih (kita menggunakan alpha = 5%).
    • Koefisien yang memiliki p-value kurang dari alpha maka signifikan secara statistik“.
    • Misalnya, jika Anda memilih alfa menjadi 0,05 (5%), koefisien yang memiliki p-value 0,05 atau kurang berarti signifikan secara statistik (Kita dapat menolak hipotesis nol dan mengatakan bahwa koefisien tersebut secara signifikan bukan 0). Jika Anda menggunakan uji one tailed (yaitu, Anda berhipotesis bahwa variabel independen akan menuju ke arah tertentu), maka Anda dapat membagi p-value dengan angka 2 sebelum membandingkannya dengan tingkat alfa yang sudah dipilih.
    • Dalam kasus kita, nilai T variabel educ adalah 9.20 dan jika dicari dalam tabel maka p-value nya adalah 0.000, kemudian alpha yang digunakan adalah 5% atau 0.05. Jadi bisa disimpulkan bahwa p-value < alpha sehingga variabel independen educ signifikan secara statistik terhadap wage pada tingkat alpha 5%.
  • [95% Conf. Interval]: Ini menunjukkan confidence interval 95% untuk koefisien variabel independen. Interval kepercayaan terkait dengan p-value sehingga koefisien tidak akan signifikan secara statistik jika di dalam confidence interval mencakup 0 (misal: -1,123 – 1,123). Jika Anda melihat confidence interval untuk variabel educ, Anda akan melihat bahwa itu tidak mencakup 0 (0,3560938 hingga 0,5491834 ). Oleh karena itu, variabel educ signifikan secara statistik terhadap wage pada tingkat alpha 5%. 

Jadi, seperti itulah cara menjalankan dan membaca hasil regresi linier yang sangat sederhana di Stata. Apabila ingin mencoba menambahkan variabel independen lain tentu saja bisa dan cara interpretasinya pun akan sama dengan yang sudah dijelaskan diatas. Umumnya bagian tiga yang sering digunakan oleh peneliti untuk membuktikan model penelitiannya Selamat mencoba!

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *