R-squared atau R2 pada dasarnya digunakan untuk melihat bagaimana penambahan variabel independen membantu menjelaskan varians variabel dependen. Secara umum R2 dapat memberikan ukuran seberapa baik model dalam menjelaskan variabel dependen (variabel yang dipengaruhi) atau goodness of fit.
Rumus/formula R-Squared
R2 secara definisi merupakan rasio dari varians yang dijelaskan oleh variabel independen (penjelas) dibandingkan varians tanpa adanya variabel independen, berikut rumus dari R2.
R2 = SSE/SST = 1 - SSR/SST
Dimana
SST (Sum Square Total) → sum squares total variabel dependen tanpa adanya variabel independen
SSE (Sum Square Explained) → sum squares yang dijelaskan oleh model
SSR (Sum Square residual) → sum squares residual
Dengan formula masing masing berikut
SST → Σ ( yi – y mean)2
SSE → Σ ( y hat – y mean)2
SSR → Σ ( yi – y hat)2
SST = SSE + SSR
SSE = SSR – SST
*Mean adalah rata rata, sehingga y mean adalah rata-rata dari nilai y (variabel dependen)
y hat disini yang kita maksud adalah nilai yang diprediksi oleh garis regresi
Rumus R2 diatas yang sering kita jumpai di buku teks, namun menurut kami rumus tersebut dirasa kurang intuitif. Untuk itu penjelasan kami kali ini akan menggunakan rumus berikut yang sesuai dengan definisinya (rasio varians yang dijelaskan) meski pada akhirnya secara matematis akan memiliki formula dan hasil yang sama.
R2 = (VAR mean - VAR hat)/VAR mean
Dimana
VAR mean → varians dari variabel dependen terhadap mean (menunjukkan varians dari dependen TANPA adanya variabel independen)
VAR hat → varians dari variabel dependen terhadap garis regresi (menunjukkan varians dari dependen DENGAN adanya variabel independen)
Sehingga (VAR mean – VAR hat) dapat diartikan sebagai “varians yang dijelaskan oleh penambahan variabel independen”
Rumus varians secara umum untuk populasi adalah sebagai berikut
VAR = ( Σ ( Xi - mean)2)/n
Dimana
Xi → nilai variabel di satu data
mean → rata-rata
n → jumlah populasi
VAR mean = ( Σ ( yi - mean)2)/n
VAR hat = ( Σ ( yi - y hat )2)/n
Sehingga dengan kata lain
VAR mean = SST / n
VAR hat = SSR / n
Atau bisa dianggap varians adalah sum of squares rata rata
Sehingga dari rumus awal kita
R2 = (VAR mean - VAR hat)/VAR mean
R2 = (SST - SSR) / SST
Ingat lagi tadi bahwa SSE = SSR – SST, maka
R2 = (SSE) / SST
Seperti formula yang ada di textbook
Cara menghitung R2
Mari kita langsung lakukan contoh penghitungan R2 secara manual untuk mendapatkan pemahaman yang lebih baik
Berat kucing | Tinggi kucing |
4.8 | 15 |
3.8 | 10 |
2.8 | 8 |
4 | 11 |
5.4 | 20 |
5.5 | 18 |
2.8 | 6 |
3.3 | 9 |
3.9 | 14 |
3.7 | 13 |
2.8 | 8 |
3.5 | 10 |
4.7 | 16 |
4.5 | 17 |
3.7 | 11 |
Misal kita akan menggunakan data fiktif sebagai berikut dimana berat kucing menjadi variabel dependen (dipengaruhi) dan kita telah mendapatkan persamaan regresi sebagai berikut
Berat kucing = 1.445965498 + tinggi kucing * 0.2016694491
Dari sini kita bisa memperoleh nilai prediksi garis regresi dengan tinggi kucing yang diketahui, umumnya ini kita sebut dengan y hat atau y prediksi, menghitung y mean, dan pada akhirnya menghitung R2 dari SSE dan SST
Berat kucing (BK) | Tinggi kucing (TK) | Prediksi BK dari model regresi (y hat) | rata-rata BK (y mean) | SSE = Σ( y hat – y mean)^2 | SST = Σ( yi – y mean)^2 |
4.8 | 15 | 4.47101 | 3.94667 | 0.27493 | 0.72818 |
3.8 | 10 | 3.46266 | 3.94667 | 0.23426 | 0.02151 |
2.8 | 8 | 3.05932 | 3.94667 | 0.78738 | 1.31484 |
4 | 11 | 3.66433 | 3.94667 | 0.07971 | 0.00284 |
5.4 | 20 | 5.47935 | 3.94667 | 2.34913 | 2.11218 |
5.5 | 18 | 5.07602 | 3.94667 | 1.27543 | 2.41284 |
2.8 | 6 | 2.65598 | 3.94667 | 1.66587 | 1.31484 |
3.3 | 9 | 3.26099 | 3.94667 | 0.47015 | 0.41818 |
3.9 | 14 | 4.26934 | 3.94667 | 0.10412 | 0.00218 |
3.7 | 13 | 4.06767 | 3.94667 | 0.01464 | 0.06084 |
2.8 | 8 | 3.05932 | 3.94667 | 0.78738 | 1.31484 |
3.5 | 10 | 3.46266 | 3.94667 | 0.23426 | 0.19951 |
4.7 | 16 | 4.67268 | 3.94667 | 0.52709 | 0.56751 |
4.5 | 17 | 4.87435 | 3.94667 | 0.86059 | 0.30618 |
3.7 | 11 | 3.66433 | 3.94667 | 0.07971 | 0.06084 |
Total | 9.74467 | 10.83733 | |||
R^2 (SSE/SST) | 0.8991757917 |
Tenang saja kamu tidak perlu menghitung R2 secara manual, kebanyakan software akan mampu memberikan hasil R2 regresi, kita akan memberikan contoh regresi di google sheets melalui command linest
kamu juga bisa melihat bagaimana cara melakukan regresi di google sheets di artikel berikut https://bisariset.id/cara-melakukan-regresi-linier-di-google-sheets/
slope/β1 (TK) | intercept | |
coefficient for slope; coefficient for intercept | 0.2016694491 | 1.445965498 |
Standard error for slope; standard error for intercept | 0.01872960175 | 0.2440125218 |
coefficient for determination/R2; standard error | 0.8991757917 | 0.2899158437 |
F stat; degree of freedom | 115.9372881 | 13 |
sum square regression explained; sum square residual | 9.74466778 | 1.092665554 |
Di Google sheets menunjukkan langsung nilai R2 0.8991757917, atau jika mau menghitungnya dari sum squares google sheets memberikan SSE dan SSR
Interpretasi R-Squared
Jika R2 adalah 0,89 atau 89% dari itu berarti variabel independen membantu menjelaskan 89% varians pada variabel independen, semakin tinggi semakin baik
Ini juga berlaku untuk regresi berganda di mana kita menggunakan bidang (3D atau lebih) daripada garis (2D). Perlu digaris bawahi disini bahwa penambahan variabel independen lain bisa jadi tidak menambah nilai R2 namun nilai R2 TIDAK AKAN DAPAT BERKURANG jika ditambahkan variabel independen.
Berat kucing | Tinggi kucing | Panjang ekor | Lebar mata |
4.8 | 15 | 9 | 0.9 |
3.8 | 10 | 2 | 0.2 |
2.8 | 8 | 3.5 | 0.5 |
4 | 11 | 3.5 | 0.3 |
5.4 | 20 | 4 | 0.1 |
5.5 | 18 | 6 | 0.4 |
2.8 | 6 | 3.5 | 0.5 |
3.3 | 9 | 6 | 0.2 |
3.9 | 14 | 9 | 0.5 |
3.7 | 13 | 1.5 | 0.5 |
2.8 | 8 | 7 | 0.7 |
3.5 | 10 | 9.5 | 0.9 |
4.7 | 16 | 3.5 | 0.4 |
4.5 | 17 | 4.5 | 0.2 |
3.7 | 11 | 2.5 | 0.5 |
Mari kita lihat hasil R2 bila menambahkan variabel variabel yang tidak berhubungan dengan berat badan yaitu panjang ekor dan lebar mata
slope/β3 (LM) | slope/β2 (PE) | slope/β1 (TK) | intercept | |
coefficient for slope; coefficient for intercept | 0.02720934547 | -0.001232735643 | 0.2021939173 | 1.433290867 |
Standard error for slope; standard error for intercept | 0.4800206065 | 0.04244056642 | 0.02252316383 | 0.3603459172 |
coefficient for determination/R2; standard error | 0.8992062001 | 0.315124219 | #N/A | #N/A |
F stat; degree of freedom | 32.71123227 | 11 | #N/A | #N/A |
sum square regression explained; sum square residual | 9.744997326 | 1.092336008 | #N/A | #N/A |
Terlihat bahwa penambahan variabel panjang ekor (PE) dan lebar mata (LM) tidak banyak menambah R2, dari yang awalnya 0.8991757917 ke 0.8992062001. Bila nanti kita melihat uji antar variabelnya akan terlihat bahwa panjang ekor dan lebar mata tidak terlalu berpengaruh pada berat kucing, bila dari hasil diatas ini ditunjukkan oleh nilai standard error yang besar pada variabel panjang ekor dan lebar mata.