Reliabilitas dan validitas

Ada banyak cara untuk menetapkan nilai atau kategori ke dalam data, dan tidak semuanya berguna. Dua standar yang umumnya digunakan untuk mengevaluasi metode pengukuran (misalnya, survei atau tes) adalah reliabilitas dan validitas. Idealnya, kita ingin setiap metode yang kita gunakan dapat diandalkan dan valid. Pada kenyataannya, kualitas-kualitas ini tidak mutlak tetapi merupakan masalah derajat dan seringkali khusus untuk keadaan tertentu. Misalnya, survei yang sangat andal bila digunakan dengan kelompok demografis mungkin tidak dapat diandalkan bila digunakan dengan kelompok yang berbeda. Untuk alasan ini, daripada membahas reliabilitas dan validitas sebagai hal yang mutlak, seringkali lebih berguna untuk mengevaluasi seberapa valid dan reliabel suatu metode pengukuran untuk tujuan tertentu dan apakah tingkat reliabilitas dan validitas tertentu dapat diterima dalam konteks tertentu.

Reliabilitas

Reliabilitas mengacu pada seberapa konsisten atau berulangnya pengukuran. Misalnya, jika kita memberikan tes yang sama kepada orang yang sama pada dua kesempatan, apakah skornya akan sama pada kedua kesempatan tersebut? Jika kita melatih tiga orang untuk menggunakan skala penilaian yang dirancang untuk mengukur kualitas kehidupan individu, apakah ketiga orang tersebut akan memberikan nilai yang sama pada satu individu? Jika ada individu yang menimbang bagian yang sama sebanyak 10 kali dengan menggunakan alat yang sama, apakah pengukurannya akan sama setiap kali? Dalam setiap kasus, jika jawabannya ya, kita dapat mengatakan bahwa tes, skala, atau pengukur yang dapat diandalkan.

Ada tiga pendekatan utama untuk mengukur reliabilitas yang berguna dalam konteks tertentu dan setiap pendekatan memiliki kelebihan dan kekurangan tertentu:

  • Multiple-occasions reliability (reliabilitas pengukuran berulang)
  • Multiple-forms reliability (reliabilitas dalam berbagai bentuk)
  • Internal consistency reliability (reliabilitas konsistensi internal)

Multiple-occasions reliability (reliabilitas pengukuran berulang) atau test-retest reliability mengacu pada seberapa mirip nilai tes atau skala dari pengukuran yang dilakukan secara berulang. Pendekatan reliabilitas ini sering disebut sebagai indeks stabilitas temporal, yang berarti stabilitas dari waktu ke waktu. Misalnya, kita ingin mengukur tingkat buta warna seseorang dengan tes Ishihara, hasil dari tes ini seharusnya tidak berbeda jauh meski tes ini diulang dalam selang waktu yang lama karena kondisi buta warna cenderung tidak berubah antar waktu. Untuk itu reliabilitas pengukuran berulang bukanlah ukuran yang cocok untuk kualitas yang mudah berubah antar waktu, seperti keadaan suasana hati, atau jika kualitas atau kuantitas yang diukur dapat berubah dalam waktu antara dua pengukuran (misalnya, pengetahuan siswa tentang subjek yang sedang dipelajarinya secara aktif. ). Teknik umum untuk menilai reliabilitas beberapa kesempatan adalah dengan menghitung koefisien korelasi antara skor dari setiap kesempatan pengujian yang disebut koefisien stabilitas.

Multiple-forms reliability (reliabilitas berbagai bentuk) mengacu pada seberapa mirip nilai pengukuran dari beberapa bentuk/versi tes atau kuesioner yang mengukur entitas yang sama. Jenis umum dari reliabilitas ini adalah split-half reliability dimana kumpulan pertanyaan yang diyakini homogen/setara dibuat, separuh pertanyaan dialokasikan untuk versi A dan setengahnya lagi untuk versi B. Jika dua (atau lebih) versi tes diberikan kepada orang yang sama pada kesempatan yang sama, korelasi antara skor yang diterima pada setiap versi adalah perkiraan reliabilitas berbagai bentuk. Korelasi ini kadang-kadang disebut koefisien ekuivalensi. Reliabilitas berbagai bentuk sangat penting untuk tes massal yang dilakukan dalam beberapa versi. Misalnya, berbagai versi ujian masuk perguruan tinggi (seperti halnya UTBK) yang harus dikalibrasi, sehingga skor yang dicapai setara, apa pun bentuk yang diambil siswa tertentu.

Internal consistency reliability (reliabilitas konsistensi internal) mengacu pada seberapa baik bagian yang membentuk instrumen (misalnya, tes atau survei) mencerminkan konstruk yang sama. Dengan kata lain, reliabilitas konsistensi internal mengukur seberapa banyak bagian dari suatu instrumen mengukur hal yang sama (misal untuk suatu survei, maka bagian yang dimaksud adalah pertanyaan-pertanyaannya). Tidak seperti dua reliabilitas sebelumnya, reliabilitas konsistensi internal dapat dinilai dengan memberikan instrumen tunggal pada satu kesempatan. Reliabilitas konsistensi internal adalah ukuran yang lebih kompleks untuk diukur daripada reliabilitas lainnya, untuk itu pembahasan mendalam akan dilakukan di pembahasan berikutnya.

Validitas

Validitas mengacu pada seberapa baik tes atau skala penilaian mengukur apa yang seharusnya diukur. Beberapa peneliti menggambarkan validasi sebagai proses pengumpulan bukti untuk mendukung jenis kesimpulan yang dimaksudkan untuk ditarik dari pengukuran yang bersangkutan. Tidak ada persetujuan bersama tentang berapa banyak jenis validitas yang ada, namun umumnya ada setidaknya empat validitas yaitu

  • construct validity (validitas konstruk)
  • content validity (validitas isi/konten)
  • concurrent validity (validitas konkuren)
  • predictive validity (validitas prediksi)

Validitas konstruk mengacu pada sejauh mana pengukuran, atau serangkaian pengukuran, cukup untuk mengukur konstruk. Misalkan kita ingin mengukur tingkat depresi seseorang, depresi sendiri merupakan konsep yang tidak memiliki ukuran langsung namun dapat diukur dengan indikator lain yang berhubungan seperti tingkat percaya diri yang rendah dan tingkat energi yang rendah. Disini validitas konstruk mengukur seberapa baik metode pengukuran yang kita lakukan untuk mengukur suatu konstruk, misal bila pengukuran depresi dilakukan melalui kuesioner, apakah kuesioner ini mengukur konstruk depresi atau malah indikator lainnya seperti mood.

Validitas isi/konten mengacu pada seberapa baik proses pengukuran mencerminkan konten penting dari domain minat untuk menarik kesimpulan tentang domain minat yang lebih besar. Misalnya, calon karyawan yang mencari pekerjaan sebagai programmer mungkin diminta untuk menyelesaikan studi kasus yang mengharuskan mereka menulis program dalam bahasa pemrograman yang akan mereka gunakan dalam pekerjaan. Karena adanya batasan waktu, hanya sebagian kompetensi pemrograman yang dapat diukur pada studi kasus tersebut, relatif terhadap apa yang sebenarnya diperlukan untuk pekerjaanya. Namun, jika bagian dari konten dan kompetensi dipilih dengan baik, skor pada studi kasus tersebut dapat menjadi indikasi yang baik tentang kemampuan individu dalam pemrograman yang dibutuhkan oleh pekerjaan. Jika demikian halnya, kita dapat mengatakan bahwa pemeriksaan tersebut memiliki validitas isi/konten.

Validitas konkuren mengacu pada seberapa baik kesimpulan yang diambil dari suatu pengukuran dapat digunakan untuk memprediksi beberapa perilaku atau nilai pengukuran lain yang diukur pada waktu yang hampir bersamaan. Misalnya, skor tes prestasi sangat terkait dengan kinerja sekolah pada masa itu, kedua pengukuran ini memiliki validitas konkuren yang tinggi.

Validitas prediktif hampir serupa dengan validitas konkuren tetapi menyangkut kemampuan untuk menarik kesimpulan tentang beberapa peristiwa di masa depan. Melanjutkan contoh sebelumnya, jika skor pada tes prestasi sangat terkait dengan kinerja sekolah pada tahun berikutnya, pengukuran tersebut memiliki validitas prediktif yang tinggi.

4 Comments

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *