Penilaian terhadap butir soal pada dasarnya merupakan analisis butir soal, dan selama ini pada umumnya para ahli pengukuran mengatakan bahwa analisis butir soal maksudnya adalah penilaian terhadap soal. Telah diketahui bersama bahwa penyusunan tes sangat mempengaruhi kualitas butir soal. Analisis butir soal mencakup telaah soal atau analisis kualitatif dan analisis terhadap data empirik hasil ujicoba atau analisis kuantitatif. Analisis Karakteristik Soal adalah analisis tentang karakteristik yang terdiri atas aspek tingkat kesukaran (P) dan aspek daya beda soal (DB).
Analisis butir soal secara kualitatif menekankan penilaian dari ketiga segi yaitu materi, konstruksi, dan bahasa. Namun demikian dalam pembahasan ini dikhususkan untuk menjelaskan analisis butir soal secara kuantitatif. Analisis ini dilakukan berdasarkan data yang diperoleh secara empiris melalui ujicoba dari suatu perangkat tes. Analisis kuantitatif sering disebut dengan analisis item yang menghasilkan karakteristik atau parameter butir dan tes, yaitu: tingkat kesukaran, daya beda dan distribusi jawaban dan kunci setiap butir, serta reliabilitas dan kesalahan pengukuran (SEM) dalam tes.
Menurut Asmawi Zainul, dkk (1997) tingkat kesukaran butir soal adalah proporsi peserta tes menjawab benar terhadap butir soal tersebut. Tingkat kesukaran butir soal biasanya dilambangkan dengan p. Makin besar nilai p yang berarti makin besar proporsi yang menjawab benar terhadap butir soal tersebut, makin rendah tingkat kesukaran butir soal itu. Hal ini mengandung arti bahwa soal itu makin mudah, demikian pula sebaliknya.
Pada analisis butir soal secara klasikal, seperti yang dijelaskan oleh Depdikbud (1997) tingkat kesukaran dapat diperoleh dengan beberapa cara antara lain : a). skala kesukaran linier; b). skala bivariat; c). indeks davis; d). proporsi menjawab benar.
Cara yang paling umum digunakan adalah proporsi menjawab benar atau proportion correct, yaitu jumlah peserta tes yang menjawab benar pada soal yang dianalisis dibandingkan dengan peserta tes seluruhnya. Dalam analisis item ini digunakan proportion correct (p), untuk menilai tingkat kesukaran butir soal. Besarnya tingkat kesukaran berkisar antara 0,00 sampai 1,00. Untuk sederhananya, tingkat kesukaran butir dan perangkat soal dapat dibagi menjadi tiga kelompok, yaitu mudah, sedang dan sukar. Sebagai patokan menurut dapat digunakan tabel sebagai berikut:
Tingkat Kesukaran | Rentang Nilai |
---|---|
Sukar | 0,00 – 0,25 |
Sedang | 0,26 – 0,75 |
Mudah | 0,76 – 1,00 |
Untuk menyusun suatu naskah ujian sebaiknya digunakan butir soal yang mempunyai tingkat kesukaran berimbang, yaitu : soal berkategori sukar sebanyak 25%, kategori sedang 50% dan kategori mudah 25%.
Dalam penggunaan butir soal dengan komposisi seperti di atas, maka dapat diterapkan penilaian berdasar acuan norma atau acuan patokan. Bila komposisi butir soal dalam suatu naskah ujian tidak berimbang, maka penggunaan penilaian acuan norma tidaklah tepat, karena informasi kemampuan yang dihasilkan tidaklah akan berdistribusi normal.
Walaupun demikian ada yang berpendapat bahwa soal-soal yang dianggap baik adalah soal-soal yang sedang, yaitu soal-soal yang mempunyai indeks kesukaran berkisar antara 0,26 – 0,75. Berbagai kriteria tersebut mempunyai kecenderungan bahwa butir soal yang memiliki indeks kesukaran kurang dari 0,25 dan lebih dari 0,75 sebaiknya dihindari atau tidak digunakan, karena butir soal yang demikian terlalu sukar atau terlalu mudah, sehingga kurang mencerminkan alat ukur yang baik.
Contoh Analisis Tingkat Kesukaran Soal
Rumus Tingkat Kesukaran :
Berikut ini contoh analisis tingkat kesukaran soal dari hasil ulangan siswa yang berjumlah 20 orang siswa dengan jumlah soal 10 butir soal
Rumus Tingkat Kesukaran :
Tingkat kesukaran (P) = | Jumlah Peserta test yang menjawab benar |
Jumlah peserta test |
Berikut ini contoh analisis tingkat kesukaran soal dari hasil ulangan siswa yang berjumlah 20 orang siswa dengan jumlah soal 10 butir soal
Air Panas akan bertahan panas jika disimpan dalam bejana yang dilapisi dengan …. A. Kain B. Seng C. Keramik D. Tembaga * Keterangan :* kunci jawaban | ||||
Kelompok Pilihan | A | B | C | D* |
---|---|---|---|---|
Kelompok Atas (KA) | 1 | 4 | 0 | 5 |
Kelompok Bawah (KB) | 6 | 2 | 2 | 0 |
Jumlah (J) | 7 | 6 | 2 | 5 |
Hasil analisis Tingkat Kesukaran
P = | 5 | = 0,25 |
20 |
2. Daya Beda
Daya beda butir soal ialah indeks yang menunjukkan tingkat kemampuan butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas) dari kelompok yang berprstasi rendah (kelompok bawah) diantara para peserta tes (Asmawi Zainul, dkk : 1997). Suryabrata (1999) menyatakan tujuan pokok mencari daya beda adalah untuk menentukan apakah butir soal tersebut memiliki kemampuan membedakan kelompok dalam aspek yang diukur, sesuai dengan perbedaan yang ada pada kelompok itu.
Daya beda butir soal yang sering digunakan dalam tes hasil belajar adalah dengan menggunakan indeks korelasi antara skor butir dengan skor totalnya. Daya beda dengan cara ini sering disebut validitas internal, karena nilai korelasi diperoleh dari dalam tes itu sendiri. Daya beda dapat dilihat dari besarnya koefisien korelasi biserial maupun koefesien korelasi point biserial.
Dalam analisis ini digunakan nilai koefisien korelasi biserial untuk menentukan daya beda butir soal. Koefisien korelasi biserial menunjukkan hubungan antara dua skor, yaitu skor butir soal dan skor keseluruhan dari peserta tes yang sama.
Koefisien daya beda berkisar antara –1,00 sampai dengan +1,00. Daya beda +1,00 berarti bahwa semua anggota kelompok atas menjawab benar terhadap butir soal itu, sedangkan kelompok bawah seluruhnya menjawab salah terhadap butir soal itu. Sebaliknya daya beda –1,00 berarti bahwa semua anggota kelompok atas menjawab salah butir soal itu, sedangkan kelompok bawah seluruhnya menjawab benar terhadap soal itu.
Daya beda yang dianggap masih memadahi untuk sebutir soal ialah apabila sama atau lebih besar dari +0,30. Bila lebih kecil dari itu, maka butir soal tersebut dianggap kurang mampu membedakan peserta tes yang mempersiapkan diri dalam menghadapi tes dari peserta yang tidak mempersiapkan diri. Bahkan bila daya beda itu menjadi negatif, maka butir soal itu sama sekali tidak dapat dipakai sebagai alat ukur prestasi belajar. Oleh karena itu butir soal tersebut harus dikeluarkan dari perangkat soal. Makin tinggi daya beda suatu butir soal, maka makin baik butir soal tersebut, dan sebaliknya makin rendah daya bedanya, maka butir soal itu dianggap tidak baik (Asmawi Zainul, dkk : 1997).
Menurut Dali S Naga (1992) kriteria besarnya koefesien daya beda diklasifikasikan menjadi empat kategori. Secara lebih rinci dijelaskan dalam tabel di bawah ini
Kategori Daya Beda | Koefisien Korelasi |
---|---|
Baik | 0,40 – 1,00 |
Sedang (tidak perlu revisi) | 0,30 – 0,39 |
Perlu direvisi | 0,20 – 0,29 |
Tidak baik | -1,00 – 0,19 |
Contoh Analisis Daya Beda :
Rumus : Daya Beda (DB) = (KA – KB)/0.5 x J
Keterangan :
DB:Daya Beda
KA: jumlah peserta dalam kelompok atas
KB: jumlah peserta dalam kelompok bawah
J: jumlah seluruh peserta
Air Panas akan bertahan panas jika disimpan dalam bejana yang dilapisi dengan …. A. Kain B. Seng C. Keramik D. Tembaga * Keterangan :* kunci jawaban | |||||
Kelompok Pilihan | A | B | C | D | Jumlah |
---|---|---|---|---|---|
Kelompok Atas (KA) | 1 | 4 | 0 | 5 | 10 |
Kelompok Bawah (KB) | 6 | 2 | 2 | 0 | 10 |
Jumlah (J) | 7 | 6 | 2 | 5 | 20 |
P=(KA+KB):Σ J | 0,35 | 0,30 | 0,10 | 0,25 | 1,00 |
DB = (KA-KB):0,5. Σ J | -0,50 | 0,20 | -0,20 | 0,50 | 0,00 |
Untuk memudahkan kita gunakan daya beda pengecoh A dengan singkatan DBA, daya beda pengecoh B dengan singkatan DBB, dan untuk pengecoh C dengan DBC. Untuk mengetahui keberfungsian pengecoh kita perlu menghitung daya beda setiap pengecoh.
DBA = (KA – KB)/0.5 x J
= (1 – 6)/ 0.5 x 20
= -5/10 = -0.50
DBB = (KA – KB)/0.5 x J
= (4 – 2)/ 0.5 x 20
= 2/10 = 0.20
DBC = (KA – KB)/0.5 x J
= (0 – 2)/ 0.5 x 20
= -2/10 = -0.20.
Dari nilai DBA = -0.50, dapat disimpulkan bahwa tanda negatif di depan angka 0.50 berarti lebih banyak siswa pandai yang terkecoh. Angka 0.50 menunjukkan kinerja pengecoh belum cukup baik karena masih agak jauh dari nilai minimun untuk kategori DB yang baik atau dapat diterima yaitu 0,25.
DBB = 0.20, dapat kita simpulkan bahwa siswa yang kurang belajar (kelompok bawah) lebih banyak yang terkecoh. Angka 0.20 menunjukkan pengecoh berfungsi dengan cukup efektif (karena dekat dengan angka 0.25, yaitu DB minimum yang dapat diterima atau dikatakan sebagai baik).
Dari nilai DBC = -0.20, kita bisa menyimpulkan bahwa justru banyak siswa pandai yang terkecoh yang ditunjukkan dari tanda negatif. Angka 0.20 mendekati angka minimum untuk mengkategorikan DB yang dapat diterima. Oleh karena ada tanda negatif, sekalipun angkanya 0,20 pilihan jawaban ini harus dipertimbangkan untuk direvisi.
DBD=(KA-KB) : 0,5 x J
DBD = (5-0) : 0,5 x 20
DBD = 0,5
DB ideal adalah 0,25 sampai 1,00. Jadi Hasil yang diperoleh ( 0,50) sudah masuk ideal
3. Distribusi Jawaban (Distraktor)
Dilihat dari konstruksi butir soal terdiri dari dua bagian, yaitu pokok soal dan alternatif jawaban. Alternatif jawaban jawaban juga terdiri dari dua bagian, yaitu kunci jawaban dan pengecoh. Pengecoh dikatakan berfungsi apabila semakin rendah tingkat kemampuan peserta tes semakin banyak memilih pengecoh, atau makin tinggi tingkat kemampuan peserta tes akan semakin sedikit memilih pengecoh.
Hal demikian dapat ditunjukkan dengan adanya korelasi yang tinggi, rendah atau negatif pada hasil analisis. Apabila proporsi peserta tes yang menjawab dengan salah atau memilih pengecoh kurang dari 0,025 maka pengecoh tersebut harus direvisi. Dan untuk pengecoh yang ditolak apabila tidak ada yang memilih atau proporsinya 0,00 (Depdikbud : 1997).
Proporsi alternatif jawaban masing-masing butir soal dapat dilihat pada kolom proportion endorsing pada hasil analisis iteman.
Selain memperhatikan fungsi daya tarik untuk dipilih oleh peserta tes, pengecoh soal juga perlu memperhatikan daya beda (koefisien korelasi) yang ditunjukkan oleh masing-masing alternatif jawaban. Setiap pengecoh diharapkan memiliki daya beda negatif, artinya suatu pengecoh diharapkan lebih sedikit dipilih oleh kelompok tinggi dibandingkan dengan kelompok bawah. Atau daya beda pengecoh tidak lebih besar dari daya beda kunci jawaban setiap butir soal.
Menurut Depdikbud (1997) untuk menilai pengecoh (distraktor) dari masingmasing butir soal dapat dikategorikan sebagai berikut:
Kategori Distraktor | Nilai Proportion Endorsing |
---|---|
Baik | ≥ 0,025 |
Revisi | < 0,025 |
Tidak Baik / Tolak | 0,000 |
Kriteria Kualitas Butir Soal
Berdasarkan uraian di atas, menurut pandangan teori tes klasik secara empiris mutu butir soal ditentukan oleh statistik butir soal yang meliputi : tingkat kesukaran, daya beda dan efektifitas distraktor. Menurut statistik butir, kualitas butir soal secara keseluruhan dapat dikategorikan sebagai berikut :
Kategori | Kriteria Penilaian |
---|---|
Baik | Apabila (1). Tingkat kesukaran 0,25 ≤ p ≤ 0,75, (2). Korelasi biserial butir soal ≥ 0,40 dan (3). Korelasi biserial alternatif jawaban (distraktor) bernilai negatif. |
Revisi | Apabila (1). Tingkat kesukaran p < 0,25 atau p > 0,75 tetapi korelasi biserial butir ≥ 0,40 dan korelasi biserial distraktor bernilai negatif, (2). Tingkat kesukaran 0,25 ≤ p ≤ 0,75 dan korelasi biserial butir soal ≥ 0,40 tetapi ada korelasi biserial pada distraktor yang bernilai positif, (3). Tingkat kesukaran 0,25 ≤ p ≤ 0,75 dan korelasi biserial butir soal antara 0,20 sampai 0,30 tetapi korelasi distraktor bernilai negatif selain kunci atau tidak ada yang lebih besar nilainya dari kunci jawaban. |
Tidak Baik / Tolak | Apabila (1). Tingkat kesukaran p < 0,25 atau p > 0,75 dan ada korelasi biserial pada distraktor bernilai positif, (2). Korelasi biserial butir soal < 0,20, (3). Korelasi biserial butir soal < 0,30 dan korelasi biserial distraktor bernilai positif. |
Reliabilitas
Reliabilitas adalah suatu hal yang sangat penting pada alat pengukuran standar. Reliabilitas dihubungkan dengan pengertian adanya ketepatan tes dalam pengukurannya. Reliabilitas adalah kestabilan skor yang diperoleh peserta tes yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari suatu pengukuran ke pengukuran lainnya. Dengan kata lain reliabilitas merupakan tingkat konsistensi atau kemantapan hasil terhadap hasil dua pengukuran hal yang sama. Dapat juga diartikan sebagai tingkat kepercayaan dari suatu alat ukur (Depdikbud : 1997).
Hasil pengukuran diharapkan akan sama apabila pengukuran itu diulangi. Dengan perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada peserta yang sama tetapi dalam selang waktu yang berbeda sepanjang tidak ada perubahan dalam kemampuan maka skor yang diperoleh akan konstan. Kriteria untuk menentukan tinggi rendahnya reliabilitas sebuah perangkat tes, menurut (Suharsimi Arikunto : 2001) dilihat pada rentangan koefesien korelasi sebagai berikut :
Kategori Reliabilitas Tes | Nilai Koefesien Korelasi |
---|---|
Sangat Tinggi | 0,800 – 1,000 |
Tinggi | 0,600 – 0,799 |
Cukup | 0,400 – 0,599 |
Rendah | 0,200 – 0,399 |
Sangat Rendah | 0,000 – 0,199 |
Perencanaan dalam pengujian sangat penting karena tes baru akan berarti bila terdiri dari butir-butir soal yang menguji tujuan yang penting dan mewakili ranah pengetahuan, kemampuan dan keterampilan secara representatif. Ada enam hal yang perlu dipertimbangkan dalam perencanaan tes yaitu: pengambilan sampel dan pemilihan butir soal, tipe tes yang akan digunakan, aspek yang akan diuji, format butir soal, jumlah butir soal dan distribusi tingkat kesukaran butir soal