KATA PENGANTAR
Segala
puja-puji syukur kehadirat Allah Swt., yang telah memberikan limpahan rahmat,
taufik, serta hidayah-Nya, sehingga penulis dapat menyelesaikan penulisan
makalah dengan lancar tanpa aral yang merintangi.
Shalawat
serta salam semoga tetap terlimpahcurahkan keharibaan sosok revolusioner dunia,
pendidik sejati, baginda Rasulillah Saw., yang telah menjadi qudwah dan uswah
hasanah dengan membawa pancaran cahaya kebenaran, sehingga pada detik ini kita
masih mampu mengarungi kehidupan yang berlandaskan iman dan islam.
Seiring dengan terselesaikannya penulisan makalah
ini, tak lupa penulis menyampaikan terima kasih dan penghargaan tanpa batas
kepada semua pihak yang telah membantu memberikan arahan, bimbingan dan
petunjuk serta motivasi dalam proses penyelesaian makalah ini.
Penulis menyadari bahwa penulisan makalah ini masih
jauh dari sempurna. Oleh karena itu, saran dan kritik yang bersifat konstruktif
dari semua pihak sangat penulis harapkan untuk perbaikan makalah ini. Penulis
berharap semoga makalah ini dapat bermanfaat bagi semua pihak, sehingga dapat
membuka cakrawala berpikir serta memberikan setitik khazanah pengetahuan untuk terus
memajukan dunia pendidikan. Semoga Allah SWT. Senantiasa mendengarkan dan
mengabulkan permohonan kita. Amin.
Kendari, November 2012
Penulis
DAFTAR ISI
HALAMAN
SAMPUL.........................................................................................
KATA
PENGANTAR..........................................................................................
DAFTAR
ISI.........................................................................................................
BAB I PENDAHULUAN.................................................................................
A. Latar
Belakang...........................................................................................
B. Rumusan
Masalah......................................................................................
C. Tujuan.........................................................................................................
BAB
II PEMBAHASAN...................................................................................
A. Pengertian
Tes............................................................................................
B. Jenis-jenis
Tes............................................................................................
C. Kriteria
Tes yang
Baik...............................................................................
BAB III PENUTUP...........................................................................................
A. Kesimpulan................................................................................................
DAFTAR PUSTAKA
BAB I
PENDAHULUAN
A.
Latar
Belakang
Dalam proses
pembelajaran, tes merupakan alat ukur dalam proses asesmen maupun evaluasi yang memiliki peranan sangat
penting untuk mengetahui keberhasilan proses belajar-mengajar di sekolah. Dalam
hal ini, tes memiliki fungsi ganda, yaitu mengukur tingkat pencapaian siswa
pada kompetensi yang dipersyaratkan, yang terjabar dalam indikator pencapaian,
dan mengukur keberhasilan program pengajaran sekaligus kualitas pendidik
dalam mengelola proses pembelajaran. Untuk bisa memberikan data yang akurat,
sesuai dengan fungsinya maka ada beberapa persyaratan yang harus dipenuhi,
untuk dapat dikatakan sebagai tes yang baik. Secara umum tes yang baik memiliki
syarat-syarat antara lain (1) hanya mengukur satu aspek saja. Tes yang baik
memiliki sebuah aspek saja yang akan di ukur, jadi tes matematika misalnya
hanya menguji kemampuan matematika seseorang, (2) handal dalam pengukuran;
kehandalan ini meliputi ketepatan hasil pengukuran dan keajegan hasil
pengukuran.
B.
Rumusan
Masalah
Berangkat dari latar
belakang diatas, maka dapat dirumuskan beberapa masalah sebagai berikut :
1. Apa
pengertian tes ?
2. Apa
saja jenis-jenis tes ?
3. Bagamana
kriteria tes yang baik ?
C.
Tujuan
Tujuan dari penulisan
makalah ini yaitu untuk mengetahui pengertian, jenis, dan kriteria tes yang
baik sebagai alat tolak ukur.
BAB
II
PEMBAHASAN
A.
Pengertian
Tes
Tes secara sederhana dapat diartikan sebagai
himpunan pertanyaan yang harus dijawab, pernyataan-pernyataan yang harus
dipilih/ditanggapi, atau tugas-tugas yang harus dilakukan oleh peserta tes
dengan tujuan untuk mengukur suatu aspek tertentu dari peserta tes.
Dalam kaitan dengan pembelajaran aspek tersebut adalah indikator pencapaian
kompetensi. Tes berasal dari bahasa Perancis yaitu “testum” yang berarti piring
untuk menyisihkan logam mulia dari material lain seperti pasir, batu, tanah,
dan sebagainya. Kemudian diadopsi dalam psikologi dan pendidikan untuk
menjelaskan sebuah instrumen yang dikembangkan untuk dapat melihat dan mengukur
dan menemukan peserta Tes yang memenuhi kriteria tertentu. Cronbach (dalam
Azwar, 2005) mendefinisikan tes sebagai “a systematic procedure forobserving
a person’s behavior and describing it with the aid of a numerical scale or
category system”. Menurut Ebster’s Collegiate (dalam Arikunto, 1995), tes
adalah serangkaian pertanyaan atau latihan atau alat lain yang digunakan
untuk mengukur keterampilan, pengetahuan, intelegensia, kemampuan atau bakat
yang dimiliki oleh individu atau kelompok. Dari dua definisi tersebut dan
uraian lebih jauh tentang itu dapat ditarik pengertian bahwa: (1) tes adalah
prosedur pengukuran yang sengaja dirancang secara sistematis, untuk mengukur
atribut tertentu, dilakukan dengan prosedur administrasi dan pemberian angka
yang jelas dan spesifik, sehingga hasilnya relatif ajeg bila dilakukan dalam
kondisi yang relatif sama; (2) tes pada umumnya berisi sampel perilaku, cakupan
butir tes yang bisa dibuat dari suatu materi tidak terhingga jumlahnya, yang
secara keseluruhan mungkin mustahil dapat tercakup dalam tes, sehingga tes
harus dapat mewakili kawasan (domain) perilaku yang diukur, untuk itu perlu
pembatasan yang jelas; (3) tes menghendaki subjek agar menunjukkan apa yang
diketahui atau apa yang dipelajari dengan cara menjawab atau mengerjakan tugas
dalam tes. Respon subjek atas tes merupakan perilaku yang ingin diketahui dari
penyelenggaraan tes, karena tes memang mengukur perilaku, sebagai manifestasi
atribut psikologis yang mau diukur. Tes pada dasarnya adalah alat ukur atribut
psikologis yang objektif atas sampel perilaku tertentu. Dalam psikologi, tes
dapat diklasifikasikan menjadi empat, yaitu: (1) tes yang mengukur intelegensia
umum yang dirancang untuk mengukur kemampuan umum seseorang dalam suatu tugas;
(2) tes yang mengukur kemampuan khusus atau tes bakat yang dibuat untuk
mengungkap kemampuan potensial dalam bidang tertentu; (3) tes yang ditujukan
untuk mengukur prestasi yang digunakan untuk mengungkapkan kemampuan aktual
sebagai hasil belajar; (4) tes yang mengungkap aspek kepribadian (personality
assesment) yang bertujuan mengungkap karakteristik individual subjek dalam
aspek yang diukur. Dengan melihat penggolongan di atas, tes dalam pembelajaran
di kelas yang menjadi pembahasan ini adalah tes prestasi atau hasil belajar.
Tes sebagai alat ukur dapat menyediakan informasi-informasi obyektif yang dapat
digunakan sebagai pertimbangan dalam penentuan keputusan yang harus diambil
pendidik terhadap proses dan hasil belajar yang dilakukan siswa dapat dibagi
menjadi tiga kelompok besar yaitu:
a.
Keputusan
yang diambil pada pemulaan proses pembelajaran
Penggunaan
tes sebagai dasar pengambilan keputusan pada permulaan proses pembelajaran
bermuara pada dua pertanyaan yang harus dijawab oleh pendidik sebelum memulai
proses pembelajaran yaitu; (1) sejauhmanakah pengetahuan, keterampilan dan
kemampuan yang harus dimiliki oleh siswa sebelum mengikuti proses pembelajaran
yang berupa kemampuan awal yang diperlukan untuk mengikuti proses pembelajaran,
(2) sejauhmanakah kemampuan dan keterampilan yang telah dicapai peserta didik
terhadap pembelajaran yang direncanakan. Keduanya akan menentukan keputusan
guru dalam merancang materi dan metode pembelajaran yang direncanakan.
b.
Keputusan
selama proses pembelajaran
Tes
dapat pula digunakan selama proses pembelajaran (tes formatif). Tes formatif
dapat diberikan baik dalam bentuk tes tulis maupun tes lisan, baik dengan
jawaban uraian maupun tes obyektif.
c. Keputusan-keputusan
pada akhir pembelajaran
Tes
formatif yang diberikan guru pada akhir pembelajaran ditujukan untuk mengetahui
apakah kompetensi dasar yang dirumuskan dalam program pembelajaran (satuan
pembelajaran) telah tercapai atau belum. Jadi, fungsi tes pada akhir
pembelajaran adalah untuk mengukur daya serap siswa pada materi pembelajaran.
Sehingga guru dapat merencanakan tindak lanjut terhadap rencana, proses, media,
metode, dan suasana pembelajaran. Seperti penilaian selama proses keputusan
akhir pembelajaran dapat berasal dari informasi tes obyektif atau tes
subyektif.
B.
Jenis-jenis
Tes
Bila kita membahas jenis-jenis tes, kita
akan dapat mencermati dalam lima jenis atau cara pembagian yaitu:
a.
Pembagian jenis tes berdasarkan tujuan penyelenggaraan.
b.
Jenis tes berdasarkan waktu penyelenggaraan.
c.
Pembagian jenis tes berdasarkan cara mengerjakan.
d.
Pembagian jenis tes berdasarkan cara penyusunan.
e.
Pembagian jenis tes berdasarkan bentuk jawaban.
Uraian
selengkapnya adalah sebagai berikut.
1)
Jenis
Tes Berdasarkan Tujuan Penyelenggaraan
Untuk
mengawali pembahasan tentang jenis-jenis tes, kita perlu pengetahui untuk apa
diselenggarakan tes. Tes diselenggarakan dengan tujuan :
a)
untuk keperluan seleksi,
b)
untuk menempatkan orang pada kelas-kelas tertentu,
c)
untuk mengetahui hasil belajar,
d)
untuk keperluan diagnostik, dan
e)
untuk keperluan uji coba
a) Tes Seleksi (Selection Test)
Kita bisa memahami hakekat dari tes seleksi ini dari
arti kata “seleksi” itu sendiri, yaitu memilih. sederhana bukan? Jadi, tes
seleksi diselenggarakan untuk memilih peserta guna diikutsertakan dalam
kegiatan yang menuntut kemampuan tertentu. Penentuan jenis kemampuan dan
tingkat penguasaan pada tes seleksi, sepenuhnya tergantung pada kebutuhan akan
kemampuan yang dibutuhkan untuk dapat mengikuti kegiatan. Dengan demikian,
berdasarkan hasil tes seleksi, seseorang dapat dinyatakan diterima atau
berhasil dan tidak diterima atau tidak lolos untuk mengikuti program kegiatan
yang direncanakan. Sebagai contoh, jika kita menyelenggarakan tes seleksi untuk
pemandu wisata, maka akan lebih baik menitikberatkan kemampuan berbicara
daripada kemampuan menulis.
b) Tes Penempatan (Placement Test)
Suatu keniscayaan bahwa kemampuan seseorang tidaklah
bisa sama. Sekelompok orang barangkali memiliki kemampuan lebih tinggi dari
pada kelompok lainnya. Permasalahan yang muncul adalah, bagaimanakah jika
kemampuan siswa dalam satu kelas relatif beragam? Hal ini akan bisa mempersulit
jalannya proses pengajaran yang kita lakukan. Untuk itu perlu dilakukan tes
penempatan. Tes penempatan umumnya diselenggarakan menjelang dimulainya suatu
program pengajaran, dengan maksud untuk menempatkan seseorang pada kelompok
yang sesuai dengan tingkat kemampuan yang dimilikinya.
c) Tes Hasil Belajar (Achievement
Test)
Tes hasil belajar tentu tidak lagi asing bagi Kita.
Brown (2004) memberikan pengertian tes hasil belajar merupakan “a test to see
how far students achieve materials addressed in a curriculum within a
particular time frame”. Hasil belajar yang diungkap lewat tes hasil belajar
dapat mengacu pada hasil pengajaran secara keseluruhan pada akhir
penyelenggaraan atau pada kurun waktu tertentu. Sebagai tes yang memfokuskan
pada hasil yang telah dapat dicapai oleh suatu bentuk pengajaran, tes hasil
belajar memiliki kaitan yang erat dengan apa yang telah diajarkan (kurikulum).
Kaitan itu terutama dalam hal isi tes. Isi tes harus secara jelas mencerminkan
isi pengajaran yang secara nyata telah diselenggarakan.
d) Tes Diagnostik (Diagnostic Test)
Secara etimologis, diagnostik diambil dari bahasa
Inggris “diagnostic”. Bentuk kata kerjanya adalah “to diagnose”, yang artinya
“to determine the nature of disease from observation of symptoms”. Mendiagnosis
berarti melakukan observasi terhadap penyakit tertentu, sebagai dasar
menentukan macam atau jenis penyakitnya. Jadi, tes diagnostik sengaja dirancang
sebagai alat untuk menemukan kesulitan belajar yang sedang dihadapi siswa.
Hasil tes diagnostik dapat digunakan sebagai dasar penyelenggaraan pengajaran
yang lebih sesuai dengan kemampuan siswa sebenarnya, termasuk
kesulitan-kesulitan belajarnya. Tes ini dilakukan apabila diperoleh informasi
bahwa sebagian besar peserta didik gagal dalam mengikuti proses pembelajaran
pada mata pelajaran tertentu. Hasil tes diagnostik memberikan informasi tentang
konsep-konsep yang belum dipahami dan yang telah dipahami. Oleh karenanya, tes
ini berisi materi yang dirasa sulit oleh siswa, namun tingkat kesulitan tes ini
cenderung rendah.
e) Tes Uji Coba
Apabila Saudara sebagai seorang guru pasti pernah
mengembangkan tes. Tes yang dikembangkan belum tentu memenuhi kualifikasi
sebagai tes yang “baik” dalam arti luas. Untuk mengetahui apakah tes yang
dikembangkan bagus, perlu serangkaian uji coba, untuk memperoleh informasi,
tidak hanya tentang ciri-ciri tes yang penting, seperti validitas,
reliabilitas, tingkat kesulitan, dan tingkat pembeda, melainkan juga segi-segi
lain, seperti kecukupan waktu, kejelasan tulisan maupun perintah tes, dan lain
sebagainya.
2)
Jenis Tes Berdasarkan Tahapan/Waktu Penyelenggaraan
Selanjutnya jenis tes berdasar waktu penyelenggaraan
tes, yang terbagi menjadi 4 yaitu:
a) Tes Masuk (Entrance Test)
Tes masuk diselenggarakan sebelum dan menjelang
suatu program pengajaran dimulai. Sama dengan tes seleksi, tes masuk
diselenggarakan untuk menentukan apakah seorang calon dapat diterima sebagai
peserta program pengajaran karena ia memiliki jenis dan kemampuan yang
dipersyaratkan. Tes masuk dirancang secara khusus dan disesuaikan dengan tujuan
program pengajaran. Semakin sesuai isi tes masuk itu dengan tujuan pokok
program pengajaran, maka akan semakin tinggi tingkat relevansi serta
efektivitas dari tes masuk tersebut.
b) Tes Formatif (Formative Test)
Tes formatif dilakukan pada saat program pengajaran
sedang berlangsung (progress), tujuannya untuk memperoleh informasi
tentang jalannya pengajaran sampai tahap tertentu. Informasi tersebut penting
untuk mengetahui apakah program pengajaran berjalan sesuai dengan format yang
ditentukan sehingga dipertahankan atau program pembelajaran memerlukan
perubahan atau penyesuaian, hasilnya berguna untuk memperbaiki strategi
mengajar. Tes ini dilakukan secara periodik sepanjang rentang proses
pembelajaran, materi tes dipilih berdasarkan tujuan pembelajaran tiap pokok
bahasan atau sub pokok materi. Jadi tes untuk menentukan keberhasilan belajar
dan untuk mengetahui keberhasilan proses pembelajaran.
c) Tes Sumatif (Summative Test)
Kata dari “sumatif” adalah “sum” yang berarti “total
obtained by adding together items, numbers or amounts”. Dengan demikian,
tes sumatif diselenggarakan untuk mengetahui hasil pengajaran secara keseluruhan
(total). Konsekuensi dari tes yang menekankan hasil pengajaran
secara keseluruhan, maka item tes sumatif atau bahan cakupannya meliputi
seluruh materi yang telah disampaikan. Tes sumatif diberikan di akhir
suatu pelajaran, atau akhir semester. Hasilnya untuk menentukan keberhasilan
belajar peserta didik. Tingkat keberhasilan dinyatakan dengan skor atau nilai,
pemberian sertifikat, dan sejenisnya.
d) Pra-tes dan Post-test
Untuk mengetahui kemampuan yang dimiliki seorang
siswa di awal program pengajaran, kadang-kadang diselenggarakan pra-tes. Hasil
pra-tes digunakan untuk mengetahui tingkat kemampuan siswa pada awal program
pengajaran. Tingkat kemampuan awal ini penting untuk menentukan sejauhmana
kemajuan seorang siswa. Kemajuan yang dicapai bisa dilihat dari perbandingan
hasil pra-tes dengan hasil tes yang diselenggarakan di akhir program pengajaran
(post-test).
3)
Jenis Tes Berdasarkan Cara Mengerjakan
Secara umum, tes dapat dikerjakan secara tertulis
dan secara lisan.
a) Tes Tertulis
Tes tertulis adalah tes yang dilakukan secara
tertulis baik dalam hal soal maupun jawabannya, namun tes yang disampaikan
secara lisan dan dikerjakan secara tertulis masih digolongkan ke dalam jenis
tes tertulis. Sebaliknya, tes yang soalnya diberikan dalam bentuk tulisan
sedangkan jawabannya berbentuk lisan tidak dapat dikategorikan ke dalam bentuk
tes tertulis.
b) Tes Lisan
Pada tes lisan, baik pertanyaan maupun jawaban (response)
semuanya dalam bentuk lisan. Karenanya, tes lisan relatif tidak memiliki
rambu-rambu penyelenggaraan tes yang baku, karena itu, hasil dari tes lisan
biasanya tidak menjadi informasi pokok tetapi pelengkap dari instrumen asesmen
yang lain.
c) Tes Unjuk Kerja
Pada Tes ini peserta didik diminta untuk melakukan
sesuatu sebagai indikator pencapaian kompetensi yang berupa kemampuan
psikomotor.
4)
Jenis Tes Berdasarkan Cara Penyusunan
Berdasarkan kriteria ini, tes dapat dibedakan
menjadi dua, yaitu tes buatan guru
dan tes terstandar.
a) Tes Buatan Guru (Teacher-made Test)
kita tentu mengetahui tugas-tugas utama yang harus
diemban oleh seorang guru. Untuk melakukan tugas evaluasi itu, seorang guru
harus mengembangkan alat ukur, salah satunya tes. Tes yang dikembangkan sendiri
oleh guru disebut tes buatan guru (teacher-made test). Jadi tes buatan guru
adalah tes yang dirancang dan dipersiapkan oleh guru, tetap dengan mengacu pada
karakteristik tes yang baik dan dilakukan secara cermat, untuk tetap menjamin
validitas maupun reliabilitasnya.
b) Tes Terstandar (Standardized Test)
Dari istilah yang digunakan saja, barangkali kita
sudah bisa memperkirakan apa yang dimaksud dengan tes terstandar.Tes terstandar
adalah tes yang dikembangkan dengan mengikuti prosedur serta prinsip
pengembangan tes secara ketat. Semua prosedur pengembangan tes dikuti sehingga
ciri-ciri tes sebagai alat ukur yang baik senantiasa dapat dipenuhi. Dengan
demikian, tingkat validitas, reliabilitas, kepraktisan, maupun daya beda sudah
bukan menjadi masalah lagi.
5)
Jenis Tes Berdasarkan Bentuk Jawab
Jika
kita melihat bentuk jawaban yang diberikan oleh peserta tes, kita dapat
membedakan tiga jenis tes, yaitu; (a) tes esei, (b) tes jawaban pendek, dan (c)
tes obyektif. Untuk lebih jelasnya, cobalah perhatikan bahasan berikut ini.
a) Tes Esei (Essay-type Test)
Tes bentuk uraian adalah tes yang menuntut siswa
mengorganisasikan gagasangagasan tentang apa yang telah dipelajarinya dengan
cara mengemukakannya dalam bentuk tulisan. Keunggulan tes uraian, guru dapat
mengukur kemampuan siswa dalam hal mengorganisasikan pikirannya, mengemukakan
pendapatnya, dan mengekspresikan gagasan dengan menggunakan kata-kata atau
kalimat sendiri. Sedang keterbatasannya adalah cakupan materi pelajaran yang
terbatas, waktu pemeriksaan jawaban yang lama, penskorannya cenderung subyektif
dan umumnya kurang handal dalam pengukuran.
b) Tes Jawaban Pendek
Tes dapat digolongkan menjadi tes jawaban pendek
jika peserta tes diminta menuangkan jawabannya bukan dalam bentuk esei, tetapi
memberikan jawaban-jawaban pendek, dalam bentuk rangkaian kata-kata pendek,
kata-kata lepas, maupun angka-angka. Termasuk ke dalam tes jenis ini adalah tes
yang mewajibkan siswa untuk mengisi bagian yang kosong dari sebuah kalimat atau
teks. Sehingga diharapkan dapat memberikan jawabannya sesingkat mungkin.
c)
Tes Objektif
Tes objektif adalah tes yang keseluruhan informasi
yang diperlukan untuk menjawab tes telah tersedia. Oleh karenanya sering pula
disebut dengan istilah tes
pilihan
jawaban (selected response test). Butir soal telah mengandung
kemungkinan jawaban yang harus dipilih atau dikerjakan oleh peserta tes.
Menurut Subino (1987) perbedaan yang khas bentuk soal objektif dibanding dengan
soal esei adalah tugas peserta tes (testee) dalam merespons tes. Pada
tes objektif, tugas testee adalah memanipulasikan data yang telah ada
dalam butir soal. Oleh karenanya, tes objektif adalah tes yang dalam
pemeriksaannya dapat dilakukan secara objektif. Karena sifatnya yang objektif
maka penskorannya dapat dilakukan dengan bantuan mesin. Soal ini tidak memberi
peluang untuk memberikan penilaian yang bergradasi karena dia hanya mengenal
benar dan salah. Soal tes objektif sangat bermanfaat untuk mengukur hasil
belajar kognitif tingkat rendah. Hasil-hasil belajar kompleks seperti
menciptakan dan mengorganisasikan gagasan kurang cocok diukur menggunakan soal
bentuk ini. Soal objektif sangat bervariasi bentuknya. Variasi yang bisa dibuat
dari soal objektif adalah benar-salah, pilihan ganda, menjodohkan, melengkapi
dan jawaban singkat.
C.
Kriteria
Tes yang Baik
Tes atau soal ujian merupakan alat ukur yang
memiliki fungsi ganda yaitu untuk mengukur efektivitas belajar dan mengukur
efektivitas guru dalam mengajar. Untuk dapat menjadi alat ukur yang baik dan
dapat memberikan informasi yang akurat maka setiap soal sebagai bagian dari
konstruksi tes harus dijaga kualitasnya. Ada beberapa kriteria yang dapat
dipakai untuk menyusun butir-butir tes yang berkualitas yaitu:
a.
Valid
Soal dikatakan valid bila dapat mengukur apa yang
seharusnya diukur, validitas Soal dapat dilihat dari kesesuaian soal dengan
tujuan instruksional khusus dan tujuan pengukuran yang telah ditetapkan.
Validitas dapat pula dilihat dari kemampuannya memprediksi prestasi di masa
yang akan datang,
b.
Relevan
Tes yang relevan mengandung soal-soal yang dapat mengukur
kemampuan belajar sesuai dengan tingkat kemampuan yang ditetapkan dalam
indikator pencapaian hasil belajar (Ranah kognitif, afektif dan psikhomotor).
Bila kompetansi dasar dan indikator bertujuan mengungkap ranah afektif,
pertanyaan soal harus pula mengarah ke sikap dan seterusnya.
c.
Spesifik
Soal harus direncanakan sedemikian rupa agar
jawabannya pasti dan tidak menimbulkan ambivalensi atau spakulasi dalam
memberikan jawaban. Kesulitan soal tidak saja kesulitan materi juga bisa
ditambah kesulitan dalam memahami soal bila soal tidak disusun secara spesifik.
d.
Representatif
Soal tes sebaiknya dikembangkan dari satuan materi
yang jelas cakupannya, dan bersifat komprehensif dalam pengertian materi tes
harus mencakup seluruh materi pengajaran, untuk itu seluruh pokok bahasan (sub
pokok bahasan) idealnya harus terwakili dalam soal tes. Syarat ini akan dapat
mengurangi error terhadap hasil pengukuran.
e.
Seimbang
Dalam proses pengajaran dosen akan tahu persis,
bahwa setiap pokok bahasan memiliki tingkat kesulitan yang berbeda, soal tes
dikatakan seimbang bila pokok bahasan yang terpenting mendapat porsi terbanyak
dalam soal. Kalau dalam keadaan terpaksa hal tersebut tidak dapat dilakukan
maka keseimbangan dapat dicapai dengan memberikan bobot yang berbeda pada pokok
bahasan yang memiliki tingkat kesulitan yang berbeda.
f.
Sensitif
Syarat ini berkait erat dengan taraf kesukaran soal,
butir tes yang baik harus memiliki sensitivitas untuk membedakan siswa yang
benar-benar menguasai materi dengan yang tidak, hal ini tidak akan tercapai
bila soal terlalu sulit sehingga semua siswa tidak dapat mengerjakan, atau soal
yang terlalu gampang sehingga semua siswa dapat mengerjakan dengan benar.
g.
Fair
Tes hasil ujian hendaklah bersifat terbuka dalam
pengertian tidak mengandung jebakan, jelas cakupan materinya, kejalasan norma
yang dipakai serta kriteria keberhasilannya. Dalam pelaksanaannya obyektif,
tidak merugikan kelompok tertentu.
h.
Praktis
Dalam pengertian bahwa tes tidak sulit untuk
dilaksanakan dilihat dari segi pembiayaan maupun pelaksanaanya. Tes yang baik
harus efisien dan mudah untuk dilaksanakan. Kiteria yang dikemukakan di atas,
tidak dimaksudkan untuk memberikan belenggu pada guru dalam menyelesaikan
tugasnya di kelas khususnya dalam mengembangkan tes, tetapi lebih diarahkan
pada pengenalan kondisi ideal yang seharusnya dipenuhi oleh soal-soal yang
disusun oleh pendidik, atau paling tidak memberikan arah kepada perbaikan Anda
dalam memperbaiki sistem penilaian yang telah Anda lakukan selama ini.
Validitas dan Reliabilitas
Kualitas instrumen sebagai alat ukur ataupun alat
pengumpul data diukur dari kemampuan alat ukur tersebut untuk dapat
mengungkapkan dengan secermat mungkin fenomena-fenomena ataupun gejala yang
diukur. Kualitas yang menunjuk pada tingkat keajekan, kemantapan serta
konsistensi dari data yang diperoleh itulah yang disebut dengan validitas dan
reliabilitas.
a. Validitas
Validitas alat ukur menunjukkan kualitas kesahihan
suatu instrumen atau alat pengumpul data dapat dikatakan valid atau sahih
apabila alat ukur tersebut mampu mengukur apa yang seharusnya
diukur/diinginkan, sehingga alat ukur dikatakan sahih apabila dapat mengungkap
secara cermat dan tepat data dari variabel yang diteliti. Tinggi rendahnya
tingkat validitas instrumen menunjukkan sejauhmana data dari variabel yang
terkumpul tidak menyimpang dari gambaran tentang variabel yang dimaksud.
Kerlinger (1986) menyatakan bahwa validitas alat ukur tidak cukup ditentukan
oleh derajad ketepatan alat ukur dapat mengukur apa yang seharusnya diukur, tetapi
perlu pula dilihat dari tiga kriteria yang lain yaitu Appropriatness, Meaningfullness
dan Usefullness. Bila dikaitkan dengan pengukuran aspek perilaku
sebagai hasil belajar, penjelasan ketiga kriteria tersebut secara bebas dapat
diterjemahkan sebagai berikut: (1) Appropriatness: Kriteria ini
menunjuk pada kelayakan dari tes sebagai alat ukur tersebut, yaitu seberapa
jauh alat ukur dapat menjangkau keragaman aspek perilaku tertentu; (2) Meaningfullness:
Adalah kriteria yang didasarkan pada kemampuan alat ukur untuk dapat
memberikan keseimbangan item-item pengukurannya berdasar tingkat
kepentingan/urgensi dari setiap bagian gejala; dan (3) Usefullness to
inferences: yakni kriteria ini menunjuk pada sensitif tidaknya alat
ukur untuk dapat menangkap gejala perilaku, dan tingkat ketelitian yang
ditunjukkan dalam pembuatan kesimpulan. Jenis-jenis validitas yang dapat
dipakai sebagai kriterium, dalam menetapkan tingkat kehandalan tes, diantaranya
adalah:
1)
Validitas Permukaan (Face Validity): Validitas ini sering pula
disebut sebagai validitas tampang. Validitas jenis ini menggunakan kriterium
yang paling sederhana karena yang menjadi kriterianya hanya tampang atau
penampakan dari instrumen itu sendiri. Apabila tes sebagai instrumen
pengukuran, berdasar pengamatan sepintas telah dapat mengungkap fenomena yang
akan dicari, bila secara sepintas sudah dianggap baik, maka alat tersebut sudah
dapat dianggap memenuhi kriteria face validity, sehingga tidak
diperlukan adanya pertimbangan mendalam.
2)
Validitas konsep (Construct Validity): Validitas ini disebut juga
sebagai validitas konstruksi teori. Dalam hal ini alat ukur dikatakan valid
apabila item sebagai alat ukur telah mencerminkan konsep perilaku yang diukur,
dan memiliki tingkat kesesuaian dengan konstruksi teoritiknya. Validitas
konstruksi ini sering pula disebut sebagai logical Validity. Penggunaan
validitas logis terutama dalam pengukuran-pengukuran gejala perilaku yang
abstrak misalnya ukuran tentang kesetiakawanan, kematangan emosi, sikap
terhadap KB, motivasi dan sebagainya.
3)
Validitas Isi (Content Validity): Sesuai dengan namanya validitas
ini disebut pula sebagai validitas isi, pada validitas ini yang menjadi
kriterium untuk menetapkan valid atau tidaknya alat ukur adalah isi/substansi
dari variabel yang akan diukur, sehingga pada umumnya validitas ini hanya
digunakan untuk mengukur variabel dengan cakupan materi yang jelas, misalnya
saja dalam tes hasil belajar, alat ukur digunakan untuk dapat mengukur penguasaan
siawa terhadap kompetensi bidang studi yang dipersyaratkan. Derajad validitas
menunjuk pada kemampuan tes dalam menggambarkan topik-topik dan ruang lingkup
cakupan materi yang akan diukur. Apabila alat ukur yang dikembangkan telah
representatif, dalam arti mewakili semua cakupan materi, maka alat ukur
tersebut telah memenuhi syarat content validity. Karena secara umum
cakupan materi bidang studi biasanya berpedoman pada kurikulum yang telah
ditetapkan maka content validity sering pula disebut sebagai “Curriculair
Validity”.
4)
Concurrent Validity: Validitas ini dikenal pula dengan nama
validitas bandingan, karena dalam menetapkan tingkat validitas alat ukur
diperlukan kriterium luar yang berupa alat ukur lain yang serupa dan sudah
dibakukan validitasnya. Apabila hasil pengukuran yang dilakukan dengan alat
ukur baru, mempunyai tingkat kesesuaian dengan hasil yang pengukuran yang
diperoleh dari alat ukur yang sudah dibakukan, maka tes sebagai alat ukur ini
dianggap memenuhi concurrent validity.
5)
Factorial Validity: Dalam kegiatan penelitian, tidak jarang
terjadi sebuah skala pengukuran variabel terdiri dari beberapa faktor.
Faktor-faktor tersebut diperoleh berdasar demensi/indikator dari
variabel/gejala yang diukur, sesuai yang terungkap dalam konstruksi teoritisnya.
Meskipun variabel terdiri dari beberapa faktor, prinsip homogenitas untuk
keseluruhan faktor harus tetap dipertahankan. Disamping perlu dicegah adanya
overlap antara satu faktor dengan faktor yang lain. Sehingga kriterium yang
digunakan dalam factorial validity ini dapat dilihat dengan menghitung
homogenitas skor setiap faktor dengan total skor, serta homogenitas antara skor
dari faktor yang satu dengan skor dari faktor yang lain.Di samping pembagian
validitas dengan jenis-jenis seperti telah diuraikan diatas, terdapat pula
pembagian validitas yang hanya dikelompokkan menjadi dua kelompok besar yaitu
validitas eksternal dan validitas internal.
b.
Reliabilitas
Pengertian yang paling sederhana dari reliabilitas
adalah kemantapan alat ukur dalam pengertian bahwa alat ukur tersebut dapat
diandalkan atau memiliki keajegan hasil. Pada dasarnya hubungan antara
validitas dan reliabilitas dapat dikemukakan bahwa alat ukur yang valid akan
cenderung menghasilkan pengukuran yang reliabel, sebaliknya alat ukur yang
reliabel sama sekali tidak menunjuk pada validitas alat ukur tersebut. Masalah
validitas dan reliabilitas alat ukur nampak sangat jelas penggunaannya pada
penelitian dengan pendekatan kauntitatif, karena penghitungan tingkat valititas
dan reliabilitas pada umumnya juga menggunakan teknik statistik.
Kerlinger (1986: 443) mengemukakan bahwa
reliabilitas dapat ukur dari tiga kriteria yaitu:
a) Stability,
adalah kriteria yang menunjuk pada keajegan (konsistensi) hasil yang ditunjukan
alat ukur dalam mengukur gejala yang sama, pada waktu yang berbeda.
b) Dependability,
yaitu kriteria yang mendasarkan diri pada kemantapan alat ukur atau seberapa
jauh alat ukur dapat diandalkan.
c) Predictability,
karena perilaku merupakan proses yang saling berkait dan berkesinambungan, maka
kriteria ini mengidealkan alat ukur yang dapat diramalkan hasilnya dan
meramalkan hasil pada pengukuran gejala selanjutnya.
Dengan mencermati pendapat di atas, maka batas
reliabilitas atau keajegan dapat diartikan sebagai konsistensi skor yang
diperoleh dari orang yang sama, pada gejala yang sama. Untuk itu ada
kemungkinan skor pembanding, mungkin berupa skor yang diperoleh dari alat ukur
yang sama pada kesempatan yang berbeda, atau skor yang diperoleh dari alat ukur
lain yang seimbang. Kerlinger menyatakan bahwa reliabilitas instrumen dikatakan
baik bila alat tersebut dikenakan pada obyek yang sama, akan mendapatkan hasil
yang sama pada beberapa kesempatan yang berbeda.
Hal
yang menjadi permasalahan dalam reliabilitas adalah kesalahan dalam penggunaan
suatu alat ukur, semakin kecil kemungkinan kesalahan terjadi, maka akan semakin
reliabel alat ukur tersebut. Dijelaskan lebih jauh bahwa reliabilitas alat ukur
dapat ditingkatkan dengan cara memperbanyak butir item, dengan alasan bahwa
secara statistik jumlah item yang banyak akan meningkatkan reliabilitas alat
ukur. Meningkatkan reliabilitas alat ukur dapat pula dilakukan dengan
menggunakan petunjuk pengerjaan yang jelas dan dengan menggunakan
istilah-istilah yang jelas, sesuai dengan tingkat pengetahuan dan bahasa
responden, sehingga tidak menimbulkan keraguan atau kesalahpahaman dalam
pengisian.
Pengukuran reliabilitas mendasarkan diri pada “measurement
error” yaitu kesalahan yang bersumber dari proses pengukuran. Sehingga
kesalahan dapat disebabkan oleh alat ukur ataupun dari perubahan-perubahan
gejala yang diukur. Dalam penelitian sosial termasuk perilaku, sumber kesalahan
pengukuran dapat ditengarai dari berbagai faktor diantaranya adalah (Kartono,
1996: 125):
a)
Hakekat dari gejala perilaku yang mudah
sekali berubah, dan tidak dapat diulang dengan kondisi dan hasil yang sama,
sebagai akibatnya hasil pengukuran perilaku juga akan selalu mengalami
fluktuasi sejalan dengan perubahan waktu, dan kondisi-kondisi yang ada di
sekitarnya.
b)
kondisi pribadi yang ada pada diri
seseorang bersifat tidak menetap, baik yang menyangkut tingkat kelelahan,
suasana hati, dan sebagainya. Hal ini akan mempengaruhi perilaku, dan hasil
pengukurannya.
c)
ketidakmantapan hasil pengukuran juga
dapat disebabkan oleh validitas alat ukur yang rendah, situasi pengukuran yang
berubah-ubah, ketidakmantapan dalam pelaksanaan pengukuran maupun interpretasi
terhadap hasil pengamatan serta kecermatan dalam pengadminstrasian perlu
mendapat perhatian.
Dengan mendasarkan diri pada keterbatasan penelitian
sosial dan perilaku, maka dipahami bahwa angka yang diperoleh sebagai hasil
pengukuran gejala sosial dan perilaku akan selalu berupa True score + error.
Error yang terjadi bisa berarti skor yang diperoleh terlalu tinggi atau
terlalu rendah. Sumber error (kesalahan atau penyimpangan) dapat berasal
dari alat ukur, kondisi responden, pelaksanaan pengukuran ataupun interpretasi
dan pengadministrasian. Langkah-langkah untuk menguji reliabilitas alat ukur
pada dasarnya merupakan upaya untuk dapat mengetahui seberapa besar “salah
ukur” dalam upaya mengukur gejala perilaku sebagai variabel penelitian. Hasil
yang diperoleh disebut dengan “Indeks Reliability”.
Koefisien reliabilitas selalu berada dalam rentangan
0 sampai dengan 1 yang menunjuk pada persentase varian error dengan
sumber variasi yang berbeda. Misalnya koefisien reliabilitas menunjukkan 0.74
berarti 74 % varian skor yang bersumber pada keadaan yang diukur, sedang 26 %
adalah kesalahan atau varian error yang bersumber dari keadaan di luar variabel
yang diukur. Cara mencari koefisien reliabilitas alat ukur, dapat dilakukan
dengan menggunakan beberapa cara, yang masing-masing mempunyai kekurangan dan
keunggulan. Berbagai pilihan tentang cara menetapkan tingkat reliabilitas alat
ukur tersebut adalah:
1) Teknik Pengulangan (Test and Re
Test Reliability)
Cara ini disebut sebagai teknik ulangan, karena
dilakukan dengan memberikan dua kali pengukuran dengan rentang waktu tertentu
dengan menggunakan alat ukur yang sama. Skor yang diperoleh pada pengukuran
pertama dikorelasikan dengan skor dari hasil pengukuran pada pengukuran yang
kedua. Koefisien yang diperoleh dengan cara ini menunjuk pada derajad
stabilitas alat ukur. Pada umumnya sumber error pada teknik pengulangan
ini dapat bersumber dari berbagai faktor yang menyebabkan seseorang mempunyai
skor berbeda pada saat dua kali mengerjakan tes yang sama. Sangat mungkin
perubahan skor yang terjadi bukan karena perubahan hal yang diukur, tetapi
karena situasi yang berbeda atau pengalaman dari responden pada saat
mengerjakan soal yang pertama, sehingga dalam pengerjaan tes kedua lebih
hati-hati dan lebih baik hasilnya. Kebaikan utama dari cara ini adalah: karena
sobyek dan alat pengukuran yang digunakan sama, akan dapat memperkecil
kemungkinan masuknya sumber error yang lain, tetapi perlu pula dipertimbangkan
bahwa penggunaan sobyek dan alat ukur yang sama dalam dua kali pengukuran,
sekaligus juga merupakan kelemahan yang disebabkan karena adanya pengalaman
mengerjakan akan mempengaruhi hasil pada pengukuran yang kedua.
2) Teknik Bentuk Paralel (Alternate Form Reliability)
Mencari reliabilitas dengan teknik bentuk parallel
dilakukan dengan cara pengukuran pada subyek yang sama tetapi menggunakan alat
ukur berbeda yang mempunyai tingkat kesamaan. Dengan cara ini peneliti perlu
mempersiapkan dua set alat ukur yang berbeda dengan mempertimbangkan
keseimbangan di antara kedua alat ukur tersebut. Keseimbangan diperlukan karena
alat ukur ini ditujukan untuk mengukur gejala yang sama. Teknik ini sering juga
disebut sebagai Parallel Test Reliability.
Penggunaan dua set alat ukur dimaksudkan untuk
mengurangi kemungkinan terjadinya pengaruh ingatan terhadap pengukuran yang
pertama. Teknik ini dapat dilakukan dengan mengadakan pengukuran dengan alat
ukur yang pertama berturutan waktunya dengan pengukuran dengan menggunakan alat
ukur yang kedua pada subyek yang sama. Kemudian skor dari pengukuran alat ukur
yang pertama dikorelasikan dengan skor hasil pengukuran yang kedua. Koefisien
korelasi yang diperoleh akan mengungkap derajad ekuivalensi dan indeks stabilitas.
Kemungkinan kesalahan pada cara ini dapat bersumber dari derajat keseimbangan
antara dua alat ukur tersebut, serta kondisi yang mungkin berbeda pada saat
pengukuran pertama dengan pengukuran kedua, meskipun dilakukan secara
berturutan.
3) Teknik belah dua (Split Half reliability)
Teknik belah dua ini dikembangkan dengan menggunakan
satu jenis alat ukur, dan hanya diberikan satu kali pada subyek, kemudian
hasilnya diolah sedemikian rupa. Yaitu dengan cara mengelompokkan butir-butir
itemnya menjadi dua bagian sama besar (belah dua). Pembagian item menjadi dua
kelompok sama besar dapat dilakukan dengan cara acak atau pengelompokan
berdasar nomor ganjil-genapderajad
ekuivalensi antara dua belahan tersebut. Teknik ini baru mencerminkan
koefisien reliabilitas dari masing-masing belahan tersebut. Oleh karenanya
untuk mendapatkan gambaran koefisien secara keseluruhan, koefisien antar
belahan tersebut masih perlu dikoreksi dengan rumus sebagai berikut:
N
r x1 x2 Reliability = 1 + r x1 x2
Dimana x1 adalah skor dari belahan satu, x2 adalah
skor dari belahan kedua, dan n adalah banyaknya subyek pada setia bagian
(belahan). Rumus tersebut didasarkan pada asumsi bahwa kedua belahan mengukur
hal yang sama, yang memiliki varian yang sama.
4) Kuder Richardson Reliability
Cara ini diberlakukan bila instrumen digunakan untuk
mengukur satu gejala psikologis atau perilaku yang sama, artinya alat ukur
tersebut dapat dikatakan reliabel bila terbukti ada konsistensi jawaban antar
item yang satu dengan item yang lain. Sehingga apabila sifat dan tingkatan
homogenitas antar item tidak terpenuhi, artinya alat tersebut dianggap mengukur
lebih dari satu variabel. Bila dalam kenyataan dalam satu instrumen terdapat
lebih dari satu skala pengukuran atau mengukur lebih dari satu variabel, dan
setiap variabel memiliki beberapa dimensi, maka pengecekan reliabilitas
dilakukan terhadap masing-masing skala pengukuran. Model Kuder Richardson
Reliability ini menghasilkan koefisien konsistensi internal yang
menunjuk pada derajad konsistensi antara item yang satu dengan item yang lain.
Sehingga lebih cocok untuk alat ukur yang menggunakan item dua pilihan dengan
salah satu jawaban benar.
5.
ronbach
Alpha Reliability
Cara ini juga dikembangkan untuk mengujir
konsistensi internal dari suatu alat ukur, perbedaan pokok dengan model Kuder
Richardson adalah bahwa teknik ini tidak hanya untuk instrumen dengan dua
pilihan tetapi tidak terikat pada dua pilihan saja, sehingga penerapannya lebih
luas. Misalnya untuk menguji reliabilitas skala pengukuran sikap dengan 3, 5
atau 7 pilihan. Satu hal yang tak kalah pentingnya adalah indeks sensitivitas,
yang merupakan perbedaan kemampuan peserta didik antara setelah mengikuti
proses pembelajaran dengan sebelum mengikuti proses pembelajaran. Indeks ini
menyatakan tingkat keberhasilan peserta didik dalam mengikuti porses
pembelajaran dan keberhasilan
guru
dalam melaksanakan proses pembelajaran. Besarnya indek yang baik adalah
positif
dan besar. Indeks ini sering dinyatakan dalam bentuk formula seperti berikut
ini:
=
RA
=
Jumlah peserta didik yang menjawab benar setelah mengikuti proses pembelajaran
RB
=
Jumlah peserta didik yang menjawab benar sebelum mengikuti proses pembelajaran
T
= Jumlah peserta didik yang mengikuti
ujian.
BAB III
PENUTUP
A. Kesimpulan
Tes secara sederhana dapat diartikan sebagai
himpunan pertanyaan yang harus dijawab, pernyataan-pernyataan yang harus
dipilih/ditanggapi, atau tugastugas yang harus dilakukan oleh peserta tes
dengan tujuan untuk mengukur suatu aspek tertentu dari peserta tes. Untuk dapat
menjadi alat ukur yang baik dan dapat memberikan informasi yang akurat maka
setiap soal sebagai bagian dari konstruksi tes harus dijaga kualitasnya. Ada
beberapa kriteria yang dapat dipakai untuk menyusun butir-butir tes yang berkualitas
yaitu; (1) valid, (2) relevan, (3) spesifik, (4) representatif, (5) seimbang (6)
sensitif, (7) fair, dan (8) praktis Validitas sebagai kriteria mutlak
tes sebagai instrument terbagi menjadi 5 jenis yaitu; (1) validitas permukaan (face
validity), (2) validitas konsep (construct validity), (3) validitas
isi (content validity), (4) concurrent validity, dan (5) factorial
validity.
DAFTAR PUSTAKA
Arikunto,
S. (2002). Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Balitbang
Depdiknas. (2006). Panduan Penilaian Berbasis Kelas. Jakarta: Depdiknas.
Silverius,
S. (2001). Evaluasi Hasil Belajar dan Umpan Balik. Jakarta: Gramedia Widya
Sarana
Sudiyono,
A. (1996). Pengantar Evaluasi Pendidikan. Jakarta: PT Raja Grafindo Persada.
Syaifuddin,
A. (2002). Test Prestasi. Yogyakarta.