Minggu, 10 Maret 2013

Kriteria Tes yang Baik



KATA PENGANTAR


Segala puja-puji syukur kehadirat Allah Swt., yang telah memberikan limpahan rahmat, taufik, serta hidayah-Nya, sehingga penulis dapat menyelesaikan penulisan makalah dengan lancar tanpa aral yang merintangi.  
Shalawat serta salam semoga tetap terlimpahcurahkan keharibaan sosok revolusioner dunia, pendidik sejati, baginda Rasulillah Saw., yang telah menjadi qudwah dan uswah hasanah dengan membawa pancaran cahaya kebenaran, sehingga pada detik ini kita masih mampu mengarungi kehidupan yang berlandaskan iman dan islam.
Seiring dengan terselesaikannya penulisan makalah ini, tak lupa penulis menyampaikan terima kasih dan penghargaan tanpa batas kepada semua pihak yang telah membantu memberikan arahan, bimbingan dan petunjuk serta motivasi dalam proses penyelesaian makalah ini.
Penulis menyadari bahwa penulisan makalah ini masih jauh dari sempurna. Oleh karena itu, saran dan kritik yang bersifat konstruktif dari semua pihak sangat penulis harapkan untuk perbaikan makalah ini. Penulis berharap semoga makalah ini dapat bermanfaat bagi semua pihak, sehingga dapat membuka cakrawala berpikir serta memberikan setitik khazanah pengetahuan untuk terus memajukan dunia pendidikan. Semoga Allah SWT. Senantiasa mendengarkan dan mengabulkan permohonan kita. Amin.


                                                                                     Kendari,       November 2012

                                                                                                     Penulis       


DAFTAR ISI

HALAMAN SAMPUL.........................................................................................
KATA PENGANTAR..........................................................................................
DAFTAR ISI.........................................................................................................

BAB  I   PENDAHULUAN.................................................................................
A.    Latar Belakang...........................................................................................
B.     Rumusan Masalah......................................................................................
C.     Tujuan.........................................................................................................
BAB   II  PEMBAHASAN...................................................................................
A.    Pengertian Tes............................................................................................
B.     Jenis-jenis Tes............................................................................................
C.     Kriteria Tes yang Baik...............................................................................
BAB  III  PENUTUP...........................................................................................
A.    Kesimpulan................................................................................................
DAFTAR PUSTAKA









BAB I
PENDAHULUAN

A.    Latar Belakang

Dalam proses pembelajaran, tes merupakan alat ukur dalam proses asesmen  maupun evaluasi yang memiliki peranan sangat penting untuk mengetahui keberhasilan proses belajar-mengajar di sekolah. Dalam hal ini, tes memiliki fungsi ganda, yaitu mengukur tingkat pencapaian siswa pada kompetensi yang dipersyaratkan, yang terjabar dalam indikator pencapaian, dan mengukur keberhasilan program pengajaran sekaligus kualitas pendidik dalam mengelola proses pembelajaran. Untuk bisa memberikan data yang akurat, sesuai dengan fungsinya maka ada beberapa persyaratan yang harus dipenuhi, untuk dapat dikatakan sebagai tes yang baik. Secara umum tes yang baik memiliki syarat-syarat antara lain (1) hanya mengukur satu aspek saja. Tes yang baik memiliki sebuah aspek saja yang akan di ukur, jadi tes matematika misalnya hanya menguji kemampuan matematika seseorang, (2) handal dalam pengukuran; kehandalan ini meliputi ketepatan hasil pengukuran dan keajegan hasil pengukuran.

B.     Rumusan Masalah
Berangkat dari latar belakang diatas, maka dapat dirumuskan beberapa masalah sebagai berikut :
1.      Apa pengertian tes ?
2.      Apa saja jenis-jenis tes ?
3.      Bagamana kriteria tes yang baik ?

C.    Tujuan
Tujuan dari penulisan makalah ini yaitu untuk mengetahui pengertian, jenis, dan kriteria tes yang baik sebagai alat tolak ukur.


BAB II
PEMBAHASAN

A.    Pengertian Tes
Tes secara sederhana dapat diartikan sebagai himpunan pertanyaan yang harus dijawab, pernyataan-pernyataan yang harus dipilih/ditanggapi, atau tugas-tugas yang harus dilakukan oleh peserta tes dengan tujuan untuk mengukur suatu aspek tertentu dari peserta tes. Dalam kaitan dengan pembelajaran aspek tersebut adalah indikator pencapaian kompetensi. Tes berasal dari bahasa Perancis yaitu “testum” yang berarti piring untuk menyisihkan logam mulia dari material lain seperti pasir, batu, tanah, dan sebagainya. Kemudian diadopsi dalam psikologi dan pendidikan untuk menjelaskan sebuah instrumen yang dikembangkan untuk dapat melihat dan mengukur dan menemukan peserta Tes yang memenuhi kriteria tertentu. Cronbach (dalam Azwar, 2005) mendefinisikan tes sebagai “a systematic procedure forobserving a person’s behavior and describing it with the aid of a numerical scale or category system”. Menurut Ebster’s Collegiate (dalam Arikunto, 1995), tes adalah serangkaian pertanyaan atau latihan atau alat lain yang digunakan untuk mengukur keterampilan, pengetahuan, intelegensia, kemampuan atau bakat yang dimiliki oleh individu atau kelompok. Dari dua definisi tersebut dan uraian lebih jauh tentang itu dapat ditarik pengertian bahwa: (1) tes adalah prosedur pengukuran yang sengaja dirancang secara sistematis, untuk mengukur atribut tertentu, dilakukan dengan prosedur administrasi dan pemberian angka yang jelas dan spesifik, sehingga hasilnya relatif ajeg bila dilakukan dalam kondisi yang relatif sama; (2) tes pada umumnya berisi sampel perilaku, cakupan butir tes yang bisa dibuat dari suatu materi tidak terhingga jumlahnya, yang secara keseluruhan mungkin mustahil dapat tercakup dalam tes, sehingga tes harus dapat mewakili kawasan (domain) perilaku yang diukur, untuk itu perlu pembatasan yang jelas; (3) tes menghendaki subjek agar menunjukkan apa yang diketahui atau apa yang dipelajari dengan cara menjawab atau mengerjakan tugas dalam tes. Respon subjek atas tes merupakan perilaku yang ingin diketahui dari penyelenggaraan tes, karena tes memang mengukur perilaku, sebagai manifestasi atribut psikologis yang mau diukur. Tes pada dasarnya adalah alat ukur atribut psikologis yang objektif atas sampel perilaku tertentu. Dalam psikologi, tes dapat diklasifikasikan menjadi empat, yaitu: (1) tes yang mengukur intelegensia umum yang dirancang untuk mengukur kemampuan umum seseorang dalam suatu tugas; (2) tes yang mengukur kemampuan khusus atau tes bakat yang dibuat untuk mengungkap kemampuan potensial dalam bidang tertentu; (3) tes yang ditujukan untuk mengukur prestasi yang digunakan untuk mengungkapkan kemampuan aktual sebagai hasil belajar; (4) tes yang mengungkap aspek kepribadian (personality assesment) yang bertujuan mengungkap karakteristik individual subjek dalam aspek yang diukur. Dengan melihat penggolongan di atas, tes dalam pembelajaran di kelas yang menjadi pembahasan ini adalah tes prestasi atau hasil belajar. Tes sebagai alat ukur dapat menyediakan informasi-informasi obyektif yang dapat digunakan sebagai pertimbangan dalam penentuan keputusan yang harus diambil pendidik terhadap proses dan hasil belajar yang dilakukan siswa dapat dibagi menjadi tiga kelompok besar yaitu:
a.      Keputusan yang diambil pada pemulaan proses pembelajaran
Penggunaan tes sebagai dasar pengambilan keputusan pada permulaan proses pembelajaran bermuara pada dua pertanyaan yang harus dijawab oleh pendidik sebelum memulai proses pembelajaran yaitu; (1) sejauhmanakah pengetahuan, keterampilan dan kemampuan yang harus dimiliki oleh siswa sebelum mengikuti proses pembelajaran yang berupa kemampuan awal yang diperlukan untuk mengikuti proses pembelajaran, (2) sejauhmanakah kemampuan dan keterampilan yang telah dicapai peserta didik terhadap pembelajaran yang direncanakan. Keduanya akan menentukan keputusan guru dalam merancang materi dan metode pembelajaran yang direncanakan.
b.      Keputusan selama proses pembelajaran
Tes dapat pula digunakan selama proses pembelajaran (tes formatif). Tes formatif dapat diberikan baik dalam bentuk tes tulis maupun tes lisan, baik dengan jawaban uraian maupun tes obyektif.


c.       Keputusan-keputusan pada akhir pembelajaran
Tes formatif yang diberikan guru pada akhir pembelajaran ditujukan untuk mengetahui apakah kompetensi dasar yang dirumuskan dalam program pembelajaran (satuan pembelajaran) telah tercapai atau belum. Jadi, fungsi tes pada akhir pembelajaran adalah untuk mengukur daya serap siswa pada materi pembelajaran. Sehingga guru dapat merencanakan tindak lanjut terhadap rencana, proses, media, metode, dan suasana pembelajaran. Seperti penilaian selama proses keputusan akhir pembelajaran dapat berasal dari informasi tes obyektif atau tes subyektif.

B.     Jenis-jenis Tes
Bila kita membahas jenis-jenis tes, kita akan dapat mencermati dalam lima jenis atau cara pembagian yaitu:
a. Pembagian jenis tes berdasarkan tujuan penyelenggaraan.
b. Jenis tes berdasarkan waktu penyelenggaraan.
c. Pembagian jenis tes berdasarkan cara mengerjakan.
d. Pembagian jenis tes berdasarkan cara penyusunan.
e. Pembagian jenis tes berdasarkan bentuk jawaban.
Uraian selengkapnya adalah sebagai berikut.
1)         Jenis Tes Berdasarkan Tujuan Penyelenggaraan
Untuk mengawali pembahasan tentang jenis-jenis tes, kita perlu pengetahui untuk apa diselenggarakan tes. Tes diselenggarakan dengan tujuan :
a) untuk keperluan seleksi,
b) untuk menempatkan orang pada kelas-kelas tertentu,
c) untuk mengetahui hasil belajar,
d) untuk keperluan diagnostik, dan
e) untuk keperluan uji coba

a) Tes Seleksi (Selection Test)
Kita bisa memahami hakekat dari tes seleksi ini dari arti kata “seleksi” itu sendiri, yaitu memilih. sederhana bukan? Jadi, tes seleksi diselenggarakan untuk memilih peserta guna diikutsertakan dalam kegiatan yang menuntut kemampuan tertentu. Penentuan jenis kemampuan dan tingkat penguasaan pada tes seleksi, sepenuhnya tergantung pada kebutuhan akan kemampuan yang dibutuhkan untuk dapat mengikuti kegiatan. Dengan demikian, berdasarkan hasil tes seleksi, seseorang dapat dinyatakan diterima atau berhasil dan tidak diterima atau tidak lolos untuk mengikuti program kegiatan yang direncanakan. Sebagai contoh, jika kita menyelenggarakan tes seleksi untuk pemandu wisata, maka akan lebih baik menitikberatkan kemampuan berbicara daripada  kemampuan menulis.

b) Tes Penempatan (Placement Test)
Suatu keniscayaan bahwa kemampuan seseorang tidaklah bisa sama. Sekelompok orang barangkali memiliki kemampuan lebih tinggi dari pada kelompok lainnya. Permasalahan yang muncul adalah, bagaimanakah jika kemampuan siswa dalam satu kelas relatif beragam? Hal ini akan bisa mempersulit jalannya proses pengajaran yang kita lakukan. Untuk itu perlu dilakukan tes penempatan. Tes penempatan umumnya diselenggarakan menjelang dimulainya suatu program pengajaran, dengan maksud untuk menempatkan seseorang pada kelompok yang sesuai dengan tingkat kemampuan yang dimilikinya.

c) Tes Hasil Belajar (Achievement Test)
Tes hasil belajar tentu tidak lagi asing bagi Kita. Brown (2004) memberikan pengertian tes hasil belajar merupakan “a test to see how far students achieve materials addressed in a curriculum within a particular time frame”. Hasil belajar yang diungkap lewat tes hasil belajar dapat mengacu pada hasil pengajaran secara keseluruhan pada akhir penyelenggaraan atau pada kurun waktu tertentu. Sebagai tes yang memfokuskan pada hasil yang telah dapat dicapai oleh suatu bentuk pengajaran, tes hasil belajar memiliki kaitan yang erat dengan apa yang telah diajarkan (kurikulum). Kaitan itu terutama dalam hal isi tes. Isi tes harus secara jelas mencerminkan isi pengajaran yang secara nyata telah diselenggarakan.


d) Tes Diagnostik (Diagnostic Test)
Secara etimologis, diagnostik diambil dari bahasa Inggris “diagnostic”. Bentuk kata kerjanya adalah “to diagnose”, yang artinya “to determine the nature of disease from observation of symptoms”. Mendiagnosis berarti melakukan observasi terhadap penyakit tertentu, sebagai dasar menentukan macam atau jenis penyakitnya. Jadi, tes diagnostik sengaja dirancang sebagai alat untuk menemukan kesulitan belajar yang sedang dihadapi siswa. Hasil tes diagnostik dapat digunakan sebagai dasar penyelenggaraan pengajaran yang lebih sesuai dengan kemampuan siswa sebenarnya, termasuk kesulitan-kesulitan belajarnya. Tes ini dilakukan apabila diperoleh informasi bahwa sebagian besar peserta didik gagal dalam mengikuti proses pembelajaran pada mata pelajaran tertentu. Hasil tes diagnostik memberikan informasi tentang konsep-konsep yang belum dipahami dan yang telah dipahami. Oleh karenanya, tes ini berisi materi yang dirasa sulit oleh siswa, namun tingkat kesulitan tes ini cenderung rendah.

e) Tes Uji Coba
Apabila Saudara sebagai seorang guru pasti pernah mengembangkan tes. Tes yang dikembangkan belum tentu memenuhi kualifikasi sebagai tes yang “baik” dalam arti luas. Untuk mengetahui apakah tes yang dikembangkan bagus, perlu serangkaian uji coba, untuk memperoleh informasi, tidak hanya tentang ciri-ciri tes yang penting, seperti validitas, reliabilitas, tingkat kesulitan, dan tingkat pembeda, melainkan juga segi-segi lain, seperti kecukupan waktu, kejelasan tulisan maupun perintah tes, dan lain sebagainya.

2) Jenis Tes Berdasarkan Tahapan/Waktu Penyelenggaraan
Selanjutnya jenis tes berdasar waktu penyelenggaraan tes, yang terbagi menjadi 4 yaitu:

a) Tes Masuk (Entrance Test)
Tes masuk diselenggarakan sebelum dan menjelang suatu program pengajaran dimulai. Sama dengan tes seleksi, tes masuk diselenggarakan untuk menentukan apakah seorang calon dapat diterima sebagai peserta program pengajaran karena ia memiliki jenis dan kemampuan yang dipersyaratkan. Tes masuk dirancang secara khusus dan disesuaikan dengan tujuan program pengajaran. Semakin sesuai isi tes masuk itu dengan tujuan pokok program pengajaran, maka akan semakin tinggi tingkat relevansi serta efektivitas dari tes masuk tersebut.

b) Tes Formatif (Formative Test)
Tes formatif dilakukan pada saat program pengajaran sedang berlangsung (progress), tujuannya untuk memperoleh informasi tentang jalannya pengajaran sampai tahap tertentu. Informasi tersebut penting untuk mengetahui apakah program pengajaran berjalan sesuai dengan format yang ditentukan sehingga dipertahankan atau program pembelajaran memerlukan perubahan atau penyesuaian, hasilnya berguna untuk memperbaiki strategi mengajar. Tes ini dilakukan secara periodik sepanjang rentang proses pembelajaran, materi tes dipilih berdasarkan tujuan pembelajaran tiap pokok bahasan atau sub pokok materi. Jadi tes untuk menentukan keberhasilan belajar dan untuk mengetahui keberhasilan proses pembelajaran.

c) Tes Sumatif (Summative Test)
Kata dari “sumatif” adalah “sum” yang berarti “total obtained by adding together items, numbers or amounts”. Dengan demikian, tes sumatif diselenggarakan untuk mengetahui hasil pengajaran secara keseluruhan (total). Konsekuensi dari tes yang menekankan hasil pengajaran secara keseluruhan, maka item tes sumatif atau bahan cakupannya meliputi seluruh materi yang telah disampaikan. Tes sumatif diberikan di akhir suatu pelajaran, atau akhir semester. Hasilnya untuk menentukan keberhasilan belajar peserta didik. Tingkat keberhasilan dinyatakan dengan skor atau nilai, pemberian sertifikat, dan sejenisnya.


d) Pra-tes dan Post-test
Untuk mengetahui kemampuan yang dimiliki seorang siswa di awal program pengajaran, kadang-kadang diselenggarakan pra-tes. Hasil pra-tes digunakan untuk mengetahui tingkat kemampuan siswa pada awal program pengajaran. Tingkat kemampuan awal ini penting untuk menentukan sejauhmana kemajuan seorang siswa. Kemajuan yang dicapai bisa dilihat dari perbandingan hasil pra-tes dengan hasil tes yang diselenggarakan di akhir program pengajaran (post-test).

3) Jenis Tes Berdasarkan Cara Mengerjakan
Secara umum, tes dapat dikerjakan secara tertulis dan secara lisan. 

a) Tes Tertulis
Tes tertulis adalah tes yang dilakukan secara tertulis baik dalam hal soal maupun jawabannya, namun tes yang disampaikan secara lisan dan dikerjakan secara tertulis masih digolongkan ke dalam jenis tes tertulis. Sebaliknya, tes yang soalnya diberikan dalam bentuk tulisan sedangkan jawabannya berbentuk lisan tidak dapat dikategorikan ke dalam bentuk tes tertulis.

b) Tes Lisan
Pada tes lisan, baik pertanyaan maupun jawaban (response) semuanya dalam bentuk lisan. Karenanya, tes lisan relatif tidak memiliki rambu-rambu penyelenggaraan tes yang baku, karena itu, hasil dari tes lisan biasanya tidak menjadi informasi pokok tetapi pelengkap dari instrumen asesmen yang lain.

c) Tes Unjuk Kerja
Pada Tes ini peserta didik diminta untuk melakukan sesuatu sebagai indikator pencapaian kompetensi yang berupa kemampuan psikomotor.

4) Jenis Tes Berdasarkan Cara Penyusunan
Berdasarkan kriteria ini, tes dapat dibedakan menjadi dua, yaitu  tes buatan guru dan  tes terstandar.


a) Tes Buatan Guru (Teacher-made Test)
kita tentu mengetahui tugas-tugas utama yang harus diemban oleh seorang guru. Untuk melakukan tugas evaluasi itu, seorang guru harus mengembangkan alat ukur, salah satunya tes. Tes yang dikembangkan sendiri oleh guru disebut tes buatan guru (teacher-made test). Jadi tes buatan guru adalah tes yang dirancang dan dipersiapkan oleh guru, tetap dengan mengacu pada karakteristik tes yang baik dan dilakukan secara cermat, untuk tetap menjamin validitas maupun reliabilitasnya.

b) Tes Terstandar (Standardized Test)
Dari istilah yang digunakan saja, barangkali kita sudah bisa memperkirakan apa yang dimaksud dengan tes terstandar.Tes terstandar adalah tes yang dikembangkan dengan mengikuti prosedur serta prinsip pengembangan tes secara ketat. Semua prosedur pengembangan tes dikuti sehingga ciri-ciri tes sebagai alat ukur yang baik senantiasa dapat dipenuhi. Dengan demikian, tingkat validitas, reliabilitas, kepraktisan, maupun daya beda sudah bukan menjadi masalah lagi.

5) Jenis Tes Berdasarkan Bentuk Jawab
Jika kita melihat bentuk jawaban yang diberikan oleh peserta tes, kita dapat membedakan tiga jenis tes, yaitu; (a) tes esei, (b) tes jawaban pendek, dan (c) tes obyektif. Untuk lebih jelasnya, cobalah perhatikan bahasan berikut ini.

a) Tes Esei (Essay-type Test)
Tes bentuk uraian adalah tes yang menuntut siswa mengorganisasikan gagasangagasan tentang apa yang telah dipelajarinya dengan cara mengemukakannya dalam bentuk tulisan. Keunggulan tes uraian, guru dapat mengukur kemampuan siswa dalam hal mengorganisasikan pikirannya, mengemukakan pendapatnya, dan mengekspresikan gagasan dengan menggunakan kata-kata atau kalimat sendiri. Sedang keterbatasannya adalah cakupan materi pelajaran yang terbatas, waktu pemeriksaan jawaban yang lama, penskorannya cenderung subyektif dan umumnya kurang handal dalam pengukuran.
b) Tes Jawaban Pendek
Tes dapat digolongkan menjadi tes jawaban pendek jika peserta tes diminta menuangkan jawabannya bukan dalam bentuk esei, tetapi memberikan jawaban-jawaban pendek, dalam bentuk rangkaian kata-kata pendek, kata-kata lepas, maupun angka-angka. Termasuk ke dalam tes jenis ini adalah tes yang mewajibkan siswa untuk mengisi bagian yang kosong dari sebuah kalimat atau teks. Sehingga diharapkan dapat memberikan jawabannya sesingkat mungkin.
c) Tes Objektif
Tes objektif adalah tes yang keseluruhan informasi yang diperlukan untuk menjawab tes telah tersedia. Oleh karenanya sering pula disebut dengan istilah tes
pilihan jawaban (selected response test). Butir soal telah mengandung kemungkinan jawaban yang harus dipilih atau dikerjakan oleh peserta tes. Menurut Subino (1987) perbedaan yang khas bentuk soal objektif dibanding dengan soal esei adalah tugas peserta tes (testee) dalam merespons tes. Pada tes objektif, tugas testee adalah memanipulasikan data yang telah ada dalam butir soal. Oleh karenanya, tes objektif adalah tes yang dalam pemeriksaannya dapat dilakukan secara objektif. Karena sifatnya yang objektif maka penskorannya dapat dilakukan dengan bantuan mesin. Soal ini tidak memberi peluang untuk memberikan penilaian yang bergradasi karena dia hanya mengenal benar dan salah. Soal tes objektif sangat bermanfaat untuk mengukur hasil belajar kognitif tingkat rendah. Hasil-hasil belajar kompleks seperti menciptakan dan mengorganisasikan gagasan kurang cocok diukur menggunakan soal bentuk ini. Soal objektif sangat bervariasi bentuknya. Variasi yang bisa dibuat dari soal objektif adalah benar-salah, pilihan ganda, menjodohkan, melengkapi dan jawaban singkat.

C.    Kriteria Tes yang Baik
Tes atau soal ujian merupakan alat ukur yang memiliki fungsi ganda yaitu untuk mengukur efektivitas belajar dan mengukur efektivitas guru dalam mengajar. Untuk dapat menjadi alat ukur yang baik dan dapat memberikan informasi yang akurat maka setiap soal sebagai bagian dari konstruksi tes harus dijaga kualitasnya. Ada beberapa kriteria yang dapat dipakai untuk menyusun butir-butir tes yang berkualitas yaitu:
a.        Valid
Soal dikatakan valid bila dapat mengukur apa yang seharusnya diukur, validitas Soal dapat dilihat dari kesesuaian soal dengan tujuan instruksional khusus dan tujuan pengukuran yang telah ditetapkan. Validitas dapat pula dilihat dari kemampuannya memprediksi prestasi di masa yang akan datang,
b.         Relevan
Tes yang relevan mengandung soal-soal yang dapat mengukur kemampuan belajar sesuai dengan tingkat kemampuan yang ditetapkan dalam indikator pencapaian hasil belajar (Ranah kognitif, afektif dan psikhomotor). Bila kompetansi dasar dan indikator bertujuan mengungkap ranah afektif, pertanyaan soal harus pula mengarah ke sikap dan seterusnya.
c.         Spesifik
Soal harus direncanakan sedemikian rupa agar jawabannya pasti dan tidak menimbulkan ambivalensi atau spakulasi dalam memberikan jawaban. Kesulitan soal tidak saja kesulitan materi juga bisa ditambah kesulitan dalam memahami soal bila soal tidak disusun secara spesifik.
d.        Representatif
Soal tes sebaiknya dikembangkan dari satuan materi yang jelas cakupannya, dan bersifat komprehensif dalam pengertian materi tes harus mencakup seluruh materi pengajaran, untuk itu seluruh pokok bahasan (sub pokok bahasan) idealnya harus terwakili dalam soal tes. Syarat ini akan dapat mengurangi error terhadap hasil pengukuran.
e.    Seimbang
Dalam proses pengajaran dosen akan tahu persis, bahwa setiap pokok bahasan memiliki tingkat kesulitan yang berbeda, soal tes dikatakan seimbang bila pokok bahasan yang terpenting mendapat porsi terbanyak dalam soal. Kalau dalam keadaan terpaksa hal tersebut tidak dapat dilakukan maka keseimbangan dapat dicapai dengan memberikan bobot yang berbeda pada pokok bahasan yang memiliki tingkat kesulitan yang berbeda.
f.      Sensitif
Syarat ini berkait erat dengan taraf kesukaran soal, butir tes yang baik harus memiliki sensitivitas untuk membedakan siswa yang benar-benar menguasai materi dengan yang tidak, hal ini tidak akan tercapai bila soal terlalu sulit sehingga semua siswa tidak dapat mengerjakan, atau soal yang terlalu gampang sehingga semua siswa dapat mengerjakan dengan benar.
g.        Fair
Tes hasil ujian hendaklah bersifat terbuka dalam pengertian tidak mengandung jebakan, jelas cakupan materinya, kejalasan norma yang dipakai serta kriteria keberhasilannya. Dalam pelaksanaannya obyektif, tidak merugikan kelompok tertentu.
h.        Praktis
Dalam pengertian bahwa tes tidak sulit untuk dilaksanakan dilihat dari segi pembiayaan maupun pelaksanaanya. Tes yang baik harus efisien dan mudah untuk dilaksanakan. Kiteria yang dikemukakan di atas, tidak dimaksudkan untuk memberikan belenggu pada guru dalam menyelesaikan tugasnya di kelas khususnya dalam mengembangkan tes, tetapi lebih diarahkan pada pengenalan kondisi ideal yang seharusnya dipenuhi oleh soal-soal yang disusun oleh pendidik, atau paling tidak memberikan arah kepada perbaikan Anda dalam memperbaiki sistem penilaian yang telah Anda lakukan selama ini.
*      Validitas dan Reliabilitas
Kualitas instrumen sebagai alat ukur ataupun alat pengumpul data diukur dari kemampuan alat ukur tersebut untuk dapat mengungkapkan dengan secermat mungkin fenomena-fenomena ataupun gejala yang diukur. Kualitas yang menunjuk pada tingkat keajekan, kemantapan serta konsistensi dari data yang diperoleh itulah yang disebut dengan validitas dan reliabilitas.
a. Validitas
Validitas alat ukur menunjukkan kualitas kesahihan suatu instrumen atau alat pengumpul data dapat dikatakan valid atau sahih apabila alat ukur tersebut mampu mengukur apa yang seharusnya diukur/diinginkan, sehingga alat ukur dikatakan sahih apabila dapat mengungkap secara cermat dan tepat data dari variabel yang diteliti. Tinggi rendahnya tingkat validitas instrumen menunjukkan sejauhmana data dari variabel yang terkumpul tidak menyimpang dari gambaran tentang variabel yang dimaksud. Kerlinger (1986) menyatakan bahwa validitas alat ukur tidak cukup ditentukan oleh derajad ketepatan alat ukur dapat mengukur apa yang seharusnya diukur, tetapi perlu pula dilihat dari tiga kriteria yang lain yaitu Appropriatness, Meaningfullness dan Usefullness. Bila dikaitkan dengan pengukuran aspek perilaku sebagai hasil belajar, penjelasan ketiga kriteria tersebut secara bebas dapat diterjemahkan sebagai berikut: (1) Appropriatness: Kriteria ini menunjuk pada kelayakan dari tes sebagai alat ukur tersebut, yaitu seberapa jauh alat ukur dapat menjangkau keragaman aspek perilaku tertentu; (2) Meaningfullness: Adalah kriteria yang didasarkan pada kemampuan alat ukur untuk dapat memberikan keseimbangan item-item pengukurannya berdasar tingkat kepentingan/urgensi dari setiap bagian gejala; dan (3) Usefullness to inferences: yakni kriteria ini menunjuk pada sensitif tidaknya alat ukur untuk dapat menangkap gejala perilaku, dan tingkat ketelitian yang ditunjukkan dalam pembuatan kesimpulan. Jenis-jenis validitas yang dapat dipakai sebagai kriterium, dalam menetapkan tingkat kehandalan tes, diantaranya adalah:
1) Validitas Permukaan (Face Validity): Validitas ini sering pula disebut sebagai validitas tampang. Validitas jenis ini menggunakan kriterium yang paling sederhana karena yang menjadi kriterianya hanya tampang atau penampakan dari instrumen itu sendiri. Apabila tes sebagai instrumen pengukuran, berdasar pengamatan sepintas telah dapat mengungkap fenomena yang akan dicari, bila secara sepintas sudah dianggap baik, maka alat tersebut sudah dapat dianggap memenuhi kriteria face validity, sehingga tidak diperlukan adanya pertimbangan mendalam.

2) Validitas konsep (Construct Validity): Validitas ini disebut juga sebagai validitas konstruksi teori. Dalam hal ini alat ukur dikatakan valid apabila item sebagai alat ukur telah mencerminkan konsep perilaku yang diukur, dan memiliki tingkat kesesuaian dengan konstruksi teoritiknya. Validitas konstruksi ini sering pula disebut sebagai logical Validity. Penggunaan validitas logis terutama dalam pengukuran-pengukuran gejala perilaku yang abstrak misalnya ukuran tentang kesetiakawanan, kematangan emosi, sikap terhadap KB, motivasi dan sebagainya.

3) Validitas Isi (Content Validity): Sesuai dengan namanya validitas ini disebut pula sebagai validitas isi, pada validitas ini yang menjadi kriterium untuk menetapkan valid atau tidaknya alat ukur adalah isi/substansi dari variabel yang akan diukur, sehingga pada umumnya validitas ini hanya digunakan untuk mengukur variabel dengan cakupan materi yang jelas, misalnya saja dalam tes hasil belajar, alat ukur digunakan untuk dapat mengukur penguasaan siawa terhadap kompetensi bidang studi yang dipersyaratkan. Derajad validitas menunjuk pada kemampuan tes dalam menggambarkan topik-topik dan ruang lingkup cakupan materi yang akan diukur. Apabila alat ukur yang dikembangkan telah representatif, dalam arti mewakili semua cakupan materi, maka alat ukur tersebut telah memenuhi syarat content validity. Karena secara umum cakupan materi bidang studi biasanya berpedoman pada kurikulum yang telah ditetapkan maka content validity sering pula disebut sebagai Curriculair Validity”.

4) Concurrent Validity: Validitas ini dikenal pula dengan nama validitas bandingan, karena dalam menetapkan tingkat validitas alat ukur diperlukan kriterium luar yang berupa alat ukur lain yang serupa dan sudah dibakukan validitasnya. Apabila hasil pengukuran yang dilakukan dengan alat ukur baru, mempunyai tingkat kesesuaian dengan hasil yang pengukuran yang diperoleh dari alat ukur yang sudah dibakukan, maka tes sebagai alat ukur ini dianggap memenuhi concurrent validity.

5) Factorial Validity: Dalam kegiatan penelitian, tidak jarang terjadi sebuah skala pengukuran variabel terdiri dari beberapa faktor. Faktor-faktor tersebut diperoleh berdasar demensi/indikator dari variabel/gejala yang diukur, sesuai yang terungkap dalam konstruksi teoritisnya. Meskipun variabel terdiri dari beberapa faktor, prinsip homogenitas untuk keseluruhan faktor harus tetap dipertahankan. Disamping perlu dicegah adanya overlap antara satu faktor dengan faktor yang lain. Sehingga kriterium yang digunakan dalam factorial validity ini dapat dilihat dengan menghitung homogenitas skor setiap faktor dengan total skor, serta homogenitas antara skor dari faktor yang satu dengan skor dari faktor yang lain.Di samping pembagian validitas dengan jenis-jenis seperti telah diuraikan diatas, terdapat pula pembagian validitas yang hanya dikelompokkan menjadi dua kelompok besar yaitu validitas eksternal dan validitas internal.

b. Reliabilitas
Pengertian yang paling sederhana dari reliabilitas adalah kemantapan alat ukur dalam pengertian bahwa alat ukur tersebut dapat diandalkan atau memiliki keajegan hasil. Pada dasarnya hubungan antara validitas dan reliabilitas dapat dikemukakan bahwa alat ukur yang valid akan cenderung menghasilkan pengukuran yang reliabel, sebaliknya alat ukur yang reliabel sama sekali tidak menunjuk pada validitas alat ukur tersebut. Masalah validitas dan reliabilitas alat ukur nampak sangat jelas penggunaannya pada penelitian dengan pendekatan kauntitatif, karena penghitungan tingkat valititas dan reliabilitas pada umumnya juga menggunakan teknik statistik.
Kerlinger (1986: 443) mengemukakan bahwa reliabilitas dapat ukur dari tiga kriteria yaitu:
a)      Stability, adalah kriteria yang menunjuk pada keajegan (konsistensi) hasil yang ditunjukan alat ukur dalam mengukur gejala yang sama, pada waktu yang berbeda.
b)      Dependability, yaitu kriteria yang mendasarkan diri pada kemantapan alat ukur atau seberapa jauh alat ukur dapat diandalkan.
c)      Predictability, karena perilaku merupakan proses yang saling berkait dan berkesinambungan, maka kriteria ini mengidealkan alat ukur yang dapat diramalkan hasilnya dan meramalkan hasil pada pengukuran gejala selanjutnya.
Dengan mencermati pendapat di atas, maka batas reliabilitas atau keajegan dapat diartikan sebagai konsistensi skor yang diperoleh dari orang yang sama, pada gejala yang sama. Untuk itu ada kemungkinan skor pembanding, mungkin berupa skor yang diperoleh dari alat ukur yang sama pada kesempatan yang berbeda, atau skor yang diperoleh dari alat ukur lain yang seimbang. Kerlinger menyatakan bahwa reliabilitas instrumen dikatakan baik bila alat tersebut dikenakan pada obyek yang sama, akan mendapatkan hasil yang sama pada beberapa kesempatan yang berbeda.
Hal yang menjadi permasalahan dalam reliabilitas adalah kesalahan dalam penggunaan suatu alat ukur, semakin kecil kemungkinan kesalahan terjadi, maka akan semakin reliabel alat ukur tersebut. Dijelaskan lebih jauh bahwa reliabilitas alat ukur dapat ditingkatkan dengan cara memperbanyak butir item, dengan alasan bahwa secara statistik jumlah item yang banyak akan meningkatkan reliabilitas alat ukur. Meningkatkan reliabilitas alat ukur dapat pula dilakukan dengan menggunakan petunjuk pengerjaan yang jelas dan dengan menggunakan istilah-istilah yang jelas, sesuai dengan tingkat pengetahuan dan bahasa responden, sehingga tidak menimbulkan keraguan atau kesalahpahaman dalam pengisian.

Pengukuran reliabilitas mendasarkan diri pada “measurement error” yaitu kesalahan yang bersumber dari proses pengukuran. Sehingga kesalahan dapat disebabkan oleh alat ukur ataupun dari perubahan-perubahan gejala yang diukur. Dalam penelitian sosial termasuk perilaku, sumber kesalahan pengukuran dapat ditengarai dari berbagai faktor diantaranya adalah (Kartono, 1996: 125):
a)        Hakekat dari gejala perilaku yang mudah sekali berubah, dan tidak dapat diulang dengan kondisi dan hasil yang sama, sebagai akibatnya hasil pengukuran perilaku juga akan selalu mengalami fluktuasi sejalan dengan perubahan waktu, dan kondisi-kondisi yang ada di sekitarnya.
b)        kondisi pribadi yang ada pada diri seseorang bersifat tidak menetap, baik yang menyangkut tingkat kelelahan, suasana hati, dan sebagainya. Hal ini akan mempengaruhi perilaku, dan hasil pengukurannya.
c)        ketidakmantapan hasil pengukuran juga dapat disebabkan oleh validitas alat ukur yang rendah, situasi pengukuran yang berubah-ubah, ketidakmantapan dalam pelaksanaan pengukuran maupun interpretasi terhadap hasil pengamatan serta kecermatan dalam pengadminstrasian perlu mendapat perhatian.
Dengan mendasarkan diri pada keterbatasan penelitian sosial dan perilaku, maka dipahami bahwa angka yang diperoleh sebagai hasil pengukuran gejala sosial dan perilaku akan selalu berupa True score + error. Error yang terjadi bisa berarti skor yang diperoleh terlalu tinggi atau terlalu rendah. Sumber error (kesalahan atau penyimpangan) dapat berasal dari alat ukur, kondisi responden, pelaksanaan pengukuran ataupun interpretasi dan pengadministrasian. Langkah-langkah untuk menguji reliabilitas alat ukur pada dasarnya merupakan upaya untuk dapat mengetahui seberapa besar “salah ukur” dalam upaya mengukur gejala perilaku sebagai variabel penelitian. Hasil yang diperoleh disebut dengan “Indeks Reliability”.
Koefisien reliabilitas selalu berada dalam rentangan 0 sampai dengan 1 yang menunjuk pada persentase varian error dengan sumber variasi yang berbeda. Misalnya koefisien reliabilitas menunjukkan 0.74 berarti 74 % varian skor yang bersumber pada keadaan yang diukur, sedang 26 % adalah kesalahan atau varian error yang bersumber dari keadaan di luar variabel yang diukur. Cara mencari koefisien reliabilitas alat ukur, dapat dilakukan dengan menggunakan beberapa cara, yang masing-masing mempunyai kekurangan dan keunggulan. Berbagai pilihan tentang cara menetapkan tingkat reliabilitas alat ukur tersebut adalah:

1) Teknik Pengulangan (Test and Re Test Reliability)
Cara ini disebut sebagai teknik ulangan, karena dilakukan dengan memberikan dua kali pengukuran dengan rentang waktu tertentu dengan menggunakan alat ukur yang sama. Skor yang diperoleh pada pengukuran pertama dikorelasikan dengan skor dari hasil pengukuran pada pengukuran yang kedua. Koefisien yang diperoleh dengan cara ini menunjuk pada derajad stabilitas alat ukur. Pada umumnya sumber error pada teknik pengulangan ini dapat bersumber dari berbagai faktor yang menyebabkan seseorang mempunyai skor berbeda pada saat dua kali mengerjakan tes yang sama. Sangat mungkin perubahan skor yang terjadi bukan karena perubahan hal yang diukur, tetapi karena situasi yang berbeda atau pengalaman dari responden pada saat mengerjakan soal yang pertama, sehingga dalam pengerjaan tes kedua lebih hati-hati dan lebih baik hasilnya. Kebaikan utama dari cara ini adalah: karena sobyek dan alat pengukuran yang digunakan sama, akan dapat memperkecil kemungkinan masuknya sumber error yang lain, tetapi perlu pula dipertimbangkan bahwa penggunaan sobyek dan alat ukur yang sama dalam dua kali pengukuran, sekaligus juga merupakan kelemahan yang disebabkan karena adanya pengalaman mengerjakan akan mempengaruhi hasil pada pengukuran yang kedua.

2) Teknik Bentuk Paralel (Alternate Form Reliability)
Mencari reliabilitas dengan teknik bentuk parallel dilakukan dengan cara pengukuran pada subyek yang sama tetapi menggunakan alat ukur berbeda yang mempunyai tingkat kesamaan. Dengan cara ini peneliti perlu mempersiapkan dua set alat ukur yang berbeda dengan mempertimbangkan keseimbangan di antara kedua alat ukur tersebut. Keseimbangan diperlukan karena alat ukur ini ditujukan untuk mengukur gejala yang sama. Teknik ini sering juga disebut sebagai Parallel Test Reliability.
Penggunaan dua set alat ukur dimaksudkan untuk mengurangi kemungkinan terjadinya pengaruh ingatan terhadap pengukuran yang pertama. Teknik ini dapat dilakukan dengan mengadakan pengukuran dengan alat ukur yang pertama berturutan waktunya dengan pengukuran dengan menggunakan alat ukur yang kedua pada subyek yang sama. Kemudian skor dari pengukuran alat ukur yang pertama dikorelasikan dengan skor hasil pengukuran yang kedua. Koefisien korelasi yang diperoleh akan mengungkap derajad ekuivalensi dan indeks stabilitas. Kemungkinan kesalahan pada cara ini dapat bersumber dari derajat keseimbangan antara dua alat ukur tersebut, serta kondisi yang mungkin berbeda pada saat pengukuran pertama dengan pengukuran kedua, meskipun dilakukan secara berturutan.
3) Teknik belah dua (Split Half reliability)
Teknik belah dua ini dikembangkan dengan menggunakan satu jenis alat ukur, dan hanya diberikan satu kali pada subyek, kemudian hasilnya diolah sedemikian rupa. Yaitu dengan cara mengelompokkan butir-butir itemnya menjadi dua bagian sama besar (belah dua). Pembagian item menjadi dua kelompok sama besar dapat dilakukan dengan cara acak atau pengelompokan berdasar nomor ganjil-genapderajad ekuivalensi antara dua belahan tersebut. Teknik ini baru mencerminkan koefisien reliabilitas dari masing-masing belahan tersebut. Oleh karenanya untuk mendapatkan gambaran koefisien secara keseluruhan, koefisien antar belahan tersebut masih perlu dikoreksi dengan rumus sebagai berikut:

N r x1 x2 Reliability = 1 + r x1 x2

Dimana x1 adalah skor dari belahan satu, x2 adalah skor dari belahan kedua, dan n adalah banyaknya subyek pada setia bagian (belahan). Rumus tersebut didasarkan pada asumsi bahwa kedua belahan mengukur hal yang sama, yang memiliki varian yang sama.

4) Kuder Richardson Reliability
Cara ini diberlakukan bila instrumen digunakan untuk mengukur satu gejala psikologis atau perilaku yang sama, artinya alat ukur tersebut dapat dikatakan reliabel bila terbukti ada konsistensi jawaban antar item yang satu dengan item yang lain. Sehingga apabila sifat dan tingkatan homogenitas antar item tidak terpenuhi, artinya alat tersebut dianggap mengukur lebih dari satu variabel. Bila dalam kenyataan dalam satu instrumen terdapat lebih dari satu skala pengukuran atau mengukur lebih dari satu variabel, dan setiap variabel memiliki beberapa dimensi, maka pengecekan reliabilitas dilakukan terhadap masing-masing skala pengukuran. Model Kuder Richardson Reliability ini menghasilkan koefisien konsistensi internal yang menunjuk pada derajad konsistensi antara item yang satu dengan item yang lain. Sehingga lebih cocok untuk alat ukur yang menggunakan item dua pilihan dengan salah satu jawaban benar.


5.        ronbach Alpha Reliability
Cara ini juga dikembangkan untuk mengujir konsistensi internal dari suatu alat ukur, perbedaan pokok dengan model Kuder Richardson adalah bahwa teknik ini tidak hanya untuk instrumen dengan dua pilihan tetapi tidak terikat pada dua pilihan saja, sehingga penerapannya lebih luas. Misalnya untuk menguji reliabilitas skala pengukuran sikap dengan 3, 5 atau 7 pilihan. Satu hal yang tak kalah pentingnya adalah indeks sensitivitas, yang merupakan perbedaan kemampuan peserta didik antara setelah mengikuti proses pembelajaran dengan sebelum mengikuti proses pembelajaran. Indeks ini menyatakan tingkat keberhasilan peserta didik dalam mengikuti porses pembelajaran dan keberhasilan
guru dalam melaksanakan proses pembelajaran. Besarnya indek yang baik adalah
positif dan besar. Indeks ini sering dinyatakan dalam bentuk formula seperti berikut ini:
=

RA = Jumlah peserta didik yang menjawab benar setelah mengikuti proses pembelajaran
RB = Jumlah peserta didik yang menjawab benar sebelum mengikuti proses pembelajaran
T     = Jumlah peserta didik yang mengikuti ujian.










BAB III
PENUTUP

A.  Kesimpulan

Tes secara sederhana dapat diartikan sebagai himpunan pertanyaan yang harus dijawab, pernyataan-pernyataan yang harus dipilih/ditanggapi, atau tugastugas yang harus dilakukan oleh peserta tes dengan tujuan untuk mengukur suatu aspek tertentu dari peserta tes. Untuk dapat menjadi alat ukur yang baik dan dapat memberikan informasi yang akurat maka setiap soal sebagai bagian dari konstruksi tes harus dijaga kualitasnya. Ada beberapa kriteria yang dapat dipakai untuk menyusun butir-butir tes yang berkualitas yaitu; (1) valid, (2) relevan, (3) spesifik, (4) representatif, (5) seimbang (6) sensitif, (7) fair, dan (8) praktis Validitas sebagai kriteria mutlak tes sebagai instrument terbagi menjadi 5 jenis yaitu; (1) validitas permukaan (face validity), (2) validitas konsep (construct validity), (3) validitas isi (content validity), (4) concurrent validity, dan (5) factorial validity.














DAFTAR PUSTAKA

Arikunto, S. (2002). Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Balitbang Depdiknas. (2006). Panduan Penilaian Berbasis Kelas. Jakarta:  Depdiknas.
Silverius, S. (2001). Evaluasi Hasil Belajar dan Umpan Balik. Jakarta: Gramedia Widya Sarana
Sudiyono, A. (1996). Pengantar Evaluasi Pendidikan. Jakarta: PT Raja Grafindo Persada.
Syaifuddin, A. (2002). Test Prestasi. Yogyakarta.