
Studi eksperimental mengungkap hasil mengejutkan: AI yang bekerja penuh justru lebih baik merekrut guru berkualitas dibanding manusia yang dibantu AI. Lho kok bisa?
Bayangkan Anda melamar kerja dan esai lamaran Anda dinilai oleh tiga juri berbeda: Manusia saja, manusia yang dibantu AI, dan AI murni. Siapa yang paling tepat menebak bahwa Anda kandidat terbaik? Jawabannya mengejutkan.
Studi yang baru dirilis University of Zurich (2025) meski peristiwanya April 2023, melakukan eksperimen lapangan terhadap 697 pelamar fellowship mengajar di pedesaan Ghana. Hasilnya menantang asumsi kita tentang bagaimana AI seharusnya digunakan dalam proses rekrutmen.
Peneliti menyisipkan GPT-4 ke dalam proses rekrutmen organisasi nonprofit yang merekrut lulusan universitas untuk mengajar di sekolah pedesaan Ghana selama dua tahun. Setiap aplikasi dinilai dengan tiga cara berbeda:
- Human-Only: Penilai manusia bekerja sendiri tanpa bantuan AI
- Human-with-AI-Assistance: Penilai manusia menerima rekomendasi nilai dari AI sebelum memutuskan
- AI-Only: GPT-4 sepenuhnya yang menilai dan memutuskan
Para pelamar harus menjawab enam pertanyaan esai yang dinilai berdasarkan kriteria ketat, mulai dari motivasi, filosofi pendidikan, hingga kepemimpinan. Yang lolos tahap ini akan diundang wawancara tatap muka, kemudian baru diberi tawaran kerja.
Hasilnya mencengangkan: Kandidat yang dinilai sepenuhnya oleh AI memiliki tingkat keberhasilan 73% lebih tinggi dalam diterima kerja dibanding mereka yang dinilai manusia saja. Bahkan ketika manusia diberi bantuan AI, hasilnya tidak lebih baik dari manusia yang bekerja sendiri. Mengapa?
Ternyata, ketika diberi rekomendasi AI, penilai manusia mengabaikannya dalam 80% kasus. Mereka lebih sering menolak saran AI daripada mengikutinya. Bahkan waktu penilaian justru bertambah 13-17% ketika ada bantuan AI—produktivitas malah turun.
Ini bukan karena penilai manusia malas. Justru mereka bekerja lebih keras: membaca ulang esai, mempertimbangkan rekomendasi AI, lalu tetap mengikuti penilaian sendiri. Unsur bias dan yang lain dibahas pula dalam laporan riset ini.
Jejak ChatGPT dalam Esai Lamaran
Kunci memahami hasil ini ada pada konteks waktu: eksperimen dilakukan hanya beberapa bulan setelah ChatGPT diluncurkan (April 2023). Dan para pelamar sudah menggunakannya!
Menggunakan teknologi deteksi AI canggih (Pangram Text), peneliti menemukan 60% pelamar menggunakan AI untuk menulis setidaknya satu esai, dan 32% aplikasi sepenuhnya ditulis AI.
Esai yang ditulis AI memiliki ciri khas:
- Lebih panjang 11%
- Lebih kompleks (skor keterbacaan lebih rendah)
- Lebih sedikit informasi spesifik tentang pelamar
- Semantik yang berbeda—membentuk kluster tersendiri dalam analisis teks
Manusia vs AI: Siapa yang Lebih Objektif?
Baik manusia maupun AI memberi nilai lebih tinggi pada esai buatan AI (keduanya sekitar 10-13% lebih tinggi). Tapi inilah perbedaan krusialnya:
GPT-4 menilai murni berdasarkan kriteria yang ditetapkan organisasi. Ai hanya menilai apakah esai menjawab pertanyaan dengan baik, terstruktur, menunjukkan pemahaman mendalam, AI tidak peduli siapa atau apa yang menulis esai tersebut.
Manusia, sebaliknya, cenderung mendiskonto esai buatan AI. Mereka melihatnya sebagai tanda negatif—kandidat malas, tidak autentik, atau tidak serius. Gap penilaian antara manusia dan AI untuk esai buatan AI 25% lebih besar dibanding esai non-AI.
Yang menarik: persepsi ini berkembang seiring waktu. Di awal penilaian, manusia memberi nilai hampir sama dengan AI untuk esai buatan ChatGPT. Tapi makin banyak aplikasi yang mereka baca, makin mereka “belajar” mendeteksi pola AI, dan makin rendah nilai yang mereka berikan.
Mengapa Manusia Tidak Percaya AI Asisten?
Ketika penilai manusia melihat rekomendasi AI, mereka kehilangan kepercayaan karena:
- AI tidak memperhitungkan penggunaan ChatGPT oleh pelamar—sesuatu yang penilai manusia anggap penting;
- Penilai generalisir berlebihan: “Jika AI tidak bisa deteksi esai ChatGPT, mungkin AI juga tidak bisa bedakan kandidat bagus dan buruk”;
- Misalignment persepsi: Penilai manusia (yang adalah guru berpengalaman) punya pandangan sendiri tentang apa yang membuat guru baik, yang tidak selalu sejalan dengan kriteria formal organisasi.
AI Menang Telak soal Produktivitas
Dalam konteks produktivitas penilaian:
- AI-Only: Konsisten, cepat, mengikuti rubrik dengan tepat
- Human-Only: Bervariasi antar penilai (tingkat kesepakatan antarpenilai hanya 44%), cenderung subjektif
- Human-with-AI-Assistance: Yang terburuk—memakan waktu paling lama, tanpa hasil lebih baik
Bahkan untuk kasus yang sama, dua penilai manusia yang berbeda hanya sepakat dalam 44% kasus. Bandingkan dengan AI yang dijalankan dua kali pada esai yang sama: tingkat kesepakatan 80%.
Siapa yang Benar-Benar Lebih Akurat?
Untuk mengecek siapa yang lebih tepat menilai, peneliti melihat korelasi antara nilai tahap awal dengan performa kandidat di wawancara tatap muka:
- AI-Only: Korelasi 0.33 (paling kuat)
- Human-with-AI-Assistance: Korelasi 0.13
- Human-Only: Korelasi 0.05 (paling lemah)
Nilai AI ternyata paling prediktif terhadap performa kandidat di tahap selanjutnya. Bahkan ketika hanya 10 kandidat teratas yang dibandingkan, mereka yang dipilih AI 113% lebih mungkin menerima tawaran kerja dibanding yang dipilih manusia.
Implikasi untuk Dunia Kerja Era AI
Studi ini memberikan beberapa pelajaran penting:
1. Otomasi Penuh Bisa Lebih Baik daripada Augmentasi
Berlawanan dengan narasi populer bahwa AI terbaik adalah “copilot” bagi manusia, studi ini menunjukkan untuk tugas tertentu (skrining kandidat berdasarkan kriteria ketat), otomasi penuh justru lebih efektif.
2. Bias Manusia vs Bias AI
Manusia membawa bias berbasis konteks sosial (stigma terhadap penggunaan ChatGPT). AI membawa bias berbasis data training. Dalam kasus ini, bias AI (atau lebih tepatnya, ketiadaan bias terhadap alat yang digunakan kandidat) ternyata lebih selaras dengan tujuan organisasi: merekrut guru terbaik.
3. Trust dalam AI Tidak Otomatis
Menyediakan AI sebagai asisten tidak otomatis meningkatkan kinerja. Diperlukan:
- Penyesuaian antara cara AI bekerja dengan nilai pengguna
- Transparansi tentang apa yang AI pertimbangkan (dan tidak pertimbangkan)
- Pelatihan untuk memahami kapan harus percaya AI
4. Pertanyaan Etis Baru
Studi ini membuka pertanyaan: Haruskah penggunaan AI oleh kandidat diperhitungkan dalam penilaian?
- Argumen “tidak”: Yang penting adalah kualitas output, bukan proses pembuatannya. Jika seseorang bisa menggunakan tools untuk menghasilkan aplikasi berkualitas, itu justru menunjukkan kecerdasan dan kemampuan adaptasi.
- Argumen “ya”: Aplikasi seharusnya mencerminkan kemampuan autentik kandidat. Esai buatan AI bisa menyembunyikan kekurangan dan menciptakan false positive. False positive adalah saat sesuatu yang seharusnya “tidak tepat/tidak ada” tetapi dinilai “tepat/eksis”.
5. Masa Depan yang Kompleks
Penting dicatat: eksperimen ini dilakukan di masa transisi (awal 2023), ketika ChatGPT baru dirilis dan belum masif digunakan. Sekarang (2025), situasinya bisa berbeda:
- Hampir semua orang tahu dan banyak yang menggunakan AI untuk aplikasi pekerjaan
- Manajer rekrutmen lebih familier dengan AI
- Ekspektasi tentang penggunaan AI dalam pekerjaan telah berubah
Catatan Penting
Bagi pencari kerja:
- AI tools seperti ChatGPT bisa membantu, tapi jangan sepenuhnya mengandalkannya
- Pastikan aplikasi tetap mencerminkan diri Anda yang autentik
- Kombinasikan AI dengan insight dan pengalaman personal
Bagi perekrut/HR:
- Pertimbangkan otomasi untuk tahap skrining awal dengan kriteria jelas
- Jika menggunakan AI sebagai asisten, pastikan penilai manusia dilatih kapan harus percaya AI
- Definisikan dengan jelas: apa yang ingin Anda ukur dan apakah penggunaan AI oleh kandidat relevan
Bagi pembuat kebijakan:
- Regulasi perlu mengikuti perkembangan: apakah transparansi penggunaan AI oleh kandidat harus diwajibkan?
- Standarisasi tools deteksi AI-generated content
- Pertimbangkan implikasi keadilan: akses ke AI tools berkualitas bisa ciptakan kesenjangan baru
Peneliti menekankan bahwa hasil ini bukan rekomendasi universal. Ini adalah snapshot atau cuplikan dari momen spesifik (awal era ChatGPT) dalam konteks spesifik (rekrutmen guru di Ghana). Teknologi AI terus berkembang, dan cara terbaik menggunakannya juga akan terus berubah.
Yang jelas: debat “otomasi vs augmentasi” tidak bisa dijawab secara hitam-putih. Jawabannya tergantung pada tugas spesifik, konteks organisasi, dan bagaimana sistem dirancang.
*Photo by Dylan Gillis via Unsplash


