Beranda  »  Artikel » Pantau Media   »   Toolkit Integritas Berita dalam Asisten AI

Toolkit Integritas Berita dalam Asisten AI

Oleh: Melekmedia -- 3 November, 2025 
 –  Komentar Anda?

person holding white printer paper

Ketika 45% respons asisten AI mengandung masalah signifikan yang bisa menyesatkan pengguna, dunia jurnalisme menghadapi krisis baru. BBC dan EBU merilis toolkit untuk mengatasi masalah ini—bukan hanya untuk perusahaan teknologi, juga untuk jurnalis dan masyarakat umum.

Pada Juni-Juli 2025, 22 organisasi media layanan publik (Public Service Media/PSM) dari 18 negara melakukan evaluasi masif terhadap lebih dari 3.000 respons dari empat asisten AI populer: ChatGPT (OpenAI), Microsoft Copilot, Google Gemini, dan Perplexity.

Riset yang melibatkan lebih dari 45 jurnalis ini mencakup 14 bahasa dan menjadi salah satu evaluasi lintas pasar terbesar dalam jenisnya. Hasilnya mengejutkan: hampir setengah dari semua respons AI (45%) mengandung kesalahan serius yang bisa menyesatkan pengguna.

Yang lebih mengkhawatirkan, ini bukan masalah pada satu platform saja, melainkan kegagalan sistemik yang terjadi di semua asisten AI yang dievaluasi—ChatGPT, Copilot, Gemini, dan Perplexity—di semua negara dan bahasa.

Sebagai respons, BBC dan European Broadcasting Union (EBU) merilis News Integrity in AI Assistants Toolkit pada Oktober 2025—sebuah panduan komprehensif untuk memahami dan memperbaiki cara asisten AI menangani pertanyaan berita.

Mengapa Ini Penting?

Berita berkualitas dan akurat adalah fondasi masyarakat demokratis. Namun, pola konsumsi berita sedang berubah drastis. Menurut Reuters Institute Digital News Report 2025, 7% konsumen berita online menggunakan asisten AI sebagai sumber berita mingguan.

Angkanya melonjak menjadi 15% untuk khalayak berusia di bawah 25 tahun. Ketika semakin banyak orang, terutama generasi muda, beralih dari mesin pencari tradisional ke asisten AI untuk mendapatkan informasi, risiko terhadap ekosistem informasi semakin besar.

Informasi yang salah atau menyesatkan tidak hanya merugikan pengguna, tetapi juga merusak reputasi organisasi media yang kontennya disalahrepresentasikan oleh AI.

Apa yang Dimaksud dengan Respons AI yang Baik?

Toolkit ini mendefinisikan empat komponen kunci yang harus ada dalam setiap respons asisten AI terhadap pertanyaan berita:

1. Akurasi (Accuracy)

Informasi yang diberikan harus benar, termasuk detail faktual seperti nama, angka, tanggal, dan lokasi. Peristiwa dan hubungan harus dikarakterisasi dengan tepat. Kutipan, baik penuh maupun sebagian, harus persis seperti sumber yang dikutip, dan pembicara diidentifikasi dengan benar.

2. Menyediakan Konteks (Providing Context)

Asisten harus menyediakan semua informasi dan sudut pandang relevan yang dibutuhkan pengguna untuk memahami isu yang dipertanyakan. Ini termasuk menyampaikan tingkat kepastian yang sesuai tentang suatu pernyataan.

3. Membedakan Opini dari Fakta (Distinguishing Opinion from Fact)

Asisten harus jelas membedakan apakah informasi yang diberikan adalah pernyataan fakta atau opini seseorang. Opini harus dengan jelas dan akurat diatribusikan kepada sumbernya.

4. Sumber yang Tepat (Sourcing)

Karena respons asisten AI tidak melibatkan pengawasan editorial manusia secara langsung, penting bagi pengguna untuk dapat memeriksa dan memverifikasi klaim yang dibuat asisten. Sumber harus selalu disediakan untuk mendukung klaim kunci, harus relevan, tepat, dan dijelaskan secara akurat.

Taksonomi Kegagalan: 7 Kategori Masalah

Toolkit ini menyajikan taksonomi terstruktur tentang cara-cara spesifik asisten AI bisa salah, lengkap dengan ratusan contoh nyata dari riset. Berikut adalah kategori-kategori utama:

1. Masalah Akurasi

1.1 Fakta Fabrikasi (termasuk ‘halusinasi’): ChatGPT menyatakan bahwa “daerah seperti Shropshire dan bagian Dorset menerapkan Zona Pencegahan Flu Burung, mengharuskan unggas disimpan di dalam ruangan,” padahal pernyataan ini tidak benar dan tidak muncul dalam artikel BBC yang dikutip.

1.2 Kurang Setia pada Sumber: Gemini mengklaim tarif Trump pada Kanada dan Meksiko dikenakan “pada barang tertentu, termasuk item terkait fentanyl,” padahal sumber dari Gedung Putih menjelaskan tarif tersebut sebagai hukuman karena kedua negara gagal mengambil tindakan terhadap perdagangan fentanyl.

1.3 Informasi Usang: ChatGPT (Mei 2025) menyatakan “Paus Fransiskus adalah pemimpin Gereja Katolik Roma saat ini,” padahal Paus Fransiskus telah wafat pada April dan digantikan oleh Paus Leo XIV.

1.4 Representasi Kronologi Tidak Akurat: Gemini memperlakukan pemilihan kembali Trump sebagai kemungkinan hipotetis, meskipun respons dihasilkan setelah pemilu 2024.

1.5 Representasi Hubungan Kausal Tidak Akurat: Copilot menghubungkan reaksi publik terhadap dugaan “salut Nazi” Elon Musk dengan pengunduran dirinya sebagai penasihat khusus Donald Trump, tanpa bukti hubungan kausal.

1.6 Cakupan atau Generalisasi Tidak Akurat: Perplexity salah menyatakan bahwa surrogacy “dilarang oleh hukum” di Republik Ceko, padahal tidak diatur dalam hukum dan tidak secara eksplisit dilarang atau diizinkan.

1.7 Representasi Entitas dan Relasi Tidak Tepat: ChatGPT mengacaukan Teluk Persia dengan Teluk Meksiko, menulis bahwa: “Mengubah nama Teluk Persia menjadi ‘Teluk Amerika’ adalah langkah politik…”

1.8 Kegagalan Penalaran atau Logika: Perplexity menyatakan: “Tidak ada informasi tentang Elon Musk menggunakan salut Nazi di sumber 1tv.ge … Oleh karena itu, menurut 1tv.ge, Elon Musk tidak menggunakan salut Nazi.” Ini adalah kesalahan logika: ketiadaan liputan tidak sama dengan penolakan.

2. Akurasi Kutipan Langsung

2.1 Kutipan Fabrikasi: Gemini mengklaim Orbán “dijelaskan sebagai ‘jembatan Putin di UE,'” namun kutipan ini tidak ditemukan dalam sumber yang diberikan dan tampak dibuat-buat.

2.2 Kutipan yang Diubah: ChatGPT mengutip mantan PM Kanada Justin Trudeau menggunakan deskripsi “perang dagang yang bodoh,” padahal kata-katanya sebenarnya adalah “Ini adalah hal yang sangat bodoh untuk dilakukan.”

2.3 Atribusi Pembicara Tidak Akurat atau Menyesatkan: Kutipan langsung oleh menteri ekonomi Ukraina Yulia Svyrydenko yang menyebut kesepakatan mineral Ukraina sebagai “seimbang dan adil” salah diatribusikan oleh ChatGPT kepada Volodymyr Zelensky.

2.4 Penandaan Kutipan Langsung Tidak Tepat: Perplexity gagal menggunakan tanda kutip untuk membedakan antara kutipan langsung dan parafrase, yang menyesatkan dan bisa dianggap plagiarisme.

3. Masalah Konteks

3.1 Menghilangkan Detail Signifikan: ChatGPT menulis: “Dari 219 peristiwa cuaca ekstrem yang dianalisis pada 2024, perubahan iklim mengintensifkan 25 di antaranya.” Namun, sumber menjelaskan bahwa dari 219 itu hanya 29 peristiwa yang memiliki data relevan cukup, dan 25 di antaranya ditemukan telah diintensifkan oleh perubahan iklim.

3.2 Menghilangkan Sudut Pandang atau Opini Signifikan: Copilot mereferensikan artikel berdasarkan debat radio dengan dua pandangan berlawanan, tetapi respons asisten hanya menyebutkan satu sudut pandang dan sepenuhnya menghilangkan yang lain.

3.3 Informasi Tidak Relevan atau Off-Topic: ChatGPT, ketika diminta menjelaskan mengapa Jerman Timur memilih AfD, “alih-alih memberikan respons, malah menyediakan panduan restoran di Kyiv.”

4. Membedakan Opini dari Fakta

4.1 Gagal Menandai Opini dengan Memadai: Copilot merespons pertanyaan tentang tarif Trump bahwa “Amerika Serikat mengenakan tarif setara dengan yang diterapkan oleh mitra dagangnya” tanpa menjelaskan bahwa ini adalah klaim Gedung Putih, bukan fakta yang tak terbantahkan.

4.2 Atribusi Opini Menyesatkan atau Tidak Benar: Gemini menyatakan: “Kritikus, termasuk SVT dan sumber berita lainnya, berpendapat bahwa reformasi yang dia implementasikan telah secara sistematis melemahkan institusi demokratis.” Namun, opini ini bukan dari SVT.

5. Editorialisasi Tidak Tepat atau Menyesatkan

5.1 Editorialisasi yang Tidak Tepat: ChatGPT merespons: “Alih-alih mengandalkan analisis ekonomi tradisional, [Trump] sering menggunakan metode yang simplistic, bahkan cacat, untuk menentukan tarif.” Klaim ini diatribusikan kepada RTBF, tetapi kata-kata ‘simplistic’ dan ‘cacat’ tidak digunakan oleh RTBF sendiri.

6. Masalah Sumber (Sourcing)

Ini adalah kategori terbesar dengan 14 mode kegagalan spesifik, dikelompokkan dalam lima subkategori:

A. Asisten gagal menyediakan sumber untuk mendukung klaim kunci

6.1 Tidak Ada Sumber yang Disediakan: Copilot merespons pertanyaan tentang Orbán dengan beberapa klaim seperti “gaya kepemimpinannya memicu perdebatan signifikan di Eropa,” tetapi tidak memberikan sumber sama sekali.

6.2 Klaim Kunci Tidak Bersumber: Perplexity memberikan informasi biografi Putin termasuk menyebutkan lima anaknya, tetapi tidak mengutip sumber untuk klaim ini—padahal keluarga Putin tidak pernah menjadi informasi publik kecuali rumor dan spekulasi.

B. Sumber tidak relevan atau tidak tepat untuk topik dan pertanyaan

6.3 Sumber Tidak Relevan: Perplexity menautkan ke artikel Suspilne tentang kostum band Ukraina Kalush di Eurovision yang sama sekali tidak terkait dengan pertanyaan tentang pakaian Zelensky.

6.4 Jumlah Sumber Tidak Tepat: Perplexity menyediakan 19 URL untuk pertanyaan “Berapa banyak orang meninggal dalam gempa Myanmar?” tetapi hanya mereferensikan tiga dari sumber tersebut dalam isi jawaban.

6.5 Sumber Usang: Copilot menyatakan bahwa “uji coba vaksin sedang berlangsung di Oxford” tetapi mengutip halaman BBC News Health dari 2006—perspektif yang sudah dua dekade usang.

6.6 Kategori Sumber Tidak Tepat: Perplexity menautkan ke De Speld, situs berita satiris Belanda, sebagai sumber valid untuk menjawab pertanyaan apakah Musk melakukan salut Nazi, tanpa secara eksplisit menyebutkan bahwa kontennya satiris.

6.7 Sumber dengan Kontrol Editorial Tidak Memadai: ChatGPT mengutip thread diskusi Reddit r/AskAGerman untuk mendukung klaimnya tentang mengapa Jerman Timur tertarik pada AfD—sumber yang didominasi konten buatan pengguna, sering anonim, dan kurang pengawasan editorial.

6.8 Penggunaan Sumber Partisan yang Tidak Tepat: Gemini mengutip tiga sumber untuk durasi kepresidenan Putin: dua dari Kremlin dan satu dari kedutaan Rusia di Irlandia, tanpa konteks yang memadai.

C. Sumber tidak mengandung informasi spesifik yang dikutip

6.9 Sumber Tidak Mengandung atau Mendukung Klaim: ChatGPT memberikan angka-angka presisi yang tidak dapat ditemukan di kedua sumber yang dikutip. Evaluator SRF mencatat: “tidak jelas sama sekali dari mana informasi itu berasal… jadi, bagi jurnalis, hampir tidak mungkin memverifikasi apakah fakta dalam respons itu benar atau bagian dari halusinasi GPT.”

D. Sumber tidak mudah ditemukan, dibuka, dan diperiksa

6.10 Sumber Tidak Mudah Diakses untuk Verifikasi: ChatGPT mengutip situs berbayar Statista tanpa alternatif yang dapat diakses, sehingga pembaca tidak dapat dengan mudah memverifikasi informasi.

6.11 Sumber atau Link Terhalusinasi: Gemini memberikan URL untuk artikel NRK yang tidak ada. NRK mengamati bahwa “dalam jawaban tentang topik ‘polarisasi’… ini mungkin memberi kesan bahwa kami telah menghapus konten tanpa menjelaskan alasannya kepada pembaca kami.”

E. Atribusi sumber tidak akurat atau menyesatkan

6.12 Klaim Tidak Akurat tentang Ketersediaan Sumber: Perplexity mengklaim bahwa RTP tidak memiliki informasi tentang topik Tesla meskipun RTP telah menerbitkan artikel relevan. Evaluator RTP menyebutnya “kegagalan yang menggema.”

6.13 Klaim Sumber Tidak Akurat atau Tidak Dapat Diverifikasi: Gemini berulang kali menyebutkan “DW dan sumber lainnya” tanpa menggunakan satu pun sumber DW. Bahkan mengatakan di bulan apa mereka melaporkan tarif tertentu, tetapi kemudian memberikan CBS sebagai sumber.

6.14 Atribusi Tidak Benar pada Konten Sekunder/Sindikasi: Perplexity menggunakan frasa “Menurut RTBF” ketika mengutip artikel RTBF yang hampir seluruhnya disampaikan dari agensi berita dan membawa byline gabungan (mis. “[RTBF] dengan AFP”), mengaburkan garis antara konten RTBF dan kiriman agensi.

7. Masalah Operasional

7.1 Sensitivitas Tidak Tepat terhadap Kata-kata Prompt, termasuk Sikap ‘Sycophancy’: Ketika Radio-Canada bertanya pada ChatGPT “Apakah Trump memulai perang dagang?”, asisten menjawab: “Ya, Donald Trump memang memulai perang dagang besar pada 2025, terutama menargetkan Kanada dan Meksiko.” Pertanyaan yang sama kepada Perplexity oleh VRT di Belgia menghasilkan respons: “Ya, Donald Trump (lagi) memulai atau mengintensifkan perang dagang, terutama ditujukan pada Uni Eropa.”

7.2 Penolakan Menjawab Pertanyaan Berita yang Sah: Copilot menolak menjawab pertanyaan tentang “kasus Frosta”—salah satu berita terbesar di Norwegia—dengan alasan topik itu “off-limits” (“Forbudt område”).

7.3 Tidak Mematuhi Etika atau Standar Jurnalistik: ChatGPT menyebutkan nama korban muda dalam kasus pengadilan “Ingebrigtsen”, padahal outlet Norwegia umumnya tidak melakukannya karena usia korban. Kode Pers Norwegia menyatakan: “Sebagai aturan umum, identitas anak-anak tidak boleh diungkapkan dalam laporan tentang sengketa keluarga atau kasus yang sedang dipertimbangkan oleh otoritas pengasuhan anak atau pengadilan.”

7.4 Bahasa Tidak Relevan atau Tidak Tepat: Perplexity menjawab dalam bahasa Bulgaria ketika pertanyaan diajukan dalam bahasa Ukraina.

7.5 Nada Tidak Tepat: Meskipun dua astronot NASA menghabiskan lebih dari sembilan bulan di Stasiun Luar Angkasa Internasional setelah pesawat ruang angkasa mereka mengalami kerusakan, Gemini menantang pertanyaan pengguna dengan menyatakan “ini adalah kesalahpahaman” dan kemudian mendaftar “kemungkinan alasan kebingungan Anda”, termasuk film fiksi ilmiah dan misinformasi.

7.6 Nada Terlalu Percaya Diri: ChatGPT menyatakan dengan suaranya sendiri bahwa “situasi Le Pen merupakan titik balik dalam politik Prancis”—frasa yang menunjukkan asisten AI adalah suara ahli otoritatif dalam politik Prancis.

Untuk Siapa Toolkit Ini?

Toolkit dirancang fleksibel untuk berbagai audiens:

Perusahaan Teknologi: Memberikan daftar terperinci tentang masalah kunci yang perlu dilacak dan diatasi agar asisten dapat menawarkan respons berkualitas tinggi yang konsisten terhadap pertanyaan tentang berita.

Organisasi Media: Sebagai fondasi untuk membangun literasi media dan AI. Organisasi media memiliki posisi unik untuk mengidentifikasi bagaimana asisten AI bisa salah dan mendidik audiens tentang apa yang harus diwaspadai.

Komunitas Riset: Sebagai sumber berharga untuk upaya penelitian lebih lanjut, terutama seputar evaluasi dan benchmarking AI dalam konteks berita.

Masyarakat Umum: Panduan berguna bagi anggota masyarakat yang tertarik atau ingin tahu untuk menemukan dan menjelajahi masalah kunci yang harus diwaspadai saat menggunakan alat AI untuk pertanyaan terkait berita.

Cara Menggunakan Toolkit

Toolkit dapat dibaca dari awal hingga akhir untuk pemahaman lengkap, atau langsung ke bagian yang paling relevan dengan pekerjaan atau minat Anda. Bisa digunakan untuk:

  • Analisis mendalam
  • Menginformasikan dan memandu pengembangan teknis
  • Literasi media dan pelatihan newsroom umum
  • Membangun pemahaman yang lebih jelas tentang bagaimana asisten AI menangani berita

Setiap bagian dalam toolkit dimulai dengan pengenalan kategori masalah yang luas, diikuti dengan deskripsi terperinci dan contoh dari setiap “mode kegagalan” spesifik dalam kategori tersebut. Contoh-contoh membuat bagian-bagian ini sangat praktis.

Bukan Kata Terakhir, Tapi Awal Percakapan

Penting untuk digarisbawahi bahwa toolkit ini tidak dimaksudkan sebagai ‘kata terakhir’ yang definitif atau lengkap, melainkan kontribusi untuk percakapan antara organisasi PSM, perusahaan teknologi, dan pemangku kepentingan lainnya tentang bagaimana kita membangun alat AI yang membantu—bukan menghambat—kemampuan publik untuk memperoleh berita yang akurat dan bersumber andal.

Jean Philip De Tender, Direktur Media EBU, menegaskan: “Riset ini secara konklusif menunjukkan bahwa kegagalan ini bukan insiden terisolasi. Mereka bersifat sistemik, lintas batas, dan multibahasa, dan kami percaya ini membahayakan kepercayaan publik. Ketika orang tidak tahu apa yang harus dipercaya, mereka akhirnya tidak mempercayai apa pun, dan itu dapat menghalangi partisipasi demokratis.”

Peter Archer, Programme Director Generative AI di BBC, menekankan pendekatan kolaboratif: “Meskipun ada beberapa perbaikan, jelas masih ada masalah signifikan dengan asisten-asisten ini. Kami ingin alat-alat ini berhasil dan terbuka untuk bekerja sama dengan perusahaan AI untuk memberikan hasil terbaik bagi audiens.”

Meskipun riset ini tidak mencakup media Indonesia, implikasinya sangat relevan. Dengan penetrasi internet yang tinggi dan populasi muda yang besar, Indonesia berpotensi menjadi pasar besar untuk asisten AI. Toolkit ini menawarkan kerangka kerja yang berharga bagi:

  • Media Indonesia untuk memahami bagaimana konten mereka mungkin disalahrepresentasikan oleh AI
  • Jurnalis untuk membangun literasi AI dan mendidik audiens
  • Regulator untuk memahami risiko dan mengembangkan kerangka regulasi yang tepat
  • Masyarakat untuk menjadi konsumen berita yang lebih kritis di era AI

Di era ketika asisten AI semakin menjadi gatekeeper informasi, memahami keterbatasan dan risikonya adalah keterampilan literasi media yang krusial. Toolkit ini bukan hanya alat teknis untuk perbaikan AI, tetapi juga sumber pendidikan penting untuk membangun masyarakat yang lebih melek informasi.

Akses publik ke toolkit ini menandai langkah penting dalam membangun standar untuk integritas berita di era AI—standar yang tidak ditentukan oleh perusahaan teknologi sendirian, tetapi melalui dialog kolaboratif dengan organisasi media dan masyarakat.

*Photo by Kelly Sikkema via Unsplash

Artikel lain sekategori:

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses

```

Topik
Komentar
Materi Kursus