
Penelitian terbaru mengungkapkan ada dataset pelatihan akal imitasi (AI) sumber terbuka terbesar di dunia yang ternyata mengandung jutaan gambar berisi informasi pribadi sensitif.
Temuan tentang DataComp CommonPool yang mulai diberitakan pertengahan Juli 2025 lalu, menyoroti celah privasi yang serius dalam proses pengembangan AI dan menimbulkan pertanyaan besar tentang keamanan data kita di era digital.
Menurut laporan dari Business & Human Rights Resource Centre dan MIT Technology Review, para peneliti menemukan ribuan dokumen identitas pribadi, seperti paspor, kartu kredit, akta kelahiran, dan resume, di dalam dataset akan digunakan untuk melatih model AI.
Meskipun pembuat dataset ini telah menerapkan filter untuk mengaburkan wajah, filter tersebut terbukti tidak efektif. Bayangkan, penelitian ini hanya mengaudit sebagian kecil (hanya 0,1%) dari total 12,8 miliar sampel data. Bagaimana kalau semuanya diaudit?
Dari sampel kecil itu saja, peneliti menemukan lebih dari 800 dokumen lamaran kerja (termasuk CV) yang divalidasi dan menguak informasi sensitif seperti status disabilitas, hasil pemeriksaan latar belakang, tanggal lahir, tempat lahir, dan ras.
Penulis utama dari penelitian yang diterbitkan di arXiv itu adalah Rachel Hong, seorang mahasiswa PhD di bidang ilmu komputer dari University of Washington. Ada pula William Agnew, seorang peneliti dan etikus AI dari Carnegie Mellon University.
Mereka memperkirakan bahwa jumlah sebenarnya dari data pribadi yang bocor dalam seluruh dataset bisa mencapai ratusan juta.
Siapa yang Bertanggung Jawab?
DataComp CommonPool dikembangkan oleh sekelompok peneliti untuk menjadi standar (benchmark) bagi model-model AI baru. Dataset ini dibuat dengan mengumpulkan data dari Common Crawl, sebuah arsip web raksasa yang mengindeks miliaran halaman web.
Meskipun pembuatnya berniat baik, mereka gagal dalam proses kurasi dan pembersihan data. Akibatnya, banyak informasi pribadi yang diunggah secara publik di internet ikut tersimpan di dalamnya. Dengan kata lain, masalah ini bukan karena kebocoran data dari peretasan, melainkan karena proses pengumpulan data yang kurang teliti.
Seperti yang dikatakan William Agnew, salah satu peneliti dan etikus AI di Carnegie Mellon University, “Sesuatu yang Anda letakkan di internet bisa dan kemungkinan besar telah diambil (scraped).”
Apakah pemilik data turut bertanggung jawab? Setidaknya, bila Anda memiliki gambar atau foto yang berisi informasi sensitif, Anda harus menjaganya. Jangan unggah sembarangan ke internet, apalagi yang bisa diakses publik. Bahkan bila dikirim lewat email, gunakan enkripsi.
Insiden Serupa di Masa Lalu
Masalah privasi data dalam dataset AI bukanlah hal yang baru. Jauh sebelum kasus DataComp CommonPool, komunitas AI telah menghadapi kontroversi serupa dengan dataset lain. Salah satu contoh paling terkenal adalah kasus LAION-5B.
LAION-5B adalah dataset gambar dan teks yang lebih besar dari DataComp CommonPool, yang digunakan secara luas untuk melatih model-model AI generatif seperti Stable Diffusion. LAION juga dikumpulkan dari web publik dan terbukti mengandung data pribadi sensitif, termasuk gambar-gambar yang berpotensi ilegal.
Kasus LAION-5B dan DataComp CommonPool menunjukkan bahwa masalah ini sifatnya sistemik dan berakar pada metode pengumpulan data dari internet skala besar. Tanpa pengawasan dan transparansi, hal serupa bisa terjadi lagi.
Para pengembang dataset cenderung mengumpulkan data sebanyak mungkin dengan asumsi data tersebut “publik,” tanpa mekanisme yang memadai untuk memfilter informasi yang sebenarnya bersifat privat atau dilindungi hak cipta.
Mengapa Ini Penting dalam Melatih AI?
Dataset ini tidak hanya digunakan oleh para pembuatnya. DataComp CommonPool telah diunduh lebih dari dua juta kali dan digunakan untuk melatih berbagai model AI generatif yang populer, termasuk yang menghasilkan gambar seperti Stable Diffusion dan Midjourney.
Secara sederhana, mesin pembelajaran bisa “mengingat” dan bahkan mereproduksi data pribadi yang digunakan untuk pelatihannya. Ini adalah salah satu risiko terbesar yang disoroti oleh penelitian tersebut dan menjadi kekhawatiran utama para peneliti.
Model AI tidak “mengingat” seperti manusia, melainkan “menghafal” pola dari data yang sangat unik atau sering muncul. Jika sebuah dataset berisi informasi pribadi yang spesifik, seperti foto paspor atau resume, model bisa saja menyerap dan menyimpan informasi tersebut secara harfiah.
Sebagai contoh, sebuah model AI yang dilatih dengan data yang bocor ini bisa saja secara tidak sengaja menghasilkan gambar paspor asli atau resume seseorang, lengkap dengan nama, alamat, atau bahkan nomor identifikasi sensitif di dalamnya.
Ini berarti, jutaan data pribadi yang sensitif berpotensi “diserap” oleh model-model AI tersebut. Dampaknya bisa sangat luas, antara lain:
- Risiko Pencurian Identitas: Data pribadi yang bocor dapat dimanfaatkan oleh pihak tidak bertanggung jawab untuk melakukan pencurian identitas atau penipuan.
- Ketidakpastian Hukum: Temuan ini juga menyoroti kelemahan regulasi privasi data. Hukum seperti GDPR di Eropa masih belum sepenuhnya jelas tentang bagaimana data pribadi yang digunakan untuk pelatihan AI harus ditangani, terutama jika data tersebut sudah terlanjur “terserap” ke dalam model.
- Ancaman pada Model AI: Sebagaimana disebutkan dalam laporan dari CO/AI, kegagalan filter privasi menunjukkan bahwa model AI bisa saja “mempelajari” dan mereproduksi data sensitif, bahkan tanpa disengaja.
Temuan ini adalah pengingat penting bahwa “data publik” di internet belum tentu “data yang boleh digunakan secara bebas.” Para peneliti dan regulator dituntut untuk bekerja sama untuk menemukan solusi yang lebih baik.
Di masa depan, industri AI harus mengambil langkah yang lebih proaktif untuk memastikan bahwa proses pengumpulan dan kurasi data dilakukan dengan standar privasi yang ketat.
Tanpa tindakan tegas, kejadian serupa bisa terulang kembali, dan hal ini akan mengikis kepercayaan publik terhadap AI serta mengancam keamanan data pribadi kita.
*Photo by Drew Dizzy Graham via Unsplash
Komentar Anda?