Penghapusan data pada model AI mengancam kinerja model

Teknik unlearning dirancang untuk membuat model melupakan informasi spesifik yang diambil dari data pelatihan, seperti data pribadi yang sensitif atau materi berhak cipta.

Penelitian terbaru menunjukkan bahwa teknik “unlearning” yang digunakan untuk menghapus data tidak diinginkan pada model AI dapat menurunkan kinerja model secara signifikan. Studi ini dilakukan oleh para peneliti dari University of Washington (UW), Princeton, University of Chicago, University of Southern California (USC), dan Google.

Dilansir dari TechCrunch (30/7), teknik unlearning dirancang untuk membuat model melupakan informasi spesifik yang diambil dari data pelatihan, seperti data pribadi yang sensitif atau materi berhak cipta. Namun, temuan menunjukkan bahwa teknik ini tidak hanya menghapus data yang diinginkan, tetapi juga mengurangi kemampuan model dalam menjawab pertanyaan dasar.

“Metode unlearning yang ada saat ini belum siap untuk digunakan dalam situasi dunia nyata,” kata Weijia Shi, peneliti studi dan kandidat Ph.D. di bidang ilmu komputer di UW. “Saat ini, tidak ada metode yang efisien yang memungkinkan model melupakan data spesifik tanpa kehilangan utilitas secara signifikan.”

Model AI generatif, seperti GPT-4 dan Llama 3.1 405B, dilatih menggunakan data yang diambil dari berbagai sumber publik di internet. Model ini memprediksi kata, gambar, suara, musik, video, dan data lainnya berdasarkan pola yang ditemukan dalam data pelatihan. Contohnya, sebuah model yang dilatih untuk melengkapi pesan email mungkin akan menyarankan kelanjutan yang sesuai dengan pola dari semua email yang telah dipelajarinya.

Namun, praktik ini menimbulkan kontroversi terkait hak cipta. Banyak pemegang hak cipta, termasuk penulis, penerbit, dan label rekaman, telah mengajukan tuntutan hukum terhadap perusahaan teknologi yang menggunakan data mereka tanpa izin atau kompensasi.

Dilema hak cipta ini mendorong perhatian lebih terhadap teknik unlearning. Tahun lalu, Google bekerja sama dengan beberapa institusi akademis untuk meluncurkan kompetisi yang bertujuan mendorong pengembangan pendekatan unlearning baru. Teknik ini diharapkan bisa menghapus informasi sensitif dari model yang ada, seperti catatan medis atau foto yang bersifat kompromi.

Meskipun demikian, unlearning tidak semudah menekan tombol “hapus”. Teknik ini bergantung pada algoritma yang dirancang untuk “mengalihkan” model dari data yang ingin dihapus. Peneliti menggunakan benchmark yang disebut MUSE (Machine Unlearning Six-way Evaluation) untuk menguji efektivitas delapan algoritma unlearning yang ada. MUSE mengevaluasi kemampuan algoritma untuk mencegah model mengeluarkan data pelatihan secara verbatim dan menghilangkan pengetahuan model tentang data tersebut.

Studi menunjukkan bahwa algoritma unlearning berhasil membuat model melupakan informasi tertentu. Namun, teknik ini juga mengurangi kemampuan model dalam menjawab pertanyaan secara umum, yang menunjukkan adanya trade-off signifikan.

“Merancang metode unlearning yang efektif sangat menantang karena pengetahuan dalam model sangat terkait erat,” jelas Shi. “Misalnya, ketika metode unlearning mencoba menghapus buku Harry Potter yang berhak cipta, mereka juga secara signifikan mempengaruhi pengetahuan model tentang konten bebas dari Harry Potter Wiki.”

Saat ini, vendor yang mengandalkan unlearning sebagai solusi untuk masalah data pelatihan mereka tampaknya belum menemukan solusi yang memadai. Meskipun mungkin akan ada terobosan teknis di masa depan yang membuat unlearning menjadi layak, untuk saat ini, vendor harus mencari cara lain untuk mencegah model mereka mengatakan hal-hal yang tidak seharusnya.