Beberapa perusahaan teknologi terbesar di dunia melatih model AI mereka pada kumpulan data yang mencakup transkrip lebih dari 173.000 video YouTube tanpa izin.
Beberapa perusahaan teknologi terbesar di dunia melatih model AI mereka pada kumpulan data yang mencakup transkrip lebih dari 173.000 video YouTube tanpa izin. Kumpulan data tersebut, yang dibuat oleh perusahaan nirlaba bernama EleutherAI, berisi transkrip video YouTube dari lebih dari 48.000 channel dan digunakan oleh Apple, NVIDIA, dan Anthropic, serta perusahaan lainnya.
Dilansir dari Engadget (18/7), temuan investigasi ini menyoroti kenyataan yang tidak menyenangkan tentang AI: teknologi ini sebagian besar dibangun berdasarkan data yang diambil dari kreator tanpa persetujuan atau kompensasi mereka.
Kumpulan data tersebut tidak menyertakan video atau gambar apa pun dari YouTube, namun berisi transkrip video dari kreator platform terbesar termasuk Marques Brownlee dan MrBeast, serta penerbit berita besar seperti The New York Times, BBC, dan ABC News. Subtitle dari video milik Engadget juga merupakan bagian dari kumpulan data.
“Apple mengambil data untuk AI mereka dari beberapa perusahaan,” tulis Brownlee di X. “Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya,” tambahnya. “Ini akan menjadi masalah yang terus berkembang dalam jangka waktu yang lama.”
Seorang juru bicara Google mengatakan kepada Engadget bahwa komentar sebelumnya yang dibuat oleh CEO YouTube Neal Mohan mengatakan bahwa perusahaan yang menggunakan data YouTube untuk melatih model AI akan melanggar persyaratan dan layanan platform masih berlaku.
Sejauh ini, perusahaan AI belum transparan mengenai data yang digunakan untuk melatih model mereka. Awal bulan ini, para seniman dan fotografer mengkritik Apple karena gagal mengungkapkan sumber data pelatihan untuk Apple Intelligence, yang dikembangkan oleh perusahaan tersebut pada AI generatif yang akan hadir di jutaan perangkat Apple tahun ini.
YouTube, gudang video terbesar di dunia, merupakan tambang emas tidak hanya untuk transkrip tetapi juga audio, video, dan gambar, menjadikannya kumpulan data yang menarik untuk melatih model AI. Awal tahun ini, chief technology officer OpenAI, Mira Murati, menghindari pertanyaan dari The Wall Street Journal tentang apakah perusahaan tersebut menggunakan video YouTube untuk melatih Sora, alat pembuat video AI OpenAI mendatang.
“Saya tidak akan merinci data yang digunakan, tapi itu data yang tersedia untuk umum atau berlisensi,” kata Murati saat itu. CEO Alphabet Sundar Pichai juga mengatakan bahwa perusahaan yang menggunakan data dari YouTube untuk melatih model AI mereka akan melanggar persyaratan layanan platform.