Penelitian ini menunjukkan bahwa meskipun model-model AI tersebut dipromosikan dengan istilah seperti “pemahaman visual,” kenyatannya mereka masih kesulitan dalam tugas tersebut.
Sebuah studi terbaru dari para peneliti di Auburn University dan University of Alberta mengungkapkan bahwa model kecerdasan buatan (AI) multimodal terbaru, termasuk GPT-4o dan Gemini 1.5 Pro, yang diklaim mampu memahami gambar dan audio selain teks, ternyata masih gagal dalam tugas-tugas visual dasar.
Dilansir dari Tech Crunch (12/7), penelitian ini menunjukkan bahwa meskipun model-model AI tersebut dipromosikan dengan istilah seperti “kemampuan visi” dan “pemahaman visual,” mereka masih kesulitan dalam tugas-tugas yang bahkan dapat diselesaikan oleh anak-anak.
Dalam serangkaian tes visual sederhana, seperti menentukan apakah dua bentuk saling tumpang tindih atau menghitung jumlah pentagon dalam gambar, model-model AI menunjukkan performa yang jauh dari memuaskan. Misalnya, pada tes menentukan apakah dua lingkaran saling tumpang tindih, model GPT-4o hanya berhasil menjawab dengan benar 18% dari waktu ketika jarak antara lingkaran sangat kecil atau tidak ada sama sekali. Model Gemini 1.5 Pro, meskipun lebih baik, hanya mencapai tingkat keberhasilan 70% pada kondisi yang sama.
“Kami berharap model-model AI ini dapat melakukan tugas-tugas sederhana dengan akurasi 100%, namun kenyataannya mereka masih gagal,” kata Anh Nguyen, salah satu penulis studi tersebut, dalam emailnya kepada TechCrunch.
Penelitian ini juga menunjukkan bahwa model-model AI ini lebih bergantung pada pola-pola dalam data pelatihan mereka daripada benar-benar memahami visual. Sebagai contoh, model AI dapat dengan mudah mengenali gambar dengan lima lingkaran yang saling terkait, karena mirip dengan logo Olimpiade yang sering muncul dalam data pelatihan mereka. Namun, ketika jumlah lingkaran ditambah menjadi enam atau lebih, tingkat keberhasilan model turun drastis.
Para peneliti menyimpulkan bahwa meskipun model-model AI multimodal ini dipasarkan dengan klaim kemampuan visual, mereka sebenarnya tidak memiliki pemahaman visual yang nyata seperti manusia. Model ini mungkin dapat mengekstrak informasi visual secara abstrak, tetapi tidak memiliki kemampuan untuk membuat penilaian visual yang akurat.
Temuan ini penting untuk mengingatkan publik bahwa meskipun model AI multimodal memiliki banyak potensi, mereka masih memiliki keterbatasan mendasar dalam memahami visual secara mendalam. Penelitian lebih lanjut diperlukan untuk mengembangkan model AI yang benar-benar mampu “melihat” dan memahami dunia visual dengan cara yang lebih manusiawi.