OpenAI luncurkan mode suara ChatGPT audio hiper-realistis

Dalam beberapa bulan terakhir, OpenAI telah menguji kemampuan suara GPT-4o dengan lebih dari 100 penguji eksternal yang berbicara 45 bahasa berbeda.

OpenAI resmi meluncurkan Mode Suara Canggih ChatGPT yang dapat memberikan akses pertama kepada pengguna terhadap fitur audio hiper-realistis dari GPT-4o. Versi alfa ini akan tersedia untuk sekelompok kecil pengguna ChatGPT Plus hari ini dan akan diluncurkan secara bertahap untuk semua pengguna Plus pada musim gugur 2024.

Dilansir dari TechCrunch (31/7), saat pertama kali diperkenalkan pada bulan Mei, suara GPT-4o mengejutkan audiens dengan respon cepat dan kemiripan yang luar biasa dengan suara manusia nyata. Salah satu suara, bernama Sky, mirip dengan aktris Scarlett Johansson, yang dikenal sebagai asisten virtual dalam film “Her.” Setelah melihat demo tersebut, Johansson menolak permintaan dari CEO OpenAI, Sam Altman, untuk menggunakan suaranya, dan menyewa pengacara untuk melindungi hak suaranya.

OpenAI membantah menggunakan suara Johansson namun kemudian menghapus suara tersebut dari demo. Pada bulan Juni, OpenAI mengumumkan penundaan peluncuran Mode Suara Canggih untuk meningkatkan langkah-langkah keamanan.

Dalam pernyataannya, OpenAI menjelaskan bahwa fitur video dan berbagi layar yang ditampilkan selama Pembaruan Musim Semi tidak akan menjadi bagian dari versi alfa ini dan akan diluncurkan pada tanggal berikutnya. Namun, beberapa pengguna premium akan mendapatkan akses ke fitur suara yang memukau tersebut.

Mode Suara Canggih berbeda dari solusi audio yang sebelumnya digunakan ChatGPT. Solusi lama menggunakan tiga model terpisah: satu untuk mengubah suara menjadi teks, GPT-4 untuk memproses permintaan, dan model ketiga untuk mengubah teks menjadi suara. GPT-4o, sebagai model multimodal, mampu memproses tugas-tugas ini secara terpadu, menghasilkan percakapan dengan latensi yang jauh lebih rendah. OpenAI juga mengklaim bahwa GPT-4o dapat mendeteksi intonasi emosional dalam suara pengguna, seperti kesedihan, kegembiraan, atau nyanyian.

Dalam uji coba ini, pengguna ChatGPT Plus akan dapat merasakan secara langsung betapa realistisnya Mode Suara Canggih dari OpenAI. OpenAI merilis fitur suara baru ini secara bertahap untuk memantau penggunaannya dengan cermat. Pengguna dalam kelompok alfa akan menerima pemberitahuan di aplikasi ChatGPT, diikuti dengan email berisi petunjuk penggunaan.

Dalam beberapa bulan terakhir, OpenAI telah menguji kemampuan suara GPT-4o dengan lebih dari 100 penguji eksternal yang berbicara 45 bahasa berbeda. Laporan tentang upaya keamanan ini dijadwalkan akan dirilis pada awal Agustus.

Mode Suara Canggih akan terbatas pada empat suara preset ChatGPT – Juniper, Breeze, Cove, dan Ember – yang dibuat dalam kolaborasi dengan aktor suara profesional. Suara Sky yang ditampilkan dalam demo bulan Mei tidak lagi tersedia. Juru bicara OpenAI, Lindsay McCallum, menegaskan bahwa “ChatGPT tidak dapat meniru suara orang lain, baik individu maupun tokoh publik, dan akan memblokir output yang berbeda dari salah satu suara preset ini.”

OpenAI berupaya menghindari kontroversi terkait deepfake. Pada bulan Januari, teknologi kloning suara dari startup AI ElevenLabs digunakan untuk meniru Presiden Biden, menipu pemilih utama di New Hampshire.

OpenAI juga memperkenalkan filter baru untuk memblokir permintaan tertentu yang bertujuan menghasilkan musik atau audio berhak cipta lainnya. Dalam setahun terakhir, perusahaan AI menghadapi masalah hukum terkait pelanggaran hak cipta, dan model audio seperti GPT-4o membuka peluang bagi perusahaan baru untuk mengajukan keluhan, khususnya dari label rekaman yang dikenal sering menggugat pelanggaran hak cipta.