NVIDIA mengumumkan model AI baru yang menakjubkan bernama Fugatto, yang dapat menciptakan audio dari prompt teks.
NVIDIA mengumumkan model AI baru yang menakjubkan bernama Fugatto, yang dapat menciptakan audio dari prompt teks. Model ini merupakan bagian dari usaha NVIDIA untuk mengembangkan teknologi generatif yang dapat menghasilkan dan mengubah suara, musik, dan efek suara berdasarkan teks dan audio. Fugatto, singkatan dari Foundational Generative Audio Transformer Opus 1, menawarkan fleksibilitas dan presisi yang luar biasa dalam menciptakan suara baru.
Dilansir dari Engadget (26/11), Fugatto menggunakan teknik pelatihan sintetis dan metode kombinasi tingkat inferensi untuk mengubah campuran musik, suara, dan bunyi, termasuk penciptaan suara yang belum pernah ada sebelumnya. Misalnya, model ini dapat mengubah rekaman piano menjadi vokal, mengubah aksen atau emosi dalam suara, atau bahkan menciptakan bunyi baru seperti teriakan saxofon yang berbisik. Pengguna dapat mengontrol tingkat perubahan, seperti intensitas aksen atau emosi, untuk menciptakan audio yang lebih sesuai dengan keinginan mereka.
Model ini dibangun dengan landasan 2,5 miliar parameter dan didukung oleh GPU H100 Tensor Core dari NVIDIA, yang memungkinkan Fugatto untuk menghasilkan audio berkualitas tinggi dengan cepat. Meskipun belum tersedia untuk pengujian publik, situs demo menunjukkan berbagai kemampuan Fugatto, termasuk pengaturan berbagai sifat audio dan deskripsi.
Fugatto juga menggunakan teknik ComposableART, yang memungkinkan pengguna untuk menggabungkan berbagai instruksi, seperti menghasilkan suara vokal yang sedih dengan aksen Prancis. Model ini juga dapat menghasilkan suara yang dinamis dan berubah seiring waktu, seperti mengubah badai petir menjadi fajar yang tenang.
Meskipun Fugatto menawarkan banyak potensi, NVIDIA memilih untuk menahan peluncurannya secara publik karena kekhawatiran tentang potensi penyalahgunaan, termasuk pembuatan informasi palsu atau materi yang dilindungi hak cipta. Dengan demikian, NVIDIA menunjukkan pendekatan proaktif dalam mengatasi implikasi etis dari AI generatif.
Fugatto adalah bagian dari tren besar dalam pengembangan teknologi AI yang mengubah cara kita menciptakan dan memahami suara. Model ini menawarkan alat baru bagi para produser musik, desainer suara, dan pengembang game untuk menghasilkan konten audio yang lebih kreatif dan inovatif. Dengan kemampuan Fugatto, masa depan penciptaan suara terbuka untuk peluang baru yang belum pernah ada sebelumnya.