Dalam pengumuman terbaru, para peneliti di Microsoft ungkap temuan jailbreak untuk Chatbot AI yang dapat membuat AI tersebut menjawab topik yang sensitif.
Microsoft telah merilis rincian lebih lanjut tentang teknik jailbreak AI generatif baru bernama “Skeleton Key”. Dengan menggunakan metode injeksi cepat ini, pengguna yang tak bertanggung jawab dapat secara efektif melewati pagar keamanan chatbot untuk membuat kekacauan.
Skeleton Key adalah contoh dari prompt injection atau prompt engineering attack. Teknik seragnan ini adalah strategi multi-turn yang dirancang untuk meyakinkan model AI agar mengabaikan pembatas keamanan yang sudah tertanam.
Menurut CTO Microsoft Azure, Mark Russinovich, serangan ini mengakibatkan “sistem melanggar kebijakan operatornya, membuat keputusan yang dipengaruhi oleh pengguna, atau menjalankan instruksi jahat.”
Bukan hanya sampai disitu saja, hal ini juga digunakan untuk menipu AI Chatbot dapat mengungkapkan informasi yang merugikan atau membahayakan. Beberapa contohnya seperti cara membuat bom paku rakitan atau metode paling efisien untuk memotong-motong mayat.
Dilansir dari laman Digital Trends (1/7), serangan ini bekerja dengan terlebih dahulu meminta model untuk menambah pagar pembatasnya, bukan langsung mengubahnya. Lalu pelaku meminta untuk mengeluarkan peringatan sebagai respons terhadap permintaan terlarang, bukan langsung menolaknya.
Setelah jailbreak berhasil diterima, sistem akan menyetujui pembaruan tersebut dan akan mengikuti instruksi pengguna untuk menghasilkan konten apa pun yang diminta, apa pun topiknya. Hasilnya, tim peneliti berhasil menguji eksploitasi ini pada berbagai subjek termasuk bahan peledak, senjata biologis, politik, rasisme, narkoba, tindakan menyakiti diri sendiri, seks vulgar, dan kekerasan.
Russinovich mengatakan, meskipun pelaku kejahatan dapat membuat sistem dengan menggunakan parameter terlarang, dia mengatakan bahwa ada batasan untuk mengakses apa yang dapat dilakukan pelaku dalam melakukan serangan ini.
“Seperti semua jailbreak, dampaknya dapat dipahami sebagai mempersempit kesenjangan antara kemampuan model (mengingat kredensial pengguna, dll.) dan apa yang bersedia dilakukan,” ungkap Russinovich.
“Karena ini merupakan serangan terhadap model itu sendiri, hal ini tidak memperhitungkan risiko lain pada sistem AI, seperti mengizinkan akses ke data pengguna lain, mengambil kendali sistem, atau mengambil data.”
Sebagai bagian dari studinya, para peneliti Microsoft menguji teknik Skeleton Key pada berbagai model AI terkemuka termasuk Llama3-70b-instruct milik Meta, Gemini Pro milik Google, GPT-3.5 Turbo dan GPT-4 milik OpenAI, Mistral Large, Claude 3 Opus milik Anthropic, dan Cohere Commander R Plus.
Tim peneliti telah mengungkapkan kerentanan tersebut kepada para pengembang tersebut dan telah menerapkan Prompt Shields untuk mendeteksi dan memblokir jailbreak ini dalam model AI yang dikelola Azure, termasuk Copilot.