Perusahaan besar seperti Microsoft dan Google secara aktif mengembangkan AI untuk menangani pekerjaan rutin dan berulang. Diproyeksikan bahwa AI akan dapat melakukan pekerjaan tersebut dengan kualitas setara atau bahkan lebih baik dari manusia. Hal ini bahkan memicu kekhawatiran bahwa AI akan menggantikan peran manusia dalam dunia kerja.

Seperti halnya teknologi digital lainnya, penggunaan AI membawa keuntungan dan ancaman. Keuntungan utamanya adalah kecepatannya dalam memproses data, hingga dapat membantu manusia dalam mendeteksi masalah dan mengambil keputusan. Dalam dunia siber, AI berguna dalam memantau jaringan dan mendeteksi serangan siber berdasarkan data ancaman dan pola serangan yang sudah diketahui. Namun, AI juga membawa risiko baru, seperti:

  • Deep Fake & Misinformation: AI dapat menciptakan foto, video, dan suara yang sangat mirip dengan figur aslinya, yang bisa dimanfaatkan oleh penjahat siber untuk menyebarkan informasi palsu dan penipuan.
  • Privasi & Data Pribadi: AI mengumpulkan banyak data dari internet, menimbulkan kekhawatiran tentang penyalahgunaan data pribadi.
  • Ancaman Serangan Siber: AI bisa digunakan untuk mendeteksi serangan siber, tetapi juga dapat digunakan untuk melancarkan serangan siber, seperti pengumpulan informasi sebelum menyerang atau pembuatan malware.

Lalu, apakah AI sendiri aman dari serangan siber?

Ada beberapa kerentanan pada sistem AI yang membuat hasil kerja AI tidak sesuai seperti yang diinginkan. Tapi pada tulisan ini, kita akan membahas kerentanan spesifik pada Large Language Models (LLM), pondasi model chatbot yang sudah dilatih dengan mengonsumsi banyak data untuk memahami berbagai topik, serta berkomunikasi secara natural layaknya manusia. LLM dipakai pada ChatGPT, Copilot dan chatbot AI lainnya yang pasti anda telah familiar menggunakannya.

Data Poisoning

Di balik kelebihannya, LLM juga rentan terhadap serangan siber yang dapat merusak fungsinya dan membuatnya melakukan hal yang tidak seharusnya. Salah satu ancaman terhadap LLM adalah data poisoning atau pencemaran data, di mana data pelatihan yang salah dan tidak akurat diberikan kepada LLM, menyebabkan chatbot AI memberikan hasil yang tidak sesuai. Hal ini dapat memberikan dampak negatif bagi organisasi yang sangat bergantung pada hasil dari chatbot AI.

💡
Chatbot AI membutuhkan model pembelajaran mesin (LLM) yang mengakses data dalam jumlah besar dari berbagai sumber, yang akan digunakan sebagai data pelatihan.

Data-data yang dikonsumsi LLM diambil dari internet, database, hasil riset dan publikasi, repository yang disediakan oleh NGO untuk pembelajaran mesin, dan berbagai sumber lainnya. Jika data pelatihan yang dipakai tidak akurat, kemampuan chatbot AI dalam mengambil keputusan atau memberikan jawaban akan terpengaruh.

Ada beberapa tipe pencemaran data, seperti:

  • Kesalahan Label Data: Penyerang memberi label dataset yang salah, misalnya foto mobil diberi label foto pesawat. Akibatnya, chatbot AI akan memberikan foto yang salah jika ada permintaan foto mobil.
  • Injeksi Data: Penyerang menambahkan data untuk mengarahkan chatbot AI memberikan hasil sesuai keinginan penyerang.
  • Manipulasi Data: Penyerang mengubah dataset yang ada sehingga chatbot AI memberikan respon yang salah.

Salah satu contoh pencemaran data yang paling terkenal adalah Tay, chatbot yang dikembangkan oleh Microsoft. Pada saat itu, chatbot umumnya hanya berdialog berdasarkan skrip yang telah dipersiapkan. Tay diluncurkan oleh Twitter dengan tujuan untuk membalas tweet dan direct message  secara otomatis. Microsoft mencoba eksperimen dengan Tay, menambahkan kemampuan machine learning yang memungkinkan Tay mempelajari berbagai topik dan gaya bahasa melalui data pelatihan yang diberikan.

Namun, hanya dalam waktu beberapa jam setelah peluncurannya, Tay berubah menjadi AI yang kasar dan suka mengeluarkan kata-kata kotor. Setelah diselidiki, ternyata banyak netizen yang "meracuni" Tay dengan memberikan informasi yang tidak benar dan menggunakan bahasa kasar. Tay kemudian menyerap informasi dan gaya bahasa tersebut, yang mengakibatkan tay mengeluarkan komentar yang tidak pantas. Akhirnya, Microsoft terpaksa menutup akun Tay secara permanen.

Kejadian ini menunjukkan bahwa apa yang dialami Tay bisa saja terjadi pada chatbot AI lainnya. Oleh karena itu, integritas data pelatihan menjadi kunci utama dalam menentukan performa sebuah chatbot AI, agar dapat diandalkan dalam membantu aktivitas manusia.

Untuk mendeteksi adanya pencemaran data, beberapa langkah yang bisa diambil antara lain dengan memperhatikan akurasi dan performa chatbot AI. Hal-hal yang perlu diperhatikan termasuk apakah hasil output yang diberikan semakin memburuk, apakah hasil yang dikeluarkan sesuai dengan yang diinginkan, atau apakah terdapat bias yang cenderung berpihak pada satu sisi. Memantau aspek-aspek ini dapat membantu mendeteksi dan mencegah masalah pencemaran data pada chatbot AI.

Prompt Injection

Kalau kita melihat data poisoning adalah jenis serangan yang menarget sumber data dari LLM, prompt injection menargetkan aturan dan filter yang dibuat pada LLM.

💡
Pada LLM, selain kita memberikan data sebanyak-banyaknya sebagai bahan latihan, kita juga harus menciptakan aturan dan filter agar bisa membedakan konten yang patut ditampilkan atau tidak.

Prompt injection adalah metode serangan dengan memasukkan instruksi terselubung untuk memaksa LLM mengabaikan aturan dan filter yang berlaku lalu mengeluarkan informasi yang seharusnya tidak boleh diberikan.

Ada dua jenis prompt injection, yaitu:

Direct Prompt Injection

Dikenal sebagai jailbreaking, di mana penyerang memanipulasi pertanyaan dan meyakinkan LLM  untuk mengabaikan aturan hingga memberikan data yang tidak terfilter.

Salah satu teknik yang menarik dan sering digunakan adalah Skeleton Key. Dalam metode ini, chatbot AI diajak berinteraksi yang berbelit-belit hingga membuat LLM mengabaikan aturan dan tidak dapat membedakan mana permintaan yang valid atau yang berbahaya.

Sebagai contoh, Microsoft telah melakukan uji coba pada beberapa chatbot AI terkemuka seperti OpenAI GPT 3.5, Google Gemini, Mistral Large, dan lainnya. Dalam uji coba ini, penyerang tidak meminta chatbot AI untuk mengabaikan filter yang ada, melainkan memberikan kondisi baru tentang kapan informasi terlarang tersebut dapat ditampilkan. Ketika proses jailbreak berhasil, ini menunjukkan bahwa LLM telah berhasil memperbarui panduannya dan akan mematuhi instruksi baru ini di masa mendatang.

imagr by Microsoft

Beberapa model yang berhasil dalam uji coba teknik jailbreaking ini termasuk
- Meta Llama3-70b-instruct (base)
- Google Gemini Pro (base)
- OpenAI GPT 3.5 Turbo (hosted)
- OpenAI GPT 4o (hosted)
- Mistral Large (hosted)
- Anthropic Claude 3 Opus (hosted)
- Cohere Commander R Plus (hosted).

Indirect Prompt Injection

Terjadi ketika chatbot AI menerima input dari sumber lain seperti situs atau file yang dimanipulasi, sehingga memberikan respons yang tidak seharusnya.

Contoh-contoh dari indirect prompt injection adalah:

  1. Penyerang meminta AI untuk  memberikan ringkasan dari konten sebuah situs yang secara sengaja diletakkan perintah tersembunyi. Ini menyebabkan AI secara tidak sadar mengeksekusi perintah tersebut.
  2. Penyerang memberikan review suatu produk pada situs e-commerce. Lalu di akhir review, penyerang menambahkan suatu perintah untuk melakukan sesuatu yang diinginkan. Begitu chatbot milik e-commerce diminta untuk mereview produk tersebut, perintah yang diselipkan oleh penyerang akan dieksekusi. Untuk lebih jelasnya bisa dilihat di video ini.

Mitigasi Serangan Prompt Injection

Mitigasi serangan prompt injection tidaklah mudah, tetapi ada beberapa cara yang bisa dicoba, seperti:

  • Prompt Filtering: Memfilter input dengan membandingkan database kata-kata atau kalimat yang biasa dipakai untuk serangan.
  • Cek Risiko Berkala: Melakukan pengujian secara berkala pada input yang bisa berpotensi mengelabui sistem. Efektivitas cara ini tergantung pengetahuan kita tentang variasi input-input berbahaya.
  • Monitor Perilaku Pengguna: Mendeteksi pola serangan dari urutan atau jeda input yang dimasukkan.
  • Meminimalisir Integrasi Sistem: Mengurangi integrasi LLM dengan sistem lain untuk mengurangi risiko serangan.

Penutup

AI saat ini masih menjadi fitur yang "nice to have". Walaupun belum sempurna, kemampuannya sudah jauh berkembang hingga kehadirannya dapat menggantikan beberapa pekerjaan yang biasanya dilakukan manusia. Tapi kita perlu ingat, dalam menghadapi masa depan yang semakin terintegrasi dengan AI, penting untuk  mempertimbangkan ancaman yang tersembunyi. Meskipun AI menjanjikan kecepatan dan efisiensi dalam pemrosesan data, kehadirannya juga membawa risiko baru yang perlu diwaspadai.  Dari serangan siber hingga pencemaran data, setiap langkah yang diambil dalam pengembangan dan penggunaan AI haruslah dipertimbangkan dengan baik.