by Irra Fachriyanthi, Indonesian author and former youth magazine journalist

Manipulasi media berbasis AI kini mampu memalsukan wajah, suara, dan pernyataan siapa pun dengan presisi yang semakin sulit dibedakan dari konten asli dan kerugiannya sudah mencapai miliaran dolar.

Pada pertengahan 2025, sebuah video yang menampilkan Menteri Keuangan Sri Mulyani Indrawati memantik kehebohan di jagat maya. Dalam tayangan itu, Sri Mulyani seolah menyebut peran guru sebagai beban negara. Kecaman pun berdatangan silih berganti. Tidak lama kemudian, pemerintah turun tangan dan memastikan video tersebut adalah palsu.

Usut punya usut, rekaman itu dicuplik dari pidato Sri Mulyani dalam Forum Konvensi Sains, Teknologi, dan Industri Indonesia di Institut Teknologi Bandung pada 7 Agustus 2025. Dalam pidato aslinya, tidak ada satu pun kalimat yang menyinggung guru sebagai beban negara. Video tersebut telah direkayasa menggunakan kecerdasan buatan (AI): gerak bibir dan suaranya diubah sedemikian rupa hingga menghasilkan kalimat kontroversial yang tidak pernah diucapkan. Hanya dalam tempo sehari, Sri Mulyani mengklarifikasi bahwa tayangan itu adalah hoaks hasil deepfake. Tiga hari berselang, berbagai analisis media mengkonfirmasi hal serupa: video itu murni manipulasi digital.

Insiden ini bukan satu-satunya. Di seluruh dunia, deepfake sudah berkembang menjadi ancaman sistemik. Menurut laporan Resemble AI, tercatat 2.031 insiden deepfake terverifikasi hanya dalam kuartal ketiga 2025. Upaya penipuan berbasis deepfake melonjak 2.137 persen dalam tiga tahun terakhir, dari 0,1 persen menjadi 6,5 persen dari seluruh kasus penipuan yang tercatat (Signicat).

Sejatinya, Apa Itu Deepfake?

Deepfake adalah bentuk manipulasi digital-proses mengubah, mengedit, atau merangkai ulang aset digital seperti foto, video, dan suara menggunakan kecerdasan buatan. Tujuannya beragam: mulai dari keperluan hiburan yang sah, hingga yang berbahaya-memalsukan realitas untuk merusak reputasi atau menipu korban secara finansial.

Manipulasi digital sejatinya bukan barang baru. Praktik ini bermula di ranah audio lewat teknologi Musical Instrument Digital Interface (MIDI). Memasuki dekade 1990-an, perangkat lunak seperti Photoshop dan After Effects mengubah cara kita mengolah foto dan video. Namun dulu, manipulasi semacam ini membutuhkan keahlian teknis yang tinggi.

Kini, AI mengambil alih peran itu sepenuhnya. Memanipulasi media cukup bermodalkan perintah teks. Siapa pun bisa melakukannya tanpa latar belakang teknis, dengan hasil yang rampung dalam hitungan detik dan tingkat presisi yang semakin sulit dideteksi secara manual. Inilah yang kita sebut deepfake: manipulasi digital yang sepenuhnya ditenagai AI.

"It's freely available to someone with very little technical skill to copy a voice, image or even a video." – Rob Greig, Chief Information Officer, Arup (World Economic Forum, 2025)

Empat Wajah Deepfake

Dalam praktiknya, deepfake hadir dalam empat varian utama:

  • Audio: Meniru suara, gaya bicara, hingga aksen secara realistis menggunakan machine learning yang mempelajari pola suara dari rekaman asli. Menurut Pindrop, kasus penipuan suara sintetis melonjak 680 persen secara year-over-year pada 2024.
  • Face/Body SwapTeknik menukar wajah atau tubuh seseorang dalam foto maupun video. Hasilnya, seseorang seolah terekam melakukan sesuatu yang tidak pernah ia lakukan.
  • Lip SyncMembuat seseorang tampak menuturkan kata-kata tertentu dengan sinkronisasi gerak bibir yang presisi, seperti yang terjadi pada kasus video Sri Mulyani.
  • Sintetis (Synthetic): Menciptakan tokoh, suara, atau adegan fiktif dari nol, tanpa bahan dasar media asli sama sekali.

Ketika Deepfake Jadi Senjata Kejahatan Finansial

Lebih dari sekadar merusak reputasi tokoh publik, deepfake kini menjelma menjadi instrumen penipuan kelas tinggi. Menurut laporan Gartner (September 2025), 62 persen organisasi mengaku pernah mengalami serangan deepfake yang melibatkan rekayasa sosial dalam 12 bulan terakhir. Kerugian rata-rata per insiden mencapai USD 450.000, bahkan lebih dari USD 600.000 di sektor jasa keuangan (GlobeNewswire).

📁 STUDI KASUS: Arup, Hong Kong, USD 25 Juta (2024)

Di awal 2024, seorang karyawan perusahaan rekayasa Inggris Arup di kantor Hong Kong mentransfer USD 25 juta setelah mengikuti video call dengan sosok yang tampak seperti jajaran senior manajemen perusahaan. Seluruh peserta dalam panggilan itu, termasuk 'CFO', adalah deepfake. Ini menjadi salah satu kasus penipuan deepfake video call terbesar yang pernah terungkap ke publik. CIO Arup Rob Greig kemudian menyatakan bahwa serangan ini tidak seperti serangan siber konvensional: ia menggunakan psikologi dan teknologi deepfake untuk memenangkan kepercayaan korban.

📁 STUDI KASUS: Perusahaan Energi Inggris, USD 243.000 (2019)

Kepala cabang sebuah perusahaan energi di Inggris menerima telepon dari seseorang yang suaranya sangat mirip dengan CEO-nya, memintanya mentransfer dana ke pemasok di Hungaria. Tertipu oleh kemiripan suara dan aksen yang hampir sempurna, sang manajer spontan mentransfer USD 243.000. Kasus ini menjadi salah satu insiden penipuan audio deepfake pertama yang terdokumentasi dan dipublikasikan secara luas.

📁 STUDI KASUS: Ferrari, Lolos dari Jebakan (2024)

Seorang eksekutif Ferrari menerima pesan WhatsApp dan telepon dari seseorang yang berpura-pura menjadi CEO Benedetto Vigna, menggunakan suara dan foto yang dihasilkan AI untuk membahas akuisisi rahasia. Eksekutif tersebut curiga karena ada nada mekanis yang terdeteksi selama panggilan. Ia kemudian mengajukan pertanyaan verifikasi tentang buku yang baru-baru ini direkomendasikan sang CEO. Penipu gagal menjawab dan langsung mengakhiri panggilan, Ferrari pun selamat dari kerugian besar.

Panduan Membongkar Ilusi

Semakin canggih AI, semakin realistis hasilnya. Namun hingga kini, deepfake belum sepenuhnya sempurna. Departemen Keamanan Dalam Negeri AS (DHS) mencatat bahwa deepfake tidak perlu sempurna untuk efekti, yang penting adalah kemampuannya memicu respons emosional dan menyebarkan informasi baru sebelum sempat diverifikasi. Saat mencurigai sebuah konten, ajukan tiga pertanyaan kunci berikut:

KRITERIA UJI

INDIKATOR VISUAL

INDIKATOR AUDIO

Tampak/Terdengar Alami?

Perhatikan ekspresi wajah, gerak mata, dan sinkronisasi bibir. Deepfake kerap kesulitan meniru detail halus seperti kedipan mata wajar atau ekspresi spontan.

Dengarkan intonasinya. Suara deepfake cenderung terlalu datar, hampa emosi, dan kehilangan jeda napas alami.

Tampak/Terdengar Jelas?

Amati tekstur wajah dan pakaian. Deepfake sering menyisakan area yang buram (blur) atau 'meleleh' di tepi wajah.

Cermati pelafalan. Deepfake sering tersandung saat melafalkan singkatan (misalnya: PT, MM, Tbk).

Tampak/Terdengar Janggal?

Cari kejanggalan logika visual: arah bayangan tidak sinkron dengan sumber cahaya, atau penempatan objek yang tidak masuk akal.

Perhatikan sinkronisasi emosi, jika suara terdengar marah atau sedih, ekspresi wajah harus berubah secara selaras.

Riset menunjukkan akurasi deteksi manual rata-rata tidak lebih dari 55 persen. Karena itu, dibutuhkan penangkal yang setara: AI detektor yang mampu membedah struktur data suatu file secara mendalam, melampaui kemampuan mata dan telinga manusia. Berbagai perangkat deteksi ini kini tersedia luas di berbagai platform.

"As adoption accelerates, attacks leveraging GenAI for phishing, deepfakes and social engineering have become mainstream."– Akif Khan, VP Analyst, Gartner

Membangun Benteng Pertahanan

Laju teknologi AI tidak bisa dibendung. Bergantung semata pada perangkat deteksi bukan strategi yang cukup. Dibutuhkan pendekatan berlapis.

Bagi Publik

Literasi digital adalah keharusan. Masyarakat perlu terus memperbarui wawasan tentang ancaman siber dan melatih kepekaan terhadap anomali digital. Biasakan memverifikasi konten sebelum menyebarkannya, satu langkah sederhana yang memutus rantai disinformasi.

Bagi Organisasi

Prosedur verifikasi dan eskalasi harus dibakukan. Setiap permintaan di luar jalur formal wajib dikonfirmasi ulang tanpa pengecualian, termasuk lewat saluran komunikasi independen. Kasus Ferrari membuktikan bahwa pertanyaan verifikasi sederhana bisa menggagalkan penipuan yang sudah dirancang matang. Selain itu, terapkan kebijakan dual approval untuk setiap transaksi keuangan yang melebihi ambang batas tertentu, dan jangan pernah mengandalkan konfirmasi suara atau wajah saja.

"You can see people's eyes open and suddenly going: 'Hey, we're vulnerable to this.' And, unfortunately, all organizations are vulnerable to this."– Ian Forrest, Cybersecurity Consultant (SC Media, 2025)

Bagi Industri Teknologi

Kolaborasi para penyedia teknologi menjadi kunci. Pengembang AI perlu menyematkan watermark digital, penanda tak kasatmata seperti standar C2PA atau SynthID, pada setiap konten sintetis yang dihasilkan. Google SynthID sendiri telah menandai lebih dari 10 miliar konten dengan sinyal tingkat piksel yang dirancang tahan terhadap kompresi dan pengeditan. Dengan infrastruktur semacam ini, platform media sosial dapat mendeteksi dan melabeli keaslian konten secara otomatis.

Sumber data: Signicat, Pindrop, Gartner (2025), Resemble AI, GlobeNewswire, World Economic Forum, SC Media, Fortinet, Departemen Keamanan Dalam Negeri AS (DHS).