Penerapan Model Multimodal Berbasis CNN-Transformer untuk Identifikasi Video Deepfake pada Platform Facebook Reels [ENY, IAU]
Keywords:
: Deepfake, multimodal, cnn-transformer, mel-spektrogram, fine-tuning, facebook reelsAbstract
Penelitian ini bertujuan mengatasi tantangan deteksi video deepfake pada platform Facebook Reels yang kerap mengalami kompresi tinggi dan format singkat, sehingga model unimodal konvensional gagal menangkap inkonsistensi visual–audio secara andal. Metodologi yang diusulkan memanfaatkan arsitektur multimodal berbasis CNN–Transformer; citra frame video dan mel-spektrogram audio diekstraksi melalui jaringan CNN kemudian disatukan dalam block Transformer untuk klasifikasi deepfake versus asli. Proses penelitian meliputi survei literatur sistematis (2022–2025), pengumpulan dataset publik (DFDC, FaceForensics++), tahap pra-pemrosesan (ekstraksi frame, konversi audio, normalisasi), implementasi dan fine-tuning model pra-latih (ConvNeXt–Swin), serta pengujian ketahanan model pada data uji yang belum pernah dilihat. Dengan pipeline end-to-end ini, diharapkan model multimodal mampu mencapai generalisasi yang lebih kuat dalam mendeteksi deepfake pada kondisi nyata Facebook Reels.