Evaluasi Kinerja Model DeepSeek-R1 dalam Menjawab Soal Pilihan Ganda Bidang Teknologi Informasi di Telkom University Jakarta [ENY,IAU]

Authors

  • Raihan Hidayat Telkom University Jakarta Author

Keywords:

DeepSeek-R1, large language model, soal pilihan ganda, Teknologi Informasi, evaluasi akademik.

Abstract

Kemajuan teknologi kecerdasan buatan, khususnya pada pengembangan
large language model (LLM), telah membuka peluang baru dalam dunia pen-
didikan, termasuk dalam evaluasi pembelajaran. DeepSeek-R1 merupakan sa-
lah satu LLM open-source berbasis arsitektur Transformer yang menunjukkan
kinerja menjanjikan dalam berbagai domain, termasuk medis dan matemati-
ka. Penelitian ini bertujuan untuk mengevaluasi kinerja DeepSeek-R1 dalam
menjawab soal pilihan ganda (multiple-choice questions atau MCQ) pada ma-
ta kuliah bidang Teknologi Informasi di Telkom University Jakarta. Metode
yang digunakan meliputi pemberian input soal MCQ ke dalam model, penca-
tatan dan analisis jawaban, serta perbandingan dengan kunci jawaban untuk
menghitung akurasi. Hasil dari penelitian ini diharapkan dapat menunjukkan
sejauh mana efektivitas DeepSeek-R1 dalam memahami dan menjawab soal-
soal akademik di bidang Teknologi Informasi, serta mengidentifikasi jenis soal
yang paling dan kurang dikuasai oleh model. Penelitian ini diharapkan men-
jadi dasar bagi pemanfaatan LLM sebagai alat bantu evaluasi otomatis dalam
lingkungan pendidikan tinggi.

Published

2025-09-02

Issue

Section

S1IT-22-001a (S1 IT, TEL-U, KAMPUS JAKARTA)