Rumus ini mengupdate nilai "kebaikan" (Q-value) dari aksi yang baru saja diambil berdasarkan reward
yang didapat + prediksi masa depan.
๐ Grafik Konvergensi
Sumbu Y: Total Reward per 20 Episode.
Garis naik = Agen makin pintar.
๐ง Strategi AI Agent (Q-Table Slice)
Sampel Kebijakan untuk Gaya Belajar: Visual
AMS Type
Rwd
Mis
Buy
Pun
Cch
๐ Panduan & Teori Q-Learning
×
๐ฌ Rencana Riset Lanjutan & Expert Judgment
Simulasi ini adalah fondasi awal. Berikut adalah peta jalan riset lanjutan untuk memvalidasi
dan mengembangkan model ini ke tingkat yang lebih tinggi.
๐ก [P1] METODE SENSING (Data-Driven)
Prioritas 1: Fokus pada
deteksi status internal siswa secara non-intrusif (tanpa kuesioner).
[P1.1] Behavioral Feature Engineering: Tahap awal: Proses mengubah
log aktivitas (durasi, klik) menjadi fitur numerik. Luaran: Dataset Log Perilaku Terfragmentasi. ๐ Indikator: Korelasi fitur v.s
kuesioner (r > 0.6).
[P1.2] Latent Motivation Estimation: Tahap permodelan: Teknik
estimasi status mental tersembunyi berdasarkan fitur perilaku. Luaran: Algoritma Inferensi Probabilistik
(Bayesian/RNN). ๐
Indikator: Akurasi estimasi (MAE < 0.15).
[P1.3] Implicit Inference & Hybrid Strategy: Tahap implementasi:
Otomatisasi sensing dengan kuesioner hanya sebagai validasi awal. Luaran: Modul API Sensing Otomatis Real-time. ๐ Indikator: Latensi sistem <
200ms.
๐ [P2] PENGEMBANGAN MODEL (Math & Model)
Prioritas 2: Validasi
matematis fungsi reward dan perluasan kompleksitas algoritma.
[P2.1] Expert Survey & Calibration: Survei pakar untuk menetapkan
nilai "Bobot & Harga" aksi agar sesuai realita. Luaran: Dokumen Rekomendasi Bobot & Cost (Validasi
Pakar). ๐ Indikator:
Content Validity Index (CVI) > 0.80.
[P2.2] Signifikansi AMS Jumps: Validasi psikopedagogi terhadap
bonus +1.0 pada kenaikan level motivasi. Luaran: Naskah Akademik Validasi Psikometrik AMS. ๐ Indikator: Signifikansi
statistik (p < 0.05).
[P2.3] Granularitas State Space: Ekspansi dimensi state dengan
menyertakan variabel Mood atau tingkat kesulitan soal. Luaran: Skema State-Space Multi-Dimensi
(Mood/Level). ๐
Indikator: Peningkatan konvergensi agen > 20%.
๐ง [P3] SISTEM CERDAS (Pedagogical Logic)
Prioritas 3: Optimalisasi
logika rekomendasi produk dan profil gaya belajar.
[P3.1] Multimodal VARK Profiling: Pengembangan profil gaya belajar
yang tidak kaku (kombinasi proporsional V-A-R-K). Luaran: Algoritma Profiling VARK Proporsional. ๐ Indikator: Skor diversitas
rekomendasi (Entropy > 0.7).
[P3.2] CBF Economic Calibration: Penyesuaian variabel ekonomi agar
harga produk tetap inklusif bagi seluruh level poin. Luaran: Kebijakan Tokenomics Kelas Jangka Panjang. ๐ Indikator: Gini Coefficient Poin
< 0.3.
Prioritas 4: Menjaga agar
AI tetap bertindak dalam koridor kemanusiaan dan keadilan.
[P4.1] Ethical Constraint Integration: Mengunci aturan moral kaku
ke dalam kode (misal: dilarang menghukum di kondisi Amotivation). Luaran: Library Safety-Constraints untuk Agen RL. ๐ Indikator: Lolos uji penetrasi
etika (100% Safety).
[P4.2] Teacher-in-the-Loop Override: Pengembangan UI agar guru
dapat langsung mengintervensi keputusan AI secara real-time. Luaran: Dashboard Intervensi Guru (TITL Interface). ๐ Indikator: System Usability
Scale (SUS) > 75.
[P4.3] Fairness-Aware RL: Algoritma distribusi perhatian adil untuk
seluruh spektrum kemampuan siswa. Luaran: Matriks
Evaluasi Keadilan Distribusi Reward. ๐ Indikator: Perbedaan rata-rata reward
antar-kelompok < 15%.
โ Roadmap Tervalidasi Standar SMART
Specific: Pilar P1-P4 memiliki fokus target luaran yang unik
dan tidak tumpang tindih.
Measurable: Keberhasilan diukur melalui KPI kuantitatif (CVI,
p-value, MAE, SUS).
Achievable: Tahapan disusun sekuensial (Sensing & Model harus
mapan sebelum Logic & Ethics).
Relevant: Seluruh pilar mendukung tujuan utama: Optimasi
Pedagogis berbasis RL.
Time-bound: Prioritas P1-P4 memberikan panduan urutan waktu
pelaksanaan riset.
๐ Roadmap Strategis Riset (2027 - 2030)
Peta jalan transisi dari simulasi laboratorium menuju implementasi ekosistem cerdas di
sekolah nyata.
๐ 2027: Foundation & Sensing (P1)
Fokus Utama: Penyelesaian
masalah data (Implicit Sensing) dan validasi dasar model.
Target Luaran: Modul Sensing yang akurat tanpa kuesioner
harian.
๐ค Prediksi Situasi: Di tahun ini,
Edge
Computing pada perangkat siswa akan memungkinkan sensing emosi
real-time tanpa delay cloud.
๐ง 2028: Smart Logic & Profiling (P3)
Fokus Utama:
Personalisasi konten bimbingan melalui CBF dan VARK multimodal.
Aktivitas Utama: Strategi Hybrid P1.3, Automasi Profiling P3.1,
dan Kalibrasi Ekonomi Token P3.2.
Target Luaran: Mesin marketplace yang adaptif terhadap
perubahan motivasi siswa setiap detiknya.
๐ค Prediksi Situasi: Dominasi
Generative
AI dalam modul belajar. Produk marketplace tidak lagi statis, tapi
modul yang dihasilkan AI secara On-Demand.
๐ก๏ธ 2029: Governance & Complexity
(P2-P4)
Fokus Utama: Perluasan
dimensi state dan penguncian batasan etika kaku.
Aktivitas Utama: Validasi psikopedagogi P2.2, Ekspansi State
P2.3, dan Library Safety P4.1.
Target Luaran: Agen RL yang tervalidasi secara klinis/pedagogis
dan aman dari tindakan malpraktik digital.
๐ค Prediksi Situasi: Munculnya regulasi
Trustworthy AI global. Riset XAI (Explainable AI) menjadi wajib agar
guru paham alasan setiap saran AI.
๐ค 2030: Synergy & Global Fairness (P4)
Fokus Utama: Koleborasi
penuh guru-AI dan pemerataan keadilan pendidikan.
Target Luaran: Ekosistem sekolah cerdas yang inklusif dan
transparan (Human-AI Teaming).
๐ค Prediksi Situasi: Peralihan dari AI
asisten menjadi Pedagogical Partner berbasis data bukti (Evidence-based
intervention) di level global.
๐๏ธ Prasyarat & Validasi Ekosistem Riset
Untuk memvalidasi temuan riset ini ke dunia
nyata, berikut adalah spesifikasi sumber daya (Resources) dan kepatuhan (Compliance)
yang direncanakan untuk dipenuhi:
๐ฅ Konsorsium Tenaga Ahli
AI/RL Scientists: Pemodelan Markov Decision Process &
Q-Table.
Simulasi ini dibangun di atas fondasi literatur akademik yang mapan di bidang AI,
Psikologi
Pendidikan, dan Rekayasa Sistem.
๐ง Psikologi & Motivasi Belajar
(State
Space)
MSLQ: Pintrich, P. R., Smith, D. A., Garcia, T., &
McKeachie,
W. J.
(1991). A manual for the use of the Motivated Strategies for
Learning
Questionnaire
(MSLQ). National Center for Research to Improve Postsecondary
Teaching
and
Learning.
AMS: Vallerand, R. J., et al. (1992). The Academic
Motivation
Scale: A measure of intrinsic, extrinsic, and amotivation in
education.
Educational and Psychological Measurement.
VARK: Fleming, N. D. (2001). Teaching and learning
styles:
VARK
strategies. Christchurch, New Zealand.
๐ค Reinforcement Learning &
Machine
Learning
Q-Learning: Sutton, R. S., & Barto, A. G. (2018).
Reinforcement
Learning: An Introduction. MIT Press.
RL in Education: Doroudi, S. (2020). The building
blocks of
adaptive learning systems. Journal of Learning Analytics.
CBF Matrix: Salton, G., & McGill, M. J. (1983).
Introduction to
modern information retrieval. McGraw-Hill.
๐ก๏ธ Etika & Tata Kelola Riset AI
(Pillar P4)
Trustworthy AI: European Commission (2019). Ethics
guidelines for trustworthy AI.
Explainable AI (XAI): Arrieta, A. B., et al. (2020).
Explainable Artificial Intelligence (XAI): Concepts, taxonomies,
opportunities and challenges toward responsible AI. Information
Fusion.
Data Privacy: UU No. 27 Tahun 2022 tentang Perlindungan
Data
Pribadi (Indonesia PDP Law).
๐ Publikasi Internasional Terkini
(2021-2025)
RL Systematic Review (2025): Riedmann, A., Schaper, P., &
Lugrin, B. (2025). Reinforcement Learning in Education: A Systematic
Literature Review. International Journal of Artificial
Intelligence in Education (IJAIED).
Generative AI & Motivation (2025): Hwang, G. J., et al.
(2025).
Enhancing flipped classroom models with generative AI: insights from
sequential analysis. Computers & Education: Artificial
Intelligence.
DRL & Decision Support (2025): Jia, W., & Li, Z. (2025).
Fusion of Deep Reinforcement Learning & EDM for Intelligent Decision
Support.
Information (MDPI), 16(12).
Engagement Optimization (2024): Hwang, G. J., et al.
(2024).
Elevating learnersโ positive behaviors: A motivation model-based digital
gaming approach. British Journal of Educational
Technology (BJET).
GenAI & Learning Analytics (2024): Yan, L.,
Martinez-Maldonado,
R., & Gaลกeviฤ, D. (2024). Generative AI in Learning Analytics:
Opportunities and Challenges. Journal of Learning
Analytics, 11(1).
LLM for Personalization (2024): Authors explore leveraging
LLMs
to create adaptive environments for the "whole learner" supporting cognitive
& non-cognitive traits. Frontiers in Artificial
Intelligence.
*Referensi ini digunakan sebagai parameter dasar simulasi dan dapat dikembangkan
lebih
lanjut dalam
penulisan naskah akademik/jurnal.
๐๏ธ Sistem Rekomendasi Produk (Content-Based Filtering)
Selain menentukan strategi intervensi (Aksi), simulasi ini juga dilengkapi dengan
mesin
rekomendasi yang menyarankan produk/layanan spesifik yang relevan dengan kondisi
siswa.
Prinsip Utama:
Sistem mencocokkan Profil Siswa (User Vector) dengan
Fitur
Produk (Item Vector) menggunakan perhitungan matematis untuk
mencari
kemiripan tertinggi.
๐ Vektor Fitur (6 Dimensi)
Setiap Siswa dan Produk dipetakan ke dalam 6 dimensi angka (0.0 - 1.0):
V (Visual): Kecocokan dengan gaya belajar visual.
A (Auditory): Kecocokan dengan gaya belajar audio.
R (Read/Write): Kecocokan dengan teks/bacaan.
K (Kinesthetic): Kecocokan dengan praktik langsung.
Mot (Motivation Booster): Seberapa kuat produk memotivasi.
$ (Price/Spending Power): Kesesuaian harga dengan daya beli
siswa
saat
ini.
๐๏ธ Pembentukan Vektor User (A)
Bagaimana sistem menerjemahkan kondisi siswa menjadi angka vector A?
Berikut
detail logikanya:
1. VARK (4 Dimensi Pertama)
Menggunakan Weighted One-Hot
Encoding
(bukan 0/1 mutlak agar tidak terlalu kaku).
Gaya Belajar Dominan: Diberi nilai 0.9
Gaya Lainnya: Diberi nilai dasar 0.1
Contoh: Siswa Visual โ [0.9, 0.1, 0.1, 0.1]
2. Motivasi (Dimensi ke-5)
Normalisasi Level MSLQ (0-2) ke skala 0.0 -
1.0
dengan rumus (Level + 1) / 3.
Low (0) โ 0.33
Medium (1) โ 0.66
High (2) โ 1.0
3. Spending Power (Dimensi ke-6)
Dinamis bergantung pada Aksi
Agen
terakhir. Karena simulasi ini tidak menyimpan saldo poin absolut, kita menggunakan
pendekatan heuristik (kira-kira):
Base Value: 0.5 โ Asumsi nilai tengah (netral/saldo cukup).
Sistem
menganggap kondisi "normal" siswa memiliki kemampuan beli rata-rata (skala 0.0 -
1.0).
Aksi Reward (101): +0.3 โ 0.8 (Daya beli naik
drastis
karena baru dapat insentif/poin).
Aksi Beli (102): -0.2 โ 0.3 (Daya beli turun
karena
poin baru saja dibelanjakan).
โ Mengapa aksi lain tidak dihitung?
Misi (105): Bersifat penugasan. Poin baru didapat
setelah
misi selesai (masa depan), jadi belum mempengaruhi saldo saat ini.
Hukuman (103): Secara teknis mengurangi poin, namun dalam
rekomendasi produk, kita fokus pada opsi positif. Hukuman dianggap
menurunkan
akses
belanja (netral rendah) jadi tidak perlu penyesuaian khusus.
Konsultasi (106): Layanan jasa guru yang tidak melibatkan
transaksi
poin langsung (gratis/netral).
Contoh Kasus:
Siswa Visual, Motivasi High, baru dapat Reward. Vektor A = [0.9, 0.1, 0.1, 0.1, 1.0, 0.8]
๐งฎ Rumus: Cosine Similarity
Untuk menghitung skor kemiripan (0% - 100%), digunakan rumus Cosine Similarity:
Similarity = (A . B) / (||A|| * ||B||)
Dimana:
A . B (Dot Product): Perkalian setiap elemen vektor. Semakin
banyak
fitur yang cocok (tinggi * tinggi), semakin besar nilainya.
||A|| & ||B|| (Magnitude): Panjang vektor (akar dari jumlah
kuadrat
elemen). Digunakan sebagai pembagi agar skor ternormalisasi menjadi -1 s.d 1.
Contoh Kasus:
Siswa Visual (V=0.9) akan memiliki skor tinggi dengan produk Video
Tutorial (V=0.9) karena perkalian 0.9 * 0.9 = 0.81 (Sangat Besar).
Sebaliknya, skor akan rendah dengan Podcast (V=0.1) karena 0.9 * 0.1 = 0.09
(Kecil).
๐ฆ Database Produk & Nilai Fitur
Berikut adalah daftar lengkap produk dalam database sistem beserta nilai vektor
fiturnya
(0.0
- 1.0):
Produk
V
A
R
K
Mot
$
๐ฅ Video Tutorial
0.9
0.8
0.2
0.1
0.7
0.4
๐ E-Book Intr.
0.6
0.1
0.9
0.2
0.5
0.3
๐ง Podcast Ahli
0.1
0.9
0.3
0.1
0.6
0.3
๐ง Kit Praktikum
0.7
0.1
0.2
0.9
0.8
0.8
๐จโ๐ซ Mentoring
0.5
0.9
0.4
0.3
0.9
0.9
๐ด Flashcard
0.8
0.2
0.7
0.3
0.5
0.2
โญ Badge "Star"
0.8
0.1
0.1
0.1
0.9
0.1
๐ Voucher Makan
0.2
0.2
0.2
0.5
0.8
0.5
*Nilai tinggi berarti
produk
tersebut sangat cocok untuk fitur tersebut.
๐ Panduan Penetapan Nilai Vektor (Expert Labeling)
Bagaimana cara menetapkan angka 0.0 - 1.0 untuk produk baru? Berikut panduan
acuannya:
1. $ (Price / Spending Power)
0.9 - 1.0 (Mahal/Premium): Produk eksklusif, private session,
atau
alat
canggih (>800 Poin). Contoh: Sesi Mentoring.
0.4 - 0.6 (Menengah): Konten standar berbayar (400-600 Poin).
Contoh:
Video Premium.
Tinggi (0.8 - 1.0): Produk yang personal, prestisius (status
social),
atau sangat seru (gamified).
Sedang (0.5 - 0.7): Produk fungsional standar yang cukup
membantu.
Rendah (0.1 - 0.4): Produk kebutuhan dasar atau item
administratif
yang
tidak memicu semangat khusus.
๐ฏ Tentang Simulasi Ini
Simulasi ini menggunakan Q-Learning, sebuah algoritma Reinforcement
Learning
(RL), untuk menemukan strategi optimal dalam memberikan intervensi edukatif kepada
siswa.
Tujuan: Memaksimalkan motivasi dan performa siswa dengan memilih
aksi
yang
tepat berdasarkan kondisi siswa saat ini.
๐ Alur Kerja Simulasi
Observasi State: Sistem mengamati kondisi siswa (motivasi, gaya
belajar, engagement, performa)
Pemilihan Aksi: Agen memilih intervensi menggunakan strategi
epsilon-greedy
Eksekusi & Reward: Aksi dilakukan, sistem menghitung reward
berdasarkan
hasil
Update Q-Table: "Memori" agen diupdate menggunakan Bellman
Equation
Transisi State: Siswa beralih ke kondisi baru, proses berulang
๐ Komponen Utama
State Space: 144 kombinasi kondisi siswa (4ร3ร4ร3)
Contoh State: A_high_mslq_high_ams_achievement_eng_high
(Auditory, High MSLQ, Achievement AMS, High Engagement)
2. Action Space (Kode Aksi)
Kode
Aksi
Deskripsi
101
Reward
Pemberian poin, badge,
leaderboard.
105
Misi
Penugasan adaptif, level
kontekstual.
102
Beli Poin
Akses produk/layanan
marketplace.
103
Hukuman
Denda/restriksi saat
engagement
turun.
106
Konsultasi
Coaching NLP untuk motivasi
rendah.
๐ก Perbedaan Reward (R) vs Q-Value (Q)
Mengapa "Reward" di kartu Keputusan Agen berbeda dengan angka di Q-Table? Karena
keduanya
memiliki fungsi waktu yang berbeda:
Reward (R): Feedback instan "saat ini juga". Seperti makan
permen
(enak
sekarang, R positif).
Q-Value (Q): Nilai jangka panjang. Seperti makan sayur (R
mungkin
kecil, tapi Q besar untuk kesehatan masa depan).
Prinsip: Agen Q-Learning yang cerdas tidak hanya mengejar Reward
sesaat,
tetapi mengejar Q-Value tertinggi (akumulasi masa depan).
๐ง Reinforcement Learning & MDP Pedagogis
Simulasi ini memodelkan interaksi antara Guru (Agen) dan Siswa menggunakan kerangka
kerja
Markov Decision Process (MDP).
Apa itu MDP Pedagogis?
MDP adalah kerangka matematis untuk pengambilan
keputusan
di
mana hasil bersifat sebagian acak dan sebagian di bawah kendali pembuat
keputusan.
Dalam
konteks pendidikan:
State (S): Profil psikologis & perilaku siswa saat ini.
Action (A): Strategi intervensi/alat Pointmarket.
Transition (P): Kemungkinan perubahan kondisi siswa setelah
aksi
(probabilitas transisi).
Discount Factor (ฮณ): Seberapa besar agen memprioritaskan
perkembangan siswa di masa depan dibandingkan hasil instan.
๐ฒ Q-Learning: Solusi Tanpa Model
Karena kita tidak pernah tahu pasti "isi kepala" siswa (Probabilitas Transisi tidak
diketahui
secara eksak), kita menggunakan Q-Learning (Model-Free RL).
Q(s, a) = Estimasi manfaat jangka panjang jika agen mengambil aksi 'a' pada kondisi
's'.
Agen belajar secara trial-and-error untuk membangun sebuah "kebijakan"
(Policy)
yang
memaksimalkan perkembangan siswa dari waktu ke waktu.
โ๏ธ Exploration vs Exploitation
Dilema fundamental dalam membantu siswa:
Exploitation: Menggunakan strategi yang sudah terbukti berhasil
(aman).
Exploration: Mencoba pendekatan baru yang mungkin lebih efektif
bagi
tipe siswa tertentu.
Solusi: Epsilon-Greedy Strategy (ฮต). Sebagian besar waktu agen
bertindak
cerdas (1-ฮต), namun sesekali ia bereksperimen (ฮต).
1. Formula Pemetaan State (Bijection Mapping)
Matematika untuk menerjemahkan "Profil Psikologis" yang rumit menjadi "Satu Angka
Indeks"
agar bisa diproses komputer.
Index = Vร36 + Mร12 + Aร3 + E
Penjelasan:
Mengubah kombinasi 4 dimensi (VARK, MSLQ, AMS, Engagement) menjadi satu angka
unik
(0-143).
Memastikan setiap kondisi siswa punya "alamat" unik di memori (Q-Table)
komputer.
2. Persamaan Bellman (Q-Learning Update Rule)
Ini adalah "Jantung" dari kecerdasan buatan ini. Rumus ini menentukan bagaimana AI
memperbarui
pengetahuannya berdasarkan pengalaman baru.
R (Reward): Hasil nyata dari aksi yang baru dilakukan.
max Q(s',a'): Prediksi masa depan terbaik (visi jangka
panjang).
ฮฑ (Alpha): Seberapa cepat AI percaya hal baru vs memori lama.
3. Formula Fungsi Reward (Reward Function)
Rumus untuk menghitung seberapa "sukses" sebuah intervensi. Tujuannya adalah
memaksimalkan
Rtotal dengan mencari aksi yang memberikan dampak
positif
besar
dengan biaya/resiko sekecil mungkin.
R = (wโยทฮEngagement + wโยทฮAMS_Quality) - Cost
Komponen:
Komponen Detail & Nilai Referensi:
wโ & wโ (Bobot/Weight): Diset 1.0. Artinya
Peningkatan
Engagement dan Kualitas Motivasi dianggap sama pentingnya dalam simulasi ini.
ฮEngagement: Perubahan level keaktifan siswa.
(Naik Level = +0.5 s.d +0.8,
Turun
=
-0.2 s.d -0.8)
ฮAMS_Quality (Bonus Motivasi): Perubahan tipe motivasi ke arah
yang
lebih baik.
(Naik Level = +1.0, Tetap = 0,
Turun =
-1.0)
Mengapa nilainya diskrit (0/1)?
Perubahan Mindset Motivasi (misal dari "belajar demi nilai" menjadi
"suka
belajar") adalah lompatan besar dan lebih langka dibanding sekadar aktif
sesaat
(engagement). Maka setiap kenaikan level dihargai tinggi (+1.0).
Cost (Biaya Aksi): "Harga" yang harus dibayar guru
(Tenaga/Waktu/Risiko).
(Contoh: Reward=0.3,
Hukuman=0.05,
Konsultasi=0.5)
๐ฌ Reward Engineering (Prinsip Penetapan Nilai)
Bagaimana menentukan nilai angka untuk Manfaat (Benefit) dan Biaya (Cost)? Tidak ada
aturan
baku, namun kami menggunakan prinsip heuristik berikut:
1. Prinsip Keseimbangan (Equilibrium):
Aksi yang mudah/murah (seperti Hukuman/Reward) diberi Cost kecil namun Benefit
rendah
atau berisiko. Aksi yang sulit/mahal (Konsultasi/Misi) diberi Benefit besar.
Tujuannya
agar agen tidak "spamming" aksi murah.
2. Skala Relatif (Relative Scaling):
Poin penting bukan nilai absolutnya, melainkan rasio antar aksi.
Contoh: Cost Konsultasi (0.5) diset 10x lipat dari Cost Hukuman
(0.05)
untuk mencerminkan realita beban kerja guru.
3. Normalisasi (Normalization):
Nilai dijaga dalam rentang kecil (-1.0 s.d +1.0) agar perhitungan matematika
stabil
dan
mencegah "exploding gradient" pada proses belajar yang panjang.
4. Justifikasi Pedagogis:
Setiap angka memiliki alasan pendidikan. Misi memiliki Benefit tinggi (0.8)
karena
memicu Active Learning, sedangkan Reward Instan memiliki Benefit rendah
(0.2)
karena hanya motivasi eksternal.
4. Formula Probabilitas Keputusan (ฮต-Greedy)
Ini adalah rumus matematika untuk menentukan kapan AI harus "Eksplorasi" (coba-coba)
dan
kapan
"Eksploitasi" (menggunakan ilmu yang sudah ada).
P(acak) = ฮต | P(terbaik) = 1 - ฮต
Logika:
Jika nilai acak < Epsilon (ฮต): Mode Coba-Coba (Eksplorasi). AI
mencoba
hal baru untuk belajar potensial strategi baru.
Jika nilai acak โฅ Epsilon (ฮต): Mode Pintar (Eksploitasi). AI
menggunakan
strategi terbaik yang ia tahu saat ini untuk memaksimalkan hasil.
๐ Kamus Istilah
Agent (Agen)
Entitas yang membuat keputusan dalam sistem RL. Dalam simulasi ini, agen adalah sistem
yang
memilih intervensi edukatif.
Alpha (ฮฑ) - Learning Rate
Parameter (0-1) yang menentukan seberapa banyak informasi baru menimpa informasi lama.
ฮฑ=0
berarti tidak belajar sama sekali, ฮฑ=1 berarti hanya mempercayai pengalaman terbaru.
Bellman Equation
Persamaan rekursif yang menghubungkan nilai suatu state dengan nilai state berikutnya.
Dasar
dari dynamic programming dan Q-Learning.
Discount Factor (ฮณ - Gamma)
Parameter (0-1) yang menentukan pentingnya reward masa depan. ฮณ=0 hanya peduli reward
immediate,
ฮณโ1 mempertimbangkan reward jangka panjang.
Engagement
Tingkat keterlibatan siswa dalam pembelajaran. Diukur dalam 3 level: Declining
(menurun),
Stable
(stabil), Increasing (meningkat).
Environment (Lingkungan)
Sistem yang berinteraksi dengan agen. Dalam simulasi ini, environment adalah model siswa
yang
bereaksi terhadap intervensi.
Episode
Satu siklus lengkap interaksi agent-environment. Dalam simulasi ini, 1 episode = 20
langkah.
Epsilon (ฮต) - Exploration Rate
Probabilitas untuk melakukan eksplorasi (aksi acak) daripada eksploitasi (aksi terbaik).
Mengontrol trade-off explore vs exploit.
Epsilon-Greedy
Strategi pemilihan aksi: pilih aksi acak dengan probabilitas ฮต, pilih aksi terbaik
dengan
probabilitas 1-ฮต.
Exploitation
Strategi menggunakan pengetahuan saat ini untuk memaksimalkan reward. Memilih aksi yang
diketahui terbaik.
Exploration
Strategi mencoba aksi baru untuk menemukan informasi yang lebih baik. Penting untuk
menghindari
local optima.
Gaya Belajar (Learning Style)
Preferensi siswa dalam menerima informasi: Visual (gambar), Auditory (suara), Read/Write
(teks),
Kinesthetic (praktek).
Motivasi (Motivation)
Tingkat dorongan internal siswa untuk belajar. Diukur dalam 3 level: Low, Moderate,
High.
Performance
Hasil belajar siswa, dikategorikan dalam kuartil: Q1 (rendah), Q2, Q3, Q4 (tinggi).
Policy (Kebijakan) - ฯ
Strategi yang menentukan aksi mana yang diambil di setiap state. ฯ(s) = a berarti "di
state
s,
ambil action a".
Q-Function (Action-Value Function)
Fungsi Q(s,a) yang mengestimasi total reward yang diharapkan jika mengambil action a di
state s,
lalu mengikuti kebijakan optimal.
Q-Table
Tabel/matriks yang menyimpan nilai Q untuk semua kombinasi state-action. "Memori" atau
"otak"
dari agen.
Reward (R)
Sinyal feedback numerik dari environment yang menunjukkan seberapa baik aksi yang
diambil.
Positif = baik, negatif = buruk.
State (s)
Representasi kondisi environment pada waktu tertentu. Dalam simulasi ini: (VARK, MSLQ,
AMS
Type,
Engagement).
Temporal Difference (TD)
Selisih antara estimasi reward (prediksi) dengan reward aktual yang diterima. Digunakan
untuk
update Q-value.
๐๏ธ Panduan Pemilihan Parameter
Parameter ฮฑ, ฮณ, dan ฮต sangat mempengaruhi performa dan kecepatan pembelajaran. Berikut
panduan
pemilihannya:
๐ Alpha (ฮฑ) - Learning Rate
Fungsi: Mengontrol seberapa cepat agen belajar dari pengalaman baru.
Nilai ฮฑ
Karakteristik
Kapan
Digunakan
0.01 - 0.1
Pembelajaran lambat tapi
stabil
Environment stabil, butuh
presisi
tinggi
0.1 - 0.3
Balance optimal โญ
Kebanyakan kasus, good
starting
point
0.5 - 1.0
Pembelajaran sangat cepat,
volatile
Environment dinamis, butuh
adaptasi
cepat
๐ก Tips: Mulai dengan ฮฑ=0.1. Jika grafik reward terlalu
ramai/volatile,
turunkan ke 0.05.
Jika konvergensi terlalu lambat, naikkan ke 0.2-0.3.
๐ Gamma (ฮณ) - Discount Factor
Fungsi: Menentukan pentingnya reward jangka panjang vs jangka
pendek.
Nilai ฮณ
Karakteristik
Kapan
Digunakan
0.5 - 0.7
Fokus short-term reward
Task dengan feedback
immediate
0.8 - 0.95
Balance optimal โญ
Simulasi edukatif seperti
ini
0.95 -
0.99
Sangat fokus long-term
Task dengan delayed reward
signifikan
๐ก Tips: Gunakan ฮณ=0.9 sebagai default. Dalam konteks edukatif,
kita
ingin
agen mempertimbangkan
dampak jangka panjang intervensi terhadap siswa.
๐ Epsilon (ฮต) - Exploration Rate
Fungsi: Probabilitas melakukan eksplorasi (coba aksi acak) vs
eksploitasi
(pilih aksi terbaik).
Fase
Nilai ฮต
Alasan
Awal (0-200
episode)
0.3 - 0.5
Eksplorasi tinggi untuk
menemukan
strategi
Tengah
(200-500)
0.1 - 0.2
Balance explore-exploit
Akhir
(>500)
0.01 - 0.05
Fokus eksploitasi strategi
optimal
๐ก Tips: Mulai dengan ฮต=0.3 untuk eksplorasi awal. Setelah 100-200
episode,
turunkan bertahap
ke 0.1, lalu ke 0.05 setelah grafik mulai stabil. Strategi ini disebut "epsilon
decay".
๐ฏ Rekomendasi Kombinasi Parameter
๐ Pembelajaran Cepat & Eksplorasi
Untuk eksplorasi cepat di awal simulasi:
ฮฑ = 0.3 (belajar cepat)
ฮณ = 0.85 (balance)
ฮต = 0.4 โ decay ke 0.1 (eksplorasi tinggi)
โ Konvergensi cepat, eksplorasi luas | โ Hasil kurang stabil, bisa noisy
โญ Pembelajaran Stabil & Presisi
(REKOMENDASI)
Untuk hasil presisi dan penelitian:
ฮฑ = 0.1 (stabil)
ฮณ = 0.9 (long-term oriented)
ฮต = 0.1 โ decay ke 0.05 (balanced)
โ Hasil stabil, presisi tinggi, cocok penelitian | โ Konvergensi lebih lambat
โก Environment Dinamis
Untuk kondisi yang sering berubah:
ฮฑ = 0.5 (adaptasi sangat cepat)
ฮณ = 0.8 (fokus near-term)
ฮต = 0.2 (eksplorasi konstan)
โ Cepat beradaptasi | โ Volatile, bisa "lupa" pembelajaran lama
๐ Cara Membaca Grafik sebagai Feedback
๐ Grafik naik terus: Pembelajaran berjalan baik โ Pertahankan
parameter
๐ Grafik sangat zigzag: ฮฑ atau ฮต terlalu tinggi โ Turunkan ฮฑ
ke
0.05
atau turunkan ฮต
โก๏ธ Grafik datar dari awal: Tidak ada pembelajaran โ Naikkan ฮฑ
atau
naikkan ฮต
๐ Grafik naik lalu turun: Overfitting โ Turunkan ฮฑ atau
gunakan
epsilon decay
โ ๏ธ Catatan Penting: Tidak ada kombinasi "benar" absolut. Nilai
optimal
bergantung pada karakteristik
problem Anda. Gunakan grafik konvergensi sebagai feedback untuk fine-tuning! Untuk
panduan
lebih lengkap,
lihat file PANDUAN_PARAMETER.md.
๐๏ธ Panel Kontrol (Kiri)
Kecepatan Simulasi: Atur kecepatan simulasi.
Alpha (ฮฑ): Learning rate. Naikkan jika ingin agen cepat berubah
pikiran.
Gamma (ฮณ): Discount factor. Naikkan untuk visi jangka panjang.
Epsilon (ฮต): Eksplorasi. Naikkan jika agen terjebak di strategi
jelek.
Reset Q-Table: Mulai ulang pembelajaran dari nol.
๐ Panduan Detail Parameter: Untuk panduan lengkap pemilihan
nilai
ฮฑ,
ฮณ, dan ฮต,
lihat file PANDUAN_PARAMETER.md yang berisi tabel referensi,
strategi
tuning,
dan rekomendasi kombinasi parameter untuk berbagai skenario.
๐ Status Siswa (Tengah Atas)
Menampilkan state saat ini dalam 4 dimensi:
Gaya Belajar (VARK): Visual/Auditory/ReadWrite/Kinesthetic
Motivasi (MSLQ): Low/Medium/High
Tipe AMS: Amotivation/Extrinsic/Achievement/Intrinsic
Engagement: Basic/Medium/High
ID State: Index numerik 0-143
๐ค Keputusan Agen (Tengah)
Menampilkan aksi yang dipilih dan hasilnya:
Nama Aksi: Intervensi yang diambil agen
Reward Badge (Nilai Efektivitas):
Warna Hijau
(Positif): Aksi guru BERHASIL. Siswa
merespon
baik, Engagement naik, atau Motivasi membaik. Makna bagi
Guru:
"Lanjutkan strategi ini untuk tipe siswa seperti ini."
Warna Merah
(Negatif): Aksi guru GAGAL/BACKFIRE. Siswa
merasa
terbebani, demotivasi, atau 'biaya' (tenaga/waktu) aksi terlalu mahal
dibanding
hasilnya. Makna bagi Guru: "Hati-hati, strategi ini
berisiko
atau
merugikan."
Warna Abu (Netral): Dampak minimal atau impas. Tidak
ada
perubahan signifikan pada siswa.
Narasi: Penjelasan mengapa reward tersebut didapat
๐๏ธ Rekomendasi Produk / CBF (Tengah)
Menampilkan saran produk konkret yang relevan dengan kondisi siswa dan keputusan
agen.
Integrasi dengan Keputusan Agen:
Produk yang muncul difilter berdasarkan aksi yang baru saja diambil agen.
Contoh: Jika Agen memilih aksi Reward, maka sistem
CBF
hanya akan merekomendasikan produk tipe Hadiah (Badge/Voucher).
Jika
Agen memilih Konsultasi, sistem mencari produk edukasi yang
cocok.
Match Score (%): Seberapa cocok fitur produk (V,A,R,K,Mot,$)
dengan
profil siswa.
Explained AI: Penjelasan naratif mengapa produk tersebut
dipilih
(misal: "Cocok untuk tipe Visual").
Rumus Matematika: Klik ikon โน๏ธ atau lihat detail di bawah kartu
untuk
melihat perhitungan vektornya.
๐งฎ Perhitungan Matematis (Tengah Bawah)
Visualisasi real-time dari Bellman Equation:
Qnew: Nilai Q hasil update (hijau)
Warna kuning: Q value lama
Warna putih: Reward yang didapat
Warna biru: Max Q dari state berikutnya
๐ Grafik Konvergensi (Kanan Atas)
Menunjukkan rata-rata reward per 20 episode:
Garis naik: Agen makin pintar, strategi membaik
Garis datar: Konvergensi tercapai (optimal policy found)
Garis turun: Perlu adjustment parameter atau masih eksplorasi
๐ง Q-Table Slice (Kanan Bawah)
Menampilkan sebagian Q-Table untuk gaya belajar saat ini:
Baris: Level performa (Q1-Q4)
Kolom: 5 aksi yang tersedia
Warna hijau: Q-value positif (aksi bagus)
Warna merah: Q-value negatif (aksi buruk)
Intensitas: Makin gelap = makin kuat nilai
Penjelasan Kolom (Header Tabel):
AMS Type: Tipe Motivasi Akademik siswa (Baris) - Target
intervensi.
AMS Type: Tipe Motivasi Akademik siswa (Baris) - Target
intervensi.
Cara Membaca: Setiap sel menunjukkan nilai Q untuk kombinasi [AMS
Type]
ร
[Action].
Warna Hijau = Strategi yang disarankan untuk tipe AMS tersebut.
๐ฉ Troubleshooting: Kenapa Semua Merah?
Jika satu baris Q-Table berwarna
merah
semua (negatif), artinya semua opsi berisiko atau memakan biaya. Solusinya:
Pilih Loss Terkecil: Strategi
optimal
adalah memilih warna merah paling pudar (mendekati 0). Agen meminimalkan
kerugian.
Paksa Eksplorasi: Naikkan
Epsilon (ฮต) sesaat (misal ke 0.5) untuk memaksa agen
mencari
"Hidden Gem" yang mungkin belum dicoba.
Cek Gamma (ฮณ): Jika Gamma rendah, agen mungkin menghindari
aksi
mahal yang bermanfaat jangka panjang. Naikkan Gamma (0.9).
๐ Sistem Notifikasi Cerdas
Simulasi ini dilengkapi dengan asisten cerdas yang akan menganalisis performa
pembelajaran
secara real-time dan memberikan saran. Berikut adalah jenis notifikasi yang mungkin
muncul:
โ ๏ธ Pembelajaran Lambat
Muncul jika grafik reward datar (stagnan). Saran: Naikkan Alpha (ฮฑ) atau Epsilon (ฮต) agar agen lebih agresif
belajar.
โ ๏ธ Grafik Terlalu Volatile
Muncul jika grafik naik-turun sangat drastis dan tidak stabil. Saran: Turunkan Alpha (ฮฑ) agar pembelajaran lebih stabil.
๐ก Eksplorasi Terlalu Tinggi
Muncul jika grafik zigzag tajam karena terlalu banyak aksi acak. Saran: Turunkan Epsilon (ฮต) karena agen terlalu "coba-coba".
๐ก Saatnya Epsilon Decay / Fase Konvergensi
Muncul secara otomatis pada Episode 100 dan 300. Saran: Mengingatkan Anda untuk menurunkan Epsilon (ฮต) secara bertahap
menuju 0
(eksploitasi penuh) untuk memanen hasil belajar.
โ Pembelajaran Berjalan Baik
Muncul saat tren grafik positif dan stabil. Saran: Parameter saat ini sudah optimal. Pertahankan!
๐ Panduan Eksperimen & Pembelajaran
Ikuti langkah-langkah terstruktur berikut untuk memahami bagaimana sistem Q-Learning
ini
berevolusi dari "Tidak Tahu" menjadi "Pakar":
Fase 1
Mode Eksplorasi (Belajar Sambil
Mencoba)
Persiapan: Geser slider Epsilon (ฮต) ke angka
0.5.
Aksi: Klik tombol Mulai. Perhatikan bagaimana agen memilih aksi
secara
acak. Ia sedang memetakan "Medan Tempur" dan mencatat reaksi siswa dalam memori
Q-Table-nya.
Fase 2
Proses Pembaruan Pengetahuan
(Update
Q-Value)
Persiapan: Fokuskan pandangan pada panel "Perhitungan
Matematis" di tengah bawah.
Aksi: Perhatikan angka hijau (Q-new). Jika aksi sukses (Reward
positif),
nilai tersebut akan naik. Inilah saat AI "belajar" bahwa strategi tersebut
efektif
untuk
kondisi siswa saat itu.
Fase 3
Konvergensi (Optimalisasi Strategi)
Persiapan: Percepat simulasi dan biarkan mencapai episode > 300.
Aksi: Cek "Grafik Konvergensi". Jika garis
sudah
cenderung mendatar di level reward yang tinggi, AI telah menemukan strategi
optimal.
Validasi ini dengan melihat kotak hijau tua di tabel "Strategi
AI".
Eksperimen Pakar
Uji Stabilitas Parameter
Naikkan Alpha (ฮฑ) ke 0.9: AI menjadi "lupa diri" (terlalu
reaktif),
menyebabkan grafik reward berantakan.
Turunkan Gamma (ฮณ) ke 0.1: AI menjadi "rabun jauh" (hanya
peduli
hasil instan, bukan kestabilan motivasi jangka panjang).