Simulasi Q-Learning: Optimasi Motivasi Siswa

🔬 Rencana Riset Lanjutan & Expert Judgment

Simulasi ini adalah fondasi awal. Berikut adalah peta jalan riset lanjutan untuk memvalidasi dan mengembangkan model ini ke tingkat yang lebih tinggi.

📡 [P1] METODE SENSING (Data-Driven)

Prioritas 1: Fokus pada deteksi status internal siswa secara non-intrusif (tanpa kuesioner).

[P1.1] Behavioral Feature Engineering: Tahap awal: Proses mengubah log aktivitas (durasi, klik) menjadi fitur numerik.
Luaran: Dataset Log Perilaku Terfragmentasi.
📌 Indikator: Korelasi fitur v.s kuesioner (r > 0.6).
[P1.2] Latent Motivation Estimation: Tahap permodelan: Teknik estimasi status mental tersembunyi berdasarkan fitur perilaku.
Luaran: Algoritma Inferensi Probabilistik (Bayesian/RNN).
📌 Indikator: Akurasi estimasi (MAE < 0.15).
[P1.3] Implicit Inference & Hybrid Strategy: Tahap implementasi: Otomatisasi sensing dengan kuesioner hanya sebagai validasi awal.
Luaran: Modul API Sensing Otomatis Real-time.
📌 Indikator: Latensi sistem < 200ms.

📐 [P2] PENGEMBANGAN MODEL (Math & Model)

Prioritas 2: Validasi matematis fungsi reward dan perluasan kompleksitas algoritma.

[P2.1] Expert Survey & Calibration: Survei pakar untuk menetapkan nilai "Bobot & Harga" aksi agar sesuai realita.
Luaran: Dokumen Rekomendasi Bobot & Cost (Validasi Pakar).
📌 Indikator: Content Validity Index (CVI) > 0.80.
[P2.2] Signifikansi AMS Jumps: Validasi psikopedagogi terhadap bonus +1.0 pada kenaikan level motivasi.
Luaran: Naskah Akademik Validasi Psikometrik AMS.
📌 Indikator: Signifikansi statistik (p < 0.05).
[P2.3] Granularitas State Space: Ekspansi dimensi state dengan menyertakan variabel Mood atau tingkat kesulitan soal.
Luaran: Skema State-Space Multi-Dimensi (Mood/Level).
📌 Indikator: Peningkatan konvergensi agen > 20%.

🧠 [P3] SISTEM CERDAS (Pedagogical Logic)

Prioritas 3: Optimalisasi logika rekomendasi produk dan profil gaya belajar.

[P3.1] Multimodal VARK Profiling: Pengembangan profil gaya belajar yang tidak kaku (kombinasi proporsional V-A-R-K).
Luaran: Algoritma Profiling VARK Proporsional.
📌 Indikator: Skor diversitas rekomendasi (Entropy > 0.7).
[P3.2] CBF Economic Calibration: Penyesuaian variabel ekonomi agar harga produk tetap inklusif bagi seluruh level poin.
Luaran: Kebijakan Tokenomics Kelas Jangka Panjang.
📌 Indikator: Gini Coefficient Poin < 0.3.
[P3.3] Neuro-Symbolic Integration: Penggabungan model RL probabilistik dengan aturan pedagogi simbolik kaku.
Luaran: Framework Integrasi Logika-RL (Neuro-Symbolic).
📌 Indikator: 0% pelanggaran aturan pedagogis.

🤝 [P4] KOLABORASI & ETIKA (Human-in-the-Loop)

Prioritas 4: Menjaga agar AI tetap bertindak dalam koridor kemanusiaan dan keadilan.

[P4.1] Ethical Constraint Integration: Mengunci aturan moral kaku ke dalam kode (misal: dilarang menghukum di kondisi Amotivation).
Luaran: Library Safety-Constraints untuk Agen RL.
📌 Indikator: Lolos uji penetrasi etika (100% Safety).
[P4.2] Teacher-in-the-Loop Override: Pengembangan UI agar guru dapat langsung mengintervensi keputusan AI secara real-time.
Luaran: Dashboard Intervensi Guru (TITL Interface).
📌 Indikator: System Usability Scale (SUS) > 75.
[P4.3] Fairness-Aware RL: Algoritma distribusi perhatian adil untuk seluruh spektrum kemampuan siswa.
Luaran: Matriks Evaluasi Keadilan Distribusi Reward.
📌 Indikator: Perbedaan rata-rata reward antar-kelompok < 15%.

✅ Roadmap Tervalidasi Standar SMART

Specific: Pilar P1-P4 memiliki fokus target luaran yang unik dan tidak tumpang tindih.

Measurable: Keberhasilan diukur melalui KPI kuantitatif (CVI, p-value, MAE, SUS).

Achievable: Tahapan disusun sekuensial (Sensing & Model harus mapan sebelum Logic & Ethics).

Relevant: Seluruh pilar mendukung tujuan utama: Optimasi Pedagogis berbasis RL.

Time-bound: Prioritas P1-P4 memberikan panduan urutan waktu pelaksanaan riset.

📅 Roadmap Strategis Riset (2027 - 2030)

Peta jalan transisi dari simulasi laboratorium menuju implementasi ekosistem cerdas di sekolah nyata.

🚀 2027: Foundation & Sensing (P1)

Fokus Utama: Penyelesaian masalah data (Implicit Sensing) dan validasi dasar model.

Aktivitas Utama: Implementasi Feature Engineering [P1.1], Estimasi Mental [P1.2], dan Survei Pakar [P2.1].
Target Luaran: Modul Sensing yang akurat tanpa kuesioner harian.
🤖 Prediksi Situasi: Di tahun ini, Edge Computing pada perangkat siswa akan memungkinkan sensing emosi real-time tanpa delay cloud.

🧠 2028: Smart Logic & Profiling (P3)

Fokus Utama: Personalisasi konten bimbingan melalui CBF dan VARK multimodal.

Aktivitas Utama: Strategi Hybrid P1.3, Automasi Profiling P3.1, dan Kalibrasi Ekonomi Token P3.2.
Target Luaran: Mesin marketplace yang adaptif terhadap perubahan motivasi siswa setiap detiknya.
🤖 Prediksi Situasi: Dominasi Generative AI dalam modul belajar. Produk marketplace tidak lagi statis, tapi modul yang dihasilkan AI secara On-Demand.

🛡️ 2029: Governance & Complexity (P2-P4)

Fokus Utama: Perluasan dimensi state dan penguncian batasan etika kaku.

Aktivitas Utama: Validasi psikopedagogi P2.2, Ekspansi State P2.3, dan Library Safety P4.1.
Target Luaran: Agen RL yang tervalidasi secara klinis/pedagogis dan aman dari tindakan malpraktik digital.
🤖 Prediksi Situasi: Munculnya regulasi Trustworthy AI global. Riset XAI (Explainable AI) menjadi wajib agar guru paham alasan setiap saran AI.

🤝 2030: Synergy & Global Fairness (P4)

Fokus Utama: Koleborasi penuh guru-AI dan pemerataan keadilan pendidikan.

Aktivitas Utama: Integrasi Neuro-Symbolic P3.3, Interface TITL P4.2, dan Matriks Keadilan P4.3.
Target Luaran: Ekosistem sekolah cerdas yang inklusif dan transparan (Human-AI Teaming).
🤖 Prediksi Situasi: Peralihan dari AI asisten menjadi Pedagogical Partner berbasis data bukti (Evidence-based intervention) di level global.

🏛️ Prasyarat & Validasi Ekosistem Riset

Untuk memvalidasi temuan riset ini ke dunia nyata, berikut adalah spesifikasi sumber daya (Resources) dan kepatuhan (Compliance) yang direncanakan untuk dipenuhi:

👥 Konsorsium Tenaga Ahli

AI/RL Scientists: Pemodelan Markov Decision Process & Q-Table.
Psikometrika: Pakar validasi instrumen mental (MSLQ/AMS).
Pedagogical SMEs: Ahli kurikulum untuk kontrol intervensi.
Ethics Specialist: Pengawas privasi & bias algoritma.

📊 Obyek & Kebutuhan Data

Subjek: Minimal 300 siswa per jenjang (K-12/PT).
Log Perilaku: Dataset interaksi minimal 1 semester.
Tools: Integrasi LMS (Moodle/Canvas) & Mobile Apps.
Infra: Cloud GPU Cluster untuk training ulang model.

🛡️ Validasi Lembaga Resmi

IRB/Komite Etik: Kelayakan perlakuan pada manusia.
Pusdatin Kemendikbud: Sertifikasi keselarasan SNP.
BSSN: Audit keamanan data & privasi (UU PDP).
HKI: Paten algoritma & hak cipta modul software.

📚 Landasan Teoretis & Referensi Ilmiah

Simulasi ini dibangun di atas fondasi literatur akademik yang mapan di bidang AI, Psikologi Pendidikan, dan Rekayasa Sistem.

🧠 Psikologi & Motivasi Belajar (State Space)

MSLQ: Pintrich, P. R., Smith, D. A., Garcia, T., & McKeachie, W. J. (1991). A manual for the use of the Motivated Strategies for Learning Questionnaire (MSLQ). National Center for Research to Improve Postsecondary Teaching and Learning.
AMS: Vallerand, R. J., et al. (1992). The Academic Motivation Scale: A measure of intrinsic, extrinsic, and amotivation in education. Educational and Psychological Measurement.
VARK: Fleming, N. D. (2001). Teaching and learning styles: VARK strategies. Christchurch, New Zealand.

🤖 Reinforcement Learning & Machine Learning

Q-Learning: Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
RL in Education: Doroudi, S. (2020). The building blocks of adaptive learning systems. Journal of Learning Analytics.
CBF Matrix: Salton, G., & McGill, M. J. (1983). Introduction to modern information retrieval. McGraw-Hill.

🛡️ Etika & Tata Kelola Riset AI (Pillar P4)

Trustworthy AI: European Commission (2019). Ethics guidelines for trustworthy AI.
Explainable AI (XAI): Arrieta, A. B., et al. (2020). Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. Information Fusion.
Data Privacy: UU No. 27 Tahun 2022 tentang Perlindungan Data Pribadi (Indonesia PDP Law).

🌐 Publikasi Internasional Terkini (2021-2025)

RL Systematic Review (2025): Riedmann, A., Schaper, P., & Lugrin, B. (2025). Reinforcement Learning in Education: A Systematic Literature Review. International Journal of Artificial Intelligence in Education (IJAIED).
Generative AI & Motivation (2025): Hwang, G. J., et al. (2025). Enhancing flipped classroom models with generative AI: insights from sequential analysis. Computers & Education: Artificial Intelligence.
DRL & Decision Support (2025): Jia, W., & Li, Z. (2025). Fusion of Deep Reinforcement Learning & EDM for Intelligent Decision Support. Information (MDPI), 16(12).
Engagement Optimization (2024): Hwang, G. J., et al. (2024). Elevating learners’ positive behaviors: A motivation model-based digital gaming approach. British Journal of Educational Technology (BJET).
GenAI & Learning Analytics (2024): Yan, L., Martinez-Maldonado, R., & Gašević, D. (2024). Generative AI in Learning Analytics: Opportunities and Challenges. Journal of Learning Analytics, 11(1).
LLM for Personalization (2024): Authors explore leveraging LLMs to create adaptive environments for the "whole learner" supporting cognitive & non-cognitive traits. Frontiers in Artificial Intelligence.

*Referensi ini digunakan sebagai parameter dasar simulasi dan dapat dikembangkan lebih lanjut dalam penulisan naskah akademik/jurnal.

🛍️ Sistem Rekomendasi Produk (Content-Based Filtering)

Selain menentukan strategi intervensi (Aksi), simulasi ini juga dilengkapi dengan mesin rekomendasi yang menyarankan produk/layanan spesifik yang relevan dengan kondisi siswa.

Prinsip Utama:

Sistem mencocokkan Profil Siswa (User Vector) dengan Fitur Produk (Item Vector) menggunakan perhitungan matematis untuk mencari kemiripan tertinggi.

📐 Vektor Fitur (6 Dimensi)

Setiap Siswa dan Produk dipetakan ke dalam 6 dimensi angka (0.0 - 1.0):

V (Visual): Kecocokan dengan gaya belajar visual.
A (Auditory): Kecocokan dengan gaya belajar audio.
R (Read/Write): Kecocokan dengan teks/bacaan.
K (Kinesthetic): Kecocokan dengan praktik langsung.
Mot (Motivation Booster): Seberapa kuat produk memotivasi.
$ (Price/Spending Power): Kesesuaian harga dengan daya beli siswa saat ini.

🏗️ Pembentukan Vektor User (A)

Bagaimana sistem menerjemahkan kondisi siswa menjadi angka vector A? Berikut detail logikanya:

1. VARK (4 Dimensi Pertama)

Menggunakan Weighted One-Hot Encoding (bukan 0/1 mutlak agar tidak terlalu kaku).

Gaya Belajar Dominan: Diberi nilai 0.9
Gaya Lainnya: Diberi nilai dasar 0.1
Contoh: Siswa Visual → [0.9, 0.1, 0.1, 0.1]

2. Motivasi (Dimensi ke-5)

Normalisasi Level MSLQ (0-2) ke skala 0.0 - 1.0 dengan rumus (Level + 1) / 3.

Low (0) → 0.33
Medium (1) → 0.66
High (2) → 1.0

3. Spending Power (Dimensi ke-6)

Dinamis bergantung pada Aksi Agen terakhir. Karena simulasi ini tidak menyimpan saldo poin absolut, kita menggunakan pendekatan heuristik (kira-kira):

Base Value: 0.5 → Asumsi nilai tengah (netral/saldo cukup). Sistem menganggap kondisi "normal" siswa memiliki kemampuan beli rata-rata (skala 0.0 - 1.0).
Aksi Reward (101): +0.3 → 0.8 (Daya beli naik drastis karena baru dapat insentif/poin).
Aksi Beli (102): -0.2 → 0.3 (Daya beli turun karena poin baru saja dibelanjakan).

❓ Mengapa aksi lain tidak dihitung?

Misi (105): Bersifat penugasan. Poin baru didapat setelah misi selesai (masa depan), jadi belum mempengaruhi saldo saat ini.
Hukuman (103): Secara teknis mengurangi poin, namun dalam rekomendasi produk, kita fokus pada opsi positif. Hukuman dianggap menurunkan akses belanja (netral rendah) jadi tidak perlu penyesuaian khusus.
Konsultasi (106): Layanan jasa guru yang tidak melibatkan transaksi poin langsung (gratis/netral).

Contoh Kasus:
Siswa Visual, Motivasi High, baru dapat Reward.
Vektor A = [0.9, 0.1, 0.1, 0.1, 1.0, 0.8]

🧮 Rumus: Cosine Similarity

Untuk menghitung skor kemiripan (0% - 100%), digunakan rumus Cosine Similarity:

Similarity = (A . B) / (||A|| * ||B||)

Dimana:

A . B (Dot Product): Perkalian setiap elemen vektor. Semakin banyak fitur yang cocok (tinggi * tinggi), semakin besar nilainya.
||A|| & ||B|| (Magnitude): Panjang vektor (akar dari jumlah kuadrat elemen). Digunakan sebagai pembagi agar skor ternormalisasi menjadi -1 s.d 1.

Contoh Kasus:
Siswa Visual (V=0.9) akan memiliki skor tinggi dengan produk Video Tutorial (V=0.9) karena perkalian 0.9 * 0.9 = 0.81 (Sangat Besar).
Sebaliknya, skor akan rendah dengan Podcast (V=0.1) karena 0.9 * 0.1 = 0.09 (Kecil).

📦 Database Produk & Nilai Fitur

Berikut adalah daftar lengkap produk dalam database sistem beserta nilai vektor fiturnya (0.0 - 1.0):

Produk	V	A	R	K	Mot	$
🎥 Video Tutorial	0.9	0.8	0.2	0.1	0.7	0.4
📚 E-Book Intr.	0.6	0.1	0.9	0.2	0.5	0.3
🎧 Podcast Ahli	0.1	0.9	0.3	0.1	0.6	0.3
🔧 Kit Praktikum	0.7	0.1	0.2	0.9	0.8	0.8
👨‍🏫 Mentoring	0.5	0.9	0.4	0.3	0.9	0.9
🎴 Flashcard	0.8	0.2	0.7	0.3	0.5	0.2
⭐ Badge "Star"	0.8	0.1	0.1	0.1	0.9	0.1
🍔 Voucher Makan	0.2	0.2	0.2	0.5	0.8	0.5

*Nilai tinggi berarti produk tersebut sangat cocok untuk fitur tersebut.

📝 Panduan Penetapan Nilai Vektor (Expert Labeling)

Bagaimana cara menetapkan angka 0.0 - 1.0 untuk produk baru? Berikut panduan acuannya:

1. $ (Price / Spending Power)

0.9 - 1.0 (Mahal/Premium): Produk eksklusif, private session, atau alat canggih (>800 Poin). Contoh: Sesi Mentoring.
0.4 - 0.6 (Menengah): Konten standar berbayar (400-600 Poin). Contoh: Video Premium.
0.1 - 0.3 (Murah/Gratis): Item kecil, bonus, atau giveaway ( <200 Poin). Contoh: Badge/Stiker.

2. VARK (Karakteristik Media)

Visual (V): Dominan gambar/video? (Video=0.9, Podcast=0.1)
Auditory (A): Dominan suara? (Podcast=0.9, E-Book=0.1)
Read/Write (R): Dominan teks? (E-Book=0.9, Video=0.2)
Kinesthetic (K): Butuh gerak/praktik? (Kit DIY=0.9, Nonton=0.1)

3. Mot (Motivation Booster)

Tinggi (0.8 - 1.0): Produk yang personal, prestisius (status social), atau sangat seru (gamified).
Sedang (0.5 - 0.7): Produk fungsional standar yang cukup membantu.
Rendah (0.1 - 0.4): Produk kebutuhan dasar atau item administratif yang tidak memicu semangat khusus.

🎯 Tentang Simulasi Ini

Simulasi ini menggunakan Q-Learning, sebuah algoritma Reinforcement Learning (RL), untuk menemukan strategi optimal dalam memberikan intervensi edukatif kepada siswa.

Tujuan: Memaksimalkan motivasi dan performa siswa dengan memilih aksi yang tepat berdasarkan kondisi siswa saat ini.

🔄 Alur Kerja Simulasi

Observasi State: Sistem mengamati kondisi siswa (motivasi, gaya belajar, engagement, performa)
Pemilihan Aksi: Agen memilih intervensi menggunakan strategi epsilon-greedy
Eksekusi & Reward: Aksi dilakukan, sistem menghitung reward berdasarkan hasil
Update Q-Table: "Memori" agen diupdate menggunakan Bellman Equation
Transisi State: Siswa beralih ke kondisi baru, proses berulang

📊 Komponen Utama

State Space: 144 kombinasi kondisi siswa (4×3×4×3)
Action Space: 5 Aksi Pointmarket: Reward, Misi, Beli, Hukuman, Konsultasi
Q-Table: Matriks 144×5 yang menyimpan nilai kebaikan setiap aksi
Reward Function: R = Engagement + ΔAMS_Quality - Cost

📘 Spesifikasi Model Pointmarket (Referensi Perumus)

1. State Representation (VARK_MSLQ_AMS_Engagement)

Total kombinasi: 4 (VARK) × 3 (MSLQ) × 4 (AMS) × 3 (Engagement) = 144 States.

VARK (Gaya Belajar):

Visual (V)
Auditory (A)
Reading-Writing (R)
Kinestetik (K)

MSLQ (Motivasi Belajar):

High Motivation (≥5.5)
Medium Motivation (3.5 – 5.4)
Low Motivation (<3.5)

AMS (Tipe Motivasi Akademik):

Intrinsic, Extrinsic, Achievement, Amotivation

Engagement Metrics (m_f_a):

Metrics: m = mission completion, f = frequency of interaction, a = activity depth.

Level	Kode	Kriteria (Task, Freq, Depth)
Basic	m1_f1_a1	Low task completion, Jarang akses, Interaksi dangkal.
Medium	m2_f2_a2	Moderate completion, Rutin akses, Interaksi standar.
High	m3_f3_a3	High completion, Sangat sering, Rich interaction.

Contoh State:
A_high_mslq_high_ams_achievement_eng_high
(Auditory, High MSLQ, Achievement AMS, High Engagement)

2. Action Space (Kode Aksi)

Kode	Aksi	Deskripsi
101	Reward	Pemberian poin, badge, leaderboard.
105	Misi	Penugasan adaptif, level kontekstual.
102	Beli Poin	Akses produk/layanan marketplace.
103	Hukuman	Denda/restriksi saat engagement turun.
106	Konsultasi	Coaching NLP untuk motivasi rendah.

💡 Perbedaan Reward (R) vs Q-Value (Q)

Mengapa "Reward" di kartu Keputusan Agen berbeda dengan angka di Q-Table? Karena keduanya memiliki fungsi waktu yang berbeda:

Reward (R): Feedback instan "saat ini juga". Seperti makan permen (enak sekarang, R positif).
Q-Value (Q): Nilai jangka panjang. Seperti makan sayur (R mungkin kecil, tapi Q besar untuk kesehatan masa depan).

Prinsip: Agen Q-Learning yang cerdas tidak hanya mengejar Reward sesaat, tetapi mengejar Q-Value tertinggi (akumulasi masa depan).

🧠 Reinforcement Learning & MDP Pedagogis

Simulasi ini memodelkan interaksi antara Guru (Agen) dan Siswa menggunakan kerangka kerja Markov Decision Process (MDP).

Apa itu MDP Pedagogis?

MDP adalah kerangka matematis untuk pengambilan keputusan di mana hasil bersifat sebagian acak dan sebagian di bawah kendali pembuat keputusan. Dalam konteks pendidikan:

State (S): Profil psikologis & perilaku siswa saat ini.
Action (A): Strategi intervensi/alat Pointmarket.
Transition (P): Kemungkinan perubahan kondisi siswa setelah aksi (probabilitas transisi).
Reward (R): Skor keberhasilan pedagogis (Engagement & AMS).
Discount Factor (γ): Seberapa besar agen memprioritaskan perkembangan siswa di masa depan dibandingkan hasil instan.

🎲 Q-Learning: Solusi Tanpa Model

Karena kita tidak pernah tahu pasti "isi kepala" siswa (Probabilitas Transisi tidak diketahui secara eksak), kita menggunakan Q-Learning (Model-Free RL).

Q(s, a) = Estimasi manfaat jangka panjang jika agen mengambil aksi 'a' pada kondisi 's'.

Agen belajar secara trial-and-error untuk membangun sebuah "kebijakan" (Policy) yang memaksimalkan perkembangan siswa dari waktu ke waktu.

⚖️ Exploration vs Exploitation

Dilema fundamental dalam membantu siswa:

Exploitation: Menggunakan strategi yang sudah terbukti berhasil (aman).
Exploration: Mencoba pendekatan baru yang mungkin lebih efektif bagi tipe siswa tertentu.

Solusi: Epsilon-Greedy Strategy (ε). Sebagian besar waktu agen bertindak cerdas (1-ε), namun sesekali ia bereksperimen (ε).

1. Formula Pemetaan State (Bijection Mapping)

Matematika untuk menerjemahkan "Profil Psikologis" yang rumit menjadi "Satu Angka Indeks" agar bisa diproses komputer.

Index = V×36 + M×12 + A×3 + E

Penjelasan:

Mengubah kombinasi 4 dimensi (VARK, MSLQ, AMS, Engagement) menjadi satu angka unik (0-143).
Memastikan setiap kondisi siswa punya "alamat" unik di memori (Q-Table) komputer.

2. Persamaan Bellman (Q-Learning Update Rule)

Ini adalah "Jantung" dari kecerdasan buatan ini. Rumus ini menentukan bagaimana AI memperbarui pengetahuannya berdasarkan pengalaman baru.

Q(s,a) ← (1-α)Q(s,a) + α[R + γ·max Q(s',a')]

Cara Kerja:

Q(s,a) Lama: Pengetahuan sebelumnya.
R (Reward): Hasil nyata dari aksi yang baru dilakukan.
max Q(s',a'): Prediksi masa depan terbaik (visi jangka panjang).
α (Alpha): Seberapa cepat AI percaya hal baru vs memori lama.

3. Formula Fungsi Reward (Reward Function)

Rumus untuk menghitung seberapa "sukses" sebuah intervensi. Tujuannya adalah memaksimalkan R_total dengan mencari aksi yang memberikan dampak positif besar dengan biaya/resiko sekecil mungkin.

R = (w₁·ΔEngagement + w₂·ΔAMS_Quality) - Cost

Komponen:

Komponen Detail & Nilai Referensi:

w₁ & w₂ (Bobot/Weight): Diset 1.0. Artinya Peningkatan Engagement dan Kualitas Motivasi dianggap sama pentingnya dalam simulasi ini.
ΔEngagement: Perubahan level keaktifan siswa.
(Naik Level = +0.5 s.d +0.8, Turun = -0.2 s.d -0.8)
ΔAMS_Quality (Bonus Motivasi): Perubahan tipe motivasi ke arah yang lebih baik.
(Naik Level = +1.0, Tetap = 0, Turun = -1.0)
Mengapa nilainya diskrit (0/1)?
Perubahan Mindset Motivasi (misal dari "belajar demi nilai" menjadi "suka belajar") adalah lompatan besar dan lebih langka dibanding sekadar aktif sesaat (engagement). Maka setiap kenaikan level dihargai tinggi (+1.0).
Cost (Biaya Aksi): "Harga" yang harus dibayar guru (Tenaga/Waktu/Risiko).
(Contoh: Reward=0.3, Hukuman=0.05, Konsultasi=0.5)

🔬 Reward Engineering (Prinsip Penetapan Nilai)

Bagaimana menentukan nilai angka untuk Manfaat (Benefit) dan Biaya (Cost)? Tidak ada aturan baku, namun kami menggunakan prinsip heuristik berikut:

1. Prinsip Keseimbangan (Equilibrium): Aksi yang mudah/murah (seperti Hukuman/Reward) diberi Cost kecil namun Benefit rendah atau berisiko. Aksi yang sulit/mahal (Konsultasi/Misi) diberi Benefit besar. Tujuannya agar agen tidak "spamming" aksi murah.
2. Skala Relatif (Relative Scaling): Poin penting bukan nilai absolutnya, melainkan rasio antar aksi.
Contoh: Cost Konsultasi (0.5) diset 10x lipat dari Cost Hukuman (0.05) untuk mencerminkan realita beban kerja guru.
3. Normalisasi (Normalization): Nilai dijaga dalam rentang kecil (-1.0 s.d +1.0) agar perhitungan matematika stabil dan mencegah "exploding gradient" pada proses belajar yang panjang.
4. Justifikasi Pedagogis: Setiap angka memiliki alasan pendidikan. Misi memiliki Benefit tinggi (0.8) karena memicu Active Learning, sedangkan Reward Instan memiliki Benefit rendah (0.2) karena hanya motivasi eksternal.

4. Formula Probabilitas Keputusan (ε-Greedy)

Ini adalah rumus matematika untuk menentukan kapan AI harus "Eksplorasi" (coba-coba) dan kapan "Eksploitasi" (menggunakan ilmu yang sudah ada).

P(acak) = ε | P(terbaik) = 1 - ε

Logika:

Jika nilai acak < Epsilon (ε): Mode Coba-Coba (Eksplorasi). AI mencoba hal baru untuk belajar potensial strategi baru.
Jika nilai acak ≥ Epsilon (ε): Mode Pintar (Eksploitasi). AI menggunakan strategi terbaik yang ia tahu saat ini untuk memaksimalkan hasil.

📖 Kamus Istilah

Agent (Agen)
Entitas yang membuat keputusan dalam sistem RL. Dalam simulasi ini, agen adalah sistem yang memilih intervensi edukatif.

Alpha (α) - Learning Rate
Parameter (0-1) yang menentukan seberapa banyak informasi baru menimpa informasi lama. α=0 berarti tidak belajar sama sekali, α=1 berarti hanya mempercayai pengalaman terbaru.

Bellman Equation
Persamaan rekursif yang menghubungkan nilai suatu state dengan nilai state berikutnya. Dasar dari dynamic programming dan Q-Learning.

Discount Factor (γ - Gamma)
Parameter (0-1) yang menentukan pentingnya reward masa depan. γ=0 hanya peduli reward immediate, γ→1 mempertimbangkan reward jangka panjang.

Engagement
Tingkat keterlibatan siswa dalam pembelajaran. Diukur dalam 3 level: Declining (menurun), Stable (stabil), Increasing (meningkat).

Environment (Lingkungan)
Sistem yang berinteraksi dengan agen. Dalam simulasi ini, environment adalah model siswa yang bereaksi terhadap intervensi.

Episode
Satu siklus lengkap interaksi agent-environment. Dalam simulasi ini, 1 episode = 20 langkah.

Epsilon (ε) - Exploration Rate
Probabilitas untuk melakukan eksplorasi (aksi acak) daripada eksploitasi (aksi terbaik). Mengontrol trade-off explore vs exploit.

Epsilon-Greedy
Strategi pemilihan aksi: pilih aksi acak dengan probabilitas ε, pilih aksi terbaik dengan probabilitas 1-ε.

Exploitation
Strategi menggunakan pengetahuan saat ini untuk memaksimalkan reward. Memilih aksi yang diketahui terbaik.

Exploration
Strategi mencoba aksi baru untuk menemukan informasi yang lebih baik. Penting untuk menghindari local optima.

Gaya Belajar (Learning Style)
Preferensi siswa dalam menerima informasi: Visual (gambar), Auditory (suara), Read/Write (teks), Kinesthetic (praktek).

Motivasi (Motivation)
Tingkat dorongan internal siswa untuk belajar. Diukur dalam 3 level: Low, Moderate, High.

Performance
Hasil belajar siswa, dikategorikan dalam kuartil: Q1 (rendah), Q2, Q3, Q4 (tinggi).

Policy (Kebijakan) - π
Strategi yang menentukan aksi mana yang diambil di setiap state. π(s) = a berarti "di state s, ambil action a".

Q-Function (Action-Value Function)
Fungsi Q(s,a) yang mengestimasi total reward yang diharapkan jika mengambil action a di state s, lalu mengikuti kebijakan optimal.

Q-Table
Tabel/matriks yang menyimpan nilai Q untuk semua kombinasi state-action. "Memori" atau "otak" dari agen.

Reward (R)
Sinyal feedback numerik dari environment yang menunjukkan seberapa baik aksi yang diambil. Positif = baik, negatif = buruk.

State (s)
Representasi kondisi environment pada waktu tertentu. Dalam simulasi ini: (VARK, MSLQ, AMS Type, Engagement).

Temporal Difference (TD)
Selisih antara estimasi reward (prediksi) dengan reward aktual yang diterima. Digunakan untuk update Q-value.

🎛️ Panduan Pemilihan Parameter

Parameter α, γ, dan ε sangat mempengaruhi performa dan kecepatan pembelajaran. Berikut panduan pemilihannya:

📌 Alpha (α) - Learning Rate

Fungsi: Mengontrol seberapa cepat agen belajar dari pengalaman baru.

Nilai α	Karakteristik	Kapan Digunakan
0.01 - 0.1	Pembelajaran lambat tapi stabil	Environment stabil, butuh presisi tinggi
0.1 - 0.3	Balance optimal ⭐	Kebanyakan kasus, good starting point
0.5 - 1.0	Pembelajaran sangat cepat, volatile	Environment dinamis, butuh adaptasi cepat

💡 Tips: Mulai dengan α=0.1. Jika grafik reward terlalu ramai/volatile, turunkan ke 0.05. Jika konvergensi terlalu lambat, naikkan ke 0.2-0.3.

📌 Gamma (γ) - Discount Factor

Fungsi: Menentukan pentingnya reward jangka panjang vs jangka pendek.

Nilai γ	Karakteristik	Kapan Digunakan
0.5 - 0.7	Fokus short-term reward	Task dengan feedback immediate
0.8 - 0.95	Balance optimal ⭐	Simulasi edukatif seperti ini
0.95 - 0.99	Sangat fokus long-term	Task dengan delayed reward signifikan

💡 Tips: Gunakan γ=0.9 sebagai default. Dalam konteks edukatif, kita ingin agen mempertimbangkan dampak jangka panjang intervensi terhadap siswa.

📌 Epsilon (ε) - Exploration Rate

Fungsi: Probabilitas melakukan eksplorasi (coba aksi acak) vs eksploitasi (pilih aksi terbaik).

Fase	Nilai ε	Alasan
Awal (0-200 episode)	0.3 - 0.5	Eksplorasi tinggi untuk menemukan strategi
Tengah (200-500)	0.1 - 0.2	Balance explore-exploit
Akhir (>500)	0.01 - 0.05	Fokus eksploitasi strategi optimal

💡 Tips: Mulai dengan ε=0.3 untuk eksplorasi awal. Setelah 100-200 episode, turunkan bertahap ke 0.1, lalu ke 0.05 setelah grafik mulai stabil. Strategi ini disebut "epsilon decay".

🎯 Rekomendasi Kombinasi Parameter

🚀 Pembelajaran Cepat & Eksplorasi

Untuk eksplorasi cepat di awal simulasi:

α = 0.3 (belajar cepat)
γ = 0.85 (balance)
ε = 0.4 → decay ke 0.1 (eksplorasi tinggi)

✅ Konvergensi cepat, eksplorasi luas | ❌ Hasil kurang stabil, bisa noisy

⭐ Pembelajaran Stabil & Presisi (REKOMENDASI)

Untuk hasil presisi dan penelitian:

α = 0.1 (stabil)
γ = 0.9 (long-term oriented)
ε = 0.1 → decay ke 0.05 (balanced)

✅ Hasil stabil, presisi tinggi, cocok penelitian | ❌ Konvergensi lebih lambat

⚡ Environment Dinamis

Untuk kondisi yang sering berubah:

α = 0.5 (adaptasi sangat cepat)
γ = 0.8 (fokus near-term)
ε = 0.2 (eksplorasi konstan)

✅ Cepat beradaptasi | ❌ Volatile, bisa "lupa" pembelajaran lama

📊 Cara Membaca Grafik sebagai Feedback

📈 Grafik naik terus: Pembelajaran berjalan baik → Pertahankan parameter
📊 Grafik sangat zigzag: α atau ε terlalu tinggi → Turunkan α ke 0.05 atau turunkan ε
➡️ Grafik datar dari awal: Tidak ada pembelajaran → Naikkan α atau naikkan ε
📉 Grafik naik lalu turun: Overfitting → Turunkan α atau gunakan epsilon decay

⚠️ Catatan Penting: Tidak ada kombinasi "benar" absolut. Nilai optimal bergantung pada karakteristik problem Anda. Gunakan grafik konvergensi sebagai feedback untuk fine-tuning! Untuk panduan lebih lengkap, lihat file PANDUAN_PARAMETER.md.

🎛️ Panel Kontrol (Kiri)

Kecepatan Simulasi: Atur kecepatan simulasi.
Alpha (α): Learning rate. Naikkan jika ingin agen cepat berubah pikiran.
Gamma (γ): Discount factor. Naikkan untuk visi jangka panjang.
Epsilon (ε): Eksplorasi. Naikkan jika agen terjebak di strategi jelek.
Reset Q-Table: Mulai ulang pembelajaran dari nol.

📘 Panduan Detail Parameter: Untuk panduan lengkap pemilihan nilai α, γ, dan ε, lihat file PANDUAN_PARAMETER.md yang berisi tabel referensi, strategi tuning, dan rekomendasi kombinasi parameter untuk berbagai skenario.

🎓 Status Siswa (Tengah Atas)

Menampilkan state saat ini dalam 4 dimensi:

Gaya Belajar (VARK): Visual/Auditory/ReadWrite/Kinesthetic
Motivasi (MSLQ): Low/Medium/High
Tipe AMS: Amotivation/Extrinsic/Achievement/Intrinsic
Engagement: Basic/Medium/High
ID State: Index numerik 0-143

🤖 Keputusan Agen (Tengah)

Menampilkan aksi yang dipilih dan hasilnya:

Nama Aksi: Intervensi yang diambil agen
Reward Badge (Nilai Efektivitas):
- Warna Hijau (Positif): Aksi guru BERHASIL. Siswa merespon baik, Engagement naik, atau Motivasi membaik.
  Makna bagi Guru: "Lanjutkan strategi ini untuk tipe siswa seperti ini."
- Warna Merah (Negatif): Aksi guru GAGAL/BACKFIRE. Siswa merasa terbebani, demotivasi, atau 'biaya' (tenaga/waktu) aksi terlalu mahal dibanding hasilnya.
  Makna bagi Guru: "Hati-hati, strategi ini berisiko atau merugikan."
- Warna Abu (Netral): Dampak minimal atau impas. Tidak ada perubahan signifikan pada siswa.
Narasi: Penjelasan mengapa reward tersebut didapat

🛍️ Rekomendasi Produk / CBF (Tengah)

Menampilkan saran produk konkret yang relevan dengan kondisi siswa dan keputusan agen.

Integrasi dengan Keputusan Agen: Produk yang muncul difilter berdasarkan aksi yang baru saja diambil agen.
Contoh: Jika Agen memilih aksi Reward, maka sistem CBF hanya akan merekomendasikan produk tipe Hadiah (Badge/Voucher). Jika Agen memilih Konsultasi, sistem mencari produk edukasi yang cocok.
Match Score (%): Seberapa cocok fitur produk (V,A,R,K,Mot,$) dengan profil siswa.
Explained AI: Penjelasan naratif mengapa produk tersebut dipilih (misal: "Cocok untuk tipe Visual").
Rumus Matematika: Klik ikon ℹ️ atau lihat detail di bawah kartu untuk melihat perhitungan vektornya.

🧮 Perhitungan Matematis (Tengah Bawah)

Visualisasi real-time dari Bellman Equation:

Q_new: Nilai Q hasil update (hijau)
Warna kuning: Q value lama
Warna putih: Reward yang didapat
Warna biru: Max Q dari state berikutnya

📈 Grafik Konvergensi (Kanan Atas)

Menunjukkan rata-rata reward per 20 episode:

Garis naik: Agen makin pintar, strategi membaik
Garis datar: Konvergensi tercapai (optimal policy found)
Garis turun: Perlu adjustment parameter atau masih eksplorasi

🧠 Q-Table Slice (Kanan Bawah)

Menampilkan sebagian Q-Table untuk gaya belajar saat ini:

Baris: Level performa (Q1-Q4)
Kolom: 5 aksi yang tersedia
Warna hijau: Q-value positif (aksi bagus)
Warna merah: Q-value negatif (aksi buruk)
Intensitas: Makin gelap = makin kuat nilai

Penjelasan Kolom (Header Tabel):

AMS Type: Tipe Motivasi Akademik siswa (Baris) - Target intervensi.
AMS Type: Tipe Motivasi Akademik siswa (Baris) - Target intervensi.
Rwd: Reward (101) - Poin/Badge/Leaderboard.
Mis: Misi (105) - Penugasan adaptif & tantangan.
Buy: Beli/Tukar (102) - Akses marketplace poin.
Pun: Hukuman (103) - Denda/Restriksi akses.
Cch: Konsultasi (106) - Coaching/Bantuan personal.

Cara Membaca: Setiap sel menunjukkan nilai Q untuk kombinasi [AMS Type] × [Action]. Warna Hijau = Strategi yang disarankan untuk tipe AMS tersebut.

🚩 Troubleshooting: Kenapa Semua Merah?

Jika satu baris Q-Table berwarna merah semua (negatif), artinya semua opsi berisiko atau memakan biaya. Solusinya:

Pilih Loss Terkecil: Strategi optimal adalah memilih warna merah paling pudar (mendekati 0). Agen meminimalkan kerugian.
Paksa Eksplorasi: Naikkan Epsilon (ε) sesaat (misal ke 0.5) untuk memaksa agen mencari "Hidden Gem" yang mungkin belum dicoba.
Cek Gamma (γ): Jika Gamma rendah, agen mungkin menghindari aksi mahal yang bermanfaat jangka panjang. Naikkan Gamma (0.9).

🔔 Sistem Notifikasi Cerdas

Simulasi ini dilengkapi dengan asisten cerdas yang akan menganalisis performa pembelajaran secara real-time dan memberikan saran. Berikut adalah jenis notifikasi yang mungkin muncul:

⚠️ Pembelajaran Lambat
Muncul jika grafik reward datar (stagnan).
Saran: Naikkan Alpha (α) atau Epsilon (ε) agar agen lebih agresif belajar.

⚠️ Grafik Terlalu Volatile
Muncul jika grafik naik-turun sangat drastis dan tidak stabil.
Saran: Turunkan Alpha (α) agar pembelajaran lebih stabil.

💡 Eksplorasi Terlalu Tinggi
Muncul jika grafik zigzag tajam karena terlalu banyak aksi acak.
Saran: Turunkan Epsilon (ε) karena agen terlalu "coba-coba".

💡 Saatnya Epsilon Decay / Fase Konvergensi
Muncul secara otomatis pada Episode 100 dan 300.
Saran: Mengingatkan Anda untuk menurunkan Epsilon (ε) secara bertahap menuju 0 (eksploitasi penuh) untuk memanen hasil belajar.

✅ Pembelajaran Berjalan Baik
Muncul saat tren grafik positif dan stabil.
Saran: Parameter saat ini sudah optimal. Pertahankan!

🎓 Panduan Eksperimen & Pembelajaran

Ikuti langkah-langkah terstruktur berikut untuk memahami bagaimana sistem Q-Learning ini berevolusi dari "Tidak Tahu" menjadi "Pakar":

Fase 1

Mode Eksplorasi (Belajar Sambil Mencoba)

Persiapan: Geser slider Epsilon (ε) ke angka 0.5.

Aksi: Klik tombol Mulai. Perhatikan bagaimana agen memilih aksi secara acak. Ia sedang memetakan "Medan Tempur" dan mencatat reaksi siswa dalam memori Q-Table-nya.

Fase 2

Proses Pembaruan Pengetahuan (Update Q-Value)

Persiapan: Fokuskan pandangan pada panel "Perhitungan Matematis" di tengah bawah.

Aksi: Perhatikan angka hijau (Q-new). Jika aksi sukses (Reward positif), nilai tersebut akan naik. Inilah saat AI "belajar" bahwa strategi tersebut efektif untuk kondisi siswa saat itu.

Fase 3

Konvergensi (Optimalisasi Strategi)

Persiapan: Percepat simulasi dan biarkan mencapai episode > 300.

Aksi: Cek "Grafik Konvergensi". Jika garis sudah cenderung mendatar di level reward yang tinggi, AI telah menemukan strategi optimal. Validasi ini dengan melihat kotak hijau tua di tabel "Strategi AI".

Eksperimen Pakar

Uji Stabilitas Parameter

Naikkan Alpha (α) ke 0.9: AI menjadi "lupa diri" (terlalu reaktif), menyebabkan grafik reward berantakan.
Turunkan Gamma (γ) ke 0.1: AI menjadi "rabun jauh" (hanya peduli hasil instan, bukan kestabilan motivasi jangka panjang).

📚 Panduan & Teori Q-Learning