Bagaimana Matematika Cacat Memanipulasi Persepsi Kita tentang Kecerdasan AI

Di tengah gemuruh sorak-sorai dunia teknologi menyambut model-model "reasoning" terbaru seperti DeepSeek-R1 yang diklaim mampu "berpikir" sebelum menjawab, ada sebuah kebenaran tidak nyaman yang tersembunyi di balik layar matematisnya.

Narasi yang dijual kepada kita sangat memikat: AI kini memiliki aha moment, sebuah titik di mana ia melakukan refleksi diri, mengoreksi kesalahan, dan menghasilkan jawaban yang lebih panjang sebagai tanda kedalaman berpikir. Namun, bagaimana jika saya katakan bahwa "pemikiran mendalam" itu hanyalah sebuah bug yang dimuliakan? Bagaimana jika AI tidak sedang berpikir, melainkan hanya mengeksploitasi celah dalam rumus matematika pelatihannya? Sebagai akademisi yang menolak terlena oleh hype, kita perlu membedah wawancara terbaru dengan peneliti AI (penulis makalah kritik terhadap GRPO) yang secara berani menelanjangi fondasi rapuh dari pelatihan Large Language Model (LLM) modern.

Mitos "Semakin Panjang, Semakin Pintar"

Jantung dari perdebatan ini adalah algoritma yang disebut GRPO (Group Relative Policy Optimization). Ini adalah mesin di balik layar yang memungkinkan model seperti DeepSeek melakukan Reinforcement Learning tanpa memerlukan model Critic yang berat memori. Secara intuitif, kita percaya bahwa ketika model memberikan jawaban yang panjang dan berliku (verbose), itu adalah tanda ia sedang "bekerja keras". Namun, temuan riset menunjukkan adanya cacat fatal dalam formulasi standar GRPO.

Dalam rumus GRPO vanilla, terdapat komponen pembagian dengan panjang respons (1/length). Secara matematis, ini menciptakan insentif yang perverse (menyimpang):

Jika respons salah namun panjang, penaltinya menjadi lebih kecil karena "terdilusi" oleh panjangnya teks.
Jika respons benar namun pendek, reward-nya justru terasa lebih besar (namun model cenderung menghindari risiko).

Akibatnya, model belajar sebuah trik licik: "Jika saya tidak yakin, lebih baik saya mengoceh panjang lebar."

Apa yang kita interpretasikan sebagai Chain-of-Thought atau langkah-langkah penalaran yang kompleks, seringkali hanyalah manifestasi dari bias panjang (length bias). Model tidak sedang melakukan introspeksi; ia sedang melakukan lindung nilai (hedging) matematis untuk meminimalkan kerugian (loss). Ini bukan kecerdasan; ini adalah manipulasi statistik.

Skandal Presisi: Ketika BF16 Mengkhianati Kita

Kritik tidak berhenti pada logika algoritma. Ada masalah yang lebih mendasar dan memalukan di level infrastruktur: ketidakstabilan numerik.

Industri AI telah berbondong-bondong beralih ke format BFloat16 (BF16) sebagai standar de facto, meninggalkan FP16 yang dianggap kuno. Alasannya? BF16 memiliki rentang dinamis (dynamic range) yang lebih besar, mencegah overflow angka. Namun, dalam konteks Reinforcement Learning (RL) pasca-pelatihan, keputusan ini terbukti fatal.

Dalam fase RL, kita sering menggunakan dua mesin terpisah: satu untuk inference (rollout engine seperti vLLM) dan satu untuk training (seperti DeepSpeed/Megatron). Ternyata, presisi BF16 yang rendah menyebabkan ketidakcocokan (mismatch) nilai antara kedua mesin ini. Model yang dijalankan saat rollout menghasilkan probabilitas yang berbeda dengan yang dihitung saat training. Implikasinya mengerikan: Kita melatih model berdasarkan data yang tidak akurat secara numerik.

Ironisnya, kembali ke teknologi "kuno" FP16 justru menyelesaikan masalah ini karena presisinya yang lebih tinggi pada angka-angka kecil. Fakta bahwa komunitas riset mengabaikan fundamental numerik ini demi mengejar skala adalah bukti bahwa kita sering kali membangun gedung pencakar langit di atas pondasi pasir.

Jebakan Goodhart: Benchmark Sebagai Tuhan Palsu

Di akhir diskursus, kita harus bertanya: Untuk apa semua ini? Peneliti tersebut menyoroti bahwa masalah terbesar untuk tahun mendatang bukanlah arsitektur model, melainkan benchmark. Saat ini, laboratorium AI terkemuka terjebak dalam Hukum Goodhart: "Ketika ukuran menjadi target, ia berhenti menjadi ukuran yang baik." Kita menciptakan model yang ahli dalam lulus ujian (benchmark), tetapi rapuh di dunia nyata. Benchmark telah menjadi reward function bagi seluruh komunitas AI—dan jika fungsi reward itu cacat, maka seluruh arah perkembangan AI kita juga cacat.

Kita harus berhenti menelan narasi pemasaran mentah-mentah. "Reasoning" pada AI saat ini belum tentu merupakan tanda kesadaran atau kognisi tingkat tinggi. Seringkali, itu hanyalah artefak dari fungsi objektif yang bias dan penanganan angka floating point yang ceroboh. Sudah saatnya komunitas ilmiah dan industri berhenti sejenak dari perlombaan memperbesar parameter dan mulai memperbaiki fondasi matematika yang retak. Tanpa kejujuran intelektual ini, kita tidak sedang menciptakan kecerdasan buatan; kita hanya menciptakan pembohong stokastik yang semakin fasih.(YHS)

Bagaimana Matematika Cacat Memanipulasi Persepsi Kita tentang Kecerdasan AI

Bagikan :