Arsitektur Reinforcement Learning | Muhammad Nizar Akmal

Siklus Utama RL

Klik setiap komponen untuk melihat penjelasan detail

🧠

Agent

Action (aₜ)

🌍

Environment

Reward (rₜ)

⭐

State + Reward

State (sₜ₊₁)

📋

Policy (π)

Komponen Utama

🧠

Agent

Entitas yang mengambil keputusan. Agent mengobservasi state, memilih action berdasarkan policy, dan belajar dari reward yang diterima.

Decision Maker

🌍

Environment

Dunia tempat agent berinteraksi. Environment menerima action dari agent dan menghasilkan state baru beserta reward.

World Model

📊

State (sₜ)

Representasi kondisi environment pada waktu t. State memberikan informasi yang dibutuhkan agent untuk mengambil keputusan.

Observation

🎯

Action (aₜ)

Tindakan yang dipilih agent berdasarkan policy. Action mempengaruhi environment dan mengubah state selanjutnya.

Decision

⭐

Reward (rₜ)

Sinyal feedback dari environment. Reward positif mendorong agent mengulangi action, reward negatif mendorong agent menghindarinya.

Feedback Signal

📋

Policy (π)

Strategi agent dalam memilih action. Policy memetakan state ke action, bisa deterministik atau stokastik (probabilistik).

Strategy

Jenis Algoritma RL

Model-Free

Tanpa Model Environment

Agent belajar langsung dari pengalaman tanpa membangun model internal dari environment.

Q-Learning Off-policy, value-based

SARSA On-policy, value-based

Policy Gradient On-policy, policy-based

DQN (Deep Q-Network) Deep RL, value-based

Model-Based

Dengan Model Environment

Agent membangun model internal environment untuk perencanaan dan simulasi sebelum bertindak.

Dyna-Q Planning + Learning

MCTS Monte Carlo Tree Search

MBPO Model-Based Policy Optimization

World Models Learned Environment Model

Proses Langkah demi Langkah

Bagaimana Reinforcement Learning bekerja dari awal hingga agent menjadi optimal

1

🎬

Inisialisasi

Agent dimulai tanpa pengetahuan apapun. Q-table (atau neural network) diinisialisasi dengan nilai nol atau random. Environment disiapkan pada state awal.

Q(s, a) = 0 ∀s ∈ S, a ∈ A

2

👀

Observasi State

Agent mengobservasi state saat ini dari environment. State bisa berupa posisi, pixel gambar, sensor readings, atau representasi lainnya.

sₜ = observe(environment)

3

🤔

Pilih Action (Exploration vs Exploitation)

Agent memilih action menggunakan policy. Di awal, agent lebih banyak eksplorasi (mencoba random). Seiring belajar, agent lebih banyak eksploitasi (memilih action terbaik).

aₜ = π(sₜ) // ε-greedy: random jika rand() < ε

4

⚡

Eksekusi Action

Action yang dipilih dikirim ke environment. Environment memproses action dan menghasilkan transisi ke state baru.

environment.step(aₜ) → (sₜ₊₁, rₜ, done)

5

🎁

Terima Reward & State Baru

Environment memberikan reward numerik dan state baru. Reward menunjukkan seberapa baik atau buruk action yang dipilih.

rₜ = R(sₜ, aₜ, sₜ₊₁)

6

📈

Update Policy / Q-Value

Agent memperbarui pengetahuannya berdasarkan pengalaman (state, action, reward, next_state). Ini adalah inti dari proses learning.

Q(s,a) ← Q(s,a) + α[r + γ·maxQ(s',a') - Q(s,a)]

7

🔁

Ulangi (Iterasi)

Proses diulangi dari langkah 2. Setiap iterasi disebut satu timestep. Satu kumpulan timestep hingga terminal state disebut satu episode. Agent belajar dari ratusan hingga jutaan episode.

for episode in range(N): while not done: ...

✓

🏆

Konvergensi — Policy Optimal

Setelah cukup banyak episode, Q-values konvergen dan agent menemukan policy optimal (π*) yang memaksimalkan expected cumulative reward.

π*(s) = argmax_a Q*(s, a)

Visualisasi RL Process

Animasi interaktif: Lihat agent belajar secara real-time

Siap

Episode: 0

Agent Path

Goal

Penalty Zone

Explored

Kelebihan & Kekurangan

Evaluasi kapan sebaiknya menggunakan Reinforcement Learning

✅

Kelebihan

Belajar Tanpa Label Data

Tidak memerlukan dataset berlabel seperti supervised learning. Agent belajar dari interaksi langsung dengan environment.
Adaptif & Dinamis

Mampu beradaptasi dengan environment yang berubah-ubah. Agent terus belajar dan menyesuaikan strategi.
Solusi untuk Masalah Sekuensial

Sangat cocok untuk decision-making bertahap seperti game, robotics, trading, dan navigasi otonom.
Menemukan Strategi Non-Obvious

Dapat menemukan strategi yang tidak terpikirkan oleh manusia, seperti AlphaGo yang mengalahkan juara dunia Go.
Generalisasi Antar Environment

Dengan deep RL, agent bisa digeneralisasi ke environment yang serupa tanpa retraining dari awal.
Optimasi Jangka Panjang

Memperhitungkan reward kumulatif jangka panjang, bukan hanya keuntungan sesaat (delayed reward).

⚠️

Kekurangan

Training Sangat Lambat

Memerlukan jutaan episode untuk konvergen. Training bisa memakan waktu berhari-hari hingga berminggu-minggu.
Desain Reward Sulit

Reward function harus dirancang dengan hati-hati. Reward yang salah bisa menyebabkan perilaku tidak diinginkan (reward hacking).
Curse of Dimensionality

State dan action space yang besar membuat eksplorasi menjadi sangat mahal secara komputasi.
Tidak Stabil

Terutama deep RL, training bisa sangat tidak stabil. Performa bisa drop tiba-tiba setelah improvement.
Sulit Diterapkan di Dunia Nyata

Explorasi random di dunia nyata bisa berbahaya (robot jatuh, mobil menabrak). Perlu simulator yang akurat.
Sample Inefficiency

Membutuhkan sangat banyak data interaksi dibanding metode lain. Setiap sample mahal untuk didapatkan.

Contoh Penerapan RL di Dunia Nyata

🎮 Game AI AlphaGo, OpenAI Five, Atari

🚗 Self-Driving Navigasi & keputusan berkendara

🤖 Robotics Manipulasi objek, berjalan

📈 Trading Optimasi portfolio otomatis

💬 NLP / ChatBot RLHF untuk fine-tuning LLM

🏭 Industri Optimasi energi & manufaktur

Demo Q-Learning

Lihat bagaimana agent menemukan jalur optimal di grid world

Episode 0

Total Reward 0

Steps 0

Agent

Goal (+10)

Obstacle (-5)

Wall

Q-Table (State saat ini)

↑0.00

↓0.00

←0.00

→0.00

Persamaan Bellman

Q(s, a) ← Q(s, a) + α [ r + γ · max_a' Q(s', a') − Q(s, a) ]

α Learning Rate Seberapa cepat agent belajar

γ Discount Factor Bobot reward masa depan

r Reward Sinyal feedback langsung

max Q Max Future Q Estimasi reward optimal masa depan