๐Ÿค– Artificial Intelligence

Reinforcement Learning

Ilustrasi Interaktif Arsitektur AI โ€” Agent belajar dari interaksi dengan lingkungan melalui reward & penalty

714230007 โ€ข Muhammad Nizar Akmal โ€ข D-IV TI III A

Siklus Utama RL

Klik setiap komponen untuk melihat penjelasan detail

๐Ÿง 
Agent
Action (aโ‚œ)
๐ŸŒ
Environment
Reward (rโ‚œ)
โญ
State + Reward
State (sโ‚œโ‚Šโ‚)
๐Ÿ“‹
Policy (ฯ€)

Komponen Utama

๐Ÿง 

Agent

Entitas yang mengambil keputusan. Agent mengobservasi state, memilih action berdasarkan policy, dan belajar dari reward yang diterima.

Decision Maker
๐ŸŒ

Environment

Dunia tempat agent berinteraksi. Environment menerima action dari agent dan menghasilkan state baru beserta reward.

World Model
๐Ÿ“Š

State (sโ‚œ)

Representasi kondisi environment pada waktu t. State memberikan informasi yang dibutuhkan agent untuk mengambil keputusan.

Observation
๐ŸŽฏ

Action (aโ‚œ)

Tindakan yang dipilih agent berdasarkan policy. Action mempengaruhi environment dan mengubah state selanjutnya.

Decision
โญ

Reward (rโ‚œ)

Sinyal feedback dari environment. Reward positif mendorong agent mengulangi action, reward negatif mendorong agent menghindarinya.

Feedback Signal
๐Ÿ“‹

Policy (ฯ€)

Strategi agent dalam memilih action. Policy memetakan state ke action, bisa deterministik atau stokastik (probabilistik).

Strategy

Jenis Algoritma RL

Model-Free

Tanpa Model Environment

Agent belajar langsung dari pengalaman tanpa membangun model internal dari environment.

Q-Learning Off-policy, value-based
SARSA On-policy, value-based
Policy Gradient On-policy, policy-based
DQN (Deep Q-Network) Deep RL, value-based
Model-Based

Dengan Model Environment

Agent membangun model internal environment untuk perencanaan dan simulasi sebelum bertindak.

Dyna-Q Planning + Learning
MCTS Monte Carlo Tree Search
MBPO Model-Based Policy Optimization
World Models Learned Environment Model

Proses Langkah demi Langkah

Bagaimana Reinforcement Learning bekerja dari awal hingga agent menjadi optimal

1
๐ŸŽฌ

Inisialisasi

Agent dimulai tanpa pengetahuan apapun. Q-table (atau neural network) diinisialisasi dengan nilai nol atau random. Environment disiapkan pada state awal.

Q(s, a) = 0 โˆ€s โˆˆ S, a โˆˆ A
2
๐Ÿ‘€

Observasi State

Agent mengobservasi state saat ini dari environment. State bisa berupa posisi, pixel gambar, sensor readings, atau representasi lainnya.

sโ‚œ = observe(environment)
3
๐Ÿค”

Pilih Action (Exploration vs Exploitation)

Agent memilih action menggunakan policy. Di awal, agent lebih banyak eksplorasi (mencoba random). Seiring belajar, agent lebih banyak eksploitasi (memilih action terbaik).

aโ‚œ = ฯ€(sโ‚œ) // ฮต-greedy: random jika rand() < ฮต
4
โšก

Eksekusi Action

Action yang dipilih dikirim ke environment. Environment memproses action dan menghasilkan transisi ke state baru.

environment.step(aโ‚œ) โ†’ (sโ‚œโ‚Šโ‚, rโ‚œ, done)
5
๐ŸŽ

Terima Reward & State Baru

Environment memberikan reward numerik dan state baru. Reward menunjukkan seberapa baik atau buruk action yang dipilih.

rโ‚œ = R(sโ‚œ, aโ‚œ, sโ‚œโ‚Šโ‚)
6
๐Ÿ“ˆ

Update Policy / Q-Value

Agent memperbarui pengetahuannya berdasarkan pengalaman (state, action, reward, next_state). Ini adalah inti dari proses learning.

Q(s,a) โ† Q(s,a) + ฮฑ[r + ฮณยทmaxQ(s',a') - Q(s,a)]
7
๐Ÿ”

Ulangi (Iterasi)

Proses diulangi dari langkah 2. Setiap iterasi disebut satu timestep. Satu kumpulan timestep hingga terminal state disebut satu episode. Agent belajar dari ratusan hingga jutaan episode.

for episode in range(N): while not done: ...
โœ“
๐Ÿ†

Konvergensi โ€” Policy Optimal

Setelah cukup banyak episode, Q-values konvergen dan agent menemukan policy optimal (ฯ€*) yang memaksimalkan expected cumulative reward.

ฯ€*(s) = argmax_a Q*(s, a)

Visualisasi RL Process

Animasi interaktif: Lihat agent belajar secara real-time

Siap
Episode: 0
Agent Path
Goal
Penalty Zone
Explored

Kelebihan & Kekurangan

Evaluasi kapan sebaiknya menggunakan Reinforcement Learning

โœ…

Kelebihan

  • Belajar Tanpa Label Data
    Tidak memerlukan dataset berlabel seperti supervised learning. Agent belajar dari interaksi langsung dengan environment.
  • Adaptif & Dinamis
    Mampu beradaptasi dengan environment yang berubah-ubah. Agent terus belajar dan menyesuaikan strategi.
  • Solusi untuk Masalah Sekuensial
    Sangat cocok untuk decision-making bertahap seperti game, robotics, trading, dan navigasi otonom.
  • Menemukan Strategi Non-Obvious
    Dapat menemukan strategi yang tidak terpikirkan oleh manusia, seperti AlphaGo yang mengalahkan juara dunia Go.
  • Generalisasi Antar Environment
    Dengan deep RL, agent bisa digeneralisasi ke environment yang serupa tanpa retraining dari awal.
  • Optimasi Jangka Panjang
    Memperhitungkan reward kumulatif jangka panjang, bukan hanya keuntungan sesaat (delayed reward).
โš ๏ธ

Kekurangan

  • Training Sangat Lambat
    Memerlukan jutaan episode untuk konvergen. Training bisa memakan waktu berhari-hari hingga berminggu-minggu.
  • Desain Reward Sulit
    Reward function harus dirancang dengan hati-hati. Reward yang salah bisa menyebabkan perilaku tidak diinginkan (reward hacking).
  • Curse of Dimensionality
    State dan action space yang besar membuat eksplorasi menjadi sangat mahal secara komputasi.
  • Tidak Stabil
    Terutama deep RL, training bisa sangat tidak stabil. Performa bisa drop tiba-tiba setelah improvement.
  • Sulit Diterapkan di Dunia Nyata
    Explorasi random di dunia nyata bisa berbahaya (robot jatuh, mobil menabrak). Perlu simulator yang akurat.
  • Sample Inefficiency
    Membutuhkan sangat banyak data interaksi dibanding metode lain. Setiap sample mahal untuk didapatkan.

Contoh Penerapan RL di Dunia Nyata

๐ŸŽฎ Game AI AlphaGo, OpenAI Five, Atari
๐Ÿš— Self-Driving Navigasi & keputusan berkendara
๐Ÿค– Robotics Manipulasi objek, berjalan
๐Ÿ“ˆ Trading Optimasi portfolio otomatis
๐Ÿ’ฌ NLP / ChatBot RLHF untuk fine-tuning LLM
๐Ÿญ Industri Optimasi energi & manufaktur

Demo Q-Learning

Lihat bagaimana agent menemukan jalur optimal di grid world

Episode 0
Total Reward 0
Steps 0
Agent
Goal (+10)
Obstacle (-5)
Wall

Q-Table (State saat ini)

โ†‘0.00
โ†“0.00
โ†0.00
โ†’0.00

Persamaan Bellman

Q(s, a) โ† Q(s, a) + ฮฑ [ r + ฮณ ยท maxa' Q(s', a') โˆ’ Q(s, a) ]
ฮฑ Learning Rate Seberapa cepat agent belajar
ฮณ Discount Factor Bobot reward masa depan
r Reward Sinyal feedback langsung
max Q Max Future Q Estimasi reward optimal masa depan