Ilustrasi Interaktif Arsitektur AI โ Agent belajar dari interaksi dengan lingkungan melalui reward & penalty
Klik setiap komponen untuk melihat penjelasan detail
Entitas yang mengambil keputusan. Agent mengobservasi state, memilih action berdasarkan policy, dan belajar dari reward yang diterima.
Dunia tempat agent berinteraksi. Environment menerima action dari agent dan menghasilkan state baru beserta reward.
Representasi kondisi environment pada waktu t. State memberikan informasi yang dibutuhkan agent untuk mengambil keputusan.
Tindakan yang dipilih agent berdasarkan policy. Action mempengaruhi environment dan mengubah state selanjutnya.
Sinyal feedback dari environment. Reward positif mendorong agent mengulangi action, reward negatif mendorong agent menghindarinya.
Strategi agent dalam memilih action. Policy memetakan state ke action, bisa deterministik atau stokastik (probabilistik).
Agent belajar langsung dari pengalaman tanpa membangun model internal dari environment.
Agent membangun model internal environment untuk perencanaan dan simulasi sebelum bertindak.
Bagaimana Reinforcement Learning bekerja dari awal hingga agent menjadi optimal
Agent dimulai tanpa pengetahuan apapun. Q-table (atau neural network) diinisialisasi dengan nilai nol atau random. Environment disiapkan pada state awal.
Q(s, a) = 0 โs โ S, a โ A
Agent mengobservasi state saat ini dari environment. State bisa berupa posisi, pixel gambar, sensor readings, atau representasi lainnya.
sโ = observe(environment)
Agent memilih action menggunakan policy. Di awal, agent lebih banyak eksplorasi (mencoba random). Seiring belajar, agent lebih banyak eksploitasi (memilih action terbaik).
aโ = ฯ(sโ) // ฮต-greedy: random jika rand() < ฮต
Action yang dipilih dikirim ke environment. Environment memproses action dan menghasilkan transisi ke state baru.
environment.step(aโ) โ (sโโโ, rโ, done)
Environment memberikan reward numerik dan state baru. Reward menunjukkan seberapa baik atau buruk action yang dipilih.
rโ = R(sโ, aโ, sโโโ)
Agent memperbarui pengetahuannya berdasarkan pengalaman (state, action, reward, next_state). Ini adalah inti dari proses learning.
Q(s,a) โ Q(s,a) + ฮฑ[r + ฮณยทmaxQ(s',a') - Q(s,a)]
Proses diulangi dari langkah 2. Setiap iterasi disebut satu timestep. Satu kumpulan timestep hingga terminal state disebut satu episode. Agent belajar dari ratusan hingga jutaan episode.
for episode in range(N): while not done: ...
Setelah cukup banyak episode, Q-values konvergen dan agent menemukan policy optimal (ฯ*) yang memaksimalkan expected cumulative reward.
ฯ*(s) = argmax_a Q*(s, a)
Animasi interaktif: Lihat agent belajar secara real-time
Evaluasi kapan sebaiknya menggunakan Reinforcement Learning
Lihat bagaimana agent menemukan jalur optimal di grid world