🤖 Kecerdasan Buatan

Naive Bayes
Classifier Architecture

Visualisasi interaktif arsitektur algoritma klasifikasi probabilistik berbasis Teorema Bayes

📊 Fondasi Matematika

Teorema Bayes

Dasar matematis di balik algoritma Naive Bayes

P(C|X) =
P(X|C) × P(C)
P(X)
P(C|X) — Posterior Probabilitas kelas C diberikan fitur X
P(X|C) — Likelihood Probabilitas fitur X diberikan kelas C
P(C) — Prior Probabilitas awal kelas C
P(X) — Evidence Probabilitas total fitur X
🏗️ Arsitektur

Alur Klasifikasi Naive Bayes

Klik pada setiap komponen untuk melihat detail

Input Layer
📄
Dataset
Training Data
Feature Extraction
🔤
Fitur 1
X₁
🔢
Fitur 2
X₂
📊
Fitur 3
X₃
📈
Fitur n
Xₙ
Probability Engine
📋
Prior
P(C)
Likelihood
P(X|C)
🎯
Evidence
P(X)
Bayes Computation
🧠
Teorema Bayes
P(C|X) = P(X|C)·P(C) / P(X)
Output Layer
Kelas A
P = 0.82
Kelas B
P = 0.18
🎮 Demo Interaktif

Klasifikasi Email: Spam vs Ham

Lihat bagaimana Naive Bayes mengklasifikasikan email

📧 Input Email

⚙️ Proses Klasifikasi

1
Tokenisasi
Menunggu input...
2
Hitung Prior P(C)
Menunggu...
3
Hitung Likelihood P(X|C)
Menunggu...
4
Hitung Posterior P(C|X)
Menunggu...
5
Hasil Klasifikasi
Menunggu...

📊 Hasil

🔮

Pilih email dan klik "Klasifikasikan" untuk melihat hasil

📚 Informasi

Jenis Naive Bayes

Tiga varian utama algoritma Naive Bayes

📈

Gaussian NB

Menggunakan distribusi Gaussian (Normal) untuk fitur kontinu. Cocok untuk data numerik seperti pengukuran fisik.

P(xᵢ|C) = (1/√2πσ²) e^(-(xᵢ-μ)²/2σ²)
Kontinu Numerik Iris Dataset
📝

Multinomial NB

Berbasis distribusi Multinomial. Ideal untuk klasifikasi teks menggunakan frekuensi kata (word count).

P(xᵢ|C) = (Nᵧᵢ + α) / (Nᵧ + α·n)
Teks NLP Spam Filter
🔘

Bernoulli NB

Menggunakan distribusi Bernoulli untuk fitur biner. Hanya mempertimbangkan ada/tidaknya suatu fitur.

P(xᵢ|C) = P(xᵢ=1|C)·xᵢ + (1-P(xᵢ=1|C))·(1-xᵢ)
Biner Boolean Sentiment
⚖️ Evaluasi

Kelebihan & Kekurangan

✅ Kelebihan

  • 🚀
    Cepat & Efisien

    Training dan prediksi sangat cepat, bahkan untuk dataset besar

  • 📦
    Data Kecil

    Bekerja baik meskipun dengan training data yang terbatas

  • 🧩
    Mudah Dipahami

    Interpretable dan mudah diimplementasikan

  • 📊
    Multi-class

    Secara natural mendukung klasifikasi multi-kelas

⚠️ Kekurangan

  • 🔗
    Asumsi Independen

    Mengasumsikan fitur-fitur independen, yang jarang terjadi di dunia nyata

  • 0️⃣
    Zero Frequency

    Probabilitas nol jika fitur tidak ditemukan di training data

  • 📐
    Estimasi Probabilitas

    Estimasi probabilitas bisa tidak akurat untuk beberapa kasus

  • 🔄
    Fitur Berkorelasi

    Performa menurun jika fitur saling berkorelasi kuat