Evaluasi retrieval

Menguji apakah sistem benar-benar menemukan dokumen yang relevan.

Evaluasi membandingkan hasil pencarian dengan ground truth manual untuk tiga query utama: konflik, damai, dan serangan. Fokusnya bukan cuma skor, tapi juga alasan skor itu terbentuk lewat TP, FP, dan FN.

Precision

Seberapa bersih hasilnya?

Semakin tinggi precision, semakin sedikit dokumen tidak relevan yang ikut muncul.

TP / (TP + FP)
Recall

Seberapa lengkap temuannya?

Semakin tinggi recall, semakin banyak dokumen relevan yang berhasil ditemukan.

TP / (TP + FN)
F1-score

Skor kompromi.

F1 menyeimbangkan precision dan recall supaya performa tidak berat sebelah.

2PR / (P + R)
ground truth summary
QueryRelevant docsTotal
konflik#1 #2 #3 #6 #7 #9 #11 #12 #14...19
damai#1 #2 #6 #7 #12 #14 #15 #20...10
serangan#3 #11 #16 #18 #19 #21 #237
Best F1
0.7826

Query damai tanpa expansion jadi skor F1 tertinggi di snapshot demo.

Best recall
1.00

Query serangan menemukan semua dokumen relevan pada ground truth.

Most risky
13 FP

Serangan punya recall bagus, tapi banyak dokumen tambahan yang tidak relevan.

Expansion effect
mixed

Expansion bisa menaikkan cakupan, tapi pada query damai precision turun.

Query

konflik

stabil

Mode tanpa dan dengan expansion menghasilkan skor sama pada snapshot ini.

Precision0.75
Recall0.7895
F10.7692
15 TP 5 FP 4 FN
Query

damai

sensitif

Expansion mempertahankan recall, tapi menambah false positive sehingga precision turun.

Precision0.6923
Recall0.9
F10.7826
9 TP 4 FP 1 FN
Query

serangan

recall tinggi

Semua dokumen relevan ditemukan, tetapi hasil terlalu longgar dan membawa banyak FP.

Precision0.35
Recall1.00
F10.5185
7 TP 13 FP 0 FN
without query expansion
QueryF1BarRank
damai0.7826
#1
konflik0.7692
#2
serangan0.5185
#3
with query expansion
QueryF1BarRank
konflik0.7692
#1
damai0.6000
#2
serangan0.5185
#3
Interpretasi 1

Expansion tidak selalu menang.

Pada query damai, expansion menambah hasil, tetapi sebagian tidak relevan. Ini membuat precision turun dari 0.6923 ke 0.45.

Interpretasi 2

Recall tinggi perlu dicek FP.

Serangan punya recall 1.00, tapi precision 0.35. Artinya sistem sangat lengkap, namun belum cukup selektif.

Interpretasi 3

Ground truth menentukan makna skor.

TP, FP, dan FN dihitung dari daftar dokumen relevan manual. Tanpa ground truth, angka metrik tidak bisa dipercaya.

Snapshot hasil evaluasi demo

Tabel ini sama dengan output ringkas yang dipakai pada dashboard 3 query di halaman Search.

Query Mode Precision Recall F1 TP FP FN Catatan
konflik Without 0.75 0.7895 0.7692 15 5 4 Stabil dan cukup seimbang.
konflik With 0.75 0.7895 0.7692 15 5 4 Expansion tidak mengubah hasil utama.
damai Without 0.6923 0.9 0.7826 9 4 1 Skor F1 terbaik.
damai With 0.45 0.9 0.6 9 11 1 FP naik setelah expansion.
serangan Without 0.35 1 0.5185 7 13 0 Recall sempurna, precision rendah.
serangan With 0.35 1 0.5185 7 13 0 Expansion tidak memperbaiki ranking.