Evaluasi retrieval

Menguji apakah sistem benar-benar menemukan dokumen yang relevan.

Evaluasi membandingkan hasil pencarian dengan ground truth manual untuk tiga query utama: konflik, damai, dan serangan. Fokusnya bukan cuma skor, tapi juga alasan skor itu terbentuk lewat TP, FP, dan FN.

Precision

Seberapa bersih hasilnya?

Semakin tinggi precision, semakin sedikit dokumen tidak relevan yang ikut muncul.

TP / (TP + FP)

Recall

Seberapa lengkap temuannya?

Semakin tinggi recall, semakin banyak dokumen relevan yang berhasil ditemukan.

TP / (TP + FN)

F1-score

Skor kompromi.

F1 menyeimbangkan precision dan recall supaya performa tidak berat sebelah.

2PR / (P + R)

ground truth summary

QueryRelevant docsTotal

konflik#1 #2 #3 #6 #7 #9 #11 #12 #14...19

damai#1 #2 #6 #7 #12 #14 #15 #20...10

serangan#3 #11 #16 #18 #19 #21 #237

Best F1

0.7826

Query damai tanpa expansion jadi skor F1 tertinggi di snapshot demo.

Best recall

1.00

Query serangan menemukan semua dokumen relevan pada ground truth.

Most risky

13 FP

Serangan punya recall bagus, tapi banyak dokumen tambahan yang tidak relevan.

Expansion effect

mixed

Expansion bisa menaikkan cakupan, tapi pada query damai precision turun.

Query

konflik

stabil

Mode tanpa dan dengan expansion menghasilkan skor sama pada snapshot ini.

Precision0.75

Recall0.7895

F10.7692

15 TP 5 FP 4 FN

Query

damai

sensitif

Expansion mempertahankan recall, tapi menambah false positive sehingga precision turun.

Precision0.6923

Recall0.9

F10.7826

9 TP 4 FP 1 FN

Query

serangan

recall tinggi

Semua dokumen relevan ditemukan, tetapi hasil terlalu longgar dan membawa banyak FP.

Precision0.35

Recall1.00

F10.5185

7 TP 13 FP 0 FN

without query expansion

QueryF1BarRank

damai0.7826

konflik0.7692

serangan0.5185

with query expansion

QueryF1BarRank

konflik0.7692

damai0.6000

serangan0.5185

Interpretasi 1

Expansion tidak selalu menang.

Pada query damai, expansion menambah hasil, tetapi sebagian tidak relevan. Ini membuat precision turun dari 0.6923 ke 0.45.

Interpretasi 2

Recall tinggi perlu dicek FP.

Serangan punya recall 1.00, tapi precision 0.35. Artinya sistem sangat lengkap, namun belum cukup selektif.

Interpretasi 3

Ground truth menentukan makna skor.

TP, FP, dan FN dihitung dari daftar dokumen relevan manual. Tanpa ground truth, angka metrik tidak bisa dipercaya.

Snapshot hasil evaluasi demo

Tabel ini sama dengan output ringkas yang dipakai pada dashboard 3 query di halaman Search.

Query	Mode	Precision	Recall	F1	TP	FP	FN	Catatan
konflik	Without	0.75	0.7895	0.7692	15	5	4	Stabil dan cukup seimbang.
konflik	With	0.75	0.7895	0.7692	15	5	4	Expansion tidak mengubah hasil utama.
damai	Without	0.6923	0.9	0.7826	9	4	1	Skor F1 terbaik.
damai	With	0.45	0.9	0.6	9	11	1	FP naik setelah expansion.
serangan	Without	0.35	1	0.5185	7	13	0	Recall sempurna, precision rendah.
serangan	With	0.35	1	0.5185	7	13	0	Expansion tidak memperbaiki ranking.