Seberapa bersih hasilnya?
Semakin tinggi precision, semakin sedikit dokumen tidak relevan yang ikut muncul.
TP / (TP + FP)Evaluasi membandingkan hasil pencarian dengan ground truth manual untuk tiga query utama: konflik, damai, dan serangan. Fokusnya bukan cuma skor, tapi juga alasan skor itu terbentuk lewat TP, FP, dan FN.
Semakin tinggi precision, semakin sedikit dokumen tidak relevan yang ikut muncul.
TP / (TP + FP)Semakin tinggi recall, semakin banyak dokumen relevan yang berhasil ditemukan.
TP / (TP + FN)F1 menyeimbangkan precision dan recall supaya performa tidak berat sebelah.
2PR / (P + R)Query damai tanpa expansion jadi skor F1 tertinggi di snapshot demo.
Query serangan menemukan semua dokumen relevan pada ground truth.
Serangan punya recall bagus, tapi banyak dokumen tambahan yang tidak relevan.
Expansion bisa menaikkan cakupan, tapi pada query damai precision turun.
Mode tanpa dan dengan expansion menghasilkan skor sama pada snapshot ini.
Expansion mempertahankan recall, tapi menambah false positive sehingga precision turun.
Semua dokumen relevan ditemukan, tetapi hasil terlalu longgar dan membawa banyak FP.
Pada query damai, expansion menambah hasil, tetapi sebagian tidak relevan. Ini membuat precision turun dari 0.6923 ke 0.45.
Serangan punya recall 1.00, tapi precision 0.35. Artinya sistem sangat lengkap, namun belum cukup selektif.
TP, FP, dan FN dihitung dari daftar dokumen relevan manual. Tanpa ground truth, angka metrik tidak bisa dipercaya.
Tabel ini sama dengan output ringkas yang dipakai pada dashboard 3 query di halaman Search.
| Query | Mode | Precision | Recall | F1 | TP | FP | FN | Catatan |
|---|---|---|---|---|---|---|---|---|
| konflik | Without | 0.75 | 0.7895 | 0.7692 | 15 | 5 | 4 | Stabil dan cukup seimbang. |
| konflik | With | 0.75 | 0.7895 | 0.7692 | 15 | 5 | 4 | Expansion tidak mengubah hasil utama. |
| damai | Without | 0.6923 | 0.9 | 0.7826 | 9 | 4 | 1 | Skor F1 terbaik. |
| damai | With | 0.45 | 0.9 | 0.6 | 9 | 11 | 1 | FP naik setelah expansion. |
| serangan | Without | 0.35 | 1 | 0.5185 | 7 | 13 | 0 | Recall sempurna, precision rendah. |
| serangan | With | 0.35 | 1 | 0.5185 | 7 | 13 | 0 | Expansion tidak memperbaiki ranking. |