Dataset

Koleksi artikel Tempo, ground truth, dan artifact yang membuat retrieval bisa jalan.

Halaman ini menjelaskan bentuk data yang dipakai sistem: corpus hasil crawling, hasil preprocessing, thesaurus untuk query expansion, dan ground truth untuk evaluasi.

Total dokumen
100

Artikel pada corpus uji.

Sumber data
Tempo

URL sumber tetap disimpan untuk rujukan.

Query evaluasi
3

Konflik, damai, dan serangan.

Artifact
4

CSV, pickle, thesaurus, ground truth.

Dataset pipeline
01 / Source

Tempo artikel

URL artikel menjadi titik awal crawling dan tetap disimpan sebagai rujukan sumber.

02 / Corpus

CSV mentah

Judul, tanggal, URL, dan isi artikel dirapikan menjadi corpus yang bisa diindeks.

03 / Artifact

Processed + thesaurus

Teks distemming, diberi bobot TF-IDF, lalu ditambah kamus ekspansi query.

04 / Evaluasi

Ground truth

Label relevansi dipakai untuk menghitung precision, recall, F1, TP, FP, dan FN.

hasil_crawling_tempo.csv

Corpus artikel hasil crawling.

Berisi dokumen utama yang dicari oleh sistem. Kolom URL dipakai juga sebagai jembatan ke sumber asli.

Sumber
spreadsheet corpus
NoJudulTanggalURLKalimat
1Konflik regional...2024-05tempo.co/...Isi artikel yang menjadi sumber snippet...
2Upaya damai...2024-05tempo.co/...Berita tentang perundingan dan respons diplomatik...
3Serangan terbaru...2024-05tempo.co/...Laporan mengenai kejadian dan dampaknya...
processed_paper.pkl

Dokumen yang sudah diproses.

Artifact ini menyimpan teks yang sudah dibersihkan agar API tidak perlu mengulang preprocessing setiap kali demo dibuka.

processed document
Serangan itu terjadi menurut laporan Tempo...
->case foldingtokenizingstopwordstemming
serang jadi lapor tempo malam hari
thesaurus_top.pkl

Relasi istilah untuk query expansion.

Dipakai untuk menambahkan kata terkait dari query awal, sehingga pencarian tidak hanya bergantung pada satu kata yang diketik pengguna.

top synonym map
konflik->sengketabentrokankrisis
damai->perundingangencatanrekonsiliasi
serangan->gempurmenyeranginsiden
ground_truth.xlsx

Dokumen relevan untuk evaluasi.

Ground truth menjadi acuan saat menghitung TP, FP, FN, precision, recall, dan F1-score.

evaluation labels
QueryRelevant DocsDipakai untuk
konflik#1 #2 #3 #6 #7 #9 #11...TP / FP / FN
damai#1 #2 #6 #7 #12 #14...Recall
serangan#3 #11 #16 #18 #19...F1-score
Sumber eksternal

Artikel berasal dari Tempo.

URL artikel tetap disimpan agar hasil pencarian dapat mengarah kembali ke sumber berita.

Buka Tempo

Format lokal

File disimpan sebagai data siap demo.

CSV dipakai untuk corpus, pickle untuk artifact retrieval, dan XLSX untuk ground truth evaluasi.

CSV PKL XLSX
Kenapa URL disimpan?
Supaya hasil pencarian bisa diaudit.

Setiap dokumen punya jejak balik ke artikel asli, jadi user tidak cuma melihat snippet lokal.

Kenapa ada pickle?
Supaya demo lebih cepat.

Artifact preprocessing dan thesaurus disiapkan lebih dulu agar runtime API fokus ke retrieval.

Kenapa ground truth manual?
Supaya metrik punya pembanding.

Tanpa daftar dokumen relevan, precision dan recall tidak punya acuan yang jelas.

Kolom utama corpus

Kolom Isi Dipakai untuk
Judul Judul artikel dari Tempo. Label hasil pencarian dan konteks dokumen.
Tanggal Waktu publikasi artikel. Keterangan temporal pada hasil pencarian.
Kalimat Isi artikel atau potongan teks utama. Indexing, preprocessing, TF-IDF, dan snippet.
URL Alamat artikel asli. Redirect ke sumber asli dan deduplikasi.