Dataset

Koleksi artikel Tempo, ground truth, dan artifact yang membuat retrieval bisa jalan.

Halaman ini menjelaskan bentuk data yang dipakai sistem: corpus hasil crawling, hasil preprocessing, thesaurus untuk query expansion, dan ground truth untuk evaluasi.

Tempo FastAPI scikit-learn Sastrawi

Total dokumen

100

Artikel pada corpus uji.

Sumber data

Tempo

URL sumber tetap disimpan untuk rujukan.

Query evaluasi

Konflik, damai, dan serangan.

Artifact

CSV, pickle, thesaurus, ground truth.

Dataset pipeline

01 / Source

Tempo artikel

URL artikel menjadi titik awal crawling dan tetap disimpan sebagai rujukan sumber.

02 / Corpus

CSV mentah

Judul, tanggal, URL, dan isi artikel dirapikan menjadi corpus yang bisa diindeks.

03 / Artifact

Processed + thesaurus

Teks distemming, diberi bobot TF-IDF, lalu ditambah kamus ekspansi query.

04 / Evaluasi

Ground truth

Label relevansi dipakai untuk menghitung precision, recall, F1, TP, FP, dan FN.

hasil_crawling_tempo.csv

Corpus artikel hasil crawling.

Berisi dokumen utama yang dicari oleh sistem. Kolom URL dipakai juga sebagai jembatan ke sumber asli.

Sumber

spreadsheet corpus

NoJudulTanggalURLKalimat

1Konflik regional...2024-05tempo.co/...Isi artikel yang menjadi sumber snippet...

2Upaya damai...2024-05tempo.co/...Berita tentang perundingan dan respons diplomatik...

3Serangan terbaru...2024-05tempo.co/...Laporan mengenai kejadian dan dampaknya...

processed_paper.pkl

Dokumen yang sudah diproses.

Artifact ini menyimpan teks yang sudah dibersihkan agar API tidak perlu mengulang preprocessing setiap kali demo dibuka.

processed document

Serangan itu terjadi menurut laporan Tempo...

->case foldingtokenizingstopwordstemming

serang jadi lapor tempo malam hari

thesaurus_top.pkl

Relasi istilah untuk query expansion.

Dipakai untuk menambahkan kata terkait dari query awal, sehingga pencarian tidak hanya bergantung pada satu kata yang diketik pengguna.

top synonym map

konflik->sengketabentrokankrisis

damai->perundingangencatanrekonsiliasi

serangan->gempurmenyeranginsiden

ground_truth.xlsx

Dokumen relevan untuk evaluasi.

Ground truth menjadi acuan saat menghitung TP, FP, FN, precision, recall, dan F1-score.

evaluation labels

QueryRelevant DocsDipakai untuk

konflik#1 #2 #3 #6 #7 #9 #11...TP / FP / FN

damai#1 #2 #6 #7 #12 #14...Recall

serangan#3 #11 #16 #18 #19...F1-score

Sumber eksternal

Artikel berasal dari Tempo.

URL artikel tetap disimpan agar hasil pencarian dapat mengarah kembali ke sumber berita.

Buka Tempo

Format lokal

File disimpan sebagai data siap demo.

CSV dipakai untuk corpus, pickle untuk artifact retrieval, dan XLSX untuk ground truth evaluasi.

CSV PKL XLSX

Kenapa URL disimpan?

Supaya hasil pencarian bisa diaudit.

Setiap dokumen punya jejak balik ke artikel asli, jadi user tidak cuma melihat snippet lokal.

Kenapa ada pickle?

Supaya demo lebih cepat.

Artifact preprocessing dan thesaurus disiapkan lebih dulu agar runtime API fokus ke retrieval.

Kenapa ground truth manual?

Supaya metrik punya pembanding.

Tanpa daftar dokumen relevan, precision dan recall tidak punya acuan yang jelas.

Kolom utama corpus

Kolom	Isi	Dipakai untuk
Judul	Judul artikel dari Tempo.	Label hasil pencarian dan konteks dokumen.
Tanggal	Waktu publikasi artikel.	Keterangan temporal pada hasil pencarian.
Kalimat	Isi artikel atau potongan teks utama.	Indexing, preprocessing, TF-IDF, dan snippet.
URL	Alamat artikel asli.	Redirect ke sumber asli dan deduplikasi.