Tempo artikel
URL artikel menjadi titik awal crawling dan tetap disimpan sebagai rujukan sumber.
Halaman ini menjelaskan bentuk data yang dipakai sistem: corpus hasil crawling, hasil preprocessing, thesaurus untuk query expansion, dan ground truth untuk evaluasi.
Artikel pada corpus uji.
URL sumber tetap disimpan untuk rujukan.
Konflik, damai, dan serangan.
CSV, pickle, thesaurus, ground truth.
URL artikel menjadi titik awal crawling dan tetap disimpan sebagai rujukan sumber.
Judul, tanggal, URL, dan isi artikel dirapikan menjadi corpus yang bisa diindeks.
Teks distemming, diberi bobot TF-IDF, lalu ditambah kamus ekspansi query.
Label relevansi dipakai untuk menghitung precision, recall, F1, TP, FP, dan FN.
Berisi dokumen utama yang dicari oleh sistem. Kolom URL dipakai juga sebagai jembatan ke sumber asli.
Artifact ini menyimpan teks yang sudah dibersihkan agar API tidak perlu mengulang preprocessing setiap kali demo dibuka.
Dipakai untuk menambahkan kata terkait dari query awal, sehingga pencarian tidak hanya bergantung pada satu kata yang diketik pengguna.
Ground truth menjadi acuan saat menghitung TP, FP, FN, precision, recall, dan F1-score.
URL artikel tetap disimpan agar hasil pencarian dapat mengarah kembali ke sumber berita.
CSV dipakai untuk corpus, pickle untuk artifact retrieval, dan XLSX untuk ground truth evaluasi.
CSV PKL XLSXSetiap dokumen punya jejak balik ke artikel asli, jadi user tidak cuma melihat snippet lokal.
Artifact preprocessing dan thesaurus disiapkan lebih dulu agar runtime API fokus ke retrieval.
Tanpa daftar dokumen relevan, precision dan recall tidak punya acuan yang jelas.
| Kolom | Isi | Dipakai untuk |
|---|---|---|
| Judul | Judul artikel dari Tempo. | Label hasil pencarian dan konteks dokumen. |
| Tanggal | Waktu publikasi artikel. | Keterangan temporal pada hasil pencarian. |
| Kalimat | Isi artikel atau potongan teks utama. | Indexing, preprocessing, TF-IDF, dan snippet. |
| URL | Alamat artikel asli. | Redirect ke sumber asli dan deduplikasi. |