Metodologi

Enam tahap dari artikel Tempo sampai skor evaluasi.

Halaman ini merangkum milestone project sebagai timeline proses: crawling data, preprocessing, TF-IDF, query expansion, ranking dokumen, lalu evaluasi retrieval.

input url
NoURL
1tempo.co/internasional/konflik...
2tempo.co/dunia/upaya-damai...
3tempo.co/news/serangan...
fetching pages...
hasil crawling
NoJudulTanggalURL
1Konflik regional...2024-05tempo.co
2Upaya damai...2024-05tempo.co
3Serangan terbaru...2024-05tempo.co
done: 3 documents collected
Tahap 1 - Crawling Data

Mengambil artikel Tempo sebagai corpus dokumen.

Data artikel disimpan dengan atribut utama seperti judul, tanggal, URL, dan isi artikel. URL dipakai untuk membantu mengecek duplikasi.

crawling judul tanggal URL
before
Serangan itu terjadi, menurut laporan Tempo, pada malam hari...
after
serang jadi lapor tempo malam hari
Tahap 2 - Pre-processing Data

Membersihkan teks agar siap dihitung oleh model.

Teks dinormalisasi melalui case folding, tokenisasi, stopword removal, dan stemming menggunakan Sastrawi.

case folding tokenizing stemming
tf-idf matrix
term
D1
D2
D3
konflik
0.00
0.00
0.00
damai
0.00
0.00
0.00
serang
0.00
0.00
0.00
Tahap 3 - Pembobotan TF-IDF

Mengubah dokumen dan query menjadi vektor numerik.

Setiap kata diberi bobot berdasarkan frekuensi kemunculan dan tingkat kelangkaannya dalam corpus.

term frequency inverse document frequency vector space
query expansion
query: konflik->sengketabentrokankrisis
query: damai->perundingangencatan
Tahap 4 - Query Expansion

Menambahkan variasi istilah agar pencarian tidak terlalu kaku.

Query diperluas menggunakan sinonim atau top related terms dari thesaurus untuk meningkatkan peluang menemukan dokumen relevan.

sinonim thesaurus expanded query
ranking result
#01Artikel konflik regional...0.00
#02Respons diplomatik...0.00
#03Analisis serangan...0.00
Tahap 5 - Ranking Dokumen

Mengurutkan dokumen berdasarkan cosine similarity.

Dokumen dengan vektor paling dekat terhadap query ditempatkan pada ranking teratas dan ditampilkan ke pengguna.

cosine similarity score top-k result
Precision0.00
Recall0.00
F1-score0.00
Tahap 6 - Evaluasi

Membandingkan hasil pencarian dengan ground truth.

Sistem menghitung TP, FP, FN, precision, recall, dan F1-score untuk melihat kualitas retrieval.

ground truth TP / FP / FN precision recall

Ringkasan komponen

cleaning case folding tokenizing stopword removal stemming TF-IDF cosine similarity