Metodologi
Enam tahap dari artikel Tempo sampai skor evaluasi.
Halaman ini merangkum milestone project sebagai timeline
proses: crawling data, preprocessing, TF-IDF, query
expansion, ranking dokumen, lalu evaluasi retrieval.
input url
NoURL
1tempo.co/internasional/konflik...
2tempo.co/dunia/upaya-damai...
3tempo.co/news/serangan...
fetching pages...
hasil crawling
NoJudulTanggalURL
1Konflik regional...2024-05tempo.co
2Upaya damai...2024-05tempo.co
3Serangan terbaru...2024-05tempo.co
done: 3 documents collected
Tahap 1 - Crawling Data
Mengambil artikel Tempo sebagai corpus dokumen.
Data artikel disimpan dengan atribut utama
seperti judul, tanggal, URL, dan isi artikel.
URL dipakai untuk membantu mengecek duplikasi.
crawling
judul
tanggal
URL
before
Serangan
itu
terjadi,
menurut
laporan
Tempo,
pada
malam
hari...
after
serang jadi lapor tempo malam
hari
Tahap 2 - Pre-processing Data
Membersihkan teks agar siap dihitung oleh model.
Teks dinormalisasi melalui case folding,
tokenisasi, stopword removal, dan stemming
menggunakan Sastrawi.
case folding
tokenizing
stemming
tf-idf matrix
term
D1
D2
D3
konflik
0.00
0.00
0.00
damai
0.00
0.00
0.00
serang
0.00
0.00
0.00
Tahap 3 - Pembobotan TF-IDF
Mengubah dokumen dan query menjadi vektor
numerik.
Setiap kata diberi bobot berdasarkan frekuensi
kemunculan dan tingkat kelangkaannya dalam
corpus.
term frequency
inverse document frequency
vector space
query expansion
query: konflik->
query: damai->
Tahap 4 - Query Expansion
Menambahkan variasi istilah agar pencarian tidak
terlalu kaku.
Query diperluas menggunakan sinonim atau top
related terms dari thesaurus untuk meningkatkan
peluang menemukan dokumen relevan.
sinonim
thesaurus
expanded query
ranking result
#01Artikel konflik regional...0.00
#02Respons diplomatik...0.00
#03Analisis serangan...0.00
Tahap 5 - Ranking Dokumen
Mengurutkan dokumen berdasarkan cosine
similarity.
Dokumen dengan vektor paling dekat terhadap
query ditempatkan pada ranking teratas dan
ditampilkan ke pengguna.
cosine similarity
score
top-k result
Precision0.00
Recall0.00
F1-score0.00
Tahap 6 - Evaluasi
Membandingkan hasil pencarian dengan ground
truth.
Sistem menghitung TP, FP, FN, precision, recall,
dan F1-score untuk melihat kualitas retrieval.
ground truth
TP / FP / FN
precision
recall
Ringkasan komponen
cleaning
case folding
tokenizing
stopword removal
stemming
TF-IDF
cosine similarity