Ekstraksi Kata Kunci Pada Portal Jurnal JATISI Menggunakan Metode TF-IDF dan Cosine Similarity

Michael Wijaya, Hafiz Irsyad

Abstract


Penelitian ini bertujuan untuk mengimplementasikan metode Term Frequency-Inverse Document Frequency (TF-IDF) dan Cosine Similarity dalam mengekstraksi kata kunci dari abstrak artikel jurnal guna mengidentifikasi topik penelitian dalam periode tertentu. Harapannya, pengguna dapat menganalisis tren topik dan memperoleh gambaran komprehensif mengenai dinamika keilmuan di bidang Teknik Informatika dan Sistem Informasi. Penelitian ini menggunakan pendekatan eksperimental kuantitatif dengan tahapan: pengumpulan data dari 11 artikel jurnal JATISI Vol 6 No. 1 (2019), pre-processing data (case folding, penghapusan tanda baca dan angka, tokenisasi, stopword removal, dan stemming), pembobotan menggunakan TF-IDF, serta pengukuran relevansi antardokumen dengan Cosine Similarity. Hasil penelitian berhasil mengekstraksi kata kunci dari dokumen dan memberikan peringkat berdasarkan persentase kemunculannya, serta menghasilkan matriks cosine similarity untuk mengidentifikasi kemiripan antartulisan. Namun, nilai presisi 0.05, recall 0.04, dan F1-score 0.04 menunjukkan bahwa model ini belum mampu memberikan prediksi yang memadai untuk kasus ini. Temuan ini dapat dijadikan acuan bahwa model/metode tersebut tidak direkomendasikan tanpa modifikasi signifikan, sekaligus menjadi dasar untuk eksplorasi solusi alternatif di masa depan.


Keywords


Term Frequency-Inverse Document Frequency (TF-IDF), Cosine Similarity

Full Text:

PDF

References


T. Nomoto, “Keyword Extraction: A Modern Perspective,” SN Comput Sci, vol. 4, no. 1, hlm. 92, Des 2022, doi: 10.1007/s42979-022-01481-7.

P. Marto Hasugian, J. Manurung, L. Logaraz, dan U. Ram, “IMPLEMENTATION OF TF-IDF AND COSINE SIMILARITY ALGORITHMS FOR CLASSIFICATION OF DOCUMENTS BASED ON ABSTRACT SCIENTIFIC JOURNALS,” INFOKUM, vol. 9, no. 2, June, hlm. 518–526, Agu 2021, [Daring]. Tersedia pada: https://infor.seaninstitute.org/index.php/infokum/ article/view/201

T. Bin Sarwar, N. M. Noor, dan M. Saef Ullah Miah, “Evaluating keyphrase extraction algorithms for finding similar news articles using lexical similarity calculation and semantic relatedness measurement by word embedding,” PeerJ Comput Sci, vol. 8, hlm. e1024, Jul 2022, doi: 10.7717/peerj-cs.1024.

Admin, "Jurnal Ilmiah: Pengertian, Fungsi, Jenis, dan Struktur,"SampoernaUniversity, [Online]. Tersedia: https://www.sampoernauniversity.ac.id/id/news/contoh-jurnal-ilmiah. [Diakses: 20 Mei 2025].

R. Ariyansyah, R. Nanda, dan O. Wiranda, “Search Engine Menggunakan Metode Information Retrival,” 2022.

R. Mandala, “Evaluasi Efektifitas Metode Machine Learning Pada Search Engine,”Keahlian Inform. Sekol. Tek. Elektro dan Inform., vol. 2006, no. Snati, pp. 11–15, 2006.

I. T. Hapsari, B. S. Andoko, and C. Rahmad, “Aplikasi Information Retrieval UntukPencarian Dokumen Laporan Penelitian,” J. Inform. Polinema, vol. 1, no. 3, p. 23, 2017, doi: 10.33795/jip.v1i3.109.

N. M. A. Lestari and M. Sudarma, “Perencanaan Search Engine E-commerce dengan Metode Latent Semantic Indexing Berbasis Multiplatform,” Lontar Komput. J. Ilm. Teknol. Inf., vol. 8, no. 1, p. 31, 2017, doi: 10.24843/lkjiti.2017.v08.i01.p04.

H. J. Kim, J. W. Baek, dan K. Chung, “Optimization of associative knowledge graph using TF-IDF based ranking score,” Applied Sciences (Switzerland), vol. 10, no. 13, Jul 2020, doi: 10.3390/app10134590.

Paik, J.H. A novel TF-IDF weighting scheme for effective ranking. In Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval, Dublin, reland, 28 July–1 August 2013; pp. 343–352.

Yun-tao, Z.; Ling, G.; Yong-cheng, W. An improved TF-IDF approach for text classification. J. Zhejiang Univ. Sci. A 2005, 6A, 49–55.

M. S. U. Miah, J. Sulaiman, T. Bin Sarwar, K. Z. Zamli, dan R. Jose, “Study of Keyword Extraction Techniques for Electric Double-Layer Capacitor Domain Using Text Similarity Indexes: An Experimental Analysis,” Complexity, vol. 2021, 2021, doi: 10.1155/2021/8192320.

“Cosine Similarity-understanding the math and how it works? (with python),” https://www.machinelearningplus.com/nlp/cosine-similarity/

9.5.2. -e Cosine Similarity Algorithm-9.5. Similarity Algorithms, https://neo4j.com/docs/graph-algorithms/current/labs-algorithms/cosine/

H. Hassani, C. Beneki, S. Unger, M. T. Mazinani, dan M. R. Yeganegi, “Text mining in big data analytics,” Big Data and Cognitive Computing, vol. 4, no. 1, hlm. 1–34, Mar 2020, doi: 10.3390/bdcc4010001.

Dumais, S. Using SVMs for text categorization, Microsoft research. IEEE Intell. Syst. Mag. 1998, 13, 18–28.




DOI: https://doi.org/10.46576/device.v6i2.6623

Article Metrics

Abstract view : 0 times
PDF – 0 times

Refbacks

  • There are currently no refbacks.


Copyright (c) 2025 Michael Wijaya

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

DEVICE : JOURNAL OF INFORMATION SYSTEM, COMPUTER SCIENCE AND INFORMATION TECHNOLOGY
Terindeks pada:

   

Member Of :


DEVICE : JOURNAL OF INFORMATION SYSTEM, COMPUTER SCIENCE AND INFORMATION TECHNOLOGY

Published by :
FAKULTAS TEKNIK DAN ILMU KOMPUTER
PROGRAM STUDI SISTEM INFORMASI
UNIVERSITAS DHARMAWANGSA

Alamat : Jl. K. L. Yos Sudarso No. 224 Medan
Kontak : Tel. 061 6635682 - 6613783  Fax. 061 6615190
E-mail  : admin_device@dharmawangsa.ac.id

 Creative Commons License

Device : Journal Of Information System, Computer Science And Information Technology by Universitas Dharmawangsa is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Based on a work at http://jurnal.dharmawangsa.ac.id/index.php/device