KEYWORD EXTRACTION KOMENTAR TERHADAP KONFLIK INDIA-PAKISTAN PADA PLATFORM YOUTUBE MENGGUNAKAN TF-IDF DAN COSINE SIMILARITY

Nicholas Edison, Kristian Fernando, Hafiz Irsyad, Abdul Rahman

Abstract


Konflik antara India dan Pakistan merupakan isu geopolitik yang sering menjadi perhatian global dan menimbulkan diskusi luas di media sosial, termasuk platform YouTube. Penelitian ini bertujuan untuk mengekstraksi kata kunci dari komentar-komentar pengguna YouTube mengenai topik konflik India-Pakistan, serta menganalisis kemiripan makna seluruh komentar antar video menggunakan metode TF-IDF dan Cosine Similarity. Data diperoleh dari kolom komentar tiga video YouTube yang relevan dan diproses melalui tahapan pra-pemrosesan teks, perhitungan bobot kata menggunakan TF-IDF, serta pengukuran similaritas menggunakan Cosine Similarity. Hasil ekstraksi kata kunci menggunakan TF-IDF menunjukkan terdapat 20 kata kunci dengan frekuensi tertinggi, dengan 3 kata kunci tertinggi adalah “india”, “pakistan” dan “perang”. Hasil perhitungan Cosine Similarity menunjukkan bahwa tingkat kemiripan antar komentar video berkisar antara 0,544 hingga 0,695, dimana nilai similarity tertinggi terdapat pada perbandingan Video 1 dan Video 3 (0,695), Video 1 dan Video 2 (0,653), sementara Video 2 dan Video 3 (0,544). Hasil ini menunjukkan bahwa kombinasi metode ini efektif dalam mengidentifikasi topik dominan serta hubungan semantik antar komentar. Visualisasi kata kunci dengan WordCloud juga memperjelas representasi opini publik yang berkembang. Penelitian ini memberikan kontribusi dalam pemetaan diskursus digital secara kuantitatif dan efisien.


References


Thelwall, M. (2017, September). “Social media analytics for YouTube comments: potential and limitations.” 21. 10.1080/13645579.2017.1381821

Ganguly, S., Smetana, M., Abdullah, S., & Karmzin, A. (2018, Agustus). “India, Pakistan, and the Kashmir dispute: unpacking the dynamics of a South Asian frozen conflict.” 10.1007/s10308-018-0526-5

J. Li, “A Comparative Study of Keyword Extraction Algorithms for English Texts,” J. Intell. cyst., Vol.30, No.1, pp. 808-815, 2021, doi: 10.1515/jisys-2021-0040.

Bouazizi, M., & Ohtsuki, T. (2017). “A pattern-based approach for sarcasm detection on Twitter”. Vol. 4, IEEE Access, 4, 5477–5488

Nugraha, K. A., & Sebastian, D. (2018, Desember). Pembentukan DatasetTopikKata Bahasa Indonesia pada Twitter Menggunakan TF-IDF & Cosine Similarity Vol 4, No.3, https://journal.maranatha.edu/index.php/jutisi/article/view/1473/1146

Z. Afif, D. S. Azhari, M. Kustati, and N. Sepriyanti, “Penelitian ilmiah (kuantitatif) beserta paradigma, pendekatan, asumsi dasar, karakteristik, metode analisis data dan outputnya,” Innovative: Journal of Social Science Research, vol. 3, no. 3, pp. 682–693, 2023.

M. Ramdhan, Metode Penelitian, A. A. Effendy, Ed., Surabaya, Indonesia: 2021.

John, M., Marbach, E., Lohmann, S., Heimerl, F., & Ertl, T. (2018, Mei). MultiCloud: Interactive Word Cloud Visualization for the Analysis of Multiple Texts. Proceedings of Graphics Interface 2018, 34–41.

Mitchell, R. (2018). Web Scraping with Python: Collecting More Data from the Modern Web (2nd ed.). O’Reilly Media.

M. Z. Haq, C. S. Octiva, Ayuliana, U. W. Nuryanto, and D. Suryadi, “Algoritma Naïve Bayes untuk mengidentifikasi hoaks di media sosial,” J. Minfo Polgan, vol. 13, no. 1, pp. 1079–1084, Jul. 2024




DOI: https://doi.org/10.46576/syntax.v6i2.6638

Article Metrics

Abstract view : 0 times
PDF (Bahasa Indonesia) – 0 times

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

INDEXING:

Lisensi Creative Commons

Syntax: Journal of Software Engineering, Computer Science and Information Technology

Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi 4.0 Internasional.