Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen

Gilbert Christopher, Novi Yusliani

Abstract


Seiring dengan bertumbuhnya jumlah dokumen digital yang sangat pesat, membuat pengguna membutuhakan suatu sistem yang dapat melakukan peringkasan teks.  Pada penelitian ini diusulkan sebuah rancangan peringksan teks multi-dokumen berbasis pendekatan clustering dan pemilihan kalimat. Metode yang digunakan proses clustering kalimat adalah Latent Semantic Indexing (LSI) dan Similarity Based Histogram Clustering (SHC). Metode LSI dilakukan untuk menghitung tingkat kemiripan antarpasangan kalimat dan metode SHC digunakan untuk mengelompokkan kalimat-kalimat ke dalam cluster. Sedangkan metode yang digunakan dalam pemilihan kalimat adalah Sentences Information Density (SID). Metode tersebut merupakan metode pemilihan berbasis positional text graph. Kombinasi metode tersebut mampu menghasilkan sebuah peringkasan teks multi-dokumen yang mengandung coverage, diversity dan koherensi yang tinggi.


Keywords


multi-document summarization; latent semantic indexing; similaritiy based histogram clustering; sentences information density; sentences clustering;

Full Text:

PDF

References


R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, “Multiple documents summarization based on evolutionary optimization algorithm,” Expert Syst. Appl., vol. 40, no. 5, pp. 1675–1689, 2013.

R. Azhar, M. Machmud, H. A. Hartanto, and A. Z. Arifin, “Pembobotan Kata Berdasarkan Klaster pada Optimisasi Coverage , Diversity dan Coherence untuk Peringkasan Multi Dokumen,” Inst. Teknol. Sepuluh Nop., vol. 2, 2016.

Nidhi and V. Gupta, “Recent Trends in Text Classification Techniques,” Int. J. Comput. Appl., vol. 35, no. 6, pp. 45–51, 2011.

R. Feldman and J. Sanger, The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, vol. 1. Cambridge: Cambridge University Press, 2007.

D. Keke, R. Chikita, and A. D. Prayogo, “Sistem temu balik informasi Algoritma Nazief Adriani,” Gadjah Mada, 2012.

K. Sarkar, “Sentence Clustering-based Summarization of Multiple Text Documents,” Tech. – Int. J. Comput. Sci. Commun. Technol., vol. 2, no. 1, pp. 325–335, 2009.

K. M. Hammouda and M. S. Kamel, “Incremental document clustering using cluster similarity histograms,” Proc. - IEEE/WIC Int. Conf. Web Intell. WI 2003, pp. 597–601, 2003.

W. Song and S. C. Park, “Genetic algorithm for text clustering based on latent semantic indexing,” Comput. Math. with Appl., vol. 57, no. 11–12, pp. 1901–1907, 2009.

A. Thomo, “Latent semantic analysis Tutorial,” Victoria, Canda., pp. 1–7, 2009.

S. Zelikovitz and H. Hirsh, “Using LSI for text classification in the presence of background text,” Proc. tenth Int. Conf. Inf. Knowl. Manag. - CIKM’01, p. 113, 2001.

M. G. Ozsoy, F. N. Alpaslan, and I. Cicekli, “Text summarization using Latent Semantic Analysis,” J. Inf. Sci., vol. 37, no. August, pp. 405–417, 2011.

T. He, F. Li, W. Shao, J. Chen, and L. Ma, “A new feature-fusion sentence selecting strategy for query-focused multi-document summarization,” Proc. - ALPIT 2008, 7th Int. Conf. Adv. Lang. Process. Web Inf. Technol., pp. 81–86, 2008.

I. P. Gede, H. Suputra, A. Z. Arifin, A. Yuniarti, and K. Its, “Pendekatan Postionla Text Graph untuk Pemilihan Kalimat Representatif Cluster pada Peringkasan Multi-Dokumen,” vol. 6, no. 2, pp. 18–24, 2013.


Refbacks

  • There are currently no refbacks.