Multi-Class Document Classification Based on Deep Neural Network and Word2Vec

With the increase in unstructured data, the importance of classification of text-based documents has increased. In particular, the classification of news texts and digital documentation provides easy access to the information sought. In this study, a large amount of news textual data was used. After the data set was preprocessed, Bag of Words (BoW), TF-IDF, Word2Vec and Doc2Vec word embedding methods were applied. In the classification phase, Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) and Deep Neural Network (DNN) algorithms were applied. As a result of the experimental studies, using the Word2Vec method together with the DNN algorithm performed the best result.

Yapısal olmayan verilerin artmasıyla birlikte metin tabanlı belgelerin sınıflandırılmasının önemi artmıştır. Özellikle haber metinlerinin sınıflandırılması ve dijital dokümantasyon, aranan bilgilere kolay erişim sağlar. Bu çalışmada, büyük miktarda metinsel haber verisi kullanılmıştır. Veri seti ön işlemeye tabi tutulduktan sonra, Bag of Words (BoW), TF-IDF, Word2Vec ve Doc2Vec kelime temsil yöntemleri uygulanmıştır. Sınıflandırma aşamasında Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) ve Deep Neural Network (DNN) algoritmaları uygulanmıştır. Deneysel çalışmalar sonucunda DNN algoritması ile birlikte Word2Vec yönteminin kullanılması en iyi sonucu vermiştir.

Erişime Açık
Görüntülenme
83
01.03.2023 tarihinden bu yana
İndirme
2
01.03.2023 tarihinden bu yana
Son Erişim Tarihi
14 Eylül 2024 18:31
Google Kontrol
Tıklayınız
Tam Metin
Tam Metin İndirmek için tıklayın Ön izleme
Detaylı Görünüm
Eser Adı
(dc.title)
Multi-Class Document Classification Based on Deep Neural Network and Word2Vec
Yazar
(dc.contributor.author)
Metin Zontul
Yayın Yılı
(dc.date.issued)
2022
Tür
(dc.type)
Makale
Özet
(dc.description.abstract)
With the increase in unstructured data, the importance of classification of text-based documents has increased. In particular, the classification of news texts and digital documentation provides easy access to the information sought. In this study, a large amount of news textual data was used. After the data set was preprocessed, Bag of Words (BoW), TF-IDF, Word2Vec and Doc2Vec word embedding methods were applied. In the classification phase, Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) and Deep Neural Network (DNN) algorithms were applied. As a result of the experimental studies, using the Word2Vec method together with the DNN algorithm performed the best result.
Özet
(dc.description.abstract)
Yapısal olmayan verilerin artmasıyla birlikte metin tabanlı belgelerin sınıflandırılmasının önemi artmıştır. Özellikle haber metinlerinin sınıflandırılması ve dijital dokümantasyon, aranan bilgilere kolay erişim sağlar. Bu çalışmada, büyük miktarda metinsel haber verisi kullanılmıştır. Veri seti ön işlemeye tabi tutulduktan sonra, Bag of Words (BoW), TF-IDF, Word2Vec ve Doc2Vec kelime temsil yöntemleri uygulanmıştır. Sınıflandırma aşamasında Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) ve Deep Neural Network (DNN) algoritmaları uygulanmıştır. Deneysel çalışmalar sonucunda DNN algoritması ile birlikte Word2Vec yönteminin kullanılması en iyi sonucu vermiştir.
Açık Erişim Tarihi
(dc.date.available)
2022-01-28
Yayıncı
(dc.publisher)
Research Article
Dil
(dc.language.iso)
En
Konu Başlıkları
(dc.subject)
Document Classification
Konu Başlıkları
(dc.subject)
Multiclass Classification
Konu Başlıkları
(dc.subject)
Data Preprocessing
Konu Başlıkları
(dc.subject)
Word Embedding Methods
Konu Başlıkları
(dc.subject)
Deep learning
Konu Başlıkları
(dc.subject)
Document Classification
Tek Biçim Adres
(dc.identifier.uri)
https://hdl.handle.net/20.500.14081/1791
ISSN
(dc.identifier.issn)
1304-0448
Dergi
(dc.relation.journal)
JOURNAL OF AERONAUTICS AND SPACE TECHNOLOGIES
Dergi Sayısı
(dc.identifier.issue)
1
Esere Katkı Sağlayan
(dc.contributor.other)
İlkay Yelmen
Esere Katkı Sağlayan
(dc.contributor.other)
Ali Güneş
Esere Katkı Sağlayan
(dc.contributor.other)
Zafer Aslan
Orcid
(dc.identifier.orcid)
0000-0002-7557-2981
Bitiş Sayfası
(dc.identifier.endpage)
65
Başlangıç Sayfası
(dc.identifier.startpage)
59
Dergi Cilt
(dc.identifier.volume)
15
Veritabanları
(dc.source.platform)
TR-Dizin
Analizler
Yayın Görüntülenme
Yayın Görüntülenme
Erişilen ülkeler
Erişilen şehirler
6698 sayılı Kişisel Verilerin Korunması Kanunu kapsamında yükümlülüklerimiz ve çerez politikamız hakkında bilgi sahibi olmak için alttaki bağlantıyı kullanabilirsiniz.
Tamam

creativecommons
Bu site altında yer alan tüm kaynaklar Creative Commons Alıntı-GayriTicari-Türetilemez 4.0 Uluslararası Lisansı ile lisanslanmıştır.
Platforms