With the increase in unstructured data, the importance of classification of text-based documents has increased. In particular, the classification of news texts and digital documentation provides easy access to the information sought. In this study, a large amount of news textual data was used. After the data set was preprocessed, Bag of Words (BoW), TF-IDF, Word2Vec and Doc2Vec word embedding methods were applied. In the classification phase, Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) and Deep Neural Network (DNN) algorithms were applied. As a result of the experimental studies, using the Word2Vec method together with the DNN algorithm performed the best result.
Yapısal olmayan verilerin artmasıyla birlikte metin tabanlı belgelerin sınıflandırılmasının önemi artmıştır. Özellikle haber metinlerinin sınıflandırılması ve dijital dokümantasyon, aranan bilgilere kolay erişim sağlar. Bu çalışmada, büyük miktarda metinsel haber verisi kullanılmıştır. Veri seti ön işlemeye tabi tutulduktan sonra, Bag of Words (BoW), TF-IDF, Word2Vec ve Doc2Vec kelime temsil yöntemleri uygulanmıştır. Sınıflandırma aşamasında Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) ve Deep Neural Network (DNN) algoritmaları uygulanmıştır. Deneysel çalışmalar sonucunda DNN algoritması ile birlikte Word2Vec yönteminin kullanılması en iyi sonucu vermiştir.
Eser Adı (dc.title) | Multi-Class Document Classification Based on Deep Neural Network and Word2Vec |
Yazar (dc.contributor.author) | Metin Zontul |
Yayın Yılı (dc.date.issued) | 2022 |
Tür (dc.type) | Makale |
Özet (dc.description.abstract) | With the increase in unstructured data, the importance of classification of text-based documents has increased. In particular, the classification of news texts and digital documentation provides easy access to the information sought. In this study, a large amount of news textual data was used. After the data set was preprocessed, Bag of Words (BoW), TF-IDF, Word2Vec and Doc2Vec word embedding methods were applied. In the classification phase, Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) and Deep Neural Network (DNN) algorithms were applied. As a result of the experimental studies, using the Word2Vec method together with the DNN algorithm performed the best result. |
Özet (dc.description.abstract) | Yapısal olmayan verilerin artmasıyla birlikte metin tabanlı belgelerin sınıflandırılmasının önemi artmıştır. Özellikle haber metinlerinin sınıflandırılması ve dijital dokümantasyon, aranan bilgilere kolay erişim sağlar. Bu çalışmada, büyük miktarda metinsel haber verisi kullanılmıştır. Veri seti ön işlemeye tabi tutulduktan sonra, Bag of Words (BoW), TF-IDF, Word2Vec ve Doc2Vec kelime temsil yöntemleri uygulanmıştır. Sınıflandırma aşamasında Random Forest (RF), Multilayer Perceptron (MLP), Support Vector Machine (SVM) ve Deep Neural Network (DNN) algoritmaları uygulanmıştır. Deneysel çalışmalar sonucunda DNN algoritması ile birlikte Word2Vec yönteminin kullanılması en iyi sonucu vermiştir. |
Açık Erişim Tarihi (dc.date.available) | 2022-01-28 |
Yayıncı (dc.publisher) | Research Article |
Dil (dc.language.iso) | En |
Konu Başlıkları (dc.subject) | Document Classification |
Konu Başlıkları (dc.subject) | Multiclass Classification |
Konu Başlıkları (dc.subject) | Data Preprocessing |
Konu Başlıkları (dc.subject) | Word Embedding Methods |
Konu Başlıkları (dc.subject) | Deep learning |
Konu Başlıkları (dc.subject) | Document Classification |
Tek Biçim Adres (dc.identifier.uri) | https://hdl.handle.net/20.500.14081/1791 |
ISSN (dc.identifier.issn) | 1304-0448 |
Dergi (dc.relation.journal) | JOURNAL OF AERONAUTICS AND SPACE TECHNOLOGIES |
Dergi Sayısı (dc.identifier.issue) | 1 |
Esere Katkı Sağlayan (dc.contributor.other) | İlkay Yelmen |
Esere Katkı Sağlayan (dc.contributor.other) | Ali Güneş |
Esere Katkı Sağlayan (dc.contributor.other) | Zafer Aslan |
Orcid (dc.identifier.orcid) | 0000-0002-7557-2981 |
Bitiş Sayfası (dc.identifier.endpage) | 65 |
Başlangıç Sayfası (dc.identifier.startpage) | 59 |
Dergi Cilt (dc.identifier.volume) | 15 |
Veritabanları (dc.source.platform) | TR-Dizin |