2023 31st Signal Processing and Communications Applications Conference (SIU), İstanbul, Türkiye, 5 - 08 Temmuz 2023, ss.1-4, (Tam Metin Bildiri)
İyi bilinen bir Doğal Dil İşleme (NLP) görevi olan
metin sınıflandırma, belgeleri içeriklerine göre kategorize etme
işlemi olarak tanımlanabilir. Bu süreçte, sınıflandırma
algoritmalarının seçilmesi ve sınıflandırma için doğru
değişkenlerin belirlenmesi verimli bir sınıflandırma için çok
önemlidir. Bu çalışmada sınıflandırılacak metinler Tf (Terim
frekansı) ve Idf (Ters doküman frekansı) değerleri göz önünde
bulundurularak önce IG (Bilgi kazancı) yöntemi kullanılarak bir
önişlemden geçirilir ve sonrasında yarı denetimli DPC (Yoğunluk
Tepelerini Kümeleme) algoritması kullanılarak farklı
kategorilere ayrılır. Yapılan çalışmada Türkçe iyi bilinen 6 haber
portalından ve 6 farklı alandan elde edilen metinleri içeren TTC3600 veri kümesi kullanılmıştır. Yapılan çalışma seçilen veri
kümesindeki önceki sonuçlardan daha iyi performans
göstermiştir.