Öznitelik Seçimi ve Yoğunluk Tepelerini Kümelemeye Dayalı Türkçe Metin Sınıflandırma


Zorarpacı E.

2023 31st Signal Processing and Communications Applications Conference (SIU), İstanbul, Turkey, 5 - 08 July 2023, pp.1-4, (Full Text)

  • Publication Type: Conference Paper / Full Text
  • Doi Number: 10.1109/siu59756.2023.10223750
  • City: İstanbul
  • Country: Turkey
  • Page Numbers: pp.1-4
  • Istanbul University Affiliated: No

Abstract

İyi bilinen bir Doğal Dil İşleme (NLP) görevi olan metin sınıflandırma, belgeleri içeriklerine göre kategorize etme işlemi olarak tanımlanabilir. Bu süreçte, sınıflandırma algoritmalarının seçilmesi ve sınıflandırma için doğru değişkenlerin belirlenmesi verimli bir sınıflandırma için çok önemlidir. Bu çalışmada sınıflandırılacak metinler Tf (Terim frekansı) ve Idf (Ters doküman frekansı) değerleri göz önünde bulundurularak önce IG (Bilgi kazancı) yöntemi kullanılarak bir önişlemden geçirilir ve sonrasında yarı denetimli DPC (Yoğunluk Tepelerini Kümeleme) algoritması kullanılarak farklı kategorilere ayrılır. Yapılan çalışmada Türkçe iyi bilinen 6 haber portalından ve 6 farklı alandan elde edilen metinleri içeren TTC3600 veri kümesi kullanılmıştır. Yapılan çalışma seçilen veri kümesindeki önceki sonuçlardan daha iyi performans göstermiştir.