Öznitelik Seçimi ve Yoğunluk Tepelerini Kümelemeye Dayalı Türkçe Metin Sınıflandırma


Zorarpacı E.

2023 31st Signal Processing and Communications Applications Conference (SIU), İstanbul, Türkiye, 5 - 08 Temmuz 2023, ss.1-4, (Tam Metin Bildiri)

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Doi Numarası: 10.1109/siu59756.2023.10223750
  • Basıldığı Şehir: İstanbul
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-4
  • İstanbul Üniversitesi Adresli: Hayır

Özet

İyi bilinen bir Doğal Dil İşleme (NLP) görevi olan metin sınıflandırma, belgeleri içeriklerine göre kategorize etme işlemi olarak tanımlanabilir. Bu süreçte, sınıflandırma algoritmalarının seçilmesi ve sınıflandırma için doğru değişkenlerin belirlenmesi verimli bir sınıflandırma için çok önemlidir. Bu çalışmada sınıflandırılacak metinler Tf (Terim frekansı) ve Idf (Ters doküman frekansı) değerleri göz önünde bulundurularak önce IG (Bilgi kazancı) yöntemi kullanılarak bir önişlemden geçirilir ve sonrasında yarı denetimli DPC (Yoğunluk Tepelerini Kümeleme) algoritması kullanılarak farklı kategorilere ayrılır. Yapılan çalışmada Türkçe iyi bilinen 6 haber portalından ve 6 farklı alandan elde edilen metinleri içeren TTC3600 veri kümesi kullanılmıştır. Yapılan çalışma seçilen veri kümesindeki önceki sonuçlardan daha iyi performans göstermiştir.