Görü Dönüştürücü Tabanlı Kodlayıcılar ve Metin Kod Çözücüler ile Türkçe Görüntü Altyazılama


Yıldız S., Memiş A., Varlı S.

32nd Signal Processing and Communications Applications Conference (SIU 2024), Mersin, Türkiye, 15 - 18 Mayıs 2024, ss.1-4

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Doi Numarası: 10.1109/siu61531.2024.10600738
  • Basıldığı Şehir: Mersin
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-4
  • İstanbul Üniversitesi Adresli: Evet

Özet

Görüntü altyazılama, görüntülerin bilgisayar sistemleri tarafından otomatik olarak tasvir edilmesi işlemi olarak tanımlanır. Bu sayede, görüntülerin içeriğine dair görsel bilgiler metinsel formda ifade edilmiş olur. Bu bildiri, görü dönüştürücüler ve metin kod çözücüler kullanılarak gerçekleştirilen derin öğrenme tabanlı bir Türkçe görüntü altyazılama çalışmasını sunmaktadır. Önerilen çalışmada, görüntüler öncelikle görü dönüştürücü tabanlı bir modül ile kodlanır. Sonrasında ise, kodlanmış olan görüntüye ait öznitelikler bir özellik izdüşüm modülünden geçirilerek normalize edilir. Son aşamada ise, metin kod çözücü bir blok üzerinden görüntü altyazıları oluşturulur. Bildiri kapsamında sunulan Türkçe görüntü altyazılama sisteminin performansını sınamak amacıyla Türkçe görüntü altyazılarından müteşekkil bir denektaşı veri kümesi olan TasvirEt kullanılmıştır. Gerçekleştirilen testlerde oldukça başarılı sonuçlar gözlemlenmiş olup, 0.3406 BLEU-1, 0.2110 BLEU-2, 0.1253 BLEU-3, 0.0690 BLEU-4, 0.1610 METEOR, 0.3145 ROUGE-L ve 0.3879 CIDEr değerleri ölçülmüştür.

Image captioning is defined as the process of describing of images by computer systems automatically. Thus, visual information regarding the content of the images is expressed in textual form. This paper presents a deep learning-based Turkish image captioning study implemented by using vision transformers and text decoders. In the proposed study, images are initially encoded with a vision transformer-based module. Afterwards, the features of the encoded image are normalized by passing them through a feature projection module. In the final stage, image captions are generated via a text decoder block. To test the performance of the Turkish image captioning system presented in this paper, TasvirEt, a benchmark dataset consisting of Turkish image captions, was used. In the tests performed, quite successful results were observed and a BLEU-1 value of 0.3406, a BLEU-2 value of 0.2110, a BLEU-3 value of 0.1253, a BLEU-4 value of 0.0690, a METEOR value of 0.1610, a ROUGE-L value of 0.3145 and a CIDEr value of 0.3879 were measured.