Tez Türü: Doktora
Tezin Yürütüldüğü Kurum: İstanbul Üniversitesi-Cerrahpaşa, Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı Başkanlığı, Türkiye
Tez Danışmanı: Zeynep Orman
Tezin Onay Tarihi: 2024
Tezin Dili: Türkçe
Desteklendiği Program: YÖK 100/2000 Programı
Özet:
Sağlık verilerinin analizi, hastalıkların
teşhisi ve tahmini çalışmalarında kritik öneme sahiptir. Günümüzde artan veri
miktarıyla birlikte araştırmacıların ve hekimlerin makine öğrenmesi
yöntemleriyle tasarlanan doğru tanı sistemlerine olan talepleri açıktır. Makine
öğrenmesi yöntemleri, dengeli veri kümeleri ve tam verilere dayanarak
tasarlandığından genellikle dengesiz ve eksik veriler içeren sağlık veri
kümelerinde hatalı sonuçlara neden olmaktadır. Bu tez çalışmasında, sınıf
dengesizliği ve eksik değer problemlerini ele almak üzere hibrit bir ön işleme
yöntemi geliştirilmiştir. Bu yöntem, eksik değerlerin tamamlanması için
Zincirlenmiş Denklemlerle Çok Değişkenli Atama (MICE) yöntemiyle birlikte
Genetik Algoritma (GA) sezgiseli kullanılarak geliştirilen GA-MICE yöntemini
ve dengesiz dağılımlı sınıfların dengelemesi için Sentetik Azınlık Aşırı
Örnekleme Tekniği (SMOTE) ve Düzenlenmiş En Yakın Komşu (ENN) eksik örnekleme
yöntemini GA ve Parçacık Sürü Optimizasyon (PSO) sezgiselleriyle birleştirerek
geliştirilen GASMOTEPSO_ENN yöntemini içermektedir. Önerilen yöntemin
etkinliği, diyabet, inme ve böbrek hastalığı gibi önemli sağlık sorunlarının
tespitinde, açık erişimli veri kümeleri üzerinde 6 farklı makine öğrenmesi
sınıflandırma yöntemleriyle test edilmiştir. Elde edilen bulgulara göre,
önerilen yöntem, üç veri kümesinde %93 ile %100 arasında değişen doğruluk,
kesinlik, duyarlılık, F1-skoru ve Eğri Altındaki Alan (AUC) değerleri elde
etmiştir. Bu yöntem, sınıf dengesizliğini ve eksik değer sorunlarını ele almak
için etkili bir şekilde çalışmış ve literatürdeki benzer yöntemlere kıyasla
daha yüksek ve güvenilir sonuçlar vermiştir.