دورية أكاديمية

A Study on Missing Data Problem in Random Forest ; Rasgele Orman Yönteminde Eksik Veri Probleminin İncelenmesi

التفاصيل البيبلوغرافية
العنوان: A Study on Missing Data Problem in Random Forest ; Rasgele Orman Yönteminde Eksik Veri Probleminin İncelenmesi
المؤلفون: ÖZEN, Hülya, BAL, Cengiz
المصدر: Volume: 42, Issue: 1 103-109 ; 1305-4953 ; 2587-1579 ; Osmangazi Tıp Dergisi
بيانات النشر: Eskişehir Osmangazi University
Eskişehir Osmangazi Üniversitesi
سنة النشر: 2020
المجموعة: DergiPark Akademik (E-Journals)
مصطلحات موضوعية: knn imputation method,Missing value,proximity matrix,Random Forests, knn Atama Yöntemi,Eksik Değer,Yakınlık Matrisi,Random Forests
الوصف: Random Forest is an ensemble methodthat combines many trees constructed from bootstrap samples of the originaldata. Random Forest is used for both classification and regression and providesmany advantages such as having a high accuracy, calculating a generalizationerror, determining the important variables and outliers, performing supervisedand unsupervised learning and imputing missing values with an algorithm basedon proximity matrix. In this study, we aimed to compare the proximity basedimputation method of Random Forest with k nearest neighbor imputation prior tofitting. Therefore, simulation studies were performed for a classificationproblem under various scenarios including different percentage of missingvalues, number of neighbors and correlation structures between predictorvariables. The results showed that for highly correlated structures proximitymatrix based imputation method should be used meanwhile k nearest neighborimputation method should be preferred for low and medium correlated structures. ; Rasgele Orman, orijinalverilerin bootstrap örneklerinden oluşturulmuş pek çok karar ağacını bir arayagetiren bir topluluk yöntemidir. Rasgele Orman, hem sınıflandırma hem deregresyon için kullanılır ve yüksek doğruluk oranı elde etme, genelleme hatasıhesaplama, önemli değişkenleri ve aykırı değerleri belirleme, danışmanlı vedanışmansız öğrenmeyi gerçekleştirme ve yakınlık matrisine dayalı bir algoritmaile eksik gözlemlere değer atama gibi birçok avantaj sağlar. Bu çalışmada,Rasgele Orman’ın yakınlık matrisi temelli atama yöntemini, model kurulumundanönce kullanılan en yakın komşu ile değer atama yöntemiyle karşılaştırmayıamaçladık. Bu nedenle, farklı eksik değer yüzdeleri, komşuluk sayısı vetahminci değişkenler arasındaki korelasyon yapıları dahil olmak üzere çeşitlisenaryolar altında bir sınıflandırma problemi için simülasyon çalışmasıyapılmıştır. Sonuçlar, yüksek korelasyonlu yapılar için yakınlık matrisitabanlı atama yönteminin kullanılması gerektiğini, orta ve düşük korelasyonluyapılar için ise en yakın ...
نوع الوثيقة: article in journal/newspaper
وصف الملف: application/pdf
اللغة: English
العلاقة: https://dergipark.org.tr/tr/download/article-file/661404Test; https://dergipark.org.tr/tr/pub/otd/issue/50546/496524Test
DOI: 10.20515/otd.496524
الإتاحة: https://doi.org/10.20515/otd.496524Test
https://dergipark.org.tr/tr/pub/otd/issue/50546/496524Test
رقم الانضمام: edsbas.C573B7B7
قاعدة البيانات: BASE