Σημασιολογική κατάτμηση εικόνων εσωτερικών χώρων με αξιοποίηση της πληροφορίας βάθους

التفاصيل البيبلوغرافية
العنوان: Σημασιολογική κατάτμηση εικόνων εσωτερικών χώρων με αξιοποίηση της πληροφορίας βάθους
بيانات النشر: Aristotle University of Thessaloniki, 2023.
سنة النشر: 2023
مصطلحات موضوعية: Συγχώνευση εικόνων RGB και βάθους, Depth images, Σημασιολογική κατάτμηση, Fusion of RGB and Depth images, Εικόνες βάθους, Semantic segmentation
الوصف: Η παρούσα εργασία διερευνά την απόδοση μοντέλων βαθιών νευρικών δικτύων για την επίλυση του προβλήματος της σημασιολογικής κατάτμησης σε συνθετικές εικόνες εσωτερικών χώρων στις οποίες είναι γνωστή και η πληροφορία βάθους (εικόνες RGBD). Βασικός στόχος της εργασίας είναι η συγκριτική αξιολόγηση μεθόδων κατάτμησης για τη βέλτιστη αξιοποίηση της πληροφορίας βάθους στο παραπάνω πρόβλημα. Η εκπαίδευση και αξιολόγηση των δικτύων έγινε στο σύνολο δεδομένων Structured 3D το οποίο περιλαμβάνει συνθετικές εικόνες RGBD και τη σημασιολογική κατάτμησή τους. Εξετάστηκαν 2 μοντέλα για RGB εικόνες και 6 μοντέλα για την κατάτμηση RGBD εικόνων. Τα μοντέλα RGB χρησιμοποιούνται ως βάση αναφοράς και με αυτά συγκρίνονται τα αντίστοιχα μοντέλα RGBD που αναπτύχθηκαν στη συνέχεια. Σε όλα τα πειράματα χρησιμοποιήθηκαν μοντέλα κωδικοποιητή – αποκωδικοποιητή Unet. Ειδικότερα, οι μέθοδοι που χρησιμοποιήθηκαν για τα μοντέλα RGB είναι α) απλό μοντέλο Unet και β) μοντέλο Unet με τη χρήση δικτύου backbone. Στην περίπτωση της χρήσης δικτύου Backbone εξετάστηκαν τρεις παραλλαγές στα βάρη: αρχικά με παγωμένα τα βάρη του δικτύου Backbone, έπειτα με χρήση προ εκπαιδευμένων βαρών ImageNet και τέλος με τυχαία αρχικοποίηση των βαρών. Στην περίπτωση των RGBD μοντέλων, αναπτύχθηκαν τα αντίστοιχα δύο μοντέλα με αυτά της περίπτωσης RGB για κάθε έναν από τους διαφορετικούς τρόπους συγχώνευσης εικόνας RGB και βάθους D. Ειδικότερα, οι διαφορετικοί τύποι συγχώνευσης μεταξύ των εικόνων είναι η πρώιμη (EF), μέση (MF) και όψιμη (LF) συγχώνευση. Τα αποτελέσματα δείχνουν ότι η μέθοδος της μέσης και όψιμης συγχώνευσης με χρήση δικτύου Backbone και finetuning βαρών ImageNet οδήγησαν στην καλύτερη απόδοση και τα αποτελέσματα δείχνουν βελτίωση στις περισσότερες κλάσεις.
This thesis investigates the performance of deep neural network models for solving the problem of semantic segmentation in photorealistic indoor images in which the depth information is also known (RGBD images). The main objective of the thesis is the comparative evaluation of segmentation methods for the optimal utilization of depth information in the aforementioned problem. The training and evaluation of the networks was performed on the Structured 3D dataset which includes photorealistic/synthetic RGBD images and their semantic annotations. Two methods for generating models for RGB images and six methods for generating models for RGBD images were developed. The performance of the RGB models is used as baseline for the RGBD models. Unet encoder-decoder model architecture was used in all experiments. In particular, the methods used for the RGB models are a) simple Unet model and b) Unet model using a backbone network. In the case of using backbone network, the model was trained three times with different weights: in the first case keeping the backbone network frozen and using it as feature extractor, secondly using pre-trained ImageNet weights and fine tune them and in the last case with random weight initialization. In the RGBD model case, the two RGB model architectures were extended with three different modes of fusion of the RGB and Depth images. In particular, the different types of fusion between RGB and Depth images are early, middle and late fusion. The results show that the middle and late fusion methods using backbone network and finetuning od ImageNet weights resulted in the best performance overall in the majority of classes.
اللغة: Greek, Modern (1453-)
Greek
DOI: 10.26262/heal.auth.ir.347840
الوصول الحر: https://explore.openaire.eu/search/publication?articleId=doi_________::0ac10005f19cf0c0e3eb5b059d684b33Test
رقم الانضمام: edsair.doi...........0ac10005f19cf0c0e3eb5b059d684b33
قاعدة البيانات: OpenAIRE