Περίληψη
Σκοπός της διατριβής ήταν η ανάπτυξη νέων μοντέλων Υπολογιστκής Νοημοσύνης με χαμηλές υπολογιστικές απαιτήσεις, για την αντιμετώπιση πραγματικών προβλημάτων από τον χώρο της Βιοπληροφορικής και της Επεξεργασίας Βιοσημάτων. Τα πραγματικά προβλήματα συνήθως δημιουργούν μεγάλα σύνολα δεδομένων και χαρακτηρίζονται από περίπλοκα όρια διαχωρισμού κλάσεων (class separation boundaries). Πρόσφατα, σχεδιασμένα μοντέλα όπως το μοντέλο των Support Vector Machines μπορούν να αντιμετωπίσουν περίπλοκα προβλήματα ταξινόμησης προτύπων (pattern classification problems), όμως ο τρόπος που χρησιμοποιούν είναι υπολογιστικά τόσο ατελέσφορος, που για μεγάλα σύνολα δεδομένων, η αριθμητική επίλυση (numerical evaluation) αυτών των μοντέλων καθίσταται σχεδόν απογορευτική. Τα μοντέλα μη-επιβλεπόμενης (unsupervised) μάθησης από την άλλη, αν και έχουν σημαντικά χαμηλότερες υπολογιστικές απαιτήσεις, έχουν μια εγγενή μειωμένη ικανότητα διαχωρισμού κλάσεων κοντά στα όρια των κλάσεων. Η διατριβή αυτή αποσκοπώντας στον ...
Σκοπός της διατριβής ήταν η ανάπτυξη νέων μοντέλων Υπολογιστκής Νοημοσύνης με χαμηλές υπολογιστικές απαιτήσεις, για την αντιμετώπιση πραγματικών προβλημάτων από τον χώρο της Βιοπληροφορικής και της Επεξεργασίας Βιοσημάτων. Τα πραγματικά προβλήματα συνήθως δημιουργούν μεγάλα σύνολα δεδομένων και χαρακτηρίζονται από περίπλοκα όρια διαχωρισμού κλάσεων (class separation boundaries). Πρόσφατα, σχεδιασμένα μοντέλα όπως το μοντέλο των Support Vector Machines μπορούν να αντιμετωπίσουν περίπλοκα προβλήματα ταξινόμησης προτύπων (pattern classification problems), όμως ο τρόπος που χρησιμοποιούν είναι υπολογιστικά τόσο ατελέσφορος, που για μεγάλα σύνολα δεδομένων, η αριθμητική επίλυση (numerical evaluation) αυτών των μοντέλων καθίσταται σχεδόν απογορευτική. Τα μοντέλα μη-επιβλεπόμενης (unsupervised) μάθησης από την άλλη, αν και έχουν σημαντικά χαμηλότερες υπολογιστικές απαιτήσεις, έχουν μια εγγενή μειωμένη ικανότητα διαχωρισμού κλάσεων κοντά στα όρια των κλάσεων. Η διατριβή αυτή αποσκοπώντας στον συνδυασμό και των δυο μοντέλων (μη επιβλεπόμενων και επιβλεπόμενών) εισήγαγε μια νέα προσέγγιση που στηρίχθηκε σε ένα απλό γεγονός: ο χώρος καταστάσεων για πολλά περίπλοκα προβλήματα ταξινόμησης προτύπων, αποτελείται από περιοχές που βρίσκονται κοντά στα όρια διαχωρισμού κλάσεων και απαιτούν την κατασκευή περίπλοκων διαχωριστών (discriminants), ενώ για τις υπόλοιπες περιοχές το πρόβλημα της ταξινόμησης είναι αρκετά πιο απλό. Σύμφωνα με τα προηγούμενα, στο πρώτο μέρος της διατριβής σχεδιάστηκε το μοντέλο Supervised Network Self-Organizing Map (sNet-SOM) που εκμεταλλεύεται την ύπαρξη του ανομοιόμορφου χώρου καταστάσεων: Το μοντέλο sNetSOM χρησιμοποιεί μη-επιβλεπόμενη μάθηση για την ταξινόμηση στις απλές περιοχές και επιβλεπόμενη για τις περίπλοκες περιοχές (δηλαδή σε αυτές που είναι κοντά στα όρια διαχωρισμού κλάσεων). Ο αλγόριθμος μάθησης του sNetSOM διατυπώνεται επομένως σε δύο στάδια: Η μη-επιβλεπόμενη μάθηση επεκτείνει και προσαρμόζει τον αλγόριθμο SOM του Kohonen, ενώ η επιβλεπόμενη βασίζεται στα μοντέλα Generalized Radial Basis Functions Networks (GRBFN) και σε Support Vector Machines (SVM’s). Η απόδοση του sNet-SOM υπολογίστηκε κατά την εφαρμογή του σε συνθετικά δεδομένα, σε δεδομένα προσομοίωσης και σε πρόβλημα ανίχνευσης ισχαιμικών επεισοδίων με δεδομένα από την European ST-T βάση δεδομένων (καταγραφές Ηλεκτροκαρδιογραφημάτων). Σε όλες τις περιπτώσεις η χρήση του sNet-SOM, με επιβλεπόμενη μάθηση βασιζόμενη σε GRBFN και σε SVM’s, βελτίωσε σημαντικά τα αποτελέσματα που προκύπτουν μόνο από την χρήση του μη-επιβλεπόμενού SOM και μείωσε δραστικά της υπολογιστικές απαιτήσεις των επιβλεπόμενων μοντέλων, λόγω της λειτουργία τους στον σημαντικά μειωμένο χώρο των διφορούμενων περιοχών. Το δεύτερο μέρος της διατριβής αποσκοπούσε στην εφαρμογή του μοντέλου sNet- SOM για την ανάλυση δεδομένων γονιδιακής έκφρασης από μικροσυστοιχίες. Τώρα που το έργο της αλληλούχισης του ανθρώπινου γονιδιώματος οδεύει προς την πλήρη ολοκλήρωσή του (προγραμματισμένο για το 2003), η τεχνολογία των μικροσυστοιχιών ανοίγει νέους ορίζοντες για την μελέτη της πολυπλοκότητας του γονιδιώματος. Επιτρέποντας την μέτρηση της έκφρασης χιλιάδων γονιδίων ταυτόχρονα, βοηθάει στην ανακάλυψη της λειτουργίας των γονιδίων και αποσαφηνίζει σημαντικά βιολογικά μονοπάτια (biological pathways). Η ανάλυση των τεράστιων ποσοτήτων δεδομένων που προκύπτουν από αυτά τα πειράματα όμως, απαιτεί την χρήση προηγμένων υπολογιστικών εργαλείων. Το μοντέλο του sNet- SOM πληρούσε σε γενικές γραμμές τις προϋποθέσεις, έπρεπε όμως να επανασχεδιασθεί για να εναρμονιστεί με τις ιδιαιτερότητες των δεδομένων γονιδιακής έκφρασης. Επιπρόσθετα, επειδή προς το παρόν η αποκάλυψη της δομής των δεδομένων παραμένει βασικός στόχος της ανάλυσης των δεδομένων και όχι απλά η ταξινόμηση των γονιδίων, η δυνατότητα ομαδοποίησης του sNet-SOM ενισχύθηκε, προσθέτοντας, στη μη-επιβλεπόμενης φάση του, μια επιπλέον δυνατότητα επέκτασης. Η εφαρμογή του sNet-SOM για την ανάλυση δεδομένων γονιδιακής έκφρασης είχε απόδοση ταξινόμησης παρόμοια με αυτές άλλων προηγμένων μοντέλων ταξινόμησης, που έχουν χρησιμοποιηθεί πρόσφατα. Επιπλέον όμως είχε και το σημαντικό πλεονέκτημα των χαμηλών υπολογιστικών απαιτήσεων και την ικανότητα της αντιμετώπισης του γεγονότος, ότι τα γονίδια ανήκουν σε περισσότερες της μίας κλάσης (multi-labeling), το οποίο είτε αμελείται, είτε δεν μπορεί να αντιμετωπιστεί από τις περισσότερες άλλες μεθόδους. Επίσης, συγκρίνοντας με μοντέλα που είτε χρησιμοποιούν επιβλεπόμενη μάθηση και ταξινομούν τα δεδομένα, είτε χρησιμοποιούν μη-επιβλεπόμενη μάθηση και αποκαλύπτουν την δομή των δεδομένων, το σχεδιασμένο μοντέλο sNet-SOM καταφέρνει και συνδυάζει και τις δύο διεργασίες, γιατί παράλληλα με την ταξινόμηση παρέχει ένα εργαλείο εκτενούς εξερεύνησης των δεδομένων στο πλαίσιο της μη-επιβλεπόμενης ανάλυσης.
περισσότερα
Περίληψη σε άλλη γλώσσα
The aim of this thesis was the development of computationally effective computational intelligence solutions for real-world problems from the Bioinformatics and Biosignal -Processing field. Real-world problems usually involve large data sets and are characterized by complex class separation boundaries. Recently designed supervised models, like the SVM, are able to tackle complex patterns classification problems, but do that in a computationally ineffective way, often resulting in a prohibitive numerical evaluation of these models for large sized data sets. Unsupervised models on the other hand, although demanding significantly less computational resources, have inherently poor discriminating capabilities near class boundaries. The present work intending to combine the advantages of both models, introduced a novel approach which relied on a simple fact: the state space for many complex pattern classification problems consists of regions that lie near class separation boundaries and requ ...
The aim of this thesis was the development of computationally effective computational intelligence solutions for real-world problems from the Bioinformatics and Biosignal -Processing field. Real-world problems usually involve large data sets and are characterized by complex class separation boundaries. Recently designed supervised models, like the SVM, are able to tackle complex patterns classification problems, but do that in a computationally ineffective way, often resulting in a prohibitive numerical evaluation of these models for large sized data sets. Unsupervised models on the other hand, although demanding significantly less computational resources, have inherently poor discriminating capabilities near class boundaries. The present work intending to combine the advantages of both models, introduced a novel approach which relied on a simple fact: the state space for many complex pattern classification problems consists of regions that lie near class separation boundaries and require the construction of complex discriminants while for the rest regions the classification task is significantly simpler. In accordance to that in the first part of this thesis the Supervised Network Self-Organizing Map (sNet-SOM) model was designed. The sNet-SOM utilizes unsupervised learning for classifying at the simple regions and supervised learning for the difficult ones in a two stage learning process. The unsupervised learning approach is based on on an adapted version of the Self-Organizing Map (SOM) of Kohonen, while supervised learning is based on the Generalized Radial Basis Functions (GRBF) networks and on the Support Vector Machines (SVM’s). The performance of the sNet-SOM has been evaluated on synthetic data, on simulated data and on an ischemia detection application with data extracted from the European ST-T database. In all cases, the utilization of sNet-SOM with supervised learning based on both Radial Basis Functions and Support Vector Machines has significantly improved the results related to those obtained with the unsupervised SOM and has enhanced the scalability of the supervised learning schemes. The second part of this thesis was aiming at-the application of the sNet-SOM model for the analysis of microarray gene expression data. As the Human Genome Project comes towards completion of the first finished human sequence (now scheduled for 2003), microarray technology offers the potential to open wide new windows into the study of genome complexity. By facilitating the measurement of RNA levels for the complete set of transcripts of an organism microarray analysis greatly assists in defining functions of genes and elucidating important biological pathways. The analysis of the unprecedented quantities of data points that result from these experiments however, requires the use of sophisticated computational tools. The sNet- SOM model met in general the requirements posed, but had to be redesigned in order to fit well to the peculiarities of the data. Additionally, since to this point still the revealing of the structure of the data remains a main objective of analysis and not solely the classification of genes, the clustering potential of the sNet-SOM model has been advanced by a supplement expansion of its unsupervised phase. The application of sNet-SOM on gene expression data resulted in classification performances similar to that of other high accuracy classification tools used recently, with the advantage of low computational requirements and the ability of handling the multi-labeled nature of genes, which cannot be handled or is neglected by other recent approaches. Furthermore compared to solely supervised approaches used for classification or solely unsupervised approaches used for ucovering the structure of data, the designed sNet-SOM model combines both tasks providing in parallel to the classification, an extensive exploratory analysis tool in means of its unsupervised analysis framework. The thesis proceeds as follows. In the first part, after the introduction in Chapter 1 the second chapter, Chapter 2, provides background knowledge by the description of the basic algorithm of the Self-Organizing Map (SOM) of Kohonen. Chapter 3 introduces the sNet-SOM model. The unsupervised modified SOM algorithm is covered in detail and the appropriate supervised models, GRBFs and SVMs, are discussed. In order to justify the selection of the supervised experts and to explain the advantage of the use of sNet-SOM compared to the direct application of the supervised models, the next two chapters are devoted to the GRBFs and the SVMs respectively. Specifically, Chapter 4 concentrates on the first supervised network giving a concise description of the regularization theory of Tikhonov, which forms the formal framework of the Radial Basis Function (RBF) networks, which are described at the same time. Chapter 5 exploits the Support Vector Machines (SVM) algorithm and explores briefly for that purpose some mathematical concepts of the Statistical Learning Theory developed by Vapnik. In Chapter 6 three applications of sNet-SOM are presented which prove the enhanced performance of sNet-SOM and in the last chapter of the first part, Chapter 7, summarizing remarks and some directions for further improvement are presented. In the second part after the introduction in Chapter 8, Chapter 9 provides some basic background knowledge concerning gene expression, and gene expression microarrays. Previous methods for gene expression analysis are reviewed and their drawbacks outlined. Chapter 10 adapts the sNet-SOM algorithm to the specific requirements of gene expression analysis. The unsupervised the supervised and a combined unsupervised-supervised extension phase are each explained in separate sections. Chapter 11 is devoted to the presentation of the application of the sNet-SOM on microarray gene expression data from the budding yeast. First the experiments from which the data are drawn are explained, followed by the explanation of the functional classes used. Afterwards, the results together with the corresponding concluding remarks are presented. The second part ends with Chapter 12 where the conclusions of the analysis of gene expression data with the sNet-SOM are summarized. Finally the whole thesis is briefly reviewed and the overall conclusions are stated.
περισσότερα