Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης

Μια σημαντική πρόκληση στην εποχή μας είναι η ταξινόμηση κειμένων σε ροές δεδομένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουμε ένα καινοτόμο και υψηλής ακρίβειας μοντέλο ταξινόμησης ροής κειμένου, που σχεδιάστηκε με έναν ελαστικό κατανεμημένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδομένων που παρουσιάζει διακυμάνσεις συχνότητας. Σε αυτό το μοντέλο ταξινόμησης, τα κείμενα αναπαριστώνται ως γράφοι Ν-γραμμάτων και η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας τεχνικές προεπεξεργασίας κειμένων, μετρικές ομοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσμάτων, ακολουθώντας τo μοντέλο επιβλεπόμενης μηχανικής μάθησης.Η έρευνα μας περιλαμβάνει την ανάλυση πολλών παραλλαγών του προτεινόμενου μοντέλου και των παραμέτρων του, όπως διαφορετικές αναπαραστάσεις των κειμένων ως γράφοι Ν-γραμμάτων, μετρήσεις ομοιότητας γράφων και μέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουμε σε ένα μοντέλο που παράγει προβλέψεις με υψηλή ακρίβεια. Δώσαμε ιδιαίτερη σημασία στην αντιμετώπιση της κλιμάκωσης και αποκλιμάκωσης του φόρτου εισροής των κειμένων, της διαθεσιμότητας της υπηρεσίας που παράγει τις προβλέψεις και της έγκαιρης απόκρισης των προβλέψεων για αυτό χρησιμοποιήσαμε το μοντέλο προγραμματισμού Beam. Στο μοντέλο προγραμματισμού Beam, η διαδικασία κατηγοριοποίησης εμφανίζεται ως μια ακολουθία ξεχωριστών εργασιών και διευκολύνει την κατανεμημένη υλοποίηση των πιο απαιτητικών εργασιών. Το προτεινόμενο μοντέλο και οι διάφορες παράμετροι που το συνθέτουν αξιολογούνται πειραματικά και η ροή υψηλής συχνότητας εξομοιώνεται με τη χρήση διαδεδομένων συνόλων δεδομένων, που χρησιμοποιούνται στη βιβλιογραφία για εφαρμογές ταξινόμησης κειμένων.Το μοντέλο που προτείνουμε εκτείνεται σε πολλά ερευνητικά πεδία και αξίζει να αναφέρουμε επιγραμματικά το κάθε ένα, πώς σχετίζονται με την εργασία μας. Η κατηγοριοποίηση κειμένων είναι ένα ερευνητικό θέμα που έγκειται στα επιστημονικά πεδία της μηχανικής μάθησης και της φυσικής επεξεργασίας γλώσσας, η ροή κειμένων κυμαινόμενης υψηλής συχνότητας ανήκει στο πεδίο των μεγάλων δεδομένων. Τα μεγάλα δεδομένα για να εξυπηρετηθούν χρειάζονται υπολογιστικές υποδομές που προτείνονται από το επιστημονικό πεδίο των υπολογιστικών νεφών. Τέλος, οι εφαρμογές της κατηγοριοποίησης κειμένων στην παρούσα έρευνα θα χρησιμοποιηθεί για να επιλύσουν προβλήματα του πεδίου των μέσων κοινωνικής δικτύωσης.Θα ξεκινήσουμε με το να παρουσιάσουμε πώς οι τεχνικές επεξεργασίας φυσικής γλώσσας χρησιμοποιούνται για την κατηγοριοποίηση, την συσταδοποίηση και την ανάκτηση κειμένων. Οι τεχνικές θα παρουσιαστούν με χρονολογική σειρά με σκοπό να φανεί η εξέλιξη της σκέψης των ερευνητών και πώς η κάθε τεχνική που προτείνεται έρχεται να επιλύσει προβλήματα ή να βελτιώσει τις προηγούμενες. Θα συνεχίσουμε με το να παρουσιάσουμε τις ιδιότητες που πρέπει να πληροί μια κατηγοριοποίηση ή συσταδοποίηση για να θεωρείται καλή, καθώς και ένα σύνολο από μετρικές που ποσοτικοποιούν την ακρίβεια μιας κατηγοριοποίησης σύμφωνα με αυτές τις ιδιότητες. Θα παρουσιαστεί η μέθοδος διεξαγωγής πειραμάτων κατηγοριοποίησης, που εφαρμόζουν αυτές τις μετρικές, η οποία θα είναι η μέθοδος αξιολόγησης που θα χρησιμοποιηθεί σε όλα τα πειραματικά σύνολα που θα παρουσιάσουμε στις επόμενες ενότητες.Θα παρουσιαστούν σε δύο διαφορετικές ενότητες, μια μέθοδος κατηγοριοποίησης κειμένων και μια συσταδοποίησης, που κάνουν χρήση του μοντέλου αναπαράστασης γράφων Ν-γραμμάτων. Μια σειρά από B5 προβλήματα του χώρου των μέσων κοινωνικών δικτύων, θα παρουσιαστούν σε συνδυασμό με αντιπροσωπευτικές μεθόδους που χρησιμοποιούνται για την επίλυσή τους. Θα προτείνουμε την μέθοδο με την οποία το μοντέλο κατηγοριοποίησης κειμένων εφαρμόζεται, θα το επιβεβαιώσουμε και θα το αξιολογήσουμε πειραματικά και θα δούμε πως πολλές φορές ξεπερνάει σε ακρίβεια άλλες μεθόδους που χρησιμοποιούνται. Οι εφαρμογές του χώρου των μέσων κοινωνικών δικτύων όπου θα εφαρμοστεί το μοντέλο που προτείνουμε είναι η αναγνώριση κοινοτήτων, αναγνώριση γεγονότων, συναισθηματική ανάλυση και τα συστήματα συστάσεων.

περισσότερα

Περίληψη σε άλλη γλώσσα

A prominent challenge in our information age is the classification over high frequency data streams. In this research, we propose an innovative and high-accurate text stream classification model that is designed in an elastic distributed way and is capable to service text load with fluctuated frequency. In this classification model, text is represented as N-Gram Graphs and the classification process takes place using text preprocessing, graph similarity and feature classification techniques following the supervised machine learning approach.The work involves the analysis of many variations of the proposed model and its parameters, such as various representations of text as N-Gram Graphs, graph comparisons metrics and classification methods in order to conclude to the most accurate setup. To deal with the scalability, the availability and the timely response in case of high frequency text we employ the Beam programming model. Using the Beam programming model the classification process occurs as a sequence of distinct tasks and facilitates the distributed implementation of the most computational demanding tasks of the inference stage. The proposed model and the various parameters that constitute it are evaluated experimentally and the high frequency stream emulated using many datasets that are commonly used in the literature for text classification.The model we propose extends to many research fields and it is worth mentioning each of them how they relate to our work. Text categorisation is a research topic that lies in the scientific fields of machine learning and natural language processing, high frequency data streams belongs to the field of big data. To service big data in an efficient and efficacy way we need computer infrastructures proposed by the scientific field of cloud computing. Finally, the text categorisation applications will be used to solve challenges in the discipline of social network analysis.We discuss how natural language processing techniques are used to categorise, cluster and retrieve texts. The techniques will be presented in chronological order in order to show the evolution of researchers' approaches and how each technique proposed comes to solve problems or improve the previous ones. We present the properties that a categorisation or clustering must meet to be considered good as well as a set of metrics that quantify the accuracy of a categorisation according to these properties. We also present a method of conducting categorisation experiments applying these metrics. This method will be the evaluation method to be used in all the experimental sets that we will present in the following sections.A method of text categorisation and a text clustering that use the N-Gram graph representation model are presented in two different sections. A number of social networking topics are presented and we propose that the text categorisation model which use the representation model of N-Gram graph provides efficient solutions. We evaluate our model experimentally and we see that many times it overcomes other state of the art methods. The social networking applications where the proposed model is applied are topics community detection, event detection, sentiment analysis, and recommendation systems.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (5.59 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/44442
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/44442
ND	44442
Εναλλακτικός τίτλος	Text classification using the N-gram graph representation model over high frequency data streams and applications in social media
Συγγραφέας	Βιόλος, Ιωάννης (Πατρώνυμο: Αντώνιος)
Ημερομηνία	2018
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής
Εξεταστική επιτροπή	Βαρβαρίγου Θεοδώρα Δουλάμης Αναστάσιος Ασκούνης Δημήτριος Ψαρράς Ιωάννης Παπαβασιλείου Συμεών Σταφυλοπάτης Ανδρέας Δουλάμης Νικόλαος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Κατηγοριοποίηση κειμένων; Συσταδοποίηση κειμένων; Ροή κειμένων; Γράφοι Ν- γραμμάτων; BEAM; Υπολογιστικό νέφος; Ανάλυση κοινωνικών δικτύων; Συναισθηματική ανάλυση; Αναγνώριση κοινοτήτων; Αναγνώριση γεγονότων; Συστήματα συστάσεων
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	202 σ., πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Μέθοδοι μηχανικής μάθησης για αυτόματη ταξινόμηση κειμένων

Ανάπτυξη οικοδομικών υλικών (κεραμικών, σύνθετων υλικών κεραμικής μήτρας και τσιμεντοπροϊόντων) με στόχο την προστασία από την ηλεκτρομαγνητική ακτινοβολία

Αναγνώριση χαρακτήρων (OCR) ιστορικών εγγράφων: χειρόγραφα, καλλιγραφικά και τυπωμένα έγγραφα

Ευφυή συστήματα υποστήριξης εξατομικευμένων ιατρικών αποφάσεων για τη διαχείριση του σακχαρώδους διαβήτη

Σώμα κειμένων και ηλεκτρονικό μορφολογικό-σημασιολογικό λεξικό της ελληνικής ειδικής γλώσσας των τραπεζικών συμβάσεων: θέματα εναρμόνισης της γλώσσας και εφαρμογές στην εκμάθησή της και στη μετάφραση

Η στρατηγική χρήση λεξιλογίου γραπτού λόγου από τον αποτελεσματικό γλωσσικά μαθητή στη Β' γυμνασίου: μια περιπτωσιολογική μελέτη

Εξόρυξη πληροφορίας και ιατρικά συστήματα υποστήριξης απόφασης

Κατηγοριοποίηση κειμένων

Ανάλυση ιατρικών δεδομένων από πολλαπλές απεικονιστικές τεχνολογίες με τεχνικές μηχανικής μάθησης, επεξεργασίας εικόνας και στατιστικού μοντέλου σχήματος

Μεθοδολογίες ανάπτυξης ασαφών συστημάτων ταξινόμησης με χρήση εξελικτικών αλγορίθμων: εφαρμογή σε προβλήματα υψηλής διαστατικότητας

"Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .