Κατηγοριοποίηση κειμένων χρησιμοποιώντας το μοντέλο αναπαράστασης γράφων Ν-γραμμάτων σε υψηλής συχνότητας ροής δεδομένων και εφαρμογές σε μέσα κοινωνικής δικτύωσης

Περίληψη

Μια σημαντική πρόκληση στην εποχή μας είναι η ταξινόμηση κειμένων σε ροές δεδομένων υψηλής συχνότητας. Σε αυτήν την έρευνα, προτείνουμε ένα καινοτόμο και υψηλής ακρίβειας μοντέλο ταξινόμησης ροής κειμένου, που σχεδιάστηκε με έναν ελαστικό κατανεμημένο τρόπο και είναι ικανό να εξυπηρετεί έναν όγκο ροής δεδομένων που παρουσιάζει διακυμάνσεις συχνότητας. Σε αυτό το μοντέλο ταξινόμησης, τα κείμενα αναπαριστώνται ως γράφοι Ν-γραμμάτων και η διαδικασία ταξινόμησης πραγματοποιείται χρησιμοποιώντας τεχνικές προεπεξεργασίας κειμένων, μετρικές ομοιότητας γράφων και τεχνικές κατηγοριοποίησης διανυσμάτων, ακολουθώντας τo μοντέλο επιβλεπόμενης μηχανικής μάθησης.Η έρευνα μας περιλαμβάνει την ανάλυση πολλών παραλλαγών του προτεινόμενου μοντέλου και των παραμέτρων του, όπως διαφορετικές αναπαραστάσεις των κειμένων ως γράφοι Ν-γραμμάτων, μετρήσεις ομοιότητας γράφων και μέθοδοι κατηγοριοποίησης, ούτως ώστε στο τέλος να καταλήξουμε σε ένα μοντέλο που παράγει προβλέψεις με υψηλή ακρίβεια. Δώσαμε ιδιαίτερη ...
περισσότερα

Περίληψη σε άλλη γλώσσα

A prominent challenge in our information age is the classification over high frequency data streams. In this research, we propose an innovative and high-accurate text stream classification model that is designed in an elastic distributed way and is capable to service text load with fluctuated frequency. In this classification model, text is represented as N-Gram Graphs and the classification process takes place using text preprocessing, graph similarity and feature classification techniques following the supervised machine learning approach.The work involves the analysis of many variations of the proposed model and its parameters, such as various representations of text as N-Gram Graphs, graph comparisons metrics and classification methods in order to conclude to the most accurate setup. To deal with the scalability, the availability and the timely response in case of high frequency text we employ the Beam programming model. Using the Beam programming model the classification process o ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/44442
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/44442
ND
44442
Εναλλακτικός τίτλος
Text classification using the N-gram graph representation model over high frequency data streams and applications in social media
Συγγραφέας
Βιόλος, Ιωάννης (Πατρώνυμο: Αντώνιος)
Ημερομηνία
2018
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Επικοινωνιών, Ηλεκτρονικής και Συστημάτων Πληροφορικής
Εξεταστική επιτροπή
Βαρβαρίγου Θεοδώρα
Δουλάμης Αναστάσιος
Ασκούνης Δημήτριος
Ψαρράς Ιωάννης
Παπαβασιλείου Συμεών
Σταφυλοπάτης Ανδρέας
Δουλάμης Νικόλαος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Κατηγοριοποίηση κειμένων; Συσταδοποίηση κειμένων; Ροή κειμένων; Γράφοι Ν- γραμμάτων; BEAM; Υπολογιστικό νέφος; Ανάλυση κοινωνικών δικτύων; Συναισθηματική ανάλυση; Αναγνώριση κοινοτήτων; Αναγνώριση γεγονότων; Συστήματα συστάσεων
Χώρα
Ελλάδα
Γλώσσα
Ελληνικά
Άλλα στοιχεία
202 σ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)