Native Language Identification of L2 Speakers of Czech
Identifikace rodného jazyka cizinců mluvících česky
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/73979Identifikátory
SIS: 172519
Kolekce
- Kvalifikační práce [10691]
Autor
Vedoucí práce
Oponent práce
Vidová Hladká, Barbora
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
8. 9. 2016
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
počítačová lingvistika, NLP, strojové učení, Identifikace rodného jazyka, NLIKlíčová slova (anglicky)
computational linguistics, NLP, machine learning, Native Language Identification, NLICílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1
Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1