Native Language Identification of L2 Speakers of Czech

Tydlitátová, Ludmila

Identifikace rodného jazyka cizinců mluvících česky

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.3Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/73979

Identifikátory

SIS: 172519

Oponent práce

Vidová Hladká, Barbora

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

8. 9. 2016

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

počítačová lingvistika, NLP, strojové učení, Identifikace rodného jazyka, NLI

Klíčová slova (anglicky)

computational linguistics, NLP, machine learning, Native Language Identification, NLI

Cílem identifikace rodného jazyka je rozpoznat autorův rodný jazyk na základě jeho projevu ve druhém jazyce. Tímto druhým jazykem je v naprosté většině dosavadního výzkumu angličtina. V této bakalářské práci používáme 3 715 textů, které jsou napsány v češtině nerodilými mluvčími. Metodami strojového učení určujeme, zda autorův rodný jazyk patří mezi slovanské jazyky. Pomocí nejlepších modelů dosahujeme při klasifikaci úspěšnosti 78%. 1

Abstrakt (anglicky)

Native Language Identification is the task of identifying an author's na- tive language based on their productions in a second language. The absolute majority of previous work has focused on English as the second language. In this thesis, we work with 3,715 essays written in Czech by non-native speakers. We use machine learning methods to determine whether an au- thors native language belongs to the Slavic language group. By training models with different feature and parameter settings, we were able to reach an accuracy of 78%. 1

Citace dokumentu

Metadata

Zobrazit celý záznam