Detection of contradictions in pairs of texts in Kazakh
Detekce kontradikce mezi dvěma texty v kazaštině
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/109076Identifikátory
SIS: 205118
Kolekce
- Kvalifikační práce [10678]
Autor
Vedoucí práce
Oponent práce
Dušek, Ondřej
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Obecná informatika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2019
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
kontradikce zpracování přirozeného jazyka kazaštinaKlíčová slova (anglicky)
contradiction natural language processing KazakhV současné době my máme přístup k obrovskému množství informací na in- ternetu. Zároveň jsme však konfrontováni s problémem nepravdivé informaci. Řešením tohoto problému by mohl byt nástroj, který by mohl odhalit rozpory v textech. Cílem náše práce je nalézt v daných textech v kazaštině věty s podob- nym obsahem a klasifikovat je jako rozporné nebo podobné. Ve větsině podob- nych praci autori se snažili zarovnat věty, aby nalezli podobné a pro klasifikaci vět pouzivali informace o semantice a morfologii. V nášem vyzkumu jsme se snažili najít podobné věty pomoci word2vec, fastText a BERT vektorů a natré- novali několik modelů pro jejich klasifikaci jako rozporné nebo podobné pomocí informací o morfologii, kontroly vět pro antonymy a budování clasifikatoru po- moci neuronovych sítí trenoványch na velkych souborech dat. Náš nejlepší model dosáhl lepšího F2 než náhoda. 1
Nowadays we have access to massive amount of information on the internet. But at the same time, we are faced with the problem of untrue information. The solution for this problem would be a tool, which could detect contradictions in texts. The goal of this work is to find in the given texts in Kazakh the statements with similar content and classify them as contradictory or similar. In most of the previous works the authors tried to align the sentences to find the most similar ones and used the information about semantics and morphology to classify them as contradictory or not. In our research we have tried to find semantically similar sentences using word2vec, fastText and BERT embeddings, and trained several models to classify them as contradictory or not, using the information about morphology, checking sentences for antonyms and building the neural network classifiers trained on the huge datasets. Our best model has achieved F2 better that random. 1