Evaluation of XPath queries over XML documents using SparkSQL framework
Evaluation of XPath queries over XML documents using SparkSQL framework
Typ dokumentu
diplomová prácemaster thesis
Autor
Hricov Radoslav
Vedoucí práce
Šenk Adam
Oponent práce
Kroha Petr
Studijní obor
Webové a softwarové inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
18102Obhájeno
2016-06-14Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Cieľom tejto práce je implementovať podmnožinu výrazov jazyka XPath pomocou systému Spark SQL. Prvá časť práce je zameraná na predstavenie projektu Apache Spark. Druhá časť pokrýva analýzu možnosti mapovania XML dokumentov do formy tabuľky použitím kódovania prvkov, ktoré zachováva ich poradie v rámci dokumentu. V druhej časti je taktiež popísaných niekoľko spôsobov riešenia, ktoré využívajú funkcie systému Spark. Tretia časť tejto práce je zameraná na implementáciu a testovanie navrhnutého riešenia. The main goal of this thesis is to use Spark SQL framework to implement a subset of expressions from XPath query language. The first part of this thesis is focused on introducing the Apache Spark project. The second part covers analysis of mapping XML documents into the tabular form using an encoding of nodes that keeps a document order. Also the approach to the solution that uses Spark's features is described in the second part. The third part of the thesis is focused on implementation and testing of designed solution.
Kolekce
- Diplomové práce - 18102 [1036]
Související záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Využití konceptu BIG data v oblasti Geodézie a Kartografie
Autor: Martin Vajner; Vedoucí práce: Pytel Jan; Oponent práce: Koska Bronislav
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2022-06-22)Cílem diplomové práce je analýza využití nástrojů pro zpracování Big data v oblasti geodézie a kartografie. Práce je zaměřena na využití analytického nástroje Apache Spark (sparc.apache.org) používaného spolu s programovacím ... -
Systém pro analýzu proudu dat v reálném čase
Autor: Viktora David; Vedoucí práce: Šenk Adam; Oponent práce: Smítka Jiří
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-05-17)Cílem této práce bylo vytvoření systému pro analýzu proudu dat v reálném čase v kontextu velkých objemů dat. Zpracovávanými daty jsou příspěvky ze sociální sítě Twitter. K samotné analýze byl použit framework Apache Spark, ... -
Strojové učení bez učitele a detekce odlehlých hodnot v rozsáhlých archívech astronomických spekter
Autor: Shakurova Ksenia; Vedoucí práce: Škoda Petr; Oponent práce: Jiřina Marcel
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-05-12)Tato práce se zabývá studiem vlastností několika populárních algoritmů shlukovací analýzy, např. DBSCAN, K-means, Biclustering a dalších pro astronomické účely. V práci se také zkoumají metody redukce dimenzionality a ...