Univerzální systém pro triplifikaci dat z HTML dokumentů
Universal Framework for HTML Triplification
Univerzální systém pro triplifikaci dat z HTML dokumentů
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/58087Identifikátory
SIS: 126577
Kolekce
- Kvalifikační práce [10694]
Autor
Vedoucí práce
Oponent práce
Klímek, Jakub
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Správa počítačových systémů
Katedra / ústav / klinika
Katedra softwarového inženýrství
Datum obhajoby
24. 1. 2013
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Slovenština
Známka
Výborně
Klíčová slova (česky)
HTML, LinkedData, TriplifikaceKlíčová slova (anglicky)
HTML, LinkedData, TriplificationCieľom tejto bakalárskej práce je predstaviť technológie Linked Data a Resource Description Framework, prieskum situácie v oblasti získavania dát z HTML dokumentov a ich prevodu do formátu RDF. V práci je predstavený softwarový systém Strigil, ktorý slúži práve na účely triplifikácie dát z HTML dokumentov, je však rozšíriteľný aj na iné formáty. Schopnosti tohoto systému sú demonštrované prostredníctvom triplifikácie dát z vybraných zdrojov. Nad získaných dátami sú následne vytvárané niektoré štatistické informácie. Na záver je celá práca zhrnutá, a sú uvedené niektoré postrehy ohľadne extrahovania dát z Webových stránok.
The aim of this bachelor thesis is to introduce Linked Data and Resource Description Framework technologies, and map the current situation in the field of HTML document data extraction and extracted data conversion to RDF format. In this thesis, the software system Strigil is introduced. This system is designed to triplificate data from HTML documents, however, it is extensible for another file formats. The features of this system are demonstrated by triplificating data from selected Web sites. Then, some statistical information about this RDF data are shown. In the conclusion of this thesis, the entire thesis is summarized, and some useful hints about Web site scraping are mentioned.