Ing. Milan Dojčinovski, Ph.D.

Závěrečné práce

Diplomové práce

Webová aplikace pro kurzové sázení formou hry

Autor
Jaroslav Líbal
Rok
2013
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.

Personalizovaný vyhledávač nemovitostí s využitím technologií sémantického webu

Autor
Tomáš Dvořák
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Oldřich Malec
Anotace
Pandemie COVID-19 vedla ke zvýšení poptávky po nemovitostech, především ve městech s bohatou občanskou vybaveností. Najít vhodnou nemovitost bez jakýchkoli znalostí realitního trhu je obtížné. Vytvoření realitního portálu s více než jen základní inzercí nabídek může vyžadovat použití proprietárních technologií, které často neumožňují ukládání informací pro pozdější využití, a tak dochází ke stavu známému jako proprietární uzamčení. Tato práce navrhuje alternativní způsob vytvoření škálovatelné webové aplikace s využitím otevřených technologií založených na databázích trojic, která umožňuje využít potenciál propojených dat.

Framework pro extrakci obsahu článků z Wikipedie

Autor
Oleksandr Husiev
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Mgr. Ladislava Smítková Janků, Ph.D.
Anotace
Tato diplomová práce se zabývá extrakcí obsahu Wikipedie pro DBpedia - crowd-sourced projekt. Hlavním cílem této práce bylo vyvinout rámec pro extrakci obsahu, struktury a anotací článků z Wikipedie. Výsledkem je framework, který zpracovává velké skládky XML na Wikipedii v několika populárních jazycích s možností dynamicky přidávat nové jazyky a vytváří čistý textový výstup, odkazy a strukturu stránky ve formátu N-Triples.

Využití crowdsourcingu pro anotaci a kategorizaci dat

Autor
Tomáš Kouba
Rok
2013
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Ivo Lašek, Ph.D.

Grafové algoritmy pro doporučování v Linked Data

Autor
Martin Chouň
Rok
2016
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Diplomová práce se zabývá grafovými algoritmy pro doporučování aplikovanými na oblast propojených dat. Autor se v práci zaměřuje především na popis technologií sémantického webu a principů propojených dat, dále na doporučovací systémy, jejich funkce a techniky doporučování, a zmiňuje též současná existující řešení z oblasti doporučování v propojených datech. Zaobírá se analýzou grafových algoritmů a představuje řešení své aplikace, kde jich využívá. V neposlední řadě též autor podrobuje aplikaci experimentům na reálných datech, diskutuje získané poznatky a konečně poskytuje čtenáři pohled do budoucnosti ve směru dalšího možného vývoje a rozšíření jak vlastní aplikace, tak této práce.

Doménově-specifická adaptace NER

Autor
Bogoljub Jakovcheski
Rok
2019
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.
Anotace
Technologie Named Entity Recognition (NER) je i přes neustálý vývoj populární jak v akademické, tak v průmyslové sféře, a to i přes to, že coarse grain (hrubé) použití je častější než fine grained (jemné). V této práci používáme sady dat DBpedia NIF. Zpracováváme je a připravujeme nové sady dat pro trénování modelů se Stanford NER. Experimenty jsou prováděny s trénovanými modely, které pokrývají dopad výsledků při použití globálního a specifického doménového modelu. Další experimenty zkoumají dopad počtu článků používaných pro trénování modelů. Výsledky experimentů ukazují, že doménově specifické fine grain modely poskytují lepší výsledky než doménově specifické coarse grain modely i globální modely v obou anotacích. Také modely trénované za použití většího množství článků poskytují lepší výsledky než modely trénované s nižšími počty článků.

Metoda pro sumarizaci a hodnocení významnosti informací na Webu dat

Autor
Marek Filteš
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.
Anotace
Táto práca sa zaoberá sumarizáciu entít sémantického webu. Najprv sa rieši otázka informácií, hodnotenia miery dôležitosti informácií ako aj všeobecne sumarizácie enít. Prechádza sa k sumarizácií entít sémantického webu. V praktickej časti sa zaoberá návrhom modelu a implementáciou nástroja pre sumarizáciu entit na základe datasetu DBpedia abstracts. Vygenerovaná báza znalosti je integrovaná vrámci implementácie webového prehliadača.

Framework pro evaluaci NER nástrojů

Autor
Marek Kužel
Rok
2014
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Josef Pavlíček, Ph.D.

Crawler zaměřený na sběr Web API dokumentace

Autor
Jiří Šmolík
Rok
2015
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Petr Špaček, Ph.D.
Anotace
Diplomová práce se zabývá sběrem a analýzou dokumentací webových API zaměřeným crawlerem, který na Internetu hledá dokumenty odpovídající uživatelem zadané frázi. Následně o každém sesbíraném dokumentu rozhodne, zda je API dokumentace či není. Pro klasifikaci dokumentů je využita řada algoritmů strojového učení s učitelem.

Extrakce faktů z textu Wikipedie

Autor
Jakub Trhlík
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Petr Špaček, Ph.D.
Anotace
Wikipedia je skvělý zdroj informací, v současné době z ní ale nejsou textové informace extrahovány do strojově čitelného formátu. V této práci využíváme DBpedia NIF dataset, představující strukturu stránek Wikipedie, pro cílenou extrakci faktů. Dataset je analyzován, obohacen o odkazy pomocí několika metod a poté připraven na extrakci faktů. V této práci je zkoumáno, implementováno a testováno několik metod extrakce faktů na vybraných vztazích. Experimenty popisují přesnost a použitelnost vybraných a implementovaných metod. Extrahované vztahy jsou vyhodnoceny a odeslány k přidání do DBpedie.

Využití Crowdsourcingu pro Zlepšení Kvality Popisů Webových API

Autor
Michal Majerník
Rok
2014
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
doc. Ing. Tomáš Vitvar, Ph.D.

Open-source crowdsourcingová aplikace

Autor
Tomáš Marek
Rok
2016
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Petr Špaček, Ph.D.
Anotace
Tato práce se zabývá možnostmi použití techniky zvané crowdsourcing pro získávání informací a dat. Po analýze této metody jsou zkoumány některé již existující webové nástroje. Na základě výhod a nevýhod jednotlivých řešení je navržena a implementována vlastní aplikace. Možnosti výsledného systému jsou pak ukázány na několika konkrétních případech.

Framework pro hledání linků nad Web of Data

Autor
Karel Svoboda
Rok
2012
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Ivo Lašek, Ph.D.

Sumarizace propojených a otevřených dat

Autor
Jana Čabaiová
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
RNDr. Jakub Klímek, Ph.D.
Anotace
Práce se zabývá studiem projektu Linked Open Data, jeho aktuálního stavu a také shrnutím jednotlivých sémantických technologii, jako je RDF model, dotazovací jazyk SPARQL, různé formáty datasetů a různé přístupy k jednotlivým datasetům. Součástí práce je také vývoj webové aplikace, který zahrnuje analýzu, návrh, implementaci a také testování dané aplikace. Hlavní metoda této aplikace má umožňovat výpočet sumarizace LOD datasetů na základě specifikovaných domén a entit, což znamená poměr zastoupení jednotlivých entit v doménách v rámci konkrétního datasetu. Hlavním výsledkem této práce je vytvořená a otestováná webová aplikace s výše zmíněnou implementovanou metodou na reálných datesetech DBpedia a GeoNames a také zpracování a porovnání jednotlivých výsledků. Tato aplikace by měla být užitečná zejména pro ty, kteří potřebují zjistit doménové zaměření jejich Linked Open Data datasetu nebo potřebují porovnat dva různé datasety na doménové úrovni.

Učení domén pojmenovaných entit

Autor
Tomáš Benák
Rok
2016
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.
Anotace
Diplomová práce se zabývá doménami pojmenovaných entit a možnostmi strojového učení nad nimi. Práce nejprve analyzuje problém strojového učení, zdrojů dat a dosavadních řešení. Na základě těchto analýz je navrhnuta a implementována aplikace sloužící k tvorbě trénovacích datasetů a REST služba automatizující proces učení domén entit. Dále je představen nástroj Weka, který vypomáhá s vytvořením natrénovaných modelů, a projekt DBpedia, který je hlavním zdrojem pojmenovaných entit. Nakonec jsou provedeny experimenty k vyhodnocení kvality vytvořených modelů pro učení domén pojmenovaných entit.

Enrichment of the DBpedia NIF dataset

Autor
Pragalbha Lakshmanan
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
RNDr. Jakub Klímek, Ph.D.
Anotace
DBpedia je komunitním projektem který má za cíl poskytnout obsah ˇclánku z Wikipedie ve strojovˇ e ˇcitelném formátu. DBpedia poskytuje získanou informaci jako NIF dataset obsahující všechny ˇclánky z Wikipedie v 128 jazycích. Cílem diplomové práce je obohatit datový soubor o výsledky rozdˇ elení na vˇety, rozdˇelování tokenu, nacházení ˇcástí ˇreˇci a tokenu a obohacení odkazu  pro Wikipedia ˇclánky v Anglickém, Francouzském, Nˇemeckém, Španˇelskem a Japonským jazycích. Následnˇe na výsledku pouštíme ru zné NLP úlohy, konkrétnˇe rozdˇelení vˇet, Tokenizaci a oznaˇcování ˇcástí ˇreˇci. Pozdˇeji pˇrispˇejeme do DBpedia komunity pˇridáním dalších odkazu  na ˇclánky z Wikipedie. Nakonec vyhodnotíme a zkontrolujeme statistickou výsledku . Obohacení datasetu výsledkami tˇechto úloh bude nápomocné pro provedení složitˇejších a víc mocných NLP úloh.

RDF management založený na technologii Blockchain

Autor
Remy Rojas
Rok
2019
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.
Anotace
S růstem popularity Otevřených strukturovaných dat, který je možné pozorovat například na velikosti sítě Linked Open Data (LOD), je nutné řešit problémy škálovatelnosti a řízení životního cyklu. V době vzniku této práce neexistuje žádná z metod sledování změn a původu která zároveň garantuje integritu a dostupnost dat. Tyto problémy ohrožují stabilitu systému s propojenými zdroji z různých domén sestavených z křížových referencí URI, jakou je například model Sémantického webu: RDF. V této práci prozkoumáme výhody a schopnosti řešení založeného na Blockchainu. Poskytneme design, implementaci, test a vyhodnocení prototypu Distributed Ledgeru který řeší operace vytvoření, čtení, úpravy, smazání (CRUD), oznámení o propojení dat, a Publish/Subscribe Observer vzor. Naše řešení poskytuje podporu pro sledování a původ verzovanych RDF tvrzení stranám, které si vzájemně nedůvěřují, za použití integrity a dostupnosti spojené s decentralizaci.

Extrakce jazykových informací z Wikipedie

Autor
Andriy Nazim
Rok
2019
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
prof. Dr. Ing. Petr Kroha, CSc.
Anotace
DBpedia je komunitní úsilí, jehož cílem je získávání informací z Wikipedie a poskytování těchto informací ve strojově čitelném formátu. V současné době jsou informace obsažené v DBpedii primárně odvozeny pro polostrukturované zdroje, jako jsou infoboxy Wikipedia. V textech článku Wikipedie je však stále skryto obrovské množství informací. V této práci prezentuji přístupy k extrahování lingvistických informací z DBpedie, které jsou založeny na kombinování a analýze zdrojů DBpedie - datasetů a výsledky magisterského projektu jsou datové sady jazykových informací: synonyma, homonyma, sémantické vztahy a synonyma mezi jazyky . Můj projekt také věnuje zvláštní pozornost čištění, filtrování vytvořených datových souborů a jeho vyhodnocení bylo provedeno taky vytvořením jednoduché webové aplikace pro dotazování výsledků.

Archivační nástroj pro komunikační platformu Discord

Autor
David Labský
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.
Anotace
Discord je populární chatovací platforma která v současnosti neumožňuje uživatelům exportovat všechna data, ke kterým mají přístup. Možnost tvořit zálohy online dat je důležitá jak pro osobní důvody, tak za účelem umožnění dlouhodobého uchovávání dat. Cílem této práce je vytvořit open-source nástroj pro archivaci Discordových chatů ke kterým má daný uživatel přístup. Využíváme strategii zachycování síťové komunikace prováděné headless webovým prohlížečem. Tato metoda je široce aplikovatelná pro archivaci single page aplikací jiných než Discord, se kterými současné nástroje obtížně fungují. Funkcionalita je prokázána skrze provedení analýzi dat stažených ze zvoleného Discord serveru.

Sběr, transformace a integrace dat z domény webových služeb

Autor
Radmir Usmanov
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
doc. Ing. Tomáš Vitvar, Ph.D.
Anotace
V současné době existuje několik repozitářů a datových modelů, které poskytují popisy webových služeb. Diplomová práce řeší problém transformace popisů webových služeb z několika datových modelů do jednoho sjednoceného datového modelu. Práce analyzuje existující datasety a datové modely pro webové služby, vytváří mapování mezi různými datovými modely, automatizuje sběr, transformace a integrace datových modelů webových služeb do jednotného datového modelu, ověřuje a vyhodnocuje výsledky extrakce.

Automatické generování Web API dokumentace

Autor
Ondřej Karas
Rok
2014
Typ
Diplomová práce
Vedoucí
Ing. Milan Dojčinovski, Ph.D.
Oponenti
Ing. Jaroslav Kuchař, Ph.D.