Ing. Daniel Vašata, Ph.D.

Závěrečné práce

Bakalářské práce

Analýza sentimentu recenzí v českém jazyce

Autor
Lukáš Langr
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Tato práce poskytuje bližší pohled na současně nejmodernější metody reprezentace dokumentů pro účely analýzy sentimentu. Přestože se mnoho nedávných článků soustředí buď na angličtinu nebo čínštinu, tato práce poskytuje unikátní hodnocení daných metod z pohledu českého jazyka. Převádíme české rezence do různých reprezentací a za pomocí modelů strojového učení na nich provádíme klasifikaci do několika tříd sentimentu. Dosažená přesnost předčila naše očekávání i podobné výzkumné články v českém prostředí používající stejný dataset. Věříme, že tato práce bude základem dalšího rozsáhlejšího výzkumu těchto reprezentací.

Normalizace a vyhlazování hodnot RSSI u Bluetooth spojení

Autor
Filip Špaček
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Tato práce zkoumá účinky normalizace a vyhlazování časových řad RSSI. Implementuje několik různých metod, jako je exponenciální vyhlazování, klouzavý průměr a Savitzky-Golayův algoritmus. Také navrhuje normalizační techniku pro kompenzaci rozdílů mezi hodnotami RSSI pro různé typů paketů. Navržené metody byly testovány na existujícím modelu detekce přístupu a výsledky byly porovnány.

Automatická explorační analýza dat pro binární klasifikaci pomocí knihovny pandas profiling

Autor
Jan Čáp
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Práce se zabývá automatickou explorací dat s binární klasifikací. Je provedena rešerše již existujících řešení pro automatickou exploraci dat. Dále jsou prozkoumány statistické testy a metody vhodné pro testování závislosti dvou proměnných. Jsou zde také prozkoumány vhodné možnosti vizualizací rozložení dat. V další části je navrženo rozšíření do knihovny \textit{Pandas Profiling}, která byla vybrána v rešerši. Rozšíření se specializuje na binární klasifikaci. Rozšíření obsahuje grafy a statistiky reprezentující závislost sloupců na cílové proměnné, vizualizaci závislostí chybějících hodnot na cílové proměnné, navržené transformace sloupců a trénování výchozího modelu pro~klasifikaci cílové proměnné. Na základě návrhu bylo implementováno rozšíření knihovny \textit{Pandas Profiling}, které urychlí exploraci dat s binární klasifikací.

Analýza diskusních komentářů na českých zpravodajských serverech

Autor
Martin Vastl
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Tato práce je zaměřena na možnosti využití metod pro zpracování přirozeného jazyka k analýze komentářů zpravodajského portálu. Hlavním cílem je srovnání modelů BERT, Doc2vec a Doc2vec s předtrénovanými reprezentacemi slov z BERT ke zkoumání relevance komentářů k obsahu článků z portálu. Dalším cílem je aplikace vektorových reprezentací textu k detekci anomálních příspěvků a anomálního chování uživatelů pomocí metody Local outlier factor. Provedenými experimenty bylo zjištěno, že nejvyšší úspěšnosti ke zkoumání relevance je dosaženo pomocí modelu BERT, a že předtrénované slovní reprezentace nemají pozitivní vliv na zachycení sémantické informace textu oproti metodě Doc2vec. Metoda Local outlier factor, která je použita pro detekci anomálií, je schopna detekovat anomální komentáře i uživatele při využití vektorů z modelu BERT. Na druhou stranu, Doc2vec je v případě detekce anomálií nevhodný a často vrací nesprávné výsledky.

Sledování a analýza článků v médiích

Autor
Peter Kanoš
Rok
2018
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Jan Starý, Ph.D.
Anotace
Práca sa zaoberá implementáciou aplikácie pre zbieranie článkov a ich verzií v čase z českých spravodajských serverov iDnes.cz a Aktuality.cz. Následne analýzou týchto článkov vykonanou nástrojom Doc2Vec. Analýza týchto článkov je zameraná najmä na zmeny článkov v čase a porovnávanie podobností medzi ich časťami. Zmeny sa týkali najmä titulkov, perexov článkov a textov daných článkov. Skúmané boli najmä závislosti rôznych faktorov ako sú napríklad čas vydania článku, problematika ktorou sa článok zaoberá a podobne. Výsledkom práce samotnej je aplikácia naprísaná v jazyku Python.

Unsupervised machine translation between Czech and German language

Autor
Ivana Kvapilíková
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Nedávný výzkum ukázal, že je možné navrhnout překladový systém, který se učí z čistě jednojazyčných textů. Ačkoli kvalita výsledného překladu stále zaostává za standardními systémy trénovanými pomocí textů předem přeložených člověkem, tyto výzkumné snahy otevírají nové možnosti pro datově chudé jazykové páry. Tato práce poskytuje přehled technik pro strojový překlad použitelných právě při nedostatku dat. Nejslibnější přístupy použijeme a porovnáváme jejich výsledky na česko-německém jazykovém páru. Jelikož použité metody závisí na vektorové reprezentaci slov ve vícejazyčném prostoru, zkoumáme tyto reprezentace, abychom ukázali, kolik nesou jazykově neutrální informace.

Webová aplikace pro číselné kódování textových proměnných v datech

Autor
Miroslav Duka
Rok
2014
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Daniel Dombek, Ph.D.

Webová demonstrace základních statistických výpočtů s využitím matematického software R a SAGE

Autor
Jana Ernekerová
Rok
2015
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Rudolf Bohumil Blažek, Ph.D.
Anotace
Tato prace se zabyva moznostmi integrace volne dostupnych matematickych algebraickych systemu R a Sage do webove aplikace. Napojeni statistickeho softwaru R do webove aplikace bylo provedeno s vyuzitim API poskytova- neho projektem OpenCPU, napojeni matematickeho softwaru Sage za pomoci sluzby Sage Cell Server. Oba zvolene matematicke systemy se podarilo uspesne vyuzit ve webove aplikaci postavene na jazyce PHP. Vysledkem je jednoducha webova aplikace pro zakladni statisticke vypocty. Hlavnim prinosem prace je rozbor moznosti vyuziti systemu R a Sage ve webove aplikaci a jejich porov- nani z hlediska jednoduchosti integrace, efektivity a prakticke pouzitelnosti.

Analýza diskusních komentářů a jejich autorů na sociálních médiích

Autor
Martin Koucký
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Je možné, že na sociálních sítích existují shluky uživatelů nebo anomální uživatelé o kterých se neví. Tato práce tuto možnost prozkoumává tím, že analyzuje uživatele reprezentované jejich komentáři. Našli jsme vhodné zdroje dat na sociálních sítích a stáhli z nich data. Poté navrhujeme matematické reprezentace uživatelů vytvořené na základě jejich komentářů. Nakonec se snažíme vysvětlit shluky uživatelů a anomální uživatele za pomocí atributů na socílních sítích a manuální analýzou. Naše výsledky neprokázali existenci shluků nebo anomálií mezi uživateli sociálních sítí, protože jsme nenašli jasné oddělení normálních a anomálních uživatelů a uživatelů různých shluků. To mohlo být způsobeno nedostatečnými metodami reprezentace uživatelů nebo manuální analýzy. Mohlo by to ale také znamenat, že žádné shluky uživatelů nebo anomální uživatelé komentující podobným způsobem neexistují.

Analýza a predikce chování krevní glukózy s pomocí strojového učení

Autor
Ladislav Floriš
Rok
2022
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Ivo Petr, Ph.D.
Anotace
Tato bakalářská práce se zabývá problematikou predikce hladiny glukózy v krvi u pacientů s diabetem typu 1. V naši práci nejprve analyzujeme změny koncentrace glukózy v krvi, a poté zkoumáme a vyhodnocujeme vhodné modely pro jeji predikci. Zaměřili jsme se na modely založené na umělých neuronových sitich a support vector machines. Tyto modely byly experimentálně hodnoceny na 30minutovém, 1hodinovém a 2hodinovém predikčnim horizontu. Data použitá v této práci byla shromážděna jednim pacientem po dobu 128 dnů a obsahuji hodnoty krevni glukózy, dávky inzulinu, přijem sacharidů a fyzickou aktivitu. Přesnost modelu byla hodnocena pomoci Root Mean Square Error (RMSE). K měřeni klinické přesnosti byla použita Clarke error grid analýza. Nejlepši dosažená RMSE byla 17,06 mg/dl, 24,32 mg/dl a 27,11 mg/dl pro 30minutový, 1hodinový a 2hodinový predikčni horizont. Naše výsledky ukazuji, že je možné vyvinout modely pro predikci krevni glukózy použitelné v praxi. Na rozdil od většiny praci věnujicich se predikci krevni glukózy, jsme použili delši soubor dat, shromážděný po dobu 4 měsiců. Nakonec jsme dataset veřejně zpřistupnili pro dalši výzkum v této oblasti.

Webová aplikace podporující tvorbu rozvrhu kombinovaných studentů

Autor
Jiří Hanuš
Rok
2013
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.

Diplomové práce

Analýza Sentimentu s využitím Doménově Specifických Adaptérů

Autor
Lukáš Langr
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Anotace
Ve zpracování přirozeného jazyka v poslední době dominují velké předtrénované modely vyžadující mnoho výpočetního výkonu na přizpůsobení se konkrétní úloze. V této práci je navržena jiná metoda přenášení znalostí zvaná doménově specifické adaptéry pro úlohu analýzy sentimentu. Adaptované modely jsou porovnány s fine-tune-ovanou baselinou v několika experimentálních scénářích a jejich výkonnost je srovnatelná s mnohem většími modely, ikdyž jsou mnohem méně výpočetně náročné. Tento přístup se jeví být použitelnou alternativou k velkým modelům v prostředích s nízkým výpočetním výkonem.

Učicí metody skrytých Markovových modelů se spojitým časem

Autor
Lukáš Lopatovský
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Tomáš Šabata
Anotace
Skrytý Markovův proces se spojitým časem je slibným modelem s využitím nejen pro biomedicínský výzkum. Nedostatek efektivních algoritmů pro jeho učení v minulosti výrazne omezoval jeho použití. Nedávno však byly prezentovány nové efektivní metody založené na EM algoritmu. V této diplomové práci zkoumáme a srovnáváme současné moderní metody, které jsou schopné vycvičit modely obsahující až stovky skrytých stavů. Jako součást práce jsme vyvinuli univerzální knihovnu pro skrytý Markovův proces se spojitým a diskrétním časem, která efektivně implementuje nejslibnější učební metody. Knihovna je snadno použitelná a dostupná všem uživatelům pod licencí open-source.

Hodnocení smluv zveřejňovaných v Registru smluv s ohledem na podezření z korupce

Autor
Jan Staněk
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Marek Sušický
Anotace
Tato diplomová práce se zabývá návrhem metrik sloužících pro nalezení podezřelých smluv zveřejňovaných v registru smluv. Popsány jsou dostupné datové zdroje, kterými je možné data z registru smluv doplnit, integrace dat a výběr příznaků pro detekci anomálií. Vytvořené metriky usnadňují výběr smluv vhodných pro ruční kontrolu.

Využití testů dobré shody pro trénování generativních adversariálních sítí

Autor
Martin Scheubrein
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Generativní adversariální sítě (GAN) jsou třídou metod hlubokého učení většinou pracující s~obrázky nebo jinými vysokodimenzionálními daty. U takových dat je pak obtížné rozhodnout, zda se distribuce naučená modelem shoduje s~distribucí zdrojových dat, případně v~jakých místech se liší. K~měření těchto odlišností lze využít míry maximum mean discrepancy (MMD) nebo unnormalized mean embedding (UME). Tato práce ověřuje, že obě míry při správné parametrizaci spolehlivě detekují globální i lokální odlišnosti distribucí obrazových dat. Detailně jsou zkoumány možnosti výběru kernelu, jeho parametrů, a v případě UME volba testových lokací. Je ověřena interpretovatelnost optimalizovaných testových lokací v~kontextu odhalování lokálních odchylek mezi distribucemi. V závěru je navržena nová metoda early stoppingu trénování GAN založená na měření MMD a UME mezi výstupy sítě a testovacími daty.

Hluboké posilované učení pro hru Super Mario Bros

Autor
Ondřej Schejbal
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
V rámci této diplomové práce byl připraven odladěný model posilovaného učení, který je schopný natrénování inteligentního agenta způsobilého hrát hru Super Mario Bros.. Jeho architektura je založena na provedeném průzkumu aktuálních state-of-the-art technik posilovaného učení, kde mezi sebou byly porovnány modely, které jsou pro tento typ úlohy nejvíce relevantní. Pro možnost porovnání modelů byl proveden průzkum a popis nástrojů, které umožňují interakci modelů s hrou. Na základě výsledků porovnání modelů byla vybrána nejvhodnější metoda. Následně byly provedeny experimenty s aplikováním rozmanitých modifikací na vybraný model za účelem najít nejvhodnější úpravy pro hru Super Mario Bros.. Odladěný model byl následně použit k natrénování inteligentního agenta, jehož výkony byly otestovány na úrovni, na které byl natrénován a také na dalších dvou úrovních, které nikdy neviděl. Výkony agenta byly velmi dobré a ukázaly pěkné vzorce chování hlavně na úrovních, na kterých byl natrénován, ačkoliv jeho výkon na neznámých úrovních byl pochopitelně horší.

Curriculum Learning of Neural Networks

Autor
Gary Fibiger
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová
Anotace
Umělé neuronové sítě se běžně trénují na náhodně seřazených datech. V mnoha směrech je tento přístup podobný učení živých organismů, to však nebývá náhodné. Lidé používají učební plány, podle kterých se jejich učení řídí. V posledních letech bylo navrženo mnoho přístupů, které mají za cíl vylepšit trénování neuronových sítí učebními plány. Tato práce obsahuje přehled těchto přístupů. Některé přístupy byly implementovány a experimentálně vyhodnoceny. Výsledky ukazují, že úspěšnost různých učebních plánů je závislá na mnoha faktorech.

Rekurentní modely neuronových sítí s pamětí založené na optimální polynomiální projekci

Autor
Ondřej Naňka
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Cílem této práce je prozkoumat možnosti praktického využití komprese signálu projekcí do polynomiálních bází při implementaci rekurentních neuronových sítí. Praktická část práce se zabývá klasifikací zvukových signálů a zpracováním textu pomocí frameworku Tensorflow a implementací jako "Spiking Neural Network" pomocí simulátoru NengoDL.