Bakalářské práce
Webová aplikace podporující tvorbu rozvrhu kombinovaných studentů
Autor
Jiří Hanuš
Rok
2013
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Katedra
Webová aplikace pro číselné kódování textových proměnných v datech
Autor
Miroslav Duka
Rok
2014
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Daniel Dombek, Ph.D.
Katedra
Webová demonstrace základních statistických výpočtů s využitím matematického software R a SAGE
Autor
Jana Ernekerová
Rok
2015
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Rudolf Bohumil Blažek, Ph.D.
Katedra
Anotace
Tato prace se zabyva moznostmi integrace volne dostupnych matematickych algebraickych systemu R a Sage do webove aplikace. Napojeni statistickeho softwaru R do webove aplikace bylo provedeno s vyuzitim API poskytova- neho projektem OpenCPU, napojeni matematickeho softwaru Sage za pomoci sluzby Sage Cell Server. Oba zvolene matematicke systemy se podarilo uspesne vyuzit ve webove aplikaci postavene na jazyce PHP. Vysledkem je jednoducha webova aplikace pro zakladni statisticke vypocty. Hlavnim prinosem prace je rozbor moznosti vyuziti systemu R a Sage ve webove aplikaci a jejich porov- nani z hlediska jednoduchosti integrace, efektivity a prakticke pouzitelnosti.
Sledování a analýza článků v médiích
Autor
Peter Kanoš
Rok
2018
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Jan Starý, Ph.D.
Katedra
Anotace
Práca sa zaoberá implementáciou aplikácie pre zbieranie článkov a ich verzií v čase z českých spravodajských serverov iDnes.cz a Aktuality.cz. Následne analýzou týchto článkov vykonanou nástrojom Doc2Vec. Analýza týchto článkov je zameraná najmä na zmeny článkov v čase a porovnávanie podobností medzi ich časťami. Zmeny sa týkali najmä titulkov, perexov článkov a textov daných článkov. Skúmané boli najmä závislosti rôznych faktorov ako sú napríklad čas vydania článku, problematika ktorou sa článok zaoberá a podobne. Výsledkom práce samotnej je aplikácia naprísaná v jazyku Python.
Analýza diskusních komentářů na českých zpravodajských serverech
Autor
Martin Vastl
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Katedra
Anotace
Tato práce je zaměřena na možnosti využití metod pro zpracování přirozeného jazyka k analýze komentářů zpravodajského portálu. Hlavním cílem je srovnání modelů BERT, Doc2vec a Doc2vec s předtrénovanými reprezentacemi slov z BERT ke zkoumání relevance komentářů k obsahu článků z portálu. Dalším cílem je aplikace vektorových reprezentací textu k detekci anomálních příspěvků a anomálního chování uživatelů pomocí metody Local outlier factor.
Provedenými experimenty bylo zjištěno, že nejvyšší úspěšnosti ke zkoumání relevance je dosaženo pomocí modelu BERT, a že předtrénované slovní reprezentace nemají pozitivní vliv na zachycení sémantické informace textu oproti metodě Doc2vec. Metoda Local outlier factor, která je použita pro detekci anomálií, je schopna detekovat anomální komentáře i uživatele při využití vektorů z modelu BERT. Na druhou stranu, Doc2vec je v případě detekce anomálií nevhodný a často vrací nesprávné výsledky.
Analýza sentimentu recenzí v českém jazyce
Autor
Lukáš Langr
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Katedra
Anotace
Tato práce poskytuje bližší pohled na současně nejmodernější metody reprezentace
dokumentů pro účely analýzy sentimentu. Přestože se mnoho nedávných
článků soustředí buď na angličtinu nebo čínštinu, tato práce poskytuje unikátní
hodnocení daných metod z pohledu českého jazyka. Převádíme české rezence
do různých reprezentací a za pomocí modelů strojového učení na nich provádíme
klasifikaci do několika tříd sentimentu. Dosažená přesnost předčila naše očekávání
i podobné výzkumné články v českém prostředí používající stejný dataset.
Věříme, že tato práce bude základem dalšího rozsáhlejšího výzkumu těchto
reprezentací.
Unsupervised machine translation between Czech and German language
Autor
Ivana Kvapilíková
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Katedra
Anotace
Nedávný výzkum ukázal, že je možné navrhnout překladový systém, který se učí z čistě jednojazyčných textů. Ačkoli kvalita výsledného překladu stále zaostává za standardními systémy trénovanými pomocí textů předem přeložených člověkem, tyto výzkumné snahy otevírají nové možnosti pro datově chudé jazykové páry. Tato práce poskytuje přehled technik pro strojový překlad použitelných právě při nedostatku dat. Nejslibnější přístupy použijeme a porovnáváme jejich výsledky na česko-německém jazykovém páru. Jelikož použité metody závisí na vektorové reprezentaci slov ve vícejazyčném prostoru, zkoumáme tyto reprezentace, abychom ukázali, kolik nesou jazykově neutrální informace.
Analýza diskusních komentářů a jejich autorů na sociálních médiích
Autor
Martin Koucký
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Katedra
Anotace
Je možné, že na sociálních sítích existují shluky uživatelů nebo anomální uživatelé o kterých se neví.
Tato práce tuto možnost prozkoumává tím, že analyzuje uživatele reprezentované jejich komentáři.
Našli jsme vhodné zdroje dat na sociálních sítích a stáhli z nich data. Poté navrhujeme matematické reprezentace uživatelů vytvořené na základě jejich komentářů. Nakonec se snažíme vysvětlit shluky uživatelů a anomální uživatele za pomocí atributů na socílních sítích a manuální analýzou.
Naše výsledky neprokázali existenci shluků nebo anomálií mezi uživateli sociálních sítí, protože jsme nenašli jasné oddělení normálních a anomálních uživatelů a uživatelů různých shluků.
To mohlo být způsobeno nedostatečnými metodami reprezentace uživatelů nebo manuální analýzy. Mohlo by to ale také znamenat, že žádné shluky uživatelů nebo anomální uživatelé komentující podobným způsobem neexistují.
Analýza a predikce chování krevní glukózy s pomocí strojového učení
Autor
Ladislav Floriš
Rok
2022
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Ivo Petr, Ph.D.
Katedra
Anotace
Tato bakalářská práce se zabývá problematikou predikce hladiny glukózy v krvi u pacientů s diabetem typu 1. V naši práci nejprve analyzujeme změny koncentrace glukózy v krvi, a poté
zkoumáme a vyhodnocujeme vhodné modely pro jeji predikci.
Zaměřili jsme se na modely založené na umělých neuronových sitich a support vector machines. Tyto modely byly experimentálně hodnoceny na 30minutovém, 1hodinovém a 2hodinovém predikčnim horizontu. Data použitá v této práci byla shromážděna jednim pacientem po
dobu 128 dnů a obsahuji hodnoty krevni glukózy, dávky inzulinu, přijem sacharidů a fyzickou
aktivitu.
Přesnost modelu byla hodnocena pomoci Root Mean Square Error (RMSE). K měřeni klinické
přesnosti byla použita Clarke error grid analýza. Nejlepši dosažená RMSE byla 17,06 mg/dl,
24,32 mg/dl a 27,11 mg/dl pro 30minutový, 1hodinový a 2hodinový predikčni horizont.
Naše výsledky ukazuji, že je možné vyvinout modely pro predikci krevni glukózy použitelné v praxi. Na rozdil od většiny praci věnujicich se predikci krevni glukózy, jsme použili delši soubor
dat, shromážděný po dobu 4 měsiců. Nakonec jsme dataset veřejně zpřistupnili pro dalši výzkum
v této oblasti.
Normalizace a vyhlazování hodnot RSSI u Bluetooth spojení
Autor
Filip Špaček
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Katedra
Anotace
Tato práce zkoumá účinky normalizace a vyhlazování časových řad RSSI. Implementuje několik různých metod, jako je exponenciální vyhlazování, klouzavý průměr a Savitzky-Golayův algoritmus. Také navrhuje normalizační techniku pro kompenzaci rozdílů mezi hodnotami RSSI pro různé typů paketů. Navržené metody byly testovány na existujícím modelu detekce přístupu a výsledky byly porovnány.
Sémantická textová podobnost v češtině
Autor
Jiří Bednář
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Katedra
Anotace
Nedávné pokroky v problému sémantické textové podobnosti známé jako STS se uskutečnili především díky dostupnosti velkého množství anglických anotovaných dat, což je luxus, který čeština a další méně rozsáhlé jazyky často postrádají. V této práci se zabýváme výzvami a možnými zlepšeními při řešení problému STS pro češtinu. Zkoumáme pokroky v oblasti neuronových sítí, včetně architektury Transformeru a předtrénovaných jazykových modelů, jako jsou BERT, RoBERTa a ELECTRA. Poskytujeme rozsáhlou studii technik, modelů pro STS, a také metod pro generování embeddingů vět. Dále se zabýváme architekturami Cross-encoder a Bi-encoder spolu s pokročilými metodami trénování, jako jsou SimCSE, TSDAE, Trans-Encoder a vícejazyčná destilace. Představujeme naše STS modely natrénované pomocí těchto technik a vyhodnocujeme je na STS a dvou dalších úlohách. Analyzujeme náš nejlepší STS model, který stanovuje několik state-of-the-art výsledků, což ukazuje potenciál pro budoucí pokrok v oblasti STS pro jazyky s menší dostupností dat.
Automatická explorační analýza dat pro binární klasifikaci pomocí knihovny pandas profiling
Autor
Jan Čáp
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Katedra
Anotace
Práce se zabývá automatickou explorací dat s binární klasifikací.
Je provedena rešerše již existujících řešení pro automatickou exploraci dat.
Dále jsou prozkoumány statistické testy a metody vhodné pro testování závislosti dvou proměnných. Jsou zde také prozkoumány vhodné možnosti vizualizací rozložení dat.
V další části je navrženo rozšíření do knihovny \textit{Pandas Profiling}, která byla vybrána v rešerši. Rozšíření se specializuje na binární klasifikaci. Rozšíření obsahuje grafy a statistiky reprezentující závislost sloupců na cílové proměnné, vizualizaci závislostí chybějících hodnot na cílové proměnné, navržené transformace sloupců a trénování výchozího modelu pro~klasifikaci cílové proměnné.
Na základě návrhu bylo implementováno rozšíření knihovny \textit{Pandas Profiling}, které urychlí exploraci dat s binární klasifikací.
Využití algoritmu Monte Carlo Tree Search pro hraní šachu
Autor
Jakub Král
Rok
2024
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
prof. RNDr. Pavel Surynek, Ph.D.
Katedra
Anotace
Tato práce se zabývá využitím algoritmu Monte Carlo tree search a jeho kombinace s neuronovými
sítěmi a hlubokým posilovaným učením pro hraní šachů. Teoretická část této práce přiblíží čtenáři
posilované učení a jeho algoritmy a metodami. V praktické části byl vytvořen model, který se
učí a hraje na běžném stolním počítači. Toto je řešeno pomocí konvolučních neuronových sítí,
počátečním supervizovaným učením a poté učením pomocí self-play a posilovaného učení. Model,
který by tyto cíle splňoval, se podařilo vytvořit, hraje však na úrovni podstatně nižší, než jakou
jsem si před začátkem práce představoval.
Využití hlubokých neuronových sítí pro predikci vazebné síly aptamerů při výběru sekvencí in vitro
Autor
Linda Beková
Rok
2024
Typ
Bakalářská práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Šimánek
Katedra
Anotace
Práce se zabývá problémem zpracování SELEX experimentů pomocí hlubokého učení. Součástí práce je užití dopředné neuronové sítě, konvoluční neuronové sítě, obousměrné dlouhé krátkodobé paměti a metody náhodného lesu pomocí programovacího jazyku Python a porovnání jejich schopnosti predikovat výsledky SELEX experimentů. Práce rozšiřuje předchozí výzkum schopnosti vázání aptamérů na protein trombin pomocí Restricted Boltzmann Machines a nabízí více přístupů ke zpracování tohoto problému. Odhady vybraných modelů dosáhly vysoké přesnosti na souboru dat prezentovaném v předchozím výzkumu. Při testování na dodatečně vytvořených datech měly modely potíže s predikcí schopnosti aptamerů se vázat, a proto byly považovány za nedostatečné pro využití v medicíně. Výsledky jednotlivých modelů a přístupů jsou porovnány. Ze všech algoritmů ukázaly nejlepší úspěšnost alogitmy Restricted Boltzmann Machines a následně Random Forests.
Diplomové práce
Učicí metody skrytých Markovových modelů se spojitým časem
Autor
Lukáš Lopatovský
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Tomáš Šabata
Katedra
Anotace
Skrytý Markovův proces se spojitým časem je slibným modelem s využitím nejen pro biomedicínský výzkum. Nedostatek efektivních algoritmů pro jeho učení v minulosti výrazne omezoval jeho použití. Nedávno však byly prezentovány nové efektivní metody založené na EM algoritmu. V této diplomové práci zkoumáme a srovnáváme současné moderní metody, které jsou schopné vycvičit modely obsahující až stovky skrytých stavů. Jako součást práce jsme vyvinuli univerzální knihovnu pro skrytý Markovův proces se spojitým a diskrétním časem, která efektivně implementuje nejslibnější učební metody. Knihovna je snadno použitelná a dostupná všem uživatelům pod licencí open-source.
Hodnocení smluv zveřejňovaných v Registru smluv s ohledem na podezření z korupce
Autor
Jan Staněk
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Marek Sušický
Katedra
Anotace
Tato diplomová práce se zabývá návrhem metrik sloužících pro nalezení podezřelých smluv zveřejňovaných v registru smluv. Popsány jsou dostupné datové zdroje, kterými je možné data z registru smluv doplnit, integrace dat a výběr příznaků pro detekci anomálií. Vytvořené metriky usnadňují výběr smluv vhodných pro ruční kontrolu.
Curriculum Learning of Neural Networks
Autor
Gary Fibiger
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová
Katedra
Anotace
Umělé neuronové sítě se běžně trénují na náhodně seřazených datech. V mnoha směrech je tento přístup podobný učení živých organismů, to však nebývá náhodné. Lidé používají učební plány, podle kterých se jejich učení řídí. V posledních letech bylo navrženo mnoho přístupů, které mají za cíl vylepšit trénování neuronových sítí učebními plány. Tato práce obsahuje přehled těchto přístupů. Některé přístupy byly implementovány a experimentálně vyhodnoceny. Výsledky ukazují, že úspěšnost různých učebních plánů je závislá na mnoha faktorech.
Analýza Sentimentu s využitím Doménově Specifických Adaptérů
Autor
Lukáš Langr
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Katedra
Anotace
Ve zpracování přirozeného jazyka v poslední době dominují velké předtrénované modely vyžadující mnoho výpočetního výkonu na přizpůsobení se konkrétní úloze. V této práci je navržena jiná metoda přenášení znalostí zvaná doménově specifické adaptéry pro úlohu analýzy sentimentu. Adaptované modely jsou porovnány s fine-tune-ovanou baselinou v několika experimentálních scénářích a jejich výkonnost je srovnatelná s mnohem většími modely, ikdyž jsou mnohem méně výpočetně náročné. Tento přístup se jeví být použitelnou alternativou k velkým modelům v prostředích s nízkým výpočetním výkonem.
Rekurentní modely neuronových sítí s pamětí založené na optimální polynomiální projekci
Autor
Ondřej Naňka
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Katedra
Anotace
Cílem této práce je prozkoumat možnosti praktického využití komprese signálu
projekcí do polynomiálních bází při implementaci rekurentních neuronových
sítí. Praktická část práce se zabývá klasifikací zvukových signálů a zpracováním textu pomocí frameworku Tensorflow a implementací jako "Spiking
Neural Network" pomocí simulátoru NengoDL.
Využití testů dobré shody pro trénování generativních adversariálních sítí
Autor
Martin Scheubrein
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Katedra
Anotace
Generativní adversariální sítě (GAN) jsou třídou metod hlubokého učení většinou pracující s~obrázky nebo jinými vysokodimenzionálními daty. U takových dat je pak obtížné rozhodnout, zda se distribuce naučená modelem shoduje s~distribucí zdrojových dat, případně v~jakých místech se liší. K~měření těchto odlišností lze využít míry maximum mean discrepancy (MMD) nebo unnormalized mean embedding (UME).
Tato práce ověřuje, že obě míry při správné parametrizaci spolehlivě detekují globální i lokální odlišnosti distribucí obrazových dat. Detailně jsou zkoumány možnosti výběru kernelu, jeho parametrů, a v případě UME volba testových lokací. Je ověřena interpretovatelnost optimalizovaných testových lokací v~kontextu odhalování lokálních odchylek mezi distribucemi.
V závěru je navržena nová metoda early stoppingu trénování GAN založená na měření MMD a UME mezi výstupy sítě a testovacími daty.
Hluboké posilované učení pro hru Super Mario Bros
Autor
Ondřej Schejbal
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Katedra
Anotace
V rámci této diplomové práce byl připraven odladěný model posilovaného učení, který je schopný natrénování inteligentního agenta způsobilého hrát hru Super Mario Bros.. Jeho architektura je založena na provedeném průzkumu aktuálních state-of-the-art technik posilovaného učení, kde mezi sebou byly porovnány modely, které jsou pro tento typ úlohy nejvíce relevantní. Pro možnost porovnání modelů byl proveden průzkum a popis nástrojů, které umožňují interakci modelů s hrou. Na základě výsledků porovnání modelů byla vybrána nejvhodnější metoda. Následně byly provedeny experimenty s aplikováním rozmanitých modifikací na vybraný model za účelem najít nejvhodnější úpravy pro hru Super Mario Bros.. Odladěný model byl následně použit k natrénování inteligentního agenta, jehož výkony byly otestovány na úrovni, na které byl natrénován a také na dalších dvou úrovních, které nikdy neviděl. Výkony agenta byly velmi dobré a ukázaly pěkné vzorce chování hlavně na úrovních, na kterých byl natrénován, ačkoliv jeho výkon na neznámých úrovních byl pochopitelně horší.
Vylepšení modelů pro predikci hladiny cukru v krvi
Autor
Ladislav Floriš
Rok
2024
Typ
Diplomová práce
Vedoucí
Ing. Daniel Vašata, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Katedra
Anotace
Tato práce adresuje problém predikce hladiny glukózy v krvi u pacientů s diabetem 1. typu. Pro účel predikce byli aplikovány modely založené na Transformer architektuře a Legendre Memory Units (LMU). Aplikace LMU je v této práci taky první použití těchto modelů pro účel predikce hladiny glukózy v krvi. Modely predikovali budoucí hodnoty hladiny glukózy na základě vícerozměrných časových řad na vstupu a byli experimentálně hodnoceny na 30minutovém a 60minutovém predikčním horizontu. Modely byly trénovány a hodnoceny na datasetu OhioT1DM, který obsahuje osm týdnů dat od 12 různých pacientů. Dataset se skládá ze 2 edic, které byly vydány v letech 2018 a 2020.
Přesnost modelů byla hodnocena pomocí Root Mean Square Error (RMSE) a k vyhodnocení klinické přesnosti byla použita Clarke error grid analýza. LMU dosáhly RMSE 18.17 mg/dl pro 30minutový horizont a 30.33 mg/dl pro 60minutový horizont v edici OhioT1DM z roku 2018. V edici z roku 2020 byly RMSE 18.56 mg/dl a 32.57 mg/dl.
Bylo prokázáno, že LMU dosahují, a na menších datasetech (edice OhioT1DM 2018), dokáží i překonat stávající state-of-the-art modely.