Znalostní inženýrství

Závěrečné práce

Diplomové práce

Detekce anomálií v monitoringu datového centra CERN

Autor
Antonín Dvořák
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Ing. Kamil Dedecius, Ph.D.
Anotace
Jednou z mnoha úloh CERN cloud manažerů je zajistit požadovaný výpočetní výkon všem uživatelům dané vědecké komunity. Toho je dosaženo pečlivě nastaveným statickým alarming systémem nad výkonostními metrikami infrastruktury. Pro dosažení maximální efektivity cloudové infrastruktury a ulehčení práce cloud operátorům jsme vytvořili plně automatizovaný systém pro detekci anomálií, který využívá metody nesupervizovaného učení nad časovými řadami. Konkrétně používá kombinaci tradičních metod strojového učení (Isolation forest) a metod hlubokého učení (Gated recurrent unit/Long short-term memory autoencodery). Tato práce zahrnuje popis monitorovací infrastruktury CERNU, formulaci problému, design systému pro detekci anomálií, použité modely, tvorbu datasetu a porovnání výsledků implementovaných modelů vůči aktuálnímu alarming systému.

Líná kompilace v klasickém plánování

Autor
Zuzana Fílová
Rok
2022
Typ
Diplomová práce
Vedoucí
doc. RNDr. Pavel Surynek, Ph.D.
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Předmětem této diplomové práce je problematika líné kompilace v klasickém plánování. V teoretické části práce jsou nejprve shrnuty základní informace o klasickém plánování, definovány důležité pojmy klasické reprezentace plánovacích problémů a představeny základní algoritmy pro jejich řešení, zejména prohledávání plánovacího stavového prostoru a techniky využívající plánovací graf. Poslední sekce se věnuje převodu plánování na problém výrokové splnitelnosti (SAT). Na základě zjištění z teoretické části byla navržena metoda pro línou kompilaci plánovacích problémů do SAT, při které na rozdíl od klasické kompilace dochází k postupnému vytváření a úpravám formule výrokové logiky. V rámci praktické části práce byl implementován plánovač využívající dvě varianty kompilace -- navrženou metodu pro línou kompilaci a kompilaci klasickou. Plánovač byl testován na úlohách ze soutěže IPC (International Planning Competition). Experimenty se zaměřovaly na vyhodnocení úspěšnosti plánovače s línou kompilací a porovnání výsledků s plánovačem využívajícím klasický způsob kompilace. Celkem bylo využito 79 problémů různé obtížnosti ze čtyř domén, 63 z nich dokázal plánovač s línou kompilací vyřešit rychleji než plánovač s klasickou kompilací. Provedené experimenty poukázaly na výhody a možné nevýhody líné kompilace. Výsledky experimentů naznačují, že využití líné kompilace má potenciál ke zlepšení výkonu plánovače.

Správa vegetace v okolí elektrického vedení za pomocí snímků z dronu

Autor
Radek Ježek
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Lukáš Brchl
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Anotace
Provozovatelé elektrických distribučních sítí vynakládají každoročně velké množství peněz a úsilí, aby zajistili plynulou a bezpečnou dodávku elektřiny. Nejčastějším zdrojem výpadků proudu je poškození drátů vysokého napětí zásahem vegetace, například spadaných stromů. Z toho důvodu provozovatelé provádějí údržbu a pravidelné inspekce koridorů s elektrickým vedením, především v lesích a hustě zarostlých oblastech. Tím vytváří poptávku po nenákladných a vysoce automatizovaných metodách pro průzkum ochranných pásem elektrického vedení. Cílem této práce je vytvořit robustní algoritmus pro automatickou detekci zásahů vegetace do ochranného pásma elektrického vedení pomocí bezpilotních letadel (dronů), s využitím metod z fotogrammetrie a počítačového vidění. Studie pokrývá celý pracovní postup pro inspekci ochranného pásma drátů vysokého napětí, od obsáhlých pokynů pro sběr dat, přes 3D rekonstrukci elektrického vedení, až po detekci zásahů vegetace a vizualizaci výsledků.

Studium lineárního self-attention mechanismu v transformerech

Autor
Uladzislau Yorsh
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Vzhledem k tomu, že kvadratická složitost mechanizmu vnímaní architektury Transformer způsobuje velké náklady na zpracování dlouhých posloupností, cílem dané práce je prozkoumat lineární varianty architektury a implementovat několik nových metod.

Vylepšení krátkodobé předpovědi srážek s využitím metod deep learning pomocí předchozích znalostí o chování počasí

Autor
Matej Choma
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Petr Šimánek
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Pri krátkodobých predpovediach zrážok s vysokým rozlíšením z hľadiska chyby predpovede dominujú metódy hlbokého učenia. Avšak, ich operatívne používanie je obmedzené problémami s vysvetliteľnosťou dynamiky za predpoveďami. Tieto sú zároveň vyhladené a chýbajú im vysokofrekvenčné prvky v dôsledku optimalizácie pre stratové funkcie založené na strednej chybe. V tejto práci je zhrnutý náš pokrok pri riešení týchto problémov. V prvej časti predstavujeme Intensity Classification Loss na zlepšenie predpovede silných zrážok. Model je natrénovaný vytvárať sekundárny výstup predpovedajúci pravdepodobnosť zrážok s intenzitou nad 40 dBZ, ktorý sa porovnáva s binárnou skutočnosťou. Experimenty ukázali, že tento prístup pomáha predpovedať silné zrážky, ale nepredpovedá zrážky s vyššou intenzitou, ako je zvolený prah. V druhej časti experimentujeme s ručným vkladaním diferenciálnej rovnice advekcie-difúzie do PhyCell. Cieľom je vniesť lepšiu apriornú znalosť o fyzike do modelu PhyDNet, ktorý oddeľuje fyzikálnu a reziduálnu dynamiku. Výsledky naznačujú, že zatiaľ čo sa PhyCell dokáže naučiť zamýšľanú dynamiku, tréning modelu PhyDNet zostáva riadený optimalizáciou stratovej funkcie. Toto vedie k modelu s nezmenenými predikčnými vlastnosťami.

Bayesovská filtrace stavových modelů s neznámými kovariancemi

Autor
Tomáš Vlk
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Kamil Dedecius, Ph.D.
Oponenti
Ing. Ondřej Tichý, Ph.D.
Anotace
Tato závěrečná práce se věnuje problému distribuovaného Baysovského sekvenčního odhadu neznámých stavů stavových modelů s neznámými kovariačními maticemi šumu procesu i měření. Tento problém je velmi častý v reálných případech, kde specifické informace o kovariačních maticích šumu pro jednotlivé senzory nemusí být dostupné. Řešení navržené v této práci je postavené na teorii variačního Bayese, ta je využitá jak k odhadu stavů, tak i k odhadu kovariační matice šumu měření. Z důvodu zlepšení sdílíme jak měření, tak i posteriorní odhady mezi sousedními uzly v síti. Práce zároveň ukazuje způsob optimalizace kovariační matice procesního šumu.

Detekce anomalií pomocí Extended Isolation Forest algoritmu

Autor
Adam Valenta
Rok
2020
Typ
Diplomová práce
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Práce se zabývá různými typy algoritmů pro detekci anomálií, podrobně pak algoritmem Extended Isolation Forest. Extended Isolation Forest rozšiřuje svého předchůdce Isolation Forest. Původní Isolation Forest přináší zcela nový přístup k detekci, ale trpí zaujetím (bias) plynoucím ze způsobu, jakým vytváří stromy. Rozšířená verze algoritmu se tohoto zaujetí zbavuje úpravou větvení a původní algoritmus je jeho speciálním případem. Extended Isolation Forest je v rámci práce implementován do H2O-3 Machine Learning open-source platformy pro strojové učení. Základním požadavkem implementace je schopnost jejího spuštění na systému s distribuovaným výpočtem pomocí Map/Reduce knihovny.

Doménová adaptace ve spektroskopických přehlídkách oblohy založená na neuronových sítích

Autor
Ondřej Podsztavek
Rok
2020
Typ
Diplomová práce
Vedoucí
RNDr. Petr Škoda, CSc.
Oponenti
Ing. Kamil Dedecius, Ph.D.
Anotace
Představujeme analýzu dopadu doménové adaptace založené na neuronových sítích v astronomické spektroskopii. Doménové adaptace řeší problém použití dříve získaných znalostí na nová data. Analýzu ukazujeme na problému identifikace kvasarů v přehlídce Large Sky Area Multi-Object Fiber Spectroscopic Telescope pomocí anotovaných dat z přehlídky Sloan Digital Sky Survey. Pro experimenty jsme vybrali čtyři modely založené na neuronových sítích pro doménovou adaptaci: Deep Domain Confusion, Deep Correlation Alignment, Domain-Adversarial Network and Deep Reconstruction-Classification Network. Výsledky experimentů ukázaly, že tyto modely nejsou schopné vylepšit klasifikační přesnost v porovnání s konvoluční neuronovou sítí, která doménovou adaptaci nebere v potaz. S využitím redukce dimensionality, statistik zmíněných metod a chyb v klasifikaci ukazujeme, že zvolené metody doménové adaptace nejsou dostatečně robustní, abychom je mohli aplikovat na komplexní a nevyčištěná astronomická data.

Doporučovací modely založené na rekurentních neuronových sítích

Autor
Ladislav Martínek
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Řehořek, Ph.D.
Oponenti
Ing. Mgr. Ladislava Smítková Janků, Ph.D.
Anotace
Tato diplomová práce řeší problematiku doporučovacích systémů. Cílem je predikce následujících položek na základě sekvenčních dat z chování uživatelů pomocí rekurentních neuronových sítí (LSTM, GRU). Reprezentace položek je tvořena pomocí maticové faktorizace upravené pro datasety s implicitní zpětnou vazbou. V práci je navržen a implementován algoritmus pro tvorbu rekurentních modelů využívající vytvořenou reprezentaci položek. Navržen je také způsob vyhodnocování respektující sekvenční povahu dat. Metoda vyhodnocování využívá metriky recall a catalog coverage. Experimenty jsou prováděny systematicky s cílem zjistit závislosti na sledovaných metodách a hyperparametrech. Měření je prováděno na třech datových sadách. Na největším datasetu se podařilo dosáhnout více jak dvojnásobného recallu proti dalším metodám, které byly zastoupeny kolaborativním filtrováním, reminder modelem a popularity modelem. Na závěr práce jsou diskutovány zjištěné poznatky, možné zlepšení hyperparametrizací a další možné směry vylepšení modelů.

Sekvenční bayesovská poissonovská regrese

Autor
Radomír Žemlička
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Kamil Dedecius, Ph.D.
Anotace
Poissonovská regrese je populární zobecněný lineární model používaný k modelování diskrétních náhodných veličin, typicky počtů. Tato práce je zaměřena na problematiku jejího sekvenčního odhadování s regresními koeficienty potenciálně pomalu proměnnými v čase. Je použita vhodná aproximace normálním rozdělením, aby tak bylo možné učinit v Bayesovském kontextu. Rovněž je diskutována kalibrační technika pro zvýšení kvality odhadů. Na závěr je navržen případ použití představeného přístupu v doméně zpracování signálu, zejména jeho použití v difuzních sítích (diffusion networks) pro realizaci distribuovaného kolaborativního odhadování.

Neurální faktorizační modely pro doporučovací systémy

Autor
Radek Bartyzal
Rok
2019
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Řehořek, Ph.D.
Oponenti
MSc. Juan Pablo Maldonado Lopez, Ph.D.
Anotace
Doporučovací systémy nám napomáhají objevit zajímavé produkty v široké nabídce. Jedním z typů algoritmů generujících doporučení jsou faktorizační modely. V této práci popisujeme moderní faktorizační modely založené na neuronových sítích. Čtyři z nich také implementujeme. Dále představujeme nový faktorizační model Hybrid cSDAE založený na neuronových sítích, který dokáže zpracovat, jak interakční informace, tak různé druhy atributů. Všechny implementované modely jsou porovnány na standardních datasetech za stejných podmínek.

Detekce materiálových vad na izolačních deskách z napěněného skla

Autor
Tomáš Duda
Rok
2018
Typ
Diplomová práce
Vedoucí
doc. RNDr. Ing. Marcel Jiřina, Ph.D.
Oponenti
doc. Ing. Ivan Šimeček, Ph.D.
Anotace
Tato diplomová práce se zabývá automatizovanou detekcí materiálových vad na deskách z pěnového skla prostřednictvím analýzy snímků materiálu. Popsán je proces výroby pěnového skla a současný způsob kontroly kvality pracovníkem výroby. Je vysvětlen princip fungování instalované techniky pro snímání desek. Součástí práce je rešerše systémů pro detekci materiálových vad a analýza metod pro popis textur. Dále je proveden konceptuální návrh detekčního systému. Je navržen proces předzpracování snímků a aplikace pro anotaci snímků desek. Metody uvedené v rešerši jsou otestovány na reálných datech a na základě výsledků je sestaven detekční algoritmus pokrývající jednotlivé typy vad. Navržený algoritmus je implementován, ověřen na reálných datech a výsledky měření jsou diskutovány. Práce nakonec navrhuje několik způsobů, kterými by šel systém dále rozvíjet v budoucnosti. Vyvinutá aplikace byla úspěšně nasazena do produkčního prostředí.

Metody pro přibližné vyhledávání vzorků v řídkých multidimensionálních polích pomocí metod strojového učení

Autor
Anna Kučerová
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Luboš Krčál
Oponenti
prof. Ing. Jan Holub, Ph.D.
Anotace
Hlavním cílem této práce je navrhnout řešení přibližného vyhledávání vzorů, které používá některou z metod strojového učení. Toho je dosaženo využitím hashování a již existujících algoritmů. Hashování se používá k nalezení pozic potenciálních výsledků. Následné ověření bylo provedeno stejným způsobem jako u existujících řešení pro lepší porovnání. Předchozí výzkum byl zaměřen především na vyhledávání v prostorech s malým počtem dimenzí. Výstupem této práce je algoritmus, který je porovnán s již existujícími řešeními. Některé z porovnávaných algoritmů byly zatím pouze teoreticky navrženy a dosud neimplementovány. Algoritmy také používají binární formát používaný v komerčních databázích.

Predikce kriminality

Autor
Veronika Maurerová
Rok
2017
Typ
Diplomová práce
Vedoucí
doc. Ing. Pavel Kordík, Ph.D.
Anotace
S důrazem na efektivitu práce a s vzrůstajícím zájmem o zpracování dat, strojové učení a umělou inteligenci, se prediktivní analýza stává součástí policejních aktivit, predevším v oblasti prevence kriminality. Například policejní hlídky jsou plánováné pomocí prediktivní analýzy nejvíce ohrožených oblastí ve městě. Tato práce se zabývá především využitím metod supervizovaného učení při dolování skrytých vzorců z historických kriminálních dat. Cílem je s určitou jistotou indikovat ohrožená místa pro budoucí spáchání trestného činu či přestupku s vyžitím metod založených na rozhodovacíh stromech a neuronových sítích.

Škálovatelnost prediktivních modelů

Autor
Tomáš Frýda
Rok
2017
Typ
Diplomová práce
Vedoucí
doc. Ing. Pavel Kordík, Ph.D.
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Tato práce má dva hlavní cíle - (1) paralelizovat FAKE GAME integrací do open source frameworku H2O, zaměřeného na strojové učení, a (2) hodnocení anytime vlastností algoritmů strojového učení a vlivu optimalizace hyper-parametrů na tyto algoritmy. Tyto cíle jsem realizoval integrací FAKE GAME do H2O. Za účelem vyhodnocení anytime vlastností jsem implementoval nový nástroj nazvaný Benchmarker. Vyhodnocení anytime vlastností ukázalo, že pro některé problémy modely z FAKE GAME překonají modely z H2O, jak v přesnosti, tak i ve výkonu. Na druhou stranu vyhodnocení vlivu optimalizace hyper-parametrů ukázalo poměrně malý úspěch při optimalizaci algoritmů strojového učení z H2O. Domnívám se, že zanedbatelné zvýšení výkonnosti, a pro některé z optimalizovaných modelů dokonce i nižší výkon než u výchozí konfigurace, je způsobeno automatickým laděním některých hyper-parametrů, které se provádí ve výchozím nastavení H2O.

Neuronové sítě s pamětí

Autor
Ondřej Kužela
Rok
2016
Typ
Diplomová práce
Vedoucí
doc. RNDr. Ing. Marcel Jiřina, Ph.D.
Oponenti
Ing. Josef Pavlíček, Ph.D.
Anotace
Neuronové sítě s pamětí jsou rodinou neuronových sítí, které kromě klasické paměti ve formě vah, sloužících pro dlouhodobé závislosti, obsahují také jinou formu paměti. Ta slouží pro uchovávání střednědobých, občas také nazývaných dlouho-krátkodobých, závislostí. Taková paměť může být buď interní nebo externí. V rámci této práce poskytuji souhrnný náhled na rodinu neuronových sítí s pamětí. Na základě analýzy existujících modelů také navrhuji nový model, který nazývám Recurrent Neural Modules with External Memory. Tento model nabízí nový a inovativní přístup k použití externí paměti v rámci neuronových sítí, jelikož nasazuje externí paměť na úrovni částí sítě a tudíž obsahuje několik externích pamětí v rámci jedné sítě. Výkonnost nově navrženého modelu byla testována na Air Travel Information System (ATIS) datasetu.

Automatická sumarizace textu

Autor
Šimon Hlaváč
Rok
2015
Typ
Diplomová práce
Vedoucí
doc. RNDr. Ing. Marcel Jiřina, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
V této práci jsou představeny základní metody využívané v automatické sumarizaci textu a genetických algoritmech. Dále je zde navržen systém automatické sumarizace založený na grafových strukturách a Markovských řetězcích, který byl rovněž implementován a řádně otestován. Práce se dále zabývá učením správného nastavení vah důležitosti jednotlivých metod používaných v sumarizaci pomocí naivního přístupu a genetických algoritmů, které byly rovněž naimplementovány, včetně možnosti paralelního zpracovávání a využití cache pro zrychlení systému, a řádně otestovány.

Textové příznaky pro zlepšení relevance full-textového vyhledávání

Autor
Jan Hnízdil
Rok
2015
Typ
Diplomová práce
Vedoucí
Ing. Jan Šedivý, CSc.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Ačkoliv se vyhledávání informací na webu stalo standardem a často oblíbenym zdrojem pro hledání informací již před mnoha lety, úloha hledání relevance dokumentů k danému uživatelskému dotazu má stále mnoho slabych míst, které je zapotřebí zlepšit. Tato práce se snaží nalézt takové textové příznaky, které by zlepšily vysledky full-textového vyhledávání, a tím i spokojenost uživatelů, za využití datasetů od společnosti Seznam.cz. Za prvé jsou v rámci této diplomové práce analyzovány hlavní LTR algoritmy, evaluační míry a běžně používané textové signály známé z literatury. Za druhé byl navržen a naimplementován systém pro testování a evaluaci nově přidanych textovych signálů a nakonec byly tyto nově přidané signály porovnány s anonymizovanymi signály, které v současnosti používá Seznam.cz, prostřednictvím velké sady experimentů.

Analýza výsledků absolventů středních škol na VŠ

Autor
Eliška Hrubá
Rok
2014
Typ
Diplomová práce
Vedoucí
doc. Ing. Pavel Kordík, Ph.D.
Oponenti
Ing. Stanislav Kuznetsov

Podpora diagnostiky boreliózy metodami strojového učení

Autor
Jan Motl
Rok
2013
Typ
Diplomová práce
Vedoucí
doc. Ing. Pavel Kordík, Ph.D.
Oponenti
Ing. Tomáš Bartoň, Ph.D.