Datamole AI & IoT Lab (DatamoleLab)

Závěrečné práce

Bakalářské práce

Aproximační algoritmy pro shlukování

Autor
Vladimir Ananyev
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Tomáš Šabata
Anotace
Aglomerativni hierarchické shlukováni je důležitý shlukovaci algoritmus, který má mnoho praktických využiti, na přiklad pro segmentaci trhu. Jeho největši nevýhodou je jeho velká časová složitost O(n^3). Cilem této práce je popsat a zanalyzovat algoritmy aproximujici aglomerativni hierarchické shlukováni. Tyto algoritmy maji nižši časovou složitost a produkuji srovnatelné výsledky s exaktnimi metodami. Experimenty ukázaly, že aproximačni algoritmus LSH- link je signifikantně rychlejši na velkých datech než exaktni algoritmus MST- linkage algoritmus.

Bezpečnostní aspekty vývoje software v Microsoft Azure cloudu

Autor
David Mládek
Rok
2019
Typ
Bakalářská práce
Oponenti
Ing. Miroslav Prágl, MBA
Anotace
Tato práce představí aspekty vývoje v cloudu, které jsou zajímavé z hlediska bezpečnosti. Konkrétně budou ukázány na platformě Microsoft Azure. Některé služby provozované na Azure budou představeny se zaměřením na jejich bezpečnostní možnosti. Mimo jiné to budou způsoby dlouhodobého ukládání dat a autentizační služba Azure Active Directory. V druhé polovině bude představeno několik problémů, které se mohou vyskytnout během vývoje cloudových služeb. Mezi ně budou patřit zejména operace se soukromými daty a ochrana přístupových bodů k internetu. Tyto problémy budou podrobně prozkoumány a poté budou poskytnuta řešení nezávislá na platformě i taková, která využívají některých dalších služeb provozovaných Microsoftem na Azure.

Interoperabilita AI algoritmů z různých platforem na výpočetním clusteru

Autor
Tomáš Pajurek
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Ondřej Stuchlík
Oponenti
Ing. Tomáš Borovička
Anotace
Datoví vědci a další výzkumníci často potřebují najít nejlepší kombinaci algoritmu a jeho parametrů. Počet těchto kombinací může být obrovský a nalezení té nejlepší je výpočetně velmi náročné. Cílem této práce je návrh a implementace systému umožňujícího paralelní spouštění mnoha instancí algoritmů strojového učení z různých platforem (Python, R, Weka a RapidMiner) na výpočetním klastru. Systém je napsán v jazyce Scala a postaven na frameworku Apache Spark. Důraz je kladen na vytvoření robustní a kvalitní softwarové architektury. Důležitá architektonická rozhodnutí jsou založena na výkonnostních měřeních. Výsledný systém splňuje všechny definované funkční i nefunkční požadavky s drobnými omezeními u konkrétních platforem. Systém zapouzdřuje problémy spojené s paralelizací a s rozdílnými implementacemi algoritmů a poskytuje vysokoúrovňové rozhraní. Výzkumníci mohou toto rozhraní používat pro řešení velkého počtu klasifikačních, regresních a shlukovacích problémů nebo dokonce pro spouštění vlastních, na míru vytvořených programů.

Neuronové sítě jako detektory anomálií

Autor
Karel Rymeš
Rok
2017
Typ
Bakalářská práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Tato práce teoreticky popisuje neuronové sítě a přináší obecné shrnutí přístupů používaných k detekci anomálií. Největší důraz je kladen na popsání aktuálního stavu technik detekce anomálií založených na umělých neuronových sítí. Ve velkém detailu jsou popsány sítě s radiální bázovou funkcí, autoenkoder, deep belief network a omezený Boltzmannův stroj. Tato práce též přináší experimentální doporučení ohledně výběru topologie a hyperparametrů autoenkoderu a stacked autoenkoderu. Experimentální část této práce je napsána v Pythonu.

BarnSim: Multiagentní systém pro simulaci mlečné farmy

Autor
Radim Špetlík
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Multiagentní systémy byly v minulosti s úspěchem využity při řešení problémů v mnoha rozličných oblastech. Mezi tyto oblasti patří odvětví telekomunikací, internet, ekologie či doména simulací fyzikálních jevů. V této práci představujeme způsob, jakým lze s pomocí multiagentního systému simulovat robotickou mléčnou farmu. Náš systém prezentujeme s vyu\-žitím standardu ODD. Popisujeme též implementaci námi navržené simulace v programovacím jazyce Java. Provádíme statistickou validaci našeho přístupu. Srovnáváme výstupy našeho modelu s daty získanými na reálné farmě v Nizozemsku. Statistická analýza zmíněných dat odhaluje, že u čtyř z pěti námi sledovaných veličin, které se náš model snaží predikovat, není možné zamítnout hypotézu, že náš model věrně zachycuje reálný systém. Tento výsledek je platný pro kritickou hodnotu rovnu 2.5%. V závěru práce konstatujeme, že máme-li zvolit způsob, jakým budeme simulovat robotickou mléčnou farmu, multiagentní systém je dobrá volba.

Diplomové práce

AutoML metody pro detekci anomálií v časových řadách

Autor
Marek Nevole
Rok
2023
Typ
Diplomová práce
Vedoucí
MSc. Jan Bím, Ph.D.
Oponenti
Ing. Jitka Hrabáková, Ph.D.
Anotace
Úspěšné použití metod automatizovaného strojového učení (AutoML) pro detekci anomálií v časových řadách, v případě, kdy není k dispozici téměř žádná nebo žádná informace vyjadřující anomalitu dat, je náročný problém. Tato práce poskytuje přehled nejnovějších přístupů v oblasti detekce anomálií, AutoML a vyhodnocení modelů pro detekci anomálií. Provedené experimenty se zaměřují na sestavení nových AutoML kombinací z dostupných metod pro detekci anomálií v jednorozměrných časových řadách při částečně supervizovaném a nesupervizovaném učení. Hlavní náplní experimentů bylo vyhodnocení metrik nesupervizovaného učení pro optimalizaci hyperparametrů a meta-learning přístup pro výběr modelů. Výsledky experimentů této práce nabízí nové poznatky k současným metodám a otevírájí směry pro budoucí výzkum.

Škálovatelné gausovské procesy jako náhradní modely v bayesovské optimalizaci

Autor
Iveta Šárfyová
Rok
2023
Typ
Diplomová práce
Vedoucí
Ing. Jiří Vošmik
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Bayesovská optimalizace je globální optimalizační metoda vhodná pro hledání extrémů black-box účelových funkcí drahých na vyhodnocení. Jako modely pro aproximaci takových funkcí se často používají Gaussovské procesy. Jejich kubická časová složitost však omezuje jejich nasazení na aplikace v režimech s malým počtem dat. Tato práce poskytuje přehled moderních škálovatelných Gaussových procesů pro regresi. Experimenty provedené v rámci této práce se zabývají úlohami regrese a bayesovské optimalizace, přičemž v obou případech se využívá několik vybraných modelů založených na Gaussových procesech. Vyhodnocení se provádí pomocí více metrik, z nichž některé jsou zvláště vhodné pro pravděpodobnostní modely. Naše výsledky naznačují, že některé z modelů konzistentně překonávají ostatní v obou úkolech.

Bezpečnost a výkon aplikačních protokolů pro IoT

Autor
David Mládek
Rok
2022
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Pajurek
Oponenti
Ing. Jiří Buček, Ph.D.
Anotace
Tato práce představuje tři \acrshort{iot} protokoly---CoAP, MQTT, a AMQP. Všechny tři jsou popsány včetně bezpečnostních vlastností a jejich rozdílů. Bylo provedeno několik experimentů na dvou vývojových deskách pro IoT. Tyto výsledky byly srovnány s přenosem přes HTTP. Všechny protokoly byly použity s i bez TLS. Ukázalo se několik rozdílů v rychlosti, počtu přenesených bytů i použitelnosti daných protokolů, konkrétně AMQP se ukázalo být prakticky nepoužitelné na ESP32. To vedlo k závěru, že je lepší pro zařízení s omezeným výkonem použít více podporované protkoly jako je například MQTT. Pokud má zařízení dostatečný výkon a je k dispozici vyhovující knihovna, AMQP může být použito, jelikož má srovantelný výkon s ostatními protokoly. CoAP posílaný přes UDP měl nejmenší rychlost přenosu kvůli předcházení přetížení sítě, což bránilo paralelnímu posílání dat. Toto byl jediný protkol a způsob přenosu, který byl pomalejší než HTTP.. U MQTT byly jasně zřetelné rozdíly v počtu přenesných bytů i v rychlosti mezi garancemi doručení nejvýše jednou, nejméně jednou a právě jednou. Tyto rozdíly ve výkonu by měly být vždy brány v úvahu, když má být tento protokol použit. Experimenty také ukázaly, že TLS výrazně nezpomaluje žádný těchto protokolů. Pro většinu protokolů se také jen mírně zvýšil počet přenesených bytů, pouze pro MQTT se tento počet více než zdvojnásobil. Tato práce doporučuje vždy používat TLS nebo DTLS, pokud je to technicky možné.

Aplikace technik umělé inteligence v prediktivní údržbě

Autor
Jan Lukány
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Prediktivní údržba je strategie plánování údržby, při níž je údržba naplánována pokud subjekt jeví známky závady nebo je pravděpodobné, že brzy dojde k poruše. Prediktivní údržba snižuje náklady a zabraňuje prostojům ve srovnání s klasickými strategiemi preventivní a reaktivní údržby. Prediktivní údržba může být realizována použitím technik umělé inteligence k vytvoření modelu, který zdravotní stav subjektu na základě dat získaných monitorováním jeho stavu. Existují však různé přístupy k prediktivní údržbě jako detekce závady, predikce poruch a predikce zbývající užitné životnosti, z nichž každý má odlišné požadavky na data a má jiné cíle. Každý z těchto přístupů využívá jiné techniky umělé inteligence a kvalita modelů vytvořených dle těchto přístupů by měla být hodnocena dle jiných metrik. Tato diplomová práce poskytuje přehled přístupů k prediktivní údržbě a pomáhá tak odborníkům zvolit vhodný přístup, techniku umělé inteligence a správnou hodnoticí metriku pro jejich problém.

Využití AI/ML metod pro měření datové kvality

Autor
Michael Mikuš
Rok
2020
Typ
Diplomová práce
Oponenti
Ing. Magda Friedjungová
Anotace
Kvalitní data jsou zásadní pro důvěryhodná rozhodnutí na datech založená. Značná část současných přístupů k měření kvality dat je spojena s náročnou, odbornou a časově náročnou prací, která vyžaduje manuální přístup k dosažení odpovídajících výsledků. Tyto přístupy jsou navíc náchylné k chybám a nevyužívají plně potenciál umělé inteligence (AI). Možným řešením je prozkoumat inovativní nové metody založené na strojovém učení (ML), které využívají potenciál AI k překonání těchto problémů. Významná část práce se zabývá teorií kvality dat, která poskytuje komplexní vhled do této oblasti. V existující literatuře byly objeveny čtyři moderní metody založené na ML a byla navržena jedna nová metoda založená na autoenkodéru (AE). Byly provedeny experimenty s AE a dolováním asociačních pravidel za pomoci metod zpracování přirozeného jazyka. Navrhované metody založené na AE prokázaly schopnost detekce potenciálních problémů s kvalitou dat na datasetech z reálného světa. Dolování asociačních pravidel dokázalo extrahovat byznys pravidla pro stanovený problém, ale vyžadovalo značné úsilí s předzpracováním dat. Alternativní metody nezaložené na AI byly také podrobeny analýze, ale vyžadovaly odborné znalosti daného problému a domény.

Approximace přesnosti modelu v optimalizaci hyper-parametru

Autor
Markéta Jůzlová
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Cílem automatické optimalizace hyper-parametrů je najít nastavení hyper-parameterů učícího algorithm bez lidské pomoci. Protože k vyhodnocení jednoho nastavení je potřeba natrénovat daný model, optimalizační metody které se snaží redukovat počet vyhodnocení jsou třeba. Užitečná technika jsou takzvané náhradní modely, které aproximují přesnost modelu s danou konfigurací. Tato práce zkoumá některé postupy optimalizace hyper-parameterů. Mezi popsané metody patří dvě tradiční methody: mřížková optimalizace a náhodná optimalizace, a dvě nejpokročilejší metody: sekvenční optimalizace založená na náhradním modelu (Bayesovská optimalizace) a Hyperband. Dále je popsáno několik náhradních modelů, které mohou být použity ke zlepšení optimalizace. Efektivita optimalizace a přesnost náhradních modelů je porovnána na dvou datasetech s různým stupněm obtížnosti a algoritmu dopředných umělých neuronových sítí. Výsledky ukazují, že Hyperband dosahuje nejlepších výsledků na obouch datasetech. Analýza výsledků také potvrzuje, že náhradní modely směřují hledání do slibných oblastí a tím urychlují optimalizaci.

Aktivní semi-supervizované shlukování

Autor
Jakub Švehla
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Karel Klouda, Ph.D.
Anotace
Shlukování dat je velice náročný problém, protože v mnoha případech existuje mnoho možných způsobů rozdělení daného datasetu. Shlukování je proto výrazně subjektivní a závislé na daném problému. Aktivní semi-supervisované shlukovací metody aktivně získávají znalost o daném datasetu tak, aby docílily co nejlepšího shlukování pro daný problém. V této práci analyzujeme několik aktivních semi-supervizovaných shlukovacích metod s důrazem na metody, které využívají informace o omezeních dvojic bodů. Dále analyzujeme tři metody pro aktivní učení těchto omezení. Se všemi metodami byly provedeny experimenty na několika různých datasetech. Výsledky experimentů ukazují, že aktivní semi-supervizované metody výrazně zlepšují kvalitu shlukování oproti běžným shlukovacím metodám. Nicméně, žádná ze zkoumaných metod není lepší než ostatní metody na všech datasetech. V této práci navrhujeme další směry pro vylepšení zkoumaných metod.

Online detekce anomálií v časových řadách

Autor
Tomáš Pajurek
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Metody pro online detekci anomálií jsou navrženy pro odhalování anomalií ve spojitém proudu dat namísto ve statickém datasetu. Tyto metody jsou schopné se adaptovat na změny v charakteristice datového proudu, který může v čase nastávat (concept drift). Tato práce analyzuje čtyři metody vhodné pro online detekci anomálií v časových řadách (klouzavý průměr, local outlier factor, isolation forest, hierarchical temporal memory) a několik metod detekce concept driftu včetně některých nových přístupů. Je navrženo obecné schéma, které umožňuje kombinovat různé metody pro detekci anomálií a concept driftu. Pro všechny analyzované metody jsou provedeny experimenty na pěti realných datasetech a jednom umělém. Během experimentů byly zkoumány vlastnosti jednotlivých metod a porovnáván jejich výkon s ostatními metodami. Výsledky experimentů ukazují, že žádná metoda není lepší než ostatní na všech datasetech z hlediska F1 skóre upraveného pro úlohu detekce anomalií (harmonický průměr specificity a míry falešné pozitivních detekcí) a AUC. Ve většině případů bylo nalezeno optimální nastavení methody s F1 skóre >85% a AUC >90%.

Proces strojového učení pro spektroskopická data

Autor
Grant Zvolský
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
MSc. Juan Pablo Maldonado Lopez, Ph.D.
Anotace
Data ze spektroskopických senzorů často vyžadují zpracování specifické pro daný problém. Cílem této práce je navrhnout framework strojového učení pro analýzu spektroskopických dat. Práce představuje běžné metody zpracování spektroskopických dat a kombinuje je do tzv. pipelines. Framework je navržen s důrazem na jednoduchost a expresivitu. Na závěr je framework testován na praktickém zadání, které je úspěšně splněno. Navržený framework má potenciál pro budoucí využití.

Klasifikace časových řad pomocí umělých neuronových sítí

Autor
Jakub Waller
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Mnoho různých architektur umělých neuronových sítí bylo navrženo, kupříkladu konvoluční neuronové sítě a long short-term memory neuronové sítě. Cílem této práce je aplikovat tyto sítě na klasifikaci časových řad. Po teoretickém popisu těchto architektur je navržena metoda pro jejich experimentální porovnání, a ta je následně implementována v Pythonu. Tato metoda zahrnuje automatickou optimalizaci hyperparametrů neuronových sítí. Popsané architektury jsou poté důkladně porovnány na třech benchmarkových datasetech. Toto porovnání ukazuje, že long short-term memory neuronové sítě dosahují na dvou ze tří datasetů lepších výsledků než konvoluční neuronové sítě.

Paralelní implementace symbolické regrese

Autor
Tomáš Malíček
Rok
2017
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
Ing. Ondřej Stuchlík
Anotace
Svět kolem nás je plný neprozkoumaných dat. Tato diplomová práce se zaměřuje na jejich prozkoumání pomocí symbolické regrese, která je založena na hledání vzorečku nejlépe popisujícího hodnoty funkce použité pro vytvoření datasetu. Evoluční algoritmy, genetické programování a symbolická regrese a její užití jsou teoreticky popsány. Na základě teoretické části je navržena a implementována paralelní verze symbolické regrese pomocí genetického programování v jazyce Scala za užití clusterového enginu Apache Spark. Jsou provedeny experimenty stran škálovatelnosti navrženého řešení. Výsledky těchto experimentů ukazují, že symbolická regrese může být navrženou paralelní implementací významně urychlena.

Prediktivní údržba senzorů

Autor
Tomáš Kuzin
Rok
2016
Typ
Diplomová práce
Vedoucí
Ing. Tomáš Borovička
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Prediktivní údržba je strategie údržby, která neustále vyhodnocuje současný stav zařízení za účelem optimálního naplánování jeho údržby. Stav zařízení se obvykle odhaduje na základě údajů z vhodně zvolené sady senzorů a to pomocí technik data-miningu a strojového učení. Údržba v případě senzorů obvykle znamená vyměnění nefunkčního senzoru, nicméně optimální načasování této akce může snížit celkové náklady na údržbu. Zejména pak v případech, kdy je senzor důležitý a jeho selhání by vedlo k dalším vedlejším škodám. Vzhledem k vysokému počtu senzorů v některých průmyslových oblastech, jako třeba v případě automatizovaných mléčných farem, mohou být tyto úspory značné. Cílem této práce je aplikovat základní myšlenku prediktivní údržby na senzory samotné, s využitím monitorování stavu na základě jejich vlastních měření. Byly navrženy celkem tři různé přístupy, jak řešit monitorováním stavu senzorů. Navržené postupy byly vyhodnoceny na reálných datech z automatizovaných mléčných farem, konkrétně na datech z bezdrátových tagů pro detekci říje.

Za obsah stránky zodpovídá: doc. Ing. Štěpán Starosta, Ph.D.