Bakalářské práce
Zpracování výpisu z účtu pomocí metod strojového učení
Autor
Michal Lebeda
Rok
2023
Typ
Bakalářská práce
Vedoucí
Mgr. Adam Szabó
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Katedra
Anotace
Práce se zabývá strojovým zpracováním výpisu z účtu ve formátu PDF. Jelikož se jedná o nestrukturovaný dokument, nelze z něj přímočaře získat informace o účtu a jednotlivých transakcích pro další využití. Cílem práce je převod zmíněného dokumentu do strukturovaného formátu, a proto je nejdříve provedena rešerše formátu PDF, existujících metod strojového čtení nestrukturovaných dokumentů spolu s analýzou veřejně dostupných datasetů, které jsou mezi sebou porovnány a je diskutována jejich využitelnost při řešení dané úlohy.
V praktické části je popsán částečně automatizovaný postup tvorby vlastního datasetu zakládajícím na veřejně dostupných výpisech z účtu, vysvětlena problematika této činnosti a následná tvorba modelu strojového učení. Jsou zhodnoceny dosažené výsledky modelu, další možnosti jejich zlepšení a nástin rozšíření stávajícího datasetu efektivní cestou. Výsledkem práce je aplikace pro zpracování výpisu z účtu do strukturovaného formátu.
Robojudge - analýza soudních rozhodnutí
Autor
Miroslav Řehounek
Rok
2024
Typ
Bakalářská práce
Vedoucí
Mgr. Adam Szabó
Oponenti
doc. Ing. Ivan Šimeček, Ph.D.
Katedra
Anotace
Práce se zabývá způsoby využití velkých jazykových modelů (large language model, LLM) k analýze veřejně dostupných rozhodnutí českých soudů. Hlavním cílem práce bylo lépe zpřístupnit tato rozhodnutí, a to vytvořením webové aplikace Robojudge, která umožní v databázi zveřejněných rozhodnutí vyhledávat pomocí nového typu uživatelského rozhraní využívajícího ve svém základu LLM k sémantickému vyhledávání, shrnování a odpovídání na otázky týkající se jednotlivých rozhodnutí. Za účelem výběru nejvhodnějšího LLM pro tyto úlohy byla vytvořena vlastní metodika, pomocí níž byly vybrané LLM porovnány ve svých schopnostech odpovídat na otázky týkající se konkrétních soudních rozhodnutí. Metodika použila k tomuto porovnání jiné LLM, které fungovalo jako hodnotitel a pomocí dotazníkového šetření bylo zvalidováno, že toto automatické hodnocení je srovnatelné s hodnocením, které dávali skuteční uživatelé. Výstupem práce je již zmíněná Robojudge aplikace, která automaticky stahuje zveřejňovaná soudní rozhodnutí do vektorové databáze, díky které je možné rozhodnutí vyhledávat pomocí přirozeného jazyka. Rozhodnutí jsou získávána pomocí "stahovače", který se periodicky spouští, aby udržoval obsah databáze co nejaktuálnější. Vyhledaná rozhodnutí jsou prezentována jako krátká shrnutí vytvořená pomocí LLM. Uživatel má také možnost se rychle a jednoduše dotazovat na obsah konkrétního rozhodnutí, opět prostřednictvím přirozeného jazyka.
Analýza výherců veřejných zakázek
Autor
Martin Přibyl
Rok
2024
Typ
Bakalářská práce
Vedoucí
Mgr. Adam Szabó
Oponenti
Ing. Magda Friedjungová, Ph.D.
Katedra
Anotace
Hlavním cílem této bakalářské práce je podrobná analýza a následná vizualizace existujících dat respektive vizualizace aktuálního stavu trhu s veřejnými zakázkami v České republice. Je zde provedena explorační analýza, při které jsou vizualizovány základní popisné statistiky. Dále je v této práci využit přístup strojového učení, při kterém byla nejprve data předzpracována, včetně použití metod "Feature Engineering". Následně bylo na těchto datech natrénováno několik modelů pro predikci výherní nabídky a pomocí ladění hyperparametrů byl vytvořen finální model. Poté se využije tento model k prozkoumání vlivu jednotlivých příznaků a hledání anomálií, a to v kombinaci se shlukovacím algoritmem DBSCAN. Nakonec jsou všechny tyto poznatky zpracovány a vizualizovány formou webových reportů, a tím pádem jsou k dispozici široké veřejnosti.
Diplomové práce
STK portál
Autor
Daniel Brotz
Rok
2024
Typ
Diplomová práce
Vedoucí
Mgr. Adam Szabó
Oponenti
doc. Ing. Kamil Dedecius, Ph.D.
Katedra
Anotace
Práce se zabývá vytěžováním znalostí z dat o kontrolách vozidel na stanicích technické kontroly (STK) a registru vozidel České republiky. V úvodu je provedena rešerše komerčních služeb pro kontrolu stavu ojetých vozů Cebia, Vindecoder a Carvertical. Analyzováno je také několik portálů provozovaných většinou Ministerstvem dopravy ČR, které zdarma poskytují různá data o vozidlech. Na základě rešerše jsou navrženy a implementovány metody, které z uvedených datových zdrojů získávají statistiky např. o spolehlivosti vozidel různých značek či anomálních prohlídkách na STK. Použity jsou také metody strojového učení pro výstupy jako je predikce nájezdu či závad na konkrétních vozech. Výsledky jsou prezentovány ve webové aplikaci STK portál, která je zpřístupňuje široké veřejnosti a nabízí tak bohatý přehled o vozovém parku ČR i bezplatnou alternativu ke komerčním službám kontroly ojetých vozidel.
Git Rank
Autor
Alexander Žibrita
Rok
2025
Typ
Diplomová práce
Vedoucí
Mgr. Adam Szabó
Oponenti
Ing. Nikolas Jíša
Katedra
Anotace
Tato diplomová práce se zabývá vývojem softwaru sloužícího k analýze a hodnocení uživatelských repozitářů na platformě GitHub a zobrazování výsledných reportů. Aplikace tak poskytne další vhled na dovednosti a návyky vývojáře, které nemusí být na první pohled patrné. V analytické části je představen systém správy verzí Git, platforma GitHub a možnosti získávání relevantních dat. V návrhu jsou představeny různé metriky pro analýzu a porovnávání uživatelů a samotná architektura aplikace. V implementační části jsou popsány způsoby využití zvolených technologií. Finálním výstupem práce je API server provádějící samotné analýzy a přidružená webová aplikace sloužící k jejich vizualizaci. V závěru jsou vyhodnoceny výsledky generovaných reportů a představeny další možnosti rozšíření aplikace.