Ing. Karel Klouda, Ph.D.

Závěrečné práce

Bakalářské práce

Aplikace pro statistické zpracování studijních výsledků

Autor
Martin Konečný
Rok
2015
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Jitka Hrabáková, Ph.D.

Automatická kategorizace pracovních inzerátů

Autor
Patricie Petriľáková
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Rodrigo Augusto da Silva Alves, Ph.D.
Anotace
Tato práce je zaměřena na vývoj klasifikačního modelu pro pracovní nabídky v oblasti informačních technologií na webové stránce up2staff.com. Cílem je vytvořit spolehlivý klasifikační systém, který sníží čas a náklady spojené s ruční kategorizací. Proces zahrnuje analýzu a zpracování souboru dat s inzeráty pracovních nabídek, výzkum vhodných algoritmů a experimentování s kombinacemi technik tvorby příznaků a klasifikačních algoritmů supervizovaného strojového učení. Model vyhodnotí konečné rozhodnutí o kategorii na základě vážených rozhodnutí dvou klasifikačních algoritmů, jeden pro obsah a druhý pro titulek inzerátu. Obě klasifikace jsou založeny na metodě podpůrných vektorů (SVM) aplikovaného na vektory příznaků tvořené pomocí TF-IDF. Klasifikační model dosahuje F1-skóre 0,909.

Česká elektronická knihovna - Poezie 19. a počátku 20. století

Autor
Jaromír Dalecký
Rok
2014
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.

Aplikace pro prezentaci dat z hodnocení výzkumných organizací

Autor
Pavel Švagr
Rok
2018
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Anotace
Tématem bakalářská práce je zpracování otevřených dat z hodnocení vědeckých výsledků v České republice publikovaných Radou pro výzkum, vývoj a inovace. Práce se zabývá analýzou datových souborů, při které odhaluje nejzávažnější nekonzistence a chyby, a implementací modulu pro jejich zpracování. Následně se zaměřuje na analýzu, návrh a implementaci aplikace pro prezentaci zpracovaných dat, která umožní vyhledávání výsledků v hodnoceních a zobrazí přehledy vědeckých aktivit výzkumných organizací, pod ní spadajících jednotek a autorů.

Strojová detekce různých významů slova

Autor
Vojtěch Paukner
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Magda Friedjungová
Anotace
Tato prace detailne zkouma tradicni a moderni metody zpracovani prirozeneho jazyka. Zvlastni duraz je kladen na jazyky s rozmanitou morfologii. Nejmodernejsi metody jsou pak aplikovany ruznymi zpusoby na cesky jazyk s cilem rozlisit jednotlive vyznamy slov na zaklade prikladu jejich uziti ve vetach. Dulezitou soucasti prace je vyhodnoceni techto experimentu.

Systém pro správu elektronických verzí literárních děl

Autor
Martin Melichar
Rok
2018
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Mgr. Jan Starý, Ph.D.
Anotace
V této práci je popsán vývoj aplikace pro převod literárních děl do elektronické podoby. Literární rešerše se zabývá porovnáváním technologií pro vývoj webových aplikací a porovnáváním textových formátů pro uchovávání elektronických děl. Dále jsou popsána zadaná vstupní data a způsob jejich importu. Praktická část navazuje na vyhodnocení rešerše a popisuje průběh vývoje aplikace. Hlavním přínosem této práce je ulehčení převodu literárních děl do elektronické podoby zaměstnancům UČL AV ČR.

Systém pro správu písemných testů a zkoušek

Autor
Kryštof Slavík
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.
Anotace
Tato bakalářská práce se zabývá návrhem a implementací rozšíření pro webovou databázi matematických příkladů. Funkcí tohoto rozšíření je generování písemných prací pro studenty matematických předmětů na FIT ČVUT v Praze. Aplikace umožňuje garantům předmětů jednoduše vytvořit několik variant testů bez nutnosti do nich ručně přiřazovat konkrétní příklady. Práce představuje algoritmus, který na základě nastavených parametrů automaticky sestaví požadovaný počet testů z dostupných příkladů v databázi. Systém nabízí uživatelům možnost tyto parametry pohodlně měnit. Sestavené testy dokáže aplikace exportovat do snadno tisknutelného formátu. Práce se podrobněji věnuje analýze požadovaných vlastností aplikace a jejímu návrhu. Dále popisuje způsob implementace za použití technologie Ruby on Rails a na závěr je zmíněno využití systému v praxi. Na přiloženém DVD se nachází zdrojové kódy aplikace.

Rozpoznávání pojmenovaných entit v básnických textech

Autor
Ondřej Černý
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Výsledkem této práce je program, který využívá techniky Zpracování přirozeného jazyka k identifikaci pojmenovaných entit v Korpusu českého verše (KČV). Jedná se o součást spolupráce s Ústavem pro českou literaturu. Jelikož KČV není ani z části označen pro rozpoznávání pojmenovaných entit (RPE), musíme zprvu vytvořit množinu pravidel, se kterými najdeme entity v textu. Tyto entity jsou následně kategorizovány s pomocí dat z Wikipedie. Poté jsou tyto kategorizované entity využity jakožto trénovací data pro BiLSTM-CRF neuronovou síť, která je následně trénována a vyladěna pro RPE na KČV. Výsledný model je schopen nalézt a rozlišit entity místa, osob, mystických osob and jiné. Jelikož text v KČV není označen pro RPE nejsme schopni udat skutečnou přesnost finálního BiLSTM-CRF modelu. Pokud bychom počítali s tím, že trénovací data použita na natrénování tohoto modelu jsou 100% přesná, pak by výsledný model dosáhl přesnosti 0.99904 a F1 skóre 0.9532.

Portál pro podporu tvorby článků na wikipedia.org

Autor
Václav Makeš
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Tomáš Kalvoda, Ph.D.
Anotace
Práce je zaměřena na řešení problému detekce a návrhu oprav chybných a chybějících dat z internetové encyklopedie Wikipedia. Výsledkem práce je automatický systém jenž stahuje, ukládá a analyzuje články české mutace Wikipedie. K analýze jsou navrženy tři metody identifikace článků k vylepšení a doplnění. Práce ukazuje možnosti navrhování vylepšení elektronické encyklopedie.

Pravděpodobnostní algoritmy pro výpočet odhadu metodou LTS

Autor
Martin Jenč
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Metoda nejmenších usekaných čtverců je robustní verzí známé metody nejmenších čtverců, jedné ze základních metod regresní analýzy, používané k odhadování koeficientů lineárního regresního modelu. Výpočet odhadu pomocí metody nejmenších usekaných čtverců je znám jako NP-těžký a proto jsou v praxi nejčastěji používány pouze suboptimální pravděpodobnostní algoritmy. Mimo popisu těchto algoritmů navrhneme několik způsobů jak je zkombinovat za účelem dosažení lepších výsledků.

Predikce výsledků zápasů v NHL

Autor
Filip Kojan
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Magda Friedjungová
Anotace
Předmětem této práce je prozkoumání zdrojů dat o hráčích a zápasech v hokejové NHL, moderních statistických metod používaných k vyhodnocení kvality týmů a hráčů a využití těchto informací k predikci výsledků zápasů v NHL. Použity jsou různé klasifikační modely a je porovnána jejich přesnost. Dále jsou výsledky predikcí porovnány s predikcemi sázkových kanceláří.

Korpus diskuzních příspěvků na zpravodajských serverech

Autor
Jakub Bartel
Rok
2013
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.

Predikce vybraných událostí v basketbalovém utkání

Autor
Radim Křesťan
Rok
2023
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Tato práce se zabývá problematikou živých předpovědí v oblasti basketbalu, konkrétně v NBA. Práce stručně popisuje doménu, které se predikce týkají a obsahuje analýzu experimentů, které již v minulosti byly provedeny. Dále detailně popisuje proces a možnosti získání dat, na kterých jsou následně experimentálně testovány jednotlivé metody. V praktické části této práce bylo použito několik modelů, mezi něž patří například lineární regrese a náhodné lesy. Nejúspěšnější byla metoda lineární regrese, která měla ve většině predikcí nejmenší odchylku. Predikovány byly statistiky hráčů na konci utkání s tím, že byla známá data z poloviny zápasu.

Predikce hodnoty hráčů fotbalu

Autor
Jan Garček
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Mgr. Pavla Vozárová, Ph.D., M.A.
Anotace
Předmětem této práce je prozkoumání volně dostupných dat o hráčích fotbalu. Práce vysvětluje rozdíly mezi přestupovou částkou a tržní hodnotou fotbalového hráče a hledá příznaky, které mají na přestupovou částku fotbalistů největší vliv. Takovéto příznaky jsou vizualizovány se speciálním zaměřením na časový horizont a státní příslušnost hráče. Dále jsou vyhodnoceny závěry podobných projektů a následně jsou na nasbíraná data experimentálně použity různé regresní modely pro predikci přestupových částek. Výsledky predikcí jednotlivých modelů jsou porovnány a je určen nejpřesnější z nich. Hlavním přínosem této práce je poskytnutí volně dostupného modelu pro predikci přestupových částek široké veřejnosti.

Automatická detekce metrické normy

Autor
Kristýna Klesnilová
Rok
2022
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Tato práce se zabývá automatickou metrickou analýzou českého sylabotonického verše, jenž je metricky otagován ve velkém korpusu básní - v Korpusu českého verše. Práce nejprve reimplementuje přístup založený na datech, který využívá program s názvem KVĚTA. Poté si metrickou analýzu namodeluje jako úlohu tagování sekvencí a řeší ji pomocí strojového učení. Je trénován model BiLSTM-CRF, který reprezentuje aktuálně nejlepší architekturu pro většinu klasických úloh tagování sekvencí. Je otestováno mnoho různých vstupních konfigurací. Ve všech experimentech jsou slabiky nebo tokeny slov na vstupu reprezentovány pomocí Word2Vec embeddingů natrénovaných na trénovacích datech. Výsledky jsou vyhodnoceny pomocí spočítání tří různých přesností predikce: přesnosti pro jednotlivé slabiky, přesnosti pro jednotlivé řádky básní a přesnosti pro celé básně. Je ukázáno, že použití modelu BiLSTM-CRF představuje velký úspěch. S nejlepšími vstupními konfiguracemi vrací BiLSTM-CRF lepší výsledky než reimplementace programu KVĚTA s predikcemi dosahujícími 99.61% přesnosti pro jednotlivé slabiky, 98.86% přesnosti pro jednotlivé řádky básní a 90.40% přesnosti pro celé básně. Nejzajímavější zjištění představuje fakt, že nejlepších výsledků je dosaženo pro vstupní sekvence reprezentují celé básně namísto jednotlivých řádků básní.

Statistika xG pro lední hokej

Autor
Michal Seibert
Rok
2022
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Předmětem této práce je nalézt a prozkoumat zdroje dat o uskutečněných událostech v zápasech NHL a následně použı́t tato data k tvorbě modelů pro predikci očekávaných gólů. Pro predikci jsou použity různé klasifikačnı́ modely, jejichž úspěšnost je porovnána mezi sebou a s již existujı́cı́mi modely. Tyto modely jsou použity pro zı́skánı́ dalšı́ch údajů o výkonnosti hráčů a týmů.

Systém pro detekci problémů na trase šifrovací hry

Autor
Barbora Eliášová
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Tomáš Kalvoda, Ph.D.
Anotace
Práce se zabývá analýzou dat z průchodů šifrovacimi hrami firmy Cryptoma- nia. Popisuje velké šifrovaci hry a šifry, které jsou během těchto her využivány. Dále mapuje způsoby, které lze ke klasifikaci šifer využit. Věnuje se analýze, kterou provádi Tomáš Kuča na statek.seslost.cz a jejich využiti pro účast- niky šifrovacich her. Definuje pojmy složitost, obtižnost a pracnost. Samotná analýza dat se věnuje hrám firmy Cryptomania Avraham Hrashalom, Fantom Brna a Ztracené židovské město. Doba řešeni jednotlivých šifer byla spojena s počtem nápověd, které týmy k řešeni využily. Výsledná hodnota definuje obtižnost šifry. Dále bylo přiřazeno ohodnoceni každému týmu. Kombinaci těchto hodnot shrnuje shluková analýza, která detekuje skupiny navzájem si podobných týmů.

Automatická detekce přeložených textů

Autor
Jan Peřina
Rok
2021
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Mgr. Petr Novák, Ph.D.
Anotace
Tato bakalářská práce zkoumá možnosti detekce přeložených částí textu společně s možnostmi dohledání původu těchto textů na internetu. V práci je zopakován experiment s vybranou metodou pro detekci strojových překladů. Tuto metodu se podařilo vylepšit pomocí jiné podobnostní metriky textu a lemmatizace. Byla ověřena její aplikovatelnost na lidský překlad. Bylo též otestováno několik způsobů transformace takto detekovaných částí textu do dotazu pro webový vyhledávač, za účelem efektivního dohledání jejich originálu.

Predikce vybraných událostí v basketbalovém utkání

Autor
Ondřej Schejbal
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
RNDr. Petr Olšák
Anotace
V rámci této bakalářské práce byl vytvořen model predikující celkový počet vstřelených bodů v následujícím vývoji basketbalového zápasu NBA. Predikce jsou založeny na datech z předchozích zápasů a statistik, které v daném zápase již byly zveřejněny. Za účelem získání dat byla provedena rešerše dostupných zdrojů, které se následně povedlo úspěšně využít pro vytvoření dostatečných materiálů k natrénování predikčního modelu. Také byl proveden průzkum již dokončených prací, zabývající se podobnou tématikou. Na základě nabytých poznatků byl zvolen pro predikci model lineární regrese a do výše zmíněných dat byly přidány zajímavé příznaky, které měly zlepšit predikci modelu. Model se povedlo natrénovat a jeho výsledky na testovacích datech se jevily jako příznivé. Avšak úplnou kvalitu výsledků by bylo možné získat pouze při testování na aktuálně hraných zápasech. To bohužel nebylo z důvodu pandemie COVID-19, která probíhala během tvorby bakalářské práce, možné.

Prostředí pro podporu výzkumu v oblasti kombinatoriky na slovech

Autor
Radek Jireš
Rok
2013
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.

Aplikace pro vizualizaci pojmů a metod z lineární algebry

Autor
Martin Chvátal
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Petr Špaček, Ph.D.
Anotace
Předmětem této práce je vytvoření výukové aplikace pro lineární algebru, která umožní vyučujícím doplnit výklad o ukázku použití probíraných témat v informatice. Pro studenty je nachystán soubor programovacích úloh, na kterých si osvojené vědomosti mohou procvičit.

Diplomové práce

Identifikace webového obsahu v šifrovaném provozu

Autor
Marek Mařík
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Karel Hynek, Ph.D.
Anotace
Tato práce se zabývá tím, zda je možné ze síťového provozu určit, jaké webové stránky byly uživatelem navštíveny i přes to, že komunikace probíhá šifrovaným způsobem. Dále pak tím, zda je možné alespoň přibližně určit obsah webové stránky z šifrovaného síťového provozu. To vše na základě charakteristik síťových toků, tedy aniž by byl provoz dešifrován. V rámci této práce byl navrhnut a implementován generátor datových sad, který umožňuje vytvářet datové sady, které obsahují zachycené síťové toky pro návštěvy jednotlivých webových stránek. S pomocí tohoto generátoru byly vytvořeny dvě datové sady. Byla navržena rozmanitá sada příznaků. Na základě vektorů příznaků byly provedeny experimenty s použitím různých modelů pro identifikaci webových stránek a odhad jejich obsahu. Dále byly vytvořeny modely, jejichž úkolem je detekce neznámých webových stránek. Z provedených experimentů vyplývá, že na základě šifrovaného provozu lze poměrně přesně identifikovat webové stránky a dokonce i odhadnout některé atributy jejich obsahu.

Nástroj pro digitalizaci ručně psaných šachových partiářů

Autor
Jana Maříková
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Jiří Kašpar
Anotace
Tato práce se zabývá implementací nástroje na konverzi šachového partiáře do digitální podoby za pomoci OCR a technik strojového učení. Šachový partiář je dokument, do kterého zapisuje hráč své a soupeřovy tahy v průběhu partie. Nejdříve je popsána šachová terminologie a prozkoumána existující řešení. Poté jsou prozkoumány metody obecného OCR systému a na závěr je popsáno implentované řešení společně s jeho vyhodnocením.

Automatická detekce témat v básnických textech

Autor
Martin Bendík
Rok
2023
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Magda Friedjungová, Ph.D.
Anotace
Táto práca sa zaoberá detekciou tém v Korpuse českého verša, ktorý obsahuje desat'tisice básni z 19. a počiatku 20. storočia. Na efektivne spracovanie vel'kého množstva dát využiva metódy strojového učenia. Výstupom týchto algoritmov je množina detekovaných tém a zaradenie jednotlivých básni do týchto tém. To môže pomôct' pri d'alšej analýze diel, sumarizovani a skúmani, čomu sa jednotlivé diela venujú. Práca prezentuje súčasný výskum v oblasti detekcie tém v poetických textoch v rôznych jazykoch a s využitim rôznych technológii. Súčast'ou práce je aj vytvorenie niekol'kých modelov, ktoré slúžia na pridelenie tém jednotlivým básniam. Na tento účel boli využité nesupervizované, supervizované a semi-supervizované algoritmy. Všetky vytvorené modely detailne vyhodnocujeme, vizualizujeme, poukazujeme na ich silné a slabé stránky, špecifické vlastnosti a v neposlednom rade modely navzájom porovnávame. Ked'že Korpus českého verša neobsahuje anotácie tém básni, pre potreby supervizie učenia bol vytvorený anotovaný dataset, ktorý tvori podmnožina básni z pôvodného datasetu.

Rezervační systém pro ordinace a jejich pacienty

Autor
Martin Jelínek
Rok
2014
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Štěpán Starosta, Ph.D.

Vytěžování informací z textů inzerátů pro prodeje automobilů

Autor
Filip Kojan
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Předmětem této práce je prozkoumání, navržení a otestování metod pro vytěžování strukturovaných dat z internetových nabídek na prodej automobilů. Dále pak prozkoumání metod předzpracování textu do formátu vhodného k použití v modelech strojové učení a aplikace těchto metod v kombinaci s různými modely strojového učení. Nejúspěšnější modely budou porovnány a budou zhodnoceny výsledky, kterých dosáhly.

Portál pro testování algoritmů pro výpočet metodou nejmenších usekaných čtverců

Autor
Jan Švehla
Rok
2013
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Jitka Hrabáková, Ph.D.

Klasifikace internetového provozu

Autor
Jana Mašková
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
Ing. Simona Buchovecká
Anotace
Práce se zabývá celým procesem strojového učení pro klasifikaci internetového provozu a určení škodlivé komunikace. Proces je popsán od získání dat, jejich zpracování až po výběr vhodných příznaků a algoritmů, společně s jejich výsledky. Pro řešení této úlohy byly vybrány supervizované klasifikační algoritmy a algoritmy pro detekci anomálií. Při klasifikaci internetového provozu bylo dosaženo vysoké úspěšnosti pro všechny zvolené datasety pomocí stromových algoritmů. U detekce anomálií bylo dosaženo uspokojivé přesnosti pouze u dvou datasetů ze sedmi.

Algoritmy pro určování vlastností D0L systémů

Autor
Anežka Štěpánková
Rok
2021
Typ
Diplomová práce
Vedoucí
Ing. Karel Klouda, Ph.D.
Oponenti
doc. Ing. Jan Janoušek, Ph.D.
Anotace
Cílem této práce je v první řadě seznámení se se základními pojmy z kombinatoriky na slovech a s teorií D0L-systémů. Další část práce se zabývá nastudováním a porozuměním algoritmům pro zjišťování vybraných vlastností D0L-systémů, konkrétně jde o vlastnosti: pushy, injektivita, repetitivita a cirkularita. Tyto vybrané algoritmy implementovat v jazyce Python a následně pomocí nich zjistit tyto vlastnosti pro binární morfismy. Vyhodnocením výsledků vytvořit přehled vlastností testovaných binárních morfismů.