Aktuální informace FIT ke koronaviru najdete zde.

Ing. Jan Motl

Závěrečné práce

Bakalářské práce

Rozhodovací strom na proudu příznaků

Autor
Daniel Schmidt
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Jan Motl
Oponenti
Mgr. Petr Šimánek
Anotace
rozhodovacie stromy, strojové učenie, veda o dátach, klasifikácia, dávkové učenie

Lineární diskriminační analýza na proudu příznaků

Autor
Ruslana Severa
Rok
2020
Typ
Bakalářská práce
Vedoucí
Ing. Jan Motl
Oponenti
Ing. Kamil Dedecius, Ph.D.
Anotace
Tato práce se věnuje lineární diskriminační analýze rozšířené o vertikální inkrementaci s konstantní regularizací. Pod pojmem vertikální inkrementace se rozumí přidání vektorů příznaků objektů místo tradičního doplnění množiny vzorků. Regularizace slouží k řešení problému multikolinearity (závislých příznaků). Je podporována diskrétní klasifikace, která probíhá na základě Bayesova rozhodovacího pravidla. Pro zrychlení výpočtu vnitřní struktury modelu je využita Choleského dekompozice, dopředná a zpětná substituce. Implementace je napsána v jazyce Python a je testována na reálných datových sadách a syntetických datech. Výsledky testování ukazují, že klasifikační model s vertikální inkrementací může nabídnout 10× rychlejší učení modelu oproti jeho dávkovému analogu při stejné klasifikační přesnosti. Finální časové zrychlení vertikální inkrementace závisí na množství příznaků a vzorků.

Heterogenní kernel

Autor
Samuel Fabo
Rok
2019
Typ
Bakalářská práce
Vedoucí
Ing. Jan Motl
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Metódy strojového učenia, ktoré používajú kernelové funkcie sú dobre preskúmané, avšak väčšina týchto kernelových funkcií vie pracovať len s numerickými vstupnými dátami. Aby tieto kernely vedeli spracovať kategorické dáta, sme schopní priviesť do numerickej formy hlavne pomocou metód one-hot-encoding (OHE) alebo target-encoding. Nevýhodou OHE je, že signifikantne zvyšuje dimenzionalitu dát, ak je počet hodnôt v kategorických príznakoch (kardinalita) vysoká. Táto práca prináša riešenie pre zmiešané dáta, s potenciálne vyššou kardinalitou kategorických príznakov. Je tu predstavený nový kernel, ktorý vie pracovať so zmiešanými dátami a má veľmi dobré výsledky merania času a pamäte na dátach s vysokou kardinalitou. Predstavujem tu hlavne tzv. kategorický vektorový súčin, ktorý imituje klasický vektorový súčin po OHE ako aj kategorické Euklidovské vzdialenosti imitujúce klasický prístup po OHE. Tento heterogénny kernel vie pracovať ako lineárny, polynomiálny, a RBF kernel. Výsledky meraní ukázali, že tento kernel vie urýchliť výpočet a zmenšiť prírastok pamäte, ak by dataset obsahoval ako numerické, tak kategorické príznaky o vyššej kardinalite. Tento fakt bol taktiež demonštrovaný na reálnych datasetoch.

Optimalizace přiřazení klientů k zaměstnancům

Autor
Filip Novák
Rok
2018
Typ
Bakalářská práce
Vedoucí
Ing. Jan Motl
Oponenti
Mgr. Jitka Rybníčková, Ph.D.
Anotace
Bakalářská práce se zabývá optimalizací oslovení zákazníka společnosti, která nabízí srovnání dodavatelů energetických komodit. Zákazníci společnosti jsou nejdříve klasifikováni podle pravděpodobnosti, že se společností uzavřou smlouvu na základě vyplněných hodnot ve webovém formuláři. Následně se práce zabývá optimalizací přiřazení operátora callcentra ke konkrétnímu zákazníkovi. Práce popisuje byznysový problém a analyzuje možné způsoby řešení klasifikace zákazníků pomocí metody "Gradient Boosting", umělé neuronové sítě a pomocí logistické regrese. V optimalizačních metodách se práce zaměřuje na analýzu celočíselného lineárního programování, maďarského algoritmu a také hladové greedy optimalizace. Jednotlivé vybrané metody jsou mezi sebou porovnány. Konečné řešení problému, kterým se tato práce zabývá, je demonstrováno na použití Gradient Boostingu jako klasifikátoru a celočíselného lineárního programovaní pro optimalizaci přiřazení operátora k zákazníkovi. Toto zvolené řešení je porovnáno s aktuální metodou, kterou společnost v současnosti používá.

Diplomové práce

Metaučení přínosu příznaků

Autor
Eliška Vondráčková
Rok
2020
Typ
Diplomová práce
Vedoucí
Ing. Jan Motl
Oponenti
doc. Ing. Ivan Šimeček, Ph.D.
Anotace
Předmětem této práce je návrh a implementace metaučícího modelu, který online predikuje dané metapříznaky týkající se relevance příznaku pro výpočet. Zvolené algoritmy pro klasifikační a regresní modely jsou Pasivně agresivní algoritmus, Bagging, hierarchický lineární model, k-nejbližších sousedů a neuronová síť. Použitými technologiemi jsou Jupyter Notebook (Python) a knihovny scipy, creme a H2O, dále v jazyce R knihovna lmer pro hierarchický model. Výstupem práce jsou metamodely pro predikci jednotlivých metapříznaků a jejich porovnání.

Klasifikace na temporálních relačních datech

Autor
Petr Mück
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Jan Motl
Oponenti
doc. RNDr. Pavel Surynek, Ph.D.
Anotace
Tato práce se zabývá možnostmi klasifikace temporálních dat. V práci implementuji agregační model, který je schopen pracovat s relačními daty, jejichž záznamy jsou pro určitou entitu ve vztahu n:1 pro daný čas predikce třídy a pomocí agregačních funkcí - průměr, minimum a maximum - agreguje hodnoty atributů na jeden záznam pro každou entitu. Dále se v práci zabývám možnostmi optimalizace použité délky historie v agregaci pro zlepšení kvality predikce z důvodu, že nedávná data mohou být relevantnější než ta starší. Závislost mezi agregací atributů zdrojových dat v určité délce historie a cílovou třídou v čase poté hodnotím pomocí měr Chi2, vzájemné informace a Cohenova Kappa po aplikaci klasifikátoru Gaussovský Naivní Bayes. Výsledné nejlepší dosažené hodnoty Kappa poté porovnávám, tam, kde to je možné, s již existujícími klasifikačními algoritmy pro časové řady - se skrytým Markovovým modelem a algoritmem ARIMA. Nejlepší zjištěné délky historie jsou nakonec aplikovány v klasifikačním algoritmu náhodný les a zjištěn jejich efekt na úspěšnost klasifikace. Provedeným výzkumem jsem zjistil, že výsledky klasifikace pomocí optimalizované délky historie na šesti z deseti testovaných datasetů dosahují lepší hodnoty Kappa v průměru o 33.57% vyšších oproti klasifikace pomocí agregace přes celou délku historie. Pro zbylé čtyři testované datasety pak nedochází k žádné výrazné změně. Agregační model dosahoval v porovnání s algoritmy ARIMA a skrytý Markovův model lepších výsledků, testy ale nebyly příliš rozsáhlé, protože většina datasetů použitých v práci neobsahuje více historických bodů ke klasifikaci pro jednu entitu a tedy nejsou přiliš vhodné pro standardní algoritmy časových řad. Závěrem práce tedy je, že agregační model ve většině případů nabízí lepší výsledky v optimalizované délce historie, než na historii celé.

Meta-learning na relačních datech

Autor
Adéla Blažková
Rok
2018
Typ
Diplomová práce
Vedoucí
Ing. Jan Motl
Oponenti
doc. Ing. Ivan Šimeček, Ph.D.
Anotace
Předmětem této práce je návrh a implementace meta-learningového modelu, který predikuje optimální pořadí výpočtu příznaků při transformaci relačních dat do jedné tabulky. V návrhu řešení je stanovena metrika pro vyhodnocení optimálního pořadí příznaků, na základě které jsou vytvořeny 4 predikční modely. Zvolené algoritmy pro klasifikační a regresní modely jsou logistická regrese, algoritmus ElasticNet a algoritmus XGBoost. Použitými technologiemi jsou Jupyter Notebook (Python), databáze MySQL a nástroj Predictor Factory pro transformaci relačních dat. Výstupem práce jsou vytvořená trénovací meta-data a vyhodnocení přínosu jednotlivých predikčních modelů.

Detekce phishingu

Autor
Filip Mudruněk
Rok
2016
Typ
Diplomová práce
Vedoucí
Ing. Jan Motl
Oponenti
Ing. Jiří Smítka
Anotace
Cílem této práce je analýza technik a metod využívaných k phishingu a návrh automatického klasifikátoru schopného rozeznat phishing od běžné elektronické komunikace. Součástí této práce je rešerše existujících řešení, rozbor problematiky výběru vhodných dat a návrh řešení. Představuji zde klasifikaci na základě několika zdrojů příznaků - vlastnosti textu emailu, domény a cílového webu. Zásluhou navrhované vícestupňové klasifikace není ovšem vždy nutné extrahovat všechny příznaky. Současně je tímto vyřešen kompromis rychlosti zpracování a klasifikační přesnosti. Předložena je i prototypová implementace, na které je porovnávána úspěšnost čtyř klasifikátorů z pohledu několika klasifikačních metrik. S klasifikátorem Random Forest, zdegenerovaným do baggingu, se mi podařilo v několika metrikách překonat většinu ostatních diskutovaných prací.