Bakalářské práce
Self-supervised model pro efektivní rozpoznávání zvuku trénovaný na agregovaných datech
Autor
Vojtěch Houska
Rok
2021
Typ
Bakalářská práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Katedra
Anotace
Tato práce shrnuje nejmodernější metody využívané v hlubokém učení. Probírá použití autoenkodérů a metody předzpracování v oblasti rozpoznávání zvuku. Jako zdroj slabě anotovaných dat pro učení těchto modelů byla použita platforma YouTube. Práce porovnala vlastnosti latentních prostorů navrhovaných autoenkoderů, které byly testovány pomocí shlukování K-means. Použitá metoda regularizovaného autoenkodéru nepřekonala náhodně inicializovaný autoenkodér. V závěru práce jsou rozebrány příčiny a byla navrhnuta další doporučení pro pozdější výzkum.
Techniky strojového učení pro rozpoznávání vzorů zdrojového kódu
Autor
Rudolf Raevskiy
Rok
2022
Typ
Bakalářská práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Pierre Donat-Bouillud, Ph.D.
Katedra
Anotace
Automatizované porozumění sémantice kódu je klíčové pro vývojáře při psaní spolehlivého a optimalizovaného kódu.
V posledních letech roste zájem o aplikaci strojového učení ve zdrojovém kódu s cílem automaticky odhalovat chyby, komentovat kód nebo jej pochopit a vylepšit.
Tato práce uvádí techniky hlubokého učení aplikované na různé úrovně abstrakce zdrojového kódu.
Experimentujeme se souborem dat, který se skládá ze zdrojového kódu jazyka R.
Jazyk R má velkou komunitu převážně statistiků. Knihovny jazyka R však mají tendenci obsahovat neoptimální kód.
Hlavním přínosem této práce je model natrénovaný na velkém souboru dat R, který je prvním krokem k automatizovanému nástroji pro psaní lepšího kódu R.
Zaměřujeme se především na abstraktní syntaktické stromy (Abstract Syntax Trees, AST), ale uvažujeme i o jiných formách reprezentace.
Různé abstrakce přidávají vstupním datům strukturu, a pomáhají tak lépe zobecňovat soubory dat.
Trénujeme a vyhodnocujeme několik modelů založených na různých reprezentacích kódu.
Jako hlavní model pro tuto úlohu byla vybrána architektura založená na transformerech, protože v této oblasti dosahuje lepších výsledků než jiné modely. Trénování modelu na velkém souboru dat R je prvním krokem k automatizovanému nástroji pro psaní lepšího kódu R.
Výsledkem je RASTaBERTa, který je podle nás, nejmodernějším modelem založeným na transformátorech pro jazyk R a může být použit k dalšímu trénování pro specifické úlohy, jako je klasifikace, detekce chyb a anomálií, oprava chyb atd.
Využití strojového učení pro porovnávání pracovních nabídek a životopisů
Autor
Karolina Zegeryte
Rok
2024
Typ
Bakalářská práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Ing. Miroslav Čepek, Ph.D.
Katedra
Anotace
Hlavním cílem bakalářské práce je vyvinout komplexní model strojového učení, který je navržen k normalizaci reprezentace dovedností v pracovních inzerátech a životopisech. Vyvinutý systém usnadňuje hladší a efektivnější náborový proces tím, že účinně řeší nesrovnalosti v tom, jak jsou dovednosti a zkušenosti prezentovány v pracovních inzerátech a životopisech. Toto zlepšení významně snižuje možné nesoulady mezi uchazeči o zaměstnání a personalisty.
Metodologie zahrnuje shromažďování a předzpracování rozsáhlého datového souboru, který zahrnuje různé pracovní inzeráty a životopisy. Vzhledem k absenci snadno dostupných tréninkových, testovacích a validačních dat ve veřejné doméně je nutné ručně vytvořit vhodný dataset pro doladění předem naučených jazykových modelů. Pro tyto účely budou vybrána a zpracována jak reálná, tak generovaná data.
Systém využívá techniky strojového učení k extrakci dovedností z textu kombinací předem naučeného jazykového modelu BERT a předem naučeného SpaCy modelu. Oba modely musí být doladěny na ručně sestaveném datasetu. Po extrakci dovedností je systém sloučí na základě kosinové podobnosti, a výstupu z transformátorů pro efektivnější porovnání. Tyto techniky pomáhají normalizovat a sladit extrahované dovednosti se standardizovanými reprezentacemi dovedností.
Navíc studie navrhuje vývoj algoritmů pro párování, které využívají metriky podobnosti a techniky hlubokého učení k přesnému sladění pracovních inzerátů s odpovídajícími životopisy na základě standardizovaných reprezentací dovedností.
Po normalizaci dovedností v životopisech a pracovních inzerátech budou aplikovány algoritmy jako Jaccardův index podobnosti, kosinová podobnost a transformátory, aby se životopisy sladily s pracovními nabídkami. Výkon těchto modelů bude hodnocen pomocí metrik, jako jsou přesnost, úplnost, správnost, ztráta a skóre F1.
Diplomové práce
Vývoj systému automatického rozpoznávání řeči pro české mluvené slovo
Autor
Richard Werner
Rok
2020
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Ing. Mgr. Ladislava Smítková Janků, Ph.D.
Katedra
Anotace
Tato práce se zabývá automatickým rozpoznáváním řeči (ASR) za použití rekurentních neuronových sítí (RNN). Cílem je analyzovat state-of-the-art v těchto vědních odvětvích a najít vhodný český otevřený dataset společně s RNN modelem. Dalším krokem je natrénovat vybraný model na zvoleném datasetu a najít druhý zdroj hlasových dat, ke kterému bude možné následně vytvořit anotace. Výstupem práce bude natrénovaný model, open-source dataset a systém dovolující snadné předzpracování dat a další rozšiřování datasetů.
Zvoleným datasetem jsou připravená hlasová data z Poslanecké sněmovny a použitým modelem je DeepSpeech open-source projekt. Druhým zdrojem hlasových dat jsou zbylé nahrávky z PS, dostupné z jejich webových stránek. Součástí procesu přípravy těchto dat bylo použití detektoru hlasové aktivity (VAD), jehož výstup posloužil jako reference při segmentaci audio nahrávek.
Natrénovaný model dosáhl úspěšnosti 12.66 % WER (chybovost v rámci slov) a 4.63 % CER (chybovost v rámci znaků), což byly dostatečně nízké hodnoty k vytvoření anotací nových dat. Nový dataset po předzpracování obsahoval přes 580000 hlasových nahrávek s proměnnou délkou zhruba od 1 do 70 sekund. Projekt je navržen jako Docker image s předpřipravenými nástroji ke zpracování datasetů a jejich použití k učení RNN.
Výstupem je tedy natrénovaný model rekurentní neuronové sítě, otevřený český dataset s anotacemi a připravené Docker prostředí ke zpracování dat.
Detekce anomálií v monitoringu datového centra CERN
Autor
Antonín Dvořák
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Kamil Dedecius, Ph.D.
Katedra
Anotace
Jednou z mnoha úloh CERN cloud manažerů je zajistit požadovaný výpočetní výkon všem uživatelům dané vědecké komunity. Toho je dosaženo pečlivě nastaveným statickým alarming systémem nad výkonostními metrikami infrastruktury.
Pro dosažení maximální efektivity cloudové infrastruktury a ulehčení práce cloud operátorům jsme vytvořili plně automatizovaný systém pro detekci anomálií, který využívá metody nesupervizovaného učení nad časovými řadami. Konkrétně používá kombinaci tradičních metod strojového učení (Isolation forest) a metod hlubokého učení (Gated recurrent unit/Long short-term memory autoencodery).
Tato práce zahrnuje popis monitorovací infrastruktury CERNU, formulaci problému, design systému pro detekci anomálií, použité modely, tvorbu datasetu a porovnání výsledků implementovaných modelů vůči aktuálnímu alarming systému.
Klasifikace desek podle vzorů poškození chipů při jejich výrobě
Autor
Jan Šefčík
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Mgr. Petr Šimánek
Katedra
Anotace
Automatizovaná klasifikace vzorů defektů na deskách je náročný úkol pro výrobce polovodičů. V rámci supervizovaného učení byl udělán velký pokrok. Problémem je zisk olabelovaných datasetů. Datasety jsou malé a nemají dostatečnou kvalitu. Jejich vytvoření je drahé a časově náročné. Kvůli těmto důvodům je složité jejich použití při rané produkci. Tato práce analyzuje nejnovější přístupy pro práci s neoznačenými daty. Představuje metody, které vylepšují stávající modely trénované pouze na olabelovaných datech. Na základě provedeného průzkumu navrhuji menší model, který se zaměřuje na řešení problému různorodosti velikostí jednotlivých desek. Významné vylepšení proběhlo u minoritních tříd, hlavně u třídy Scratch.
Model pro rozpoznání diktovaných čísel pro společnost poskytující interactive voice response (IVR)
Autor
Martin Nykodem
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Katedra
Anotace
Tato práce se zaměřuje na problém automatického rozpoznání řeči (ASR). Cílem této práce je vytvořit model strojového učení k rozpoznání čísel v českém jazyce, která byla nadiktována v rámci telefonního hovoru.
Systémy ASR se potýkají se specifickými problémy souvisejícími s doménou rozpoznání řeči. Proto, aby byly splněné určité požadavky příznačné českému jazyku, musel být aplikován speciální způsob předzpracování dat a vývoje modelu.
Na základě průzkumu populárních state-of-the-art přístupů v oblasti ASR je vyvinut model pro výše uvedenou úlohu. Jsou diskutována specifika dané domény včetně předzpracování dat a ladění modelu. Dále je pro dataset specifické domény představeno rozšíření o dostupné datasety českého jazyka. Nakonec je popsán průběh vývoje a vylepšení objevená během vývoje.
Výsledky ukazují, že bylo dosaženo desetinásobného zlepšení správného rozpoznávání nahrávek obsahujících sekvenci diktovaných čísel. Model výrazně překonává současné nejlepší řešení od českých společností zabývajících se rozpoznáváním řeči, stejně jako řešení od společností Google a Microsoft. Kromě toho je dosaženo nejnižšího skóre WER z dostupných nekomerčních modelů pro doménově neomezenou datovou sadu pro český jazyk Common Voice 8.
Studium lineárního self-attention mechanismu v transformerech
Autor
Uladzislau Yorsh
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Katedra
Anotace
Vzhledem k tomu, že kvadratická složitost mechanizmu vnímaní architektury Transformer způsobuje velké náklady na zpracování dlouhých posloupností, cílem dané práce je prozkoumat lineární varianty architektury a implementovat několik nových metod.
Přístup založený na strojovém učení pro shrnutí návrhů řízení decentralizovaných autonomních organizací
Autor
Herman Tiumentsev
Rok
2024
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Ing. Miroslav Čepek, Ph.D.
Katedra
Anotace
Decentralizované autonomní organizace (DAO) se dostávají do popředí jako decentralizované subjekty fungující na základě takzvaných smart contractu a technologie blockchain. Složitost návrhů na řízení v rámci DAO však představuje výzvu pro dostupnost a účast na rozhodovacích procesech. Tato práce řeší problém omezené dostupnosti a účasti tím, že vyvíjí a vyhodnocuje personalizovaný systém založený na strojovém učení pro shrnutí návrhů na správu DAO. Mezi cíle patří prozkoumání současných struktur správy DAO a rozhodovacích procesů, identifikace problémů při sumarizaci návrhů, vyhodnocení různých přístupů k sumarizaci a vývoj přizpůsobeného sumarizačního systému. Cílem systému je zvýšit dostupnost a účast tím, že bude poskytovat stručné a srozumitelné shrnutí návrhů na správu DAO. K posouzení účinnosti systému se používají hodnotící metriky, jako je přesnost, srozumitelnost a relevance. Výsledky ukazují zlepšení přístupnosti, což zdůrazňuje význam specializovaných shrnujících systémů pro zlepšení rozhodovacích procesů v rámci DAO.
Advancing Microrobotics for Biomedical Applications through Machine Learning
Autor
Daniil Pastukhov
Rok
2024
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Kamil Dedecius, Ph.D.
Katedra
Anotace
Tato práce se zabývá integrací technik strojového učení do mikrorobotiky se zaměřením na biologické mikroroboty využívající jako platformu spermie. Šetření zahrnuje podrobnou analýzu relevantních prací v oblasti mikrorobotiky a strojového učení v biomedicínském kontextu, čímž jsou položeny základy pro mnohostranné zkoumání. Mezi klíčové příspěvky patří kurátorství a anotace datových souborů přizpůsobených pro trénování a vyhodnocování modelů. Byly vyvinuty a zváženy modely detekce objektů pro přesnou identifikaci spermií a jejich hlavic, zatímco model odhadu klíčových bodů byl použit pro detekci klíčových bodů bičíků. Kromě toho byl implementován a vyhodnocen systém sledování objektů pro sledování dynamických pohybů hlaviček spermatických buněk, což zlepšuje pochopení jejich interakcí v dynamickém prostředí. Dále byl vycvičen a vyhodnocen model pro předpovídání trajektorie. Tato studie představuje významný pokrok v integraci strojového učení a mikrorobotiky a nabízí inovativní perspektivy a přístupy, které lze využít v různých biomedicínských a technologických oblastech. Práce přispívá k současnému chápání biologických mikrorobotů a pokládá základy pro budoucí pokrok, odkrývá potenciál pro přesné řídicí mechanismy a rozšiřuje aplikace v různých oblastech.
Machine Learning Techniques for Laser-Plasma Acceleration Optimization
Autor
Matěj Jech
Rok
2024
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Ivan Šimeček, Ph.D.
Katedra
Anotace
Práce se zabývá analýzou dat z laser-plasmového urychlovače částic ve spolupráci s vědeckou institucí ELI Beamlines. V rámci práce byl navržen proces předpřipravení dat a vyvinut generativní model simulující průběh fyzikálních experimentů. Model je podmíněn vektorem parametrů experimentu a generuje obrazová data zobrazující energetické spektrum paprsku urychlených elektronů. Vyvinutý model lze využít jako částečnou náhradu skutečných experimentů, které jsou časově i finančně nákladné. Rovněž jej lze použít jako simulaci skutečných experimentů pro různé optimalizační metody. Práce definuje proces trénování i testování kandidátních modelů se třemi různými architekturami a na základě čtyř hyperparametrů. Výsledný model dokáže generovat data rychlostí 1.8 obrázků za sekundu a byl vyhodnocen na základě řady metrik včetně expertního názoru vědců jako věrohodný způsob simulace průběhu accelerace elektronů.