Mgr. Alexander Kovalenko, Ph.D.

Závěrečné práce

Bakalářské práce

Techniky strojového učení pro rozpoznávání vzorů zdrojového kódu

Autor
Rudolf Raevskiy
Rok
2022
Typ
Bakalářská práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Pierre Donat-Bouillud, Ph.D.
Anotace
Automatizované porozumění sémantice kódu je klíčové pro vývojáře při psaní spolehlivého a optimalizovaného kódu. V posledních letech roste zájem o aplikaci strojového učení ve zdrojovém kódu s cílem automaticky odhalovat chyby, komentovat kód nebo jej pochopit a vylepšit. Tato práce uvádí techniky hlubokého učení aplikované na různé úrovně abstrakce zdrojového kódu. Experimentujeme se souborem dat, který se skládá ze zdrojového kódu jazyka R. Jazyk R má velkou komunitu převážně statistiků. Knihovny jazyka R však mají tendenci obsahovat neoptimální kód. Hlavním přínosem této práce je model natrénovaný na velkém souboru dat R, který je prvním krokem k automatizovanému nástroji pro psaní lepšího kódu R. Zaměřujeme se především na abstraktní syntaktické stromy (Abstract Syntax Trees, AST), ale uvažujeme i o jiných formách reprezentace. Různé abstrakce přidávají vstupním datům strukturu, a pomáhají tak lépe zobecňovat soubory dat. Trénujeme a vyhodnocujeme několik modelů založených na různých reprezentacích kódu. Jako hlavní model pro tuto úlohu byla vybrána architektura založená na transformerech, protože v této oblasti dosahuje lepších výsledků než jiné modely. Trénování modelu na velkém souboru dat R je prvním krokem k automatizovanému nástroji pro psaní lepšího kódu R. Výsledkem je RASTaBERTa, který je podle nás, nejmodernějším modelem založeným na transformátorech pro jazyk R a může být použit k dalšímu trénování pro specifické úlohy, jako je klasifikace, detekce chyb a anomálií, oprava chyb atd.

Self-supervised model pro efektivní rozpoznávání zvuku trénovaný na agregovaných datech

Autor
Vojtěch Houska
Rok
2021
Typ
Bakalářská práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Tato práce shrnuje nejmodernější metody využívané v hlubokém učení. Probírá použití autoenkodérů a metody předzpracování v oblasti rozpoznávání zvuku. Jako zdroj slabě anotovaných dat pro učení těchto modelů byla použita platforma YouTube. Práce porovnala vlastnosti latentních prostorů navrhovaných autoenkoderů, které byly testovány pomocí shlukování K-means. Použitá metoda regularizovaného autoenkodéru nepřekonala náhodně inicializovaný autoenkodér. V závěru práce jsou rozebrány příčiny a byla navrhnuta další doporučení pro pozdější výzkum.

Diplomové práce

Model pro rozpoznání diktovaných čísel pro společnost poskytující interactive voice response (IVR)

Autor
Martin Nykodem
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Tato práce se zaměřuje na problém automatického rozpoznání řeči (ASR). Cílem této práce je vytvořit model strojového učení k rozpoznání čísel v českém jazyce, která byla nadiktována v rámci telefonního hovoru. Systémy ASR se potýkají se specifickými problémy souvisejícími s doménou rozpoznání řeči. Proto, aby byly splněné určité požadavky příznačné českému jazyku, musel být aplikován speciální způsob předzpracování dat a vývoje modelu. Na základě průzkumu populárních state-of-the-art přístupů v oblasti ASR je vyvinut model pro výše uvedenou úlohu. Jsou diskutována specifika dané domény včetně předzpracování dat a ladění modelu. Dále je pro dataset specifické domény představeno rozšíření o dostupné datasety českého jazyka. Nakonec je popsán průběh vývoje a vylepšení objevená během vývoje. Výsledky ukazují, že bylo dosaženo desetinásobného zlepšení správného rozpoznávání nahrávek obsahujících sekvenci diktovaných čísel. Model výrazně překonává současné nejlepší řešení od českých společností zabývajících se rozpoznáváním řeči, stejně jako řešení od společností Google a Microsoft. Kromě toho je dosaženo nejnižšího skóre WER z dostupných nekomerčních modelů pro doménově neomezenou datovou sadu pro český jazyk Common Voice 8.

Klasifikace desek podle vzorů poškození chipů při jejich výrobě

Autor
Jan Šefčík
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Mgr. Petr Šimánek
Anotace
Automatizovaná klasifikace vzorů defektů na deskách je náročný úkol pro výrobce polovodičů. V rámci supervizovaného učení byl udělán velký pokrok. Problémem je zisk olabelovaných datasetů. Datasety jsou malé a nemají dostatečnou kvalitu. Jejich vytvoření je drahé a časově náročné. Kvůli těmto důvodům je složité jejich použití při rané produkci. Tato práce analyzuje nejnovější přístupy pro práci s neoznačenými daty. Představuje metody, které vylepšují stávající modely trénované pouze na olabelovaných datech. Na základě provedeného průzkumu navrhuji menší model, který se zaměřuje na řešení problému různorodosti velikostí jednotlivých desek. Významné vylepšení proběhlo u minoritních tříd, hlavně u třídy Scratch.

Detekce anomálií v monitoringu datového centra CERN

Autor
Antonín Dvořák
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Kamil Dedecius, Ph.D.
Anotace
Jednou z mnoha úloh CERN cloud manažerů je zajistit požadovaný výpočetní výkon všem uživatelům dané vědecké komunity. Toho je dosaženo pečlivě nastaveným statickým alarming systémem nad výkonostními metrikami infrastruktury. Pro dosažení maximální efektivity cloudové infrastruktury a ulehčení práce cloud operátorům jsme vytvořili plně automatizovaný systém pro detekci anomálií, který využívá metody nesupervizovaného učení nad časovými řadami. Konkrétně používá kombinaci tradičních metod strojového učení (Isolation forest) a metod hlubokého učení (Gated recurrent unit/Long short-term memory autoencodery). Tato práce zahrnuje popis monitorovací infrastruktury CERNU, formulaci problému, design systému pro detekci anomálií, použité modely, tvorbu datasetu a porovnání výsledků implementovaných modelů vůči aktuálnímu alarming systému.

Studium lineárního self-attention mechanismu v transformerech

Autor
Uladzislau Yorsh
Rok
2022
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
doc. Ing. Pavel Kordík, Ph.D.
Anotace
Vzhledem k tomu, že kvadratická složitost mechanizmu vnímaní architektury Transformer způsobuje velké náklady na zpracování dlouhých posloupností, cílem dané práce je prozkoumat lineární varianty architektury a implementovat několik nových metod.

Vývoj systému automatického rozpoznávání řeči pro české mluvené slovo

Autor
Richard Werner
Rok
2020
Typ
Diplomová práce
Vedoucí
Mgr. Alexander Kovalenko, Ph.D.
Oponenti
Ing. Mgr. Ladislava Smítková Janků, Ph.D.
Anotace
Tato práce se zabývá automatickým rozpoznáváním řeči (ASR) za použití rekurentních neuronových sítí (RNN). Cílem je analyzovat state-of-the-art v těchto vědních odvětvích a najít vhodný český otevřený dataset společně s RNN modelem. Dalším krokem je natrénovat vybraný model na zvoleném datasetu a najít druhý zdroj hlasových dat, ke kterému bude možné následně vytvořit anotace. Výstupem práce bude natrénovaný model, open-source dataset a systém dovolující snadné předzpracování dat a další rozšiřování datasetů. Zvoleným datasetem jsou připravená hlasová data z Poslanecké sněmovny a použitým modelem je DeepSpeech open-source projekt. Druhým zdrojem hlasových dat jsou zbylé nahrávky z PS, dostupné z jejich webových stránek. Součástí procesu přípravy těchto dat bylo použití detektoru hlasové aktivity (VAD), jehož výstup posloužil jako reference při segmentaci audio nahrávek. Natrénovaný model dosáhl úspěšnosti 12.66 % WER (chybovost v rámci slov) a 4.63 % CER (chybovost v rámci znaků), což byly dostatečně nízké hodnoty k vytvoření anotací nových dat. Nový dataset po předzpracování obsahoval přes 580000 hlasových nahrávek s proměnnou délkou zhruba od 1 do 70 sekund. Projekt je navržen jako Docker image s předpřipravenými nástroji ke zpracování datasetů a jejich použití k učení RNN. Výstupem je tedy natrénovaný model rekurentní neuronové sítě, otevřený český dataset s anotacemi a připravené Docker prostředí ke zpracování dat.