doc. Ing. Lenka Lhotská, CSc.

Závěrečné práce

Dizertační práce

Detekce anomálií v dlouhých časových řadách

Stupeň
Téma dizertační práce
Popis tématu

Vzdáleně ležící pozorování (nebo „outlier“) je takové, které se významně odlišuje od ostatních prvků ve vzorku, kde se objevuje. Termín „anomálie“ označuje různé problémy v různých oblastech. Je velmi důležité detekovat anomálie co nejdříve, aby nedošlo k velkým ztrátám či problémům, ať už jde o poruchu stroje, nádor v lidském těle, apod.

Ve většině oblastí mají sbíraná/měřená data charakter streamovaných časových řad. Díky jejich inherentním vlastnostem, jako jsou periodicita, trendy, sezónnost a nepravidelnost, představuje přesná detekce anomálií velký problém. Navíc ve většině reálných scénářů je prakticky nemožné anotovat ohromné množství dat. Proto se často používají metody učení bez učitele jako shlukování. Ty však nezohledňují parametr času, který je v časových řadách neoddělitelným kontextem. Proto neumožňují nalézt anomálie, které se objevují v cyklech.

Cílem práce bude navrhnout, implementovat a otestovat metodu učení bez učitele, která bude zohledňovat kontext, sezónnost a trendy při detekci anomálií. Metoda má být adaptovatelná pro různé scénáře a případy a schopná zpracovávat data z různých oblastí.

Využití kontextové informace ve strojovém učení

Stupeň
Téma dizertační práce
Popis tématu

Velká data s sebou přinášejí celou řadu otázek, z nichž mezi nejdůležitější patří rozpoznání a správné využití různých typů závislostí a také kontextu, který zpravidla nese využitelné informace. Typickým příkladem je prostorové uspořádání zdrojů dat, například senzory pro sběr environmentálních dat v různých prostředích. Tento kontext, společně s měřenými časovými řadami, reprezentuje velmi významný zdroj informace pro predikci výstupu.

V úlohách strojového učení hraje klíčovou roli výběr příznaků. V mnoha případech je však výběr příznaků mnohem složitější než identifikace jedné podmnožiny vstupních proměnných, které společně vysvětlují výstup. Mohou totiž existovat interakce, které závisejí na kontextové informaci, tj. proměnné, která se ukáže relevantní pouze za určitých specifických podmínek. Základní problém k řešení je identifikace vstupních proměnných, jejichž relevance nebo irelevance pro predikci výstupu platí pouze za specifických podmínek, kdy se předpokládá, že tyto podmínky mohou být vyjádřeny pomocí specifické kontextové proměnné. Tato kontextová proměnná může být např. standardní vstupní proměnná, pak je cílem kontextové analýzy lépe pochopit, jak tato proměnná interaguje s ostatními vstupy při predikci výstupu. Kontextem může být také externí proměnná, která nepatří k původním vstupům, ale přesto může ovlivnit jejich relevantnost ve vztahu k výstupu.

Cílem práce bude navrhnout, implementovat a otestovat metodu učení s učitelem, která bude kontextovou informaci využívat pro efektivnější predikci výstupu. Metoda má být adaptovatelná pro různé scénáře a případy a schopná zpracovávat data z různých oblastí.