Bakalářské práce
Interoperabilita AI algoritmů z různých platforem na výpočetním clusteru
Autor
Tomáš Pajurek
Rok
2016
Typ
Bakalářská práce
Vedoucí
Ing. Ondřej Stuchlík
Oponenti
Ing. Tomáš Borovička
Katedra
Anotace
Datoví vědci a další výzkumníci často potřebují najít nejlepší kombinaci algoritmu a jeho parametrů. Počet těchto kombinací může být obrovský a nalezení té nejlepší je výpočetně velmi náročné. Cílem této práce je návrh a implementace systému umožňujícího paralelní spouštění mnoha instancí algoritmů strojového učení z různých platforem (Python, R, Weka a RapidMiner) na výpočetním klastru.
Systém je napsán v jazyce Scala a postaven na frameworku Apache Spark. Důraz je kladen na vytvoření robustní a kvalitní softwarové architektury. Důležitá architektonická rozhodnutí jsou založena na výkonnostních měřeních.
Výsledný systém splňuje všechny definované funkční i nefunkční požadavky s drobnými omezeními u konkrétních platforem. Systém zapouzdřuje problémy spojené s paralelizací a s rozdílnými implementacemi algoritmů a poskytuje vysokoúrovňové rozhraní. Výzkumníci mohou toto rozhraní používat pro řešení velkého počtu klasifikačních, regresních a shlukovacích problémů nebo dokonce pro spouštění vlastních, na míru vytvořených programů.