Použitý formát řídkých matic nebo tenzorů podstatně ovlivňuje výkonnost a škálovatelnost algoritmů v numerické lineární algebře.
Ideální formát zaručuje minimální paměťové nároky, ale zároveň maximální vytížení ALU jednotek, cache pamětí a optimální vyvažování zátěže jednotlivých uzlů HPC systému.
Bylo sice vyvinuto dosti různých formátů, ale tyto mají svoje nevýhody: jsou náročné na převod, jsou použitelné jen pro omezenou množinu operací, případně nepodporují možnost přidání nebo odebrání nenulového prvku.
Cílem práce tedy bude výzkum formátů řídkých matic a tenzorů vhodných pro masivně paralelní algoritmy v numerické lineární algebře s cílem odstranění jejich nedostatků a návrh heuristik pro zvolení optimálního formátu pro danou cílovou architekturu.
Nové paralelní algoritmy pro řešení indexace dat z práškové difrakce
Rentgenová strukturní analýza z dat získaných práškovou difrakcí je významná analytická metoda pro určení struktury chemických látek v případě, kdy látka neposkytuje tzv. monokrystal. Pro aplikaci metody je klíčová indexace dat – určení mřížkových parametrů. Existující algoritmy a postupy pro indexaci mají problém indexovat méně kvalitní data a směsi látek. Cílem práce je vyvinout efektivnější paralelní algoritmy než jsou stávající algoritmy, pro řešení těchto problémů.
Práce se zabývá analýzou, návrhem a implementací webové aplikace pro násobení smíšených polynomů. Aplikace využívá triviální algoritmus, Strassenův algoritmus a algoritmus pro násobení řídkých smíšených polynomů ve formátu Compressed Row Storage. Tyto algoritmy jsou v práci také popsány po teoretické stránce. Výsledkem je aplikace, která dokáže vynásobit 2 smíšené polynomy o 2 neznámých pomocí zvoleného algoritmu a vykreslit grafy rychlostí různých výpočtů.
Tato praca sa zaobera problematikou riedkych sustav linearnych rovnic a ich riesenim s vyuzitim priamych metod. Popisuje vybrane metody riese- nia, heuristiky urcene na zefektivnenie vypoctu a obsahuje prehlad vybranych rieseni. Vysledkom tejto prace je kompaktna aplikacia s grafickym uzivatelskym rozhranim, ktora ponuka niekolko metod a heuristik s cielom umoznit volbu efektivneho riesenia pre co najvacsiu mnozinu riedkych sustav.
Tato práce je zaměřená na optimalizaci kódu, který představuje simulaci pohybu těles, které mezi sebou gravitačne interagují, konkrétně byla k simulaci použita data představující sluneční soustavu. Neoptimalizovaný algoritmus byl napsán na základě Newtonova gravitačního zákona v jazyce C++ a poté optimalizován pomocí různých nastavení kompilátoru GCC, malými úpravami zdrojového kódu, ale i jeho rozsáhlejšími transformacemi jako je rozbalování cyklů, nebo způsob uložení dat v paměti. V neposlední řadě byl pak algoritmus paralelizován pro systémy s mnoha výpočetními jádry pro paralelní výpočty technologií OpenMP. Z přiložených zdrojových kódů je pak možné přeložit různé verze programu, podle použitých optimalizací od neoptimalizovaného až po nejrychlejší paralelní verzi programu pro 24 výpočetních vláken. Spuštěním takto přeloženého programu se vstupními daty představujícími stav sluneční soustavy v určitém čase, lze získat stav soustavy odpovídající stavu po uběhnutí určitého předem zvoleného času a tento vizualizovat v podobě 3D grafu vytvořeném pomocí nástroje Gnuplot.
Tato práce se zabývá návrhem knihovny pro násobení polynomů. Cílem této práce je vzájemné porovnání vybraných algoritmů mezi sebou a zároveň porovnání s násobením řídkých polynomů. Oborem porovnání je zejména rychlost algoritmů, a případná diskuse o příčinách této rychlosti. Všechny algoritmy použité pro tuto práci jsou podrobně analyzovány a jejich výhody či nevýhody jsou rozebrány. Součástí této práce je též implementace navržené knihovny. Při implementaci knihovny je kladen důraz na snížení režijních nákladů či jiné časové úspory, které jsou diskutovány. Práce si dále klade za cíl nalézt mez, do které se vyplatí použít struktury pro řídké polynomy (z hlediska rychlosti), a to jednak teoreticky, tak prakticky. Na závěr je implementován edukativní GUI program, sloužící ke zjišťování vybraných statistik z běhu algoritmů.
Tato práce se zabývá řešením soustavy lineárních rovnic v intervalové aritmetice. Pro řešení soustav rovnic jsou použity metody Gaussovy eliminace, Jacobiova metoda, Gauss-Seidelova metoda a metoda sdružených gradientů. Práce porovnává vliv těchto metod na výslednou šířku intervalů. Dále porovnává vliv pivotace při použití různých heuristik a také analyzuje výslednou šířku intervalů při použití metody předpodmínění. Metody jsou implementovány pomocí knihoven PROFIL/BIAS a Boost, které jsou mezi sebou porovnány z hlediska výkonnosti.
Tato práce řeší LU rozklad řídkých matic a možnost jeho paralelizace. K rozkladu je využita Croutova, Choleského a QR metoda. Tyto metody implementuje pro několik formátů ukládání řídkých matic.
Implementované metody jsou testovány a porovnávány z hlediska časové a paměťové náročnosti.
Táto práca popisuje analýzu grafového editoru napísaného v programovacom jazyku Java s využitím architektúry MVC,
ktorý umožňuje vytvárať grafy a overovať ich vlastnosti. Popisuje aj vývoj rozšírení daného grafového editoru
o ďalšie vlastnosti a algoritmy ako či graf obsahuje uzavretý Eulerovský ťah, či je graf Hamiltonovský, alebo nájdenie minimálnej kostry grafu.
Cílem práce je implementace Doolitlova algoritmu pro LU rozklad řídkých matic a seznámení s různými heuristikami pro snížení tvorby nenulových prvků, konkrétně s algoritmy Multiple Minimum Degree, Reverse Cuthill-McKee a Markowitzova strategie. Dále se práce zabývá implementací těchto algoritmů a jejich porovnáním z hlediska časové a paměťové složitosti.
Táto práca sa zaoberá efektívnymi algoritmami riešiacimi problém
nájdenia konvexnej obálky. Je v nej zavedený potrebný teoretický základ a popísaných niekoľko známych algoritmov, ktoré sú ďalej implementované,
optimalizované a paralelizované. Pre potreby merania je vytvorený vlastný
generátor vstupných dát, na ktorých sú porovnané jednotlivé algoritmy.
Z realizovaných implementácií je vytvorená knižnica v jazyku C++, ktorá je
porovnaná s existujúcimi riešeniami.
Tato práce se zabývá efektivními algoritmy pro násobení polynomů, konkrétně algoritmy Karatsuba, Toom-Cook a Rychlá Fourierova transformace. Mimo jiné se práce zaměřuje na paralelizaci těchto algoritmů v jazyce C++ za použití knihovny OpenMP. V práci je dále provedeno měření skutečné efektivity a numerické stability implementovaných algoritmů.
Tato práce je zaměřena na algoritmus Conflict resolution, který je určený k řešeni systémů lineárnich nerovnic. Účelem práce je nalézt efektivni implementaci algoritmu s použitim bežných optimalizačnich technik a porovnat výkonnost algoritmu pro řidké a husté systémy nerovnic. Práce obsahuje popis algoritmu, popis procesu optimalizace a výsledky měřeni výkonnosti.
Cílem této práce je nastudovat a implementovat algoritmus numerického databázového systému s využitím datové struktury ohodnoceného binárního stromu. Implementace v jazyce C++ bude srovnána s původní implementací v jazyce Fortran. Obsahem bakalářské práce je analýza existujícího řešení, jeho parametrů a diskuze možností implementace paralelní varianty tohoto algoritmu.
Tato bakalářská práce se zaměřuje na vybrané algoritmy pro násobení polynomů. V teoretické části jsou tyto algoritmy popsány a je vysvětlen jejich princip. Praktická část se zaměřuje na implementaci a následnou optimalizaci těchto algoritmů. Pro implementované algoritmy je provedena analýza přesnosti výsledků. Optimalizované algoritmy jsou otestovány a změřeny na výpočetním serveru. Nakonec je provedeno porovnání s již existujícími implementacemi a knihovnami.
Tato bakalářská práce se zabývala analýzou a implementací algoritmů Karatsubova, Toom-3, Toom-6,5 a Toom-8,5 pro efektivní a rychlé násobení velkých celých čísel a následnou úpravou těchto algoritmů pro zvýšení výkonnosti.
Literární rešerše se zabývala studiem funkce zmíněných algoritmů a analýzou možných řešení pro zvýšení výkonnosti.
V praktické části jsem tyto algoritmy implementoval v programovacím jazyce C++. Poté bylo použito postupů vedoucích
k optimálnějšímu využití systémových prostředků, zejména skrytých pamětí a vícejádrových procesorů. Využíval jsem hlavně rozhraní pro paralelní programování Open MP.
Následně byla změřena výkonnost jednotlivých implementovaných algoritmů. Bylo zhodnoceno i zrychlení výpočtu při použití paralelního rozhraní Open MP. Výsledky měření výpočetního výkonu byly také porovnány s již existující implementací algoritmů pro rychlé násobení čísel v rámci několika matematických knihoven, zejména GNU Multi-Precision Library (GMP).
Hlavním zjištěním je, že algoritmy upravené pro lepší využití systémových prostředků a paralelní chod přináší na dnešních vícejádrových systémech razantní nárůst výpočetního výkonu.
V příloze práce lze nalézt aplikaci s implementovanými algoritmy, a to včetně jejich upravených verzí.
Tato práce obsahuje popis algoritmů in-place a out-of-place Mergesortu. Zabývá se jejich implementací v jazyce C++ a následnou optimalizací a paralelizací pomocí technologie OpenMP. Dále je na základě těchto algoritmů vytvořen hybridní algoritmus využívající principů in-place a out-of-place Mergesortu s ohledem na efektivní využití poskytnutého pomocného pole různých délek. Na závěr je výkonnost tohoto hybridního algoritmu porovnána s výkonností několika vybraných existujících implementací stabilního řazení.
Tato práce obsahuje přehled algoritmů pro řešení FFT. Zabývá se podrobně Bluesteinovým, Cooleyovým-Tukeyovým, prime-factor a Raderovým FFT algoritmem. U vyjmenovaných algoritmů jsou podrobně popsány možnosti jejich optimalizace. Je popsána realizace programu v jazyce C++, který dokáže pro výpočet FFT kombinovat použité algoritmy. U realizovaného programu jsou implementovány optimalizace - mimojiné použití SIMD instrukcí nebo paralelizace pomocí OpenMP. Výsledný program je porovnán s knihovnami FFTW a Intel MKL.
Tato práce se zabývá efektivními algoritmy pro řešení problému hledání konvexní obálky bodů ve 3D prostoru. V práci je tento problém zadefinován a jsou navrženy a popsány algoritmy pro jeho řešení. Tyto algoritmy jsou dále naimplementované, optimalizované a paralelizované. Dále jsou tyto algoritmy porovnané mezi sebou a zároveň proti již existujícímu řešení, v podobě knihoven QHull a CGAL.
Bakalářská práce se zabývá vybranými algoritmy pro násobení polynomů, zejména Karatsubova a Schönhageho-Strassenova algoritmu. Cílem práce je implementace algoritmů v jazyku C++, optimalizace pomocí transformace zdrojového kódu a paralizace pomocí knihovny OpenMP. Algoritmy jsou otestovány a změřeny na výpočetním serveru Star.
Numerická databáze zrychluje výpočet ukládáním mezivýsledků do pamětí. Kanonická implementace numerické databáze je založená na ohodnoceném binárním stromu - kombinace AVL-stromu a binární haldy. V této práci je diskutována i možnost využití jiných datových struktur, jak je Splay-strom a hašovácí tabulka. Navíc je zavedená zcela nová datová struktura - CNDC. Podporuje stejné operace jako ohodnocený binární strom, ale je přizpůsobená k použití ve vícevláknovém prostředí.
Všechny zmíněné datové struktury jsou implementovány v programovacím jazyce C++ v podobě programovací knihovny numdb. Na závěr jsou uvedené výsledky měření výkonnosti implementovaných datových struktur.
Tato bakalářská práce se zabývá vybranými řadícími algoritmy. Konkrétně se jedná o algoritmy MergeSort a TimSort. Tyto algoritmy jsou implementovány v jazyce C++ a pomocí metod transformací zdrojového kódu, efektivního využívání skrytých pamětí a paralelizací jsou upraveny tak, aby byly časově i paměťově efektivní. Dále je vytvořen autorem navržený hybridní algoritmus, využívající kombinaci předchozích algoritmů. Algoritmy jsou testovány na výpočetním serveru STAR, který umožňuje objektivní měření výkonnosti a efektivity algoritmů. Výsledkem práce je sada řadících algoritmů, grafické znázornění jejich výkonnosti a porovnání s již existujícími implementacemi paralelního stabilního řazení.
Tato bakalářská práce se zabývá formáty pro uložení řídkých matic COO, CSR, CSC a algoritmy pro násobení matic v těchto formátech. Cílem práce je i implementace těchto algoritmů a formátů v programovacím jazyce C++ a změření výkonu algoritmů na fakultním klasteru STAR.
Tato práce obsahuje porovnání algoritmů FFT a HFFT. Zabývá se podrobně iterativními verzemi radix-2, radix-4, radix-8 Cooley-Tukeyova algortimu,jejich porovnání s populárním split-radix algoritmem a algoritmem FFT na reálných číslech.
Následně se zabývá novým HFFT algoritmem,který dokáže počítat dvou dimenzionální FFT hexagonálně uspořádaných dat pomocí jedno-dimenzionálních FFT.
Algoritmy jsou implementovány v jazyce C++ s pomocí kompilátoru GCC a jeho automatických optimalizací.
Práce se mimojiné zaobírá i důkladnou vektorizací nad FFT algoritmy, možnostmi parlalelizace a datovými strukturami
Tato bakalářská práce se zabývá implementací řadících algoritmů MergeSort a RadixSort. Tyto algoritmy jsou implementovány v jazyce C++. Implementace jsou optimalizovány tak, aby byl časově efektivní.
V práci jsou algoritmy nejdříve analyzovány a dále jsou navrženy optimalizace, které by mohly zvýšit efektivitu algoritmů a způsoby paralelizace s využitím knihovny OpenMP, které vedou k nejlepšímu rozložení zátěže na jednotlivá vlákna.
Výsledkem práce jsou implementace výše zmíněných algoritmů, grafické zobrazení jejich výkonnosti a porovnání s již existujícími implementacemi.
Implementace algoritmu RadixSort řadí posloupnosti celých čísel v kratším čase než implementace algoritmu MergeSort obsažená ve standardní knihovně C++.
Tato bakalářská práce se zaměřuje na třídící algoritmus Timsort. Cílem bylo
paralelizovat algoritmus tak, aby byl efektivnější než jeho sekvenční verze a porovnat jeho rychlost s jinými algoritmy.
Tato práce se zabývá problematikou použití zvukové karty jako osciloskopu.
Součástí práce je rešerše existujících řešení, analýza omezení vyplývajících z použití zvukové karty za tímto účelem, vývojem a implementací vlastního řešení.
V závěru práce je zhodnocena použitelnost a užitečnost vytvořené aplikace a případné vylepšení nedostatků.
Tato práce se zabývá měřením reálné výkonnosti vybraných implementací prioritní fronty pro rozličná vstupní data a různý poměr prováděných operací.
Implementace jednotlivých variant proběhla v programovacím jazyce \Cpp a byla měřena na školním výpočetním svazku STAR s procesorem Intel Core i7-950, 24 GB DDR3 RAM a dvojicí grafických karet GeForce GTX 590 a GeForce GTX 470.
Vytvořená řešení byla otestována podle několika typických scénářů, došlo k diskuzi naměřených hodnot a jejich porovnání s teoretickými hranicemi výkonnosti.
Na základě naměřených hodnot je možné optimalizovat kritické části algoritmů využívající zkoumanou datovou strukturu a ušetřit tak výpočetní čas a zprostředkovaně i spotřebovanou energii.
Tato práce se zabývá analýzou dostupných algoritmů pro výpočet hodnoty Ludolfova čísla - pi. Také se zabývá jeho významem, vlastnostmi a historií. Je provedena analýza několika knihoven pro práci s rozšířenou mantisou a volba nejvhodnější z nich pro implementaci těchto algoritmů. Algoritmy pro výpočet Ludolfova čísla jsou pomocí vybrané knihovny implementovány a je provedeno jejich testování a porovnání konvergence. Na konci je provedeno testování normality Ludolfova čísla.
V této práci studujeme nelineární metody sdružených gradientů pro nepodmíněnou optimalizaci. Uvádíme možnosti a limity stávajících metod nepodmíněné optimalizace. Teoretické vlastnosti metod sdružených gradientů se porovnávají s dalšími základními algoritmy. Práce porovnává různé varianty nelineárních metod sdružených gradientů.
Parametr beta (tzv. conjugate gradient update parameter) má významný vliv na konvergenční vlastnosti nelineárních metod sdružených gradientů. Existuje několik vzorců pro volbu parametru které mají vyhovující konvergenční vlastnosti, nicméně neexistuje optimální volba. V praxi se výkon metody s různými vzorci může výrazně lišit v závislosti na různých problémech.
Navrhujeme heuristickou metodu, která automaticky upravuje hodnotu parametru. Experimentální výsledky ukazují, že výkonnost heuristické metody je často blízká výkonnosti nejlepší volby vzorce pro daný problém.
Tato práce popisuje formáty řídkých matic XY, YX, CRS a quadtree, algoritmy násobení řidké matice s řídkou maticí a zároveň popisuje algoritmy použivané pro paralelní výpočty. Součástí práce je implementace v C++, testy nad reálnými matice, porovnání výsledků s vypočítanými předpoklady. Tato práce také obsahuje porovnání implementovaných algoritmů s dostupnými řešeními, konkrétně Intel Math Kernel Library a knihovna Eigen. Výsledkem této práce je ukázka potenciálu zmíněných algoritmů v paralelních podmínkách.
Tato Bakalářská práce se zabývá problémem batohu 0-1 a přístupy hledajícími jeho optimální řešení.
V práci je implementován v jazyce C++ algoritmus založený na metodě větví a mezí, dále algoritmus založený na metodě dynamického programování a metoda hrubé síly. Autor se v práci následně zabývá jejich paralelizací a vybrané paralelizace implementuje pomocí technologie OpenMP. Na závěr jsou změřeny a porovnány výpočetní časy těchto implementací a implementací konkurenčních na vybraných datových sadách.
Tato bakalářská práce se věnuje vybraným algoritmům pro řešení problému čínského listonoše (varianta DCPP - Directed Chinese Postman Problem), tj. jedné z optimalizačních úloh z oboru teorie grafů. Úkolem této úlohy je najít nejkratší trasu listonoše. Ta vede všemi ulicemi (to jsou hrany grafu) s tím, že se nakonec musí vrátit do výchozího bodu (vrcholu grafu). Práce řeší verzi s orientovanými ohodnocenými hranami. Cílem práce je použít různé dílčí algoritmy pro jednotlivé fáze řešení celého problému.
Realizace používá paralelizaci a porovnává její použití s verzí sekvenční.
Pro testování kompletní implementace se používají efektivnější z možných dílčích algoritmů.
Testování s existující implementací prokázalo výrazně lepší efektivitu (až 10-ti násobné zrychlení) mého řešení.
Tato práce se zabývá implementací algoritmu pro řešení soustav lineárních nerovnic pomocí řešení konfliktů. Algoritmus je implementován v C++17, jeho paralerizace je docílena pomocí knihovny OpenMP.
Editační vzdálenost lze vypočítat s obecně známým algoritmem využívajícím dynamické programování v čase O(n^2), kde n je délka vstupních řetězců. Algoritmus Čtyř Rusů zlepšuje tuto složitost s pomocí vyhledávací tabulky o faktor (log(n))^2. V této práci je tento algoritmus podrobně prozkoumán a důležité implementační detaily jsou prodiskutovány, přičemž zvláštní ohled je brán na paralelizování algoritmu a zmenšení velikosti vyhledávací tabulky. Implementace v jazyce C++ je poskytnuta a její výkon je porovnán v několika experimentech s populární knihovnou na výpočet editační vzdálenosti. Výsledky naznačují, že algoritmus je v praxi použitelnou volbou, ale není optimální.
Práce se zabývá třemi algoritmy hledajícími řešení lineárních soustav rovnic. Ty zvládnou vyřešit omezenou skupinu matic. Vybrané algoritmy jsou Jacobiho, Gauss-Seidelova a SOR metoda. Implementoval jsem je sekvenčně a paralelně. Při sekvenční implementaci se blížím rychlostí alternativní implementaci. Paralelní zrychlení se škáluje skoro lineárně s počtem jader až do velikosti matice odpovídající velikosti cache paměti.
Tato bakalářská práce se zaměřuje na řadici algoritmus Samplesort.Cilem bylo
algoritmus implementovat a paralelizovat. V této práci ukáži, že představená
implementace pro CPU se podle výsledků měřeni ukazuje jako efektivnějši než
některé stávajici implementace řadicich algoritmů.
Teoretická část této práce popisuje abstraktní datovou strukturu prioritní fronta, její podporované operace a řadu možných implementací, které jsou podrobně rozebrány po teoretické stránce. Dále jsou uvedeny příklady užití prioritní fronty. Práce rovněž nastiňuje několik možností paralelního přístupu k této struktuře.
V rámci praktické části byla většina z možných realizací prioritní fronty implementována v jazyce C++ a na školním serveru STAR byla změřena jejich praktická výkonnost v několika scénářích. Práce uvádí výsledky těchto měření a analyzuje je. V okomentovaných grafech jsou jednotlivé implementace přímo porovnány.
Na základě těchto výsledků je možné vybrat vhodnou variantu prioritní fronty pro konkrétní použití a zejména pro velká vstupní data tak ušetřit výpočetní čas. Z měření vyplynulo že implementačně jednodušší nebo asymptoticky pomalejší datové struktury mohou být v praxi výkonnější.
Práce se zabývá Ludolfovým číslem, algoritmy pro jeho výpočet a jeho normalitou. V teoretické části je popsáno Ludolfovo číslo a vybrané algoritmy pro jeho aproximaci. V praktické části jsou tyto algoritmy implementovány pomocí knihovny GNU-MPFR. Dále je porovnána rychlost jejich konvergence. V poslední části práce je zkoumáno, jestli jsou aproximace Pí normální čísla. K tomuto účelu je porovnán výskyt jednotlivých číslic a řetězců délky 2 v desítkové a šestnáctkové bázi.
Při testování rychlosti konvergence vycházejí nejlépe Chudnovskyho algoritmus a Gauss-Legendreho algoritmus. Na základě výsledků získaných při vyšetřování normality je možné říci, že zkoumané aproximace jsou normální čísla.
Tato bakalářská práce se zabývá Problémem čínského listonoše, konkrétně jeho neorientovanou a orientovanou variantou. Problém čínského listonoše je optimalizační úloha z teorie grafů. V úvodu je tento problém rozebrán spolu se zavedením definic pojmů používaných v následujících částech práce. Obě varianty problému jsou rozděleny do jednotlivých kroků. Pro každý dílčí krok jsou popsány algoritmy, které ho řeší. V implementační části práce jsou algoritmy implementovány a spojeny do komplexního řešení Problému čínského listonoše. Algoritmy jsou následně paralelizovány pomocí knihovny OpenMP. Jednotlivé implementace algoritmů jsou testovány a porovnány mezi sebou.
Řešení systému lineárních rovnic metodou Gauss-Jordan na GPU s CUDA.
Porovnání doby provedení implementace na GPU s implementací na CPU.
Porovnání implementace Gauss-Jordan na GPU s implementací knihovny cuSOLVER.
Tato práce má za prozkoumat vlastnosti řešení soustav lineárních rovnic s~ne\-přesnou pravou stranou reprezentovanou pomocí náhodných veličin. Následně je porovnává s výsledky, které dává intervalová aritmetika. Výpočet je prováděn pomocí Gaussovy eliminační metody. Cílem práce je zjistit, zdali je možno za určitých předpokladů zpřesnit výsledky intervalové aritmetiky. Ukazuje se však, že ač v těchto netradičních přístupech dochází ke zlepšení přesnosti, toto je vykoupeno v praxi naprosto zničujícím nárůstem výpočetní složitosti.
Tato práce se zabývá datovou strukturou vyhledávací strom, především jejími typy. V práci je detailně popsán vyhledávací strom, jednotlivé typy vyhledávacích stromů, jejich výhody, nevýhody, vlastnosti a příklady využití.
Literární rešerše se zabývá popisem a rozborem typů vyhledávacího stromu, praktická část práce navazuje na rešerši implementací uvedených typů v jazyku C++, přípravou dat, pomocí kterých budou implementace testovány, a porovnáním výkonností jednotlivých implementací. Výkonnost implementací uvedených typů je měřena pro připravená data, připravené scénáře a náhodná data na univerzitním výpočetním svazku STAR.
Vytvořené implementace dosahují v porovnání s implementacemi z knihoven C++ podobných, v některých případech i lepších, výsledků. Porovnání také ukazují případy, v kterých je vhodné typy využít nehledě pouze na asymptotické složitosti.
Tato bakalářská práce se zabývá návrhem, implementací a otestováním kalkulačky několika největších vlastních čísel velkých řídkých nesymetrických reálných matic. Literární rešerše se proto zabývá popisem restartované Arnoldiho metody. Výpočetní část implementuje implicitně restartovanou Arnoldiho metodu. Kalkulačka je implementována v programovacím jazyce C++. Implementovaná kalkulačka poskytuje pro své řešení rozhraní přes příkazovou řádku společně s jednoduchým grafickým uživatelským rozhraním, které využívá framework Qt.
Tato bakalářská práce se zabývá rozšiřováním balíčku ParaCell o novou výpočetní metodu přizpůsobenou k optimalizaci kvality indexace a to za pomocí opravy chyby posunutí nuly (zeroshift error) před samotnou indexací difrakčních dat. Metoda byla poté otestována na řadě dat z každé krystalické soustavy a na testovacích datech dosáhla vysoké úspěšnosti, ale za možnou cenu vysoké výpočetní náročnosti. Dále se práce zabývá optimalizací indexační metody MGLS a na základě výsledků vytvoření její efektivnější varianty.
Cieľom tejto bakalárskej práce je preskúmať efektivitu a následky riešenia systémov lineárnych rovníc s nepresnou pravou stranou. Tá je reprezentovaná náhodnými veličinami a výsledky sú porovnávané s použitím intervalovej aritmetiky. Riešiče implementujeme použitím Gaussovej eliminačnej metódy a tiež Gauss-Seidelovej iteračnej metódy. Cieľ je porovnať výkon týchto metód a skúmať ich použiteľnosť s týmito reprezentáciami. Napriek tomu, že presnosť informácie o skutočnej hodnote sa zvyšuje pomocou oboch metód pri použití náhodnej premennej, taktiež sa zvyšuje náročnosť a čas výpočtov. Najlepšie výsledky v rámci rýchlosti a presnosti vykazuje použitie Gaussovej eliminačnej metódy s pivotáciou. Gauss-Seidelova metóda generuje podobne presné intervaly za niekoľkonásobný čas.
Výstupem práce je studie proveditelnosti zefektivnění výpočtu přenosu tepla v budovách společnosti Rekom,~v.~d. Konkrétně návrh opatření na optimalizaci stávajícího řešení v MS Excel či návrh nového řešení ve zvolené platformě. Součástí práce je ekonomicko-provozní zhodnocení současného a navrhovaného řešení. Práce se zpočátku zabývá přiblížením problematiky výpočtu distribuce tepla v budovách a zhodnocením stávající implementace. Na základě získaných informací vylučuje možnost rozvoje stávajícího řešení. Poté vybírá skupinu programovacích jazyků vhodných pro novou implementaci výpočtu, které porovnává s ohledem na rychlost a jejich možnosti. Jako nejvýhodnější byla zvolena implementace nového řešení v jazyce C++. Z analýzy nákladů a výnosů bylo zjištěno, že investice do nového systému se vyplatí již během prvního roku po nasazení. Výsledek této práce umožňuje společnosti Rekom,~v.~d. zvýšit efektivitu procesů ve společnosti bez rizika zmařené investice.
Implementace shlukovaciho algoritmu K-means na vicevláknové platformě pomoci OpenMP a na
GPU pomoci technologie CUDA. Porovnáni doby prováděni implementace CUDA s vicevláknovými
a sekvenčnimi implementacemi na CPU.
Cílem této práce je zabývat se sekvenčními optimalizacemi algoritmu Timsort a jeho paralelizací pomocí OpenMP. Nově vzniklé algoritmy jsou otestovány a porovnány se základní verzí Timsortu a dalšími vybranými řadícími algoritmy. Toto testování je prováděno na školním serveru STAR určenému k objektivnímu testování paralelních algoritmů. Veškerá implementace je v jazyce C++.
Nezáporná faktorizace matic je metoda maticové faktorizace, která data reprezentuje v prostoru nižšího řádu. Tato reprezentace může být využita při kompresi obrázků. Algoritmy pro výpočet tohoto rozkladu potřebují nějaké prvotní nastavení, tato práce se zabývá problémem hledání tohoto prvotního nastavení, které vyústí v co nejlepší možnou kvalitu komprimovaného obrázku. Navrhli jsme neurální model NMFNet, který takové prvnotní nastavení najde a tento model jsme porovnali s technikami běžně používanými v praxi. Pro toto porovnání byly zvoleny 3 techniky: náhodná inicializace, NNDSVD inicializace a K-means shlukování. Bylo ukázáno, že náš model má dobré výsledky ve srovnání s těmito technikami.
Tato práce se zabývá implementací zabezpečeného lock-down systému umožňující zobrazení pouze prohlížeče s definovanými povolenými doménami využívající běžnou Linuxovou distribuci. První část obsahuje analýzu existujících řešení. Druhá část se zabývá analýzou vhodné Linuxové distribuce a výběrem nástrojů pro zabezpečení systému. Třetí část popisuje realizaci systému včetně automatických skriptů pro nastavení prostředí. Čtvrtá část obsahuje testování prostředí a skriptů. Poslední část srovnává vlastní řešení s již existujícími.
Tato práce zkoumá možnosti vylepšení populární techniky vykreslování textu, která je hojně používaná ve 3D aplikacích a počítačových hrách. Předkládá univerzální a efektivní metodu konstrukce vícekanálového pole vzdáleností pro vektorové obrazce, zejména znaky písem, a popisuje jeho použití při vykreslování se zvýšenou kvalitou.
Tato diplomová práce se zabývá možnostmi využití GPGPU pro šachovou AI. Práce obsahuje rešerši existujících předních šachových AI. Další součástí práce je analýza typických algoritmů pro hry dvou hráčů a diskuze možností jejich použití pro šachovou AI využívající GPU. Hlavním obsahem práce je návrh, implementace a testování proof-of-concept šachové AI využívající GPU.
Práce si klade za cíl navrhnout online službu renderovací farmy za využití výkonu školních počítačů, které jsou většinu času nevyužity. Práce prozkoumává požadavky kladené na tuto službu, nabízenou sílu vybraných školních počítačů a způsoby jak nárazově využívané počítače zařadit do render farmy bez omezení jejich uživatelů. Výsledkem je prototypová implementace pod názvem FITRender, která umožňuje zpracování zadaných scén modulárním propojením několika softwarových celků. Do budoucna práce navrhuje četná zlepšení s výhledovým cílem službu nasadit pro využívání studenty ČVUT.
Práce popisuje návrh, implementaci a měření rychlosti paralelní algoritmů pro řešení soustav lineárních rovnic a nerovnic. Algoritmy jsou implementovány v programovacím jazyce C/C++ s využitím knihovny OpenMP pro paralelizaci. Část práce se věnuje známým algoritmům, které tyto soustavy řeší.
Cílem této diplomové práce je analyzovat nejnovější HEVC video kompresní formát a jeho porovnání a alternativami jako jsou H.264 a VP9. Část práce je zaměřena na programování aplikace vyhodnocující kvalitu videa, která je akcelerována na GPU za použití technologií CUDA a OpenCL.
V první části práce jsou diskutovány hlavní vlastnosti HEVC. Tato část slouží ke správnému porozumění slabých a silných stránek HEVC.
Následně jsou identifikovány způsoby využití GPU pro akceleraci porovnání videa. Aplikace pro vyhodnocování kvality používá knihovnu FFmpeg pro enkódování/dekódování videa.
Poslední část je zaměřena na testování na více GPU, založené na datech z předchozí analýzy.
Závěrem, je diskutována efektivita použitých technologií pro akceleraci vyhodnocující kvality videa.
Cílem této práce je zhodnotit použitelnost CUDA technologie pro práci s velkými čísly. Byla implementována knihovna podobná knihovně GMP, ale místo na CPU probíhají výpočty na grafické kartě. Mezi podporované operace patří sčítání, odčítání a násobení velkých čísel a dále bitový posun a operace AND, OR a XOR. Násobení probíhá pomocí algoritmu využívajícího rychlé Fourierovy transformace. Knihovna byla porovnána s GMP knihovnou z hlediska přesnosti a zejména z hlediska výkonu.
Tato práce se zabývá zobrazením struktury krystalu ve 3D prostoru a kódováním
souboru, který obasahuje vstupní data. Práce má rozšírit dosud používaný
program JANA2006 a navrhnout vhodnejší kódování pro vstupní soubory
JANA2006. Tato práce poskytuje chronologický vývoj statistického kódování
a slovníkové komprese a principy, na kterých jsou tyto metody založeny. Dále
tato práce popisuje systémy pro tvorbu grafických aplikací a technologie pro
tvorbu GUI. V této práci popisujeme navržené kódování pro strukturu krystalu
a implementaci programu pro zobrazení molekuly krystalu ve 3D.
Práce je zaměřena na objektivní vyhodnocení kvality videa. V rámci této práce
jsou popsány metody jak porovnávat kvalitu různých verzí jednoho videa.
Vybral jsem několik různých způsobů porovnávání kvality videa, tyto metody
jsem následně implementoval. Pomocí mnou implementovaných metod jsem
také změřil různé kodeky za cílem jejich vzájemného porovnání.
Tato práce pojednává o řadících algoritmech quicksort, mergesort a radixsort. V první části je popsána jejich sekvenční varianta. Následně je provedena paralelizace algoritmů pomocí technologie OpenMP. Implementace těchto algoritmů je poté ještě upravena i pro efektivní běh pod nVidia CUDA. V další kapitole popisuji svou implementaci těchto algoritmů. Na konci je provedeno měření a porovnání s jinou podobnou implementací od jiného autora.
Tato diplomová práce se zabývá pokročilými algoritmy pro řešení soustav lineárních intervalových rovnic. Metody použité pro řešení těchto soustav jsou Gaussova eliminace, Modifikovaná Gaussova eliminace a metoda HBR. Porovnává tyto algoritmy z hlediska přesnosti výsledného řešení a rychlosti řešení. Také se zabývá možností paralelizace těchto algoritmů pomocí knihovny OpenMP.
Práce se zabývá časováním filmových titulků pomocí otisků získaných ze zvukové
stopy. Součástí je analýza existujících titulkových formátů a problémů
s jejich synchronizací s videem, popis existujících řešení těchto problémů a návrh formátu, ve kterém jsou titulky časovány primárně pomocí zvukových
otisků. K tvorbě a porovnávání zvukových otisků je použita technologie Waveprint.
Práce se dále zabývá akcelerací tvorby otisků na GPU pomocí CUDA.
Výstupem je jednoduchý video přehrávač, který umožňuje přehrávat video společně
s navrženým titulkovým formátem. V závěru se práce věnuje možnostem
použití tohoto formátu pro promítání titulků souběžně s filmovou projekcí.
Tato práce se zabývá virtualizaci grafických karet na cloudové platformě Openstack. Práce se také zaměřuje na implementaci komponenty Openstacku, která
virtuálnim strojům dynamicky přiděluje grafické karty po omezeně dlouhou dobu.
Algoritmus nezáporného rozkladu matic byl úspěsně použit pro mnoho různých problémů, které souvisí s analýzou velkého množství dat a z nich plynoucích souvislostí. Využívá se např. pro rozpoznávání obličejů, separaci signálů či kompresi obrázků.
Cílem této práce je prozkoumat možné využití nezáporného rozkladu matic pro ztrátovou kompresi zvuku. Bude naprogramován referenční kodér a dekodér zvuku využívajicí NMF, a s ním budou potom provedeny různé experimenty. Výsledky budou změřeny a srovnány vůči existujícím nástrojům pro kompresi zvuku.
Tato práce popisuje proces vytvořeni nového backendu pro architekturu DLX
pomoci LLVM kompilátoru. Procházi všemi nezbytnými součástmi tvorby
nového backendu pro kompilátory, jako napřilkad výběr instrukci nebo přiřa-
zeni registrů a popisuje je v rámci LLVM. Analyzuje, jak optimalizace fun-
guji v systému LLVM a implementuje několik optimalizaci vhodných pro tuto
architekturu, napřiklad plánováni instrukci. Výsledkem této práce je nový
LLVM backend s optimalizacemi pro architekturu DLX, který může být použit
pro kompilaci určitých vyššich programovacich jazyků do DLX assembly kódu.
Tato práce se zabývá tím, jak sloučit násobení řídké matice vektorem a násobení transponované matice vektorem do jediné operace, která se jmenuje spojené násobení řídké matice vektorem (SpMMTV). Dále se zabývá paralelizací této sloučené operace. Paralelní SpMMTV lze využít ke zrychlení metody bikonjugovaných gradientů, což je iterativní algoritmus pro řešení rozsáhlých řídkých soustav lineárních rovnic. Práce zkoumá stávající formáty pro ukládání řídkých matic a stávající přístupy paralelního SpMMTV. Je vyvinuta a podrobně popsána implementace SpMMTV pro vícejádrové procesory na systémech se sdílenou pamětí. U vyvinutých implementací jsou diskutovány možnosti optimalizace. Některé z diskutovaných optimalizací jsou rovněž implementovány. Jsou porovnány výkonnosti výsledných implementací SpMMTV a srovnány s implementací založenou na knihovně Intel Math Kernel Library.
Tato magisterská práce analyzuje potenciál komprese obrazu pomocí faktorizace nezáporných matic, matematické metody, která faktorizuje matici obsahující nezáporné elementy do dvou faktorů. Jelikož tato technika pouze aproximuje matici a není přesnou faktorizací, dochází ke ztrátě informací. Z toho důvodu lze chápat tuto metodu také jako ztrátovou kompresní metodu. V práci jsou navržena tři kompresní schémata, založena na různých barevných modelech a zároveň jsou tato schémata otestována. Nejlepší kompresní schéma je také porovnáno s JPEG kompresní metodou. Výsledky ukazují, že ačkoliv tyto metody nedosahují lepších kompresních poměrů, ztráta informace dovede být nižší a kvalita obrazu tedy vyšší, než v případě JPEGu. Práce zároveň navrhuje další možná vylepšení, která by mohla vylepšit kompresní poměry a kompresní časy.
Tato diplomová práce se zabývá implementaci základu knihovny pro práci s řidkými maticemi. Dále je obsažena implementace a optimalizace masivně paralelizovaného násobeni matic na GPU za využiti technologie CUDA.
Práce také slouži k poskytnuti vhledu do problematiky násobeni matic, řidkých matic a efektivni implementace algoritmů v technologii CUDA obecně.
V této práci se zabývám faktorizačním algoritmem, který využívá eliptických křivek, jinak známý také jako Lenstrův algoritmus. Analyzuji a porovnávám tento algoritmus nad dvěma modely eliptických křivek, kterými jsou Weierstrassův a Edwardsův model, za použití projektivního souřadnicového systému. V první části zavedu matematické pojmy, které jsou nutné pro pochopení popisovaného algoritmu společně s popisem modelů eliptických křivek. Následně popíši kryptosystém RSA, který je založen na problému faktorizace. V další části se zaměřuji na Lenstrův algoritmus, který detailněji popíši. Na závěr jsou uvedeny možnosti implementace s některými vylepšeními a paralelizací Lenstrova algoritmu společně s výsledky měření.
Tato práce se zabývá zpracováním dat získaných pomocí metody práškové difrakce. Konkrétně se zabývá jednou z metod indexace těchto dat, ITO. Práce obsahuje základní pojmy z oblasti krystalografie a s ní spjatou metodou práškové difrakce. Dále obsahuje popis metody ITO a také její implementace do programu ParaCell a výsledky jejího testování.
Diplomová práce se zabývá faktorizací čísel pomocí algoritmu kvadratického síta a některých jeho modifikacích. V teoretické části práce je detailní popis těchto algoritmů. V praktické části práce je popsaná jejich implementace v jazyce C++ a paralelizace pomocí openMP a MPI. Implementované metody jsou otestovány na fakultním serveru STAR a výsledky navzájem porovnány.
Cílem práce bylo prozkoumat možnosti distribuovaného násobení řídké matice vektorem několika
procesy s použitím MPI a CSR5. Výsledkem tohto výzkumu je C++ knihovna \texttt{dim}, která poskytuje potřebné
stavební bloky pro distribuované násobení řídkých matic vektorem za pomoci formátu CSR5. Potencionálni zrychlení
distribuovaného násobení řídké matice vektorem pak bylo meřeno na implementaci metody konjugovaných gradientů
a porovnávano s jednoprocesovou implementací založenou na CSR5 i distribuovanou implementací pomocí PETSc.
V této práci je řešena problematika detekce trajektorie tenisového míčku, kurtu, hráčů a událostí (úder, dopad apod.) v televizním záznamu tenisového utkání. Práce předpokládá vyznačení začátku a konce tenisové výměny uživatelem a omezuje se na dvouhru. Řešení je vyhodnoceno z hlediska výpočetního času a správnosti detekovaných událostí. Řešení pracuje na testované hardwarové konfiguraci rychlostí 0,68 snímku za sekundu. Pro kategorie událostí úder a servis rozlišovaných dle hráče a dopad rozlišovaný dle poloviny hřiště je dosaženo u metriky F_1 hodnoty přes 85 % při vzdálenosti mezi predikcí a skutečnou událostí do 5 snímků.
V této diplomové práci je představena nová verze paralelniho in-place Quicksort algoritmu MPQ-
sort pro řazeni poli, s využitim OpenMP pro paralelizaci. Dosavadni implementace využivaji
pro rozdělováni pouze jednoho pivota. MPQsort implementuje paralelni vicecestné rozdělováni
a jedná se o prvni algoritmus svého druhu. V práci jsou diskutována sekvenčni vicecestná
rozdělováni, následně paralelni dvoucestná rozdělováni a na jejich základě navržena a imple-
mentována paralelni vicecestná varianta. Poté je provedeno experimentálni vyhodnoceni efek-
tivity algoritmu a porovnáni s existujicimi implementacemi. V experimentech MPQsort dosa-
huje dobrých výsledků a z uvažovaných algoritmů se umistil na druhém mistě v oblasti řazeni
náhodných čisel. Naopak v připadě jiných typů uspořádáni dat dosahuje i nejlepšich výsledků.
Práce se zabývá paralelním násobením řídkých matic a obsahuje analýzu a porovnání výkonu vlastního implementovaného algoritmu v OpenMP s existujícími algoritmy. Byly popsány již existující algoritmy a jejich postupy a optimalizace, díky kterým dokáží dosáhnout svých časů. Tyto myšlenky byly použity ve vlastní implementaci. Pro porovnání byla provedena sada měření, při kterých byly testovány různé matice ze souboru matic SuiteSparse. Naměřené výsledky byly poté analyzovány a porovnány, aby se zjistila relativní efektivita implementovaného algoritmu v porovnání s existujícími algoritmy.
Tato práce se zabývá refaktorizací a rozvojem stávající aplikace ParaCell, která slouží k indexaci výsledků v práškové difrakci. V práci je představena problematika a je analyzován aktuální stav aplikace, která je následně rozšířena a přepracována. Hlavními přínosy jsou navržení a implementace grafického rozhraní ve frameworku Qt, přepracování stávajícího CUDA kódu do alternativních technologií Vulkan a OpenCL a flexibilní integrace sestavovacího nástroje CMake. Výsledná aplikace je zdokumentována a podrobena automatickému a uživatelskému testování.
Tato závěrečná práce je věnována problému konvexní obálky množiny bodů a algoritmům pro její výpočet. Hlavním úkolem této práce bylo navrhnout novou verzi algoritmu Quickhull, která využívá "crawlery" ve fázi předzpracování, a porovnat její výkonnost k výkonnosti algoritmu Quickhull, algoritmu Concurrent Hull, a jiným implementacím řešičů problému konvexní obálky množiny bodů. Pro splnění tohoto zadání jsme analyzovali problém konvexní obálky množiny bodů a algoritmy navržené pro její výpočet. Následně jsme navrhli a implementovali algoritmus Quickhull, algoritmus Concurrent Hull, a nový algoritmus Quickhull with Crawlers pro výpočet na CPU pomocí OpenMP API, a pro výpočet na GPU pomocí CUDA API a knihovny Thrust. Pro zhodnocení kvality našich implementací jsme změřili jejich výkonnost na vstupech vygenerovaných generátory vstupních bodů, které jsme navrhli a implementovali. Následně jsme porovnali výkonnost našich implementací mezi sebou, a s již existující knihovnou Qhull. V závěru této práce jsme navrhli možnosti pro budoucí vývoj našich implementací, a nápady pro další výzkum v oboru problému konvexní obálky množiny bodů.
Tato práce se snaží umožnit faktorizaci pomocí Pollardova Rho a Lesntrova algoritmu pro faktorizaci pomocí eliptických křivek na grafických procesorech s libovolnou přesností. Práce popisuje vytvořené implementace od počáteční sekvenční verze, přes její adaptaci na vícevláknové řešení pomocí OpenMP, a nakonec po implementace pro GPU s využitím CUDA a Apple Metal API. Pro dosažení faktorizace s libovolnou přesností na GPU je vytvořena nová multiplatformní knihovna pro aritmetiku celých čísel pro Metal a CUDA API. Práce zhodnocuje a komentuje naměřené výkonnostní rozdíly mezi implementovanými řešeními a rozdíly mezi variantami pro CPU, CUDA a Metal API. Práce poskytuje také srovnání s existujícími významnými řešeními ve světě celočíselné faktorizace.
Tato práce obsahuje teoretický rozbor DFT, FFT a Cooley-Tukey algoritmu. Obsahuje rozbor způsobů paralelizace a vlastností paralelních architektur a hlubší popis vývojové platformy CUDA pro použití grafických karet Nvidia pro obecné výpočty. Následně popisuje postup vývoje implementace FFT při použití platformy CUDA a rozebírá jednotlivé použité optimalizace. Závěrem popisuje měření výkonnosti a porovnávání jednotlivých implementovaných optimalizací a srovnává výslednou verzi programu s existujícími knihovnami pro výpočet DFT.
V této diplomové práci je představen PPQSort, inovativni paralelni Quicksort algoritmus, který poskytuje excelentni výkon a cili na snadné použiti. PPQSort je implementován pouze na základě vláken jazyka C++, tedy bez použiti externich knihoven a nestandardnich rozšiřeni. Diky tomu PPQSort umožňuje bezproblémové nasazeni v různých výpočetnich prostředich. Práce popisuje nové optimalizace quicksortu, které PPQSort využivá, jako je paralelni rozdělováni bez větveni a jejich efektivni implementaci. Práce dále prezentuje rozsáhlou srovnávaci analýzu algoritmu PPQSort oproti stávajicim paralelnim Quicksort algoritmům na různých strojich a s různými vstupnimi daty. Výsledky experimentálniho vyhodnoceni ukazuji, že PPQSort je rychlý a robustni a trvale překonává nejrychlejši existujici paralelni implementace Quicksortu na všech vstupech, často v průměru o 50%.