Pražský stringologický klub (PSC)

Projekty

Efektivní vyhledávání řetězců pro Bioinformatiku

Program
Standardní projekty
Poskytovatel
Grantová agentura České republiky
Kód
GA19-20759S
Období
2019 - 2020
Popis
Index je způsob jak výrazně urychlit vyhledávání v datech, která máme k dispozici dopředu. Vytvořený index umožňuje vyhledávat vzorek v čase závislém na délce vzorku a počtu jeho výskytů. Cílem projektu je vyvinout nové algoritmy a datové struktury pro oblasti zpracovávající velká množství dat (DNA/RNA sekvence) umožňující složitější úlohy typu vyhledávání degenerativního či elastického vzorku. Přes existenci pokročilých technik pro indexu pro řetězce, stále existují výzvy v podobě speciálních typů úloh pro indexování velmi podobných řetězců (např. genomy jedinců stejného druhu), kde klasické indexační metody selhávají. Dále budou vyvinuty i metody pro online vyhledávání elastických vzorků.

Zpracování textových a stromových struktur a jejich aplikace

Program
Standardní projekty
Poskytovatel
Grantová agentura České republiky
Kód
GA13-03253S
Období
2013 - 2015
Popis
Projekt se zabývá výzkumem čtyř relativně úzce propojených oblastí: arbologií, kompresí přirozených jazyků a vybranými tématy ze stringologie a bioinformatiky. V oblasti arbologie zkoumáme nové indexovací a vyhledávací algoritmy na stromech. V bioinformatice pracujeme na řešení rychlého mapování miliónů krátkých sekvencí na DNA řetězec a indexování DNA řetězců. V oblasti komprese dat se zaměřujeme na výkonné algoritmy pro rychlou kompresi a dekompresi textu přirozeného jazyka a algoritmy pro rychlé vyhledávání v komprimovaném textu. Ve stringologii pracujeme na indexování 2D textu a na algoritmech pro identifikaci opsaných textů a zdrojových kódů, které mohou být navíc komprimované.

Analýza a zpracování řetězců a stromů

Program
Standardní projekty
Poskytovatel
Grantová agentura České republiky
Kód
GA201/09/0807
Období
2009 - 2011
Popis
Informační společnost používá výsledky vyhledávání každý den a jejich význam stále roste. Vyhledávání již není omezeno na obyčejné texty. Vyžaduje se vyhledávání ve složitějších strukturách jako jsou stromy (datové struktury pro XML), 2D obrázky nebo komprimovaná data. Navrhovaný projekt si klade za cíl nejen rozšířit naše výsledky v oblasti stringologie, ale také využít naše znalosti v relativně novém oboru vyhledávajícím ve stromech, který jsme nazvali arborologie. Ve stringologii bychom rádi pokračovali v tématech jako vícerozměrné vyhledávání, hledání pravidelností v textu, vyhledávání v zobecněných řetězcích a paralelní vyhledávání. V oblasti komprese dat jsme vyvinuli algoritmy vyhledávající v komprimovaném textu. Chceme zlepšit naše současné výsledky a zaměřit se také na přibližné vyhledávání v komprimovaných datech.

Za obsah stránky zodpovídá: doc. Ing. Štěpán Starosta, Ph.D.