Pražský stringologický klub (PSC)

Efektivní vyhledávání řetězců pro Bioinformatiku

Program

Standardní projekty

Poskytovatel

Grantová agentura České republiky

Pracoviště

Katedra teoretické informatiky

Řešitelé

prof. Ing. Jan Holub, Ph.D.

Kód

GA19-20759S

Období

2019 - 2020

Popis

Index je způsob jak výrazně urychlit vyhledávání v datech, která máme k dispozici dopředu. Vytvořený index umožňuje vyhledávat vzorek v čase závislém na délce vzorku a počtu jeho výskytů. Cílem projektu je vyvinout nové algoritmy a datové struktury pro oblasti zpracovávající velká množství dat (DNA/RNA sekvence) umožňující složitější úlohy typu vyhledávání degenerativního či elastického vzorku. Přes existenci pokročilých technik pro indexu pro řetězce, stále existují výzvy v podobě speciálních typů úloh pro indexování velmi podobných řetězců (např. genomy jedinců stejného druhu), kde klasické indexační metody selhávají. Dále budou vyvinuty i metody pro online vyhledávání elastických vzorků.

Zpracování textových a stromových struktur a jejich aplikace

Program

Standardní projekty

Poskytovatel

Grantová agentura České republiky

Pracoviště

Katedra teoretické informatiky

Řešitelé

prof. Ing. Jan Holub, Ph.D.

Kód

GA13-03253S

Období

2013 - 2015

Popis

Projekt se zabývá výzkumem čtyř relativně úzce propojených oblastí: arbologií, kompresí přirozených jazyků a vybranými tématy ze stringologie a bioinformatiky. V oblasti arbologie zkoumáme nové indexovací a vyhledávací algoritmy na stromech. V bioinformatice pracujeme na řešení rychlého mapování miliónů krátkých sekvencí na DNA řetězec a indexování DNA řetězců. V oblasti komprese dat se zaměřujeme na výkonné algoritmy pro rychlou kompresi a dekompresi textu přirozeného jazyka a algoritmy pro rychlé vyhledávání v komprimovaném textu. Ve stringologii pracujeme na indexování 2D textu a na algoritmech pro identifikaci opsaných textů a zdrojových kódů, které mohou být navíc komprimované.

Analýza a zpracování řetězců a stromů

Program

Standardní projekty

Poskytovatel

Grantová agentura České republiky

Pracoviště

Katedra teoretické informatiky

Řešitelé

prof. Ing. Jan Holub, Ph.D.

Kód

GA201/09/0807

Období

2009 - 2011

Popis

Informační společnost používá výsledky vyhledávání každý den a jejich význam stále roste. Vyhledávání již není omezeno na obyčejné texty. Vyžaduje se vyhledávání ve složitějších strukturách jako jsou stromy (datové struktury pro XML), 2D obrázky nebo komprimovaná data. Navrhovaný projekt si klade za cíl nejen rozšířit naše výsledky v oblasti stringologie, ale také využít naše znalosti v relativně novém oboru vyhledávajícím ve stromech, který jsme nazvali arborologie. Ve stringologii bychom rádi pokračovali v tématech jako vícerozměrné vyhledávání, hledání pravidelností v textu, vyhledávání v zobecněných řetězcích a paralelní vyhledávání. V oblasti komprese dat jsme vyvinuli algoritmy vyhledávající v komprimovaném textu. Chceme zlepšit naše současné výsledky a zaměřit se také na přibližné vyhledávání v komprimovaných datech.

Projekty

Efektivní vyhledávání řetězců pro Bioinformatiku

Zpracování textových a stromových struktur a jejich aplikace

Analýza a zpracování řetězců a stromů