Laboratoř otevřených dat

OpenDataLab je otevřená laboratoř, kterou jsme založili ve spolupráci s organizací Profinit EU. Je určena hlavně studentům, po domluvě ale mohou přijít i další zájemci o otevřená data. Naším hlavním cílem je nabídnout nápady, pomoc a zadání semestrálních a závěrečných prací studentům.

Více o nás

Aplikace

V laboratoři se zabýváme především zpracováním dostupných dat, kterých je velké množství, ale jejich využití pokulhává. V laboratoři budou vznikat nad těmito daty nové aplikace, analýzy a závěry usnadňující každodenní život. Zpracování těchto dat je tedy příležitost, jak ušetřit nebo zefektivnit stávající procesy a zlepšit život obyvatel.

Malou ochutnávku našich projektů najdete na GitHubu. Projekty jsou spojené například s  fakturami z ministerstev a dalších organizací, veřejnými zakázkami, nabídkovými cenami či pražskou integrovanou dopravou. Každým rokem však množství zveřejňovaných dat roste, existují datasety poskytnutých dotací solárních i evropských, datasety o počasí, volebních účastí, exekucí i mnoho dalších.

Vybavení

Studenti většinou pracují samostatně z domova či ze školy. Zároveň však máme pro studenty OpenDataLabu vyhrazena čtyři místa s monitory v International Business Center. Dále je možné využít naše interní GPU či využít výpočetní cluster ČVUT.

Čemu se laboratoř věnuje?

Publikace

Detekce anomálií v otevřených datech o znečištění ovzduší polétavým prachem

Autoři
Kuchař, J.; Podsztavek, O.
Rok
2019
Publikováno
DATA A ZNALOSTI & WIKT 2019. Košice: Technická univerzita v Košiciach, 2019. p. 66-71. ISBN 978-80-553-3354-0.
Typ
Stať ve sborníku
Anotace
Senzorická síť veřejného osvětlení na pražském Karlínském náměstí poskytuje měření znečištění ovzduší polétavým prachem PM10 jako otevřená data. V této práci v nich detekujeme anomálie pomocí algoritmů strojového učení pro predikci časových řad a prahování. Chceme, aby se algoritmus strojového učení naučil pravidelnosti v datech a pokud se stane něco neočekávaného, tak to prahováním odhalíme. Experimentovali jsme s lineární regresí a LSTM rekurentní neuronovou sítí, které jsme mezi sebou porovnávali střední kvadratickou chybou. Ukázalo se, že lineární regrese, která predikuje z posledních dvou měření, dosahuje lepších výsledků. Anomálie jsme detekovali z rozdílů predikovaných a skutečných hodnot. Práh pro detekování anomálií jsme vypočítali z histogramu rozdílů predikcí a skutečně naměřených hodnot. Testování ukázalo, že takto navržená metoda dokáže odhalit některé anomálie v měřeních polétavého prachu PM10, ale mnoho anomálií (například postupně nabíhajících) nedetekuje.

Kde nás najdete?

Laboratoř otevřených dat
Katedra softwarového inženýrství
Fakulta informačních technologií
České vysoké učení technické v Praze

Thákurova 7
Praha 6 – Dejvice
160 00

Laboratoř otevřených dat provozuje Fakulta informačních technologií ČVUT ve spolupráci se společností Profinit EU

International Business Center
Pobřežní 620/3
Praha 8

Kontaktní osoba

Ing. Jaroslav Kuchař, Ph.D.

Za obsah stránky zodpovídá: doc. Ing. Štěpán Starosta, Ph.D.