Objevování zajímavých znalostí v datech pomocí evolučních algoritmů

advisor: Martin Holeňa
e-mail: show e-mail
type:
branch of study: MI_MM, MI_AMSM, II_SIMI, II_TS, II_PRAK
key words: evoluční algoritmy, data mining, získávání pravidel z dat
link: http://www.cs.cas.cz/~martin/diplomka24.html
description: K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží v žádném běžném metrickém prostoru. K nejmodernějším metodám, které se pro optimalizaci na takových množinách používají, patří evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů. Právě využití genetických algoritmů k optimalizaci získávání pravidel z dat by mělo být náplní navržené diplomové práce. Student se nejdříve důkladně seznámí s principy evolučních algoritmů a zejména s jejich použitím při dobývání znalostí z dat. Současně si udělá celkový přehled o metodách získávání pravidel z dat a detailně se seznámí s některým ze systémů pro získávání znalostí z dat používaných při výuce dobývání znalostí z dat na českých vysokých školách (např. LISP-Miner, Ferda). V kontextu tohoto systému navrhne metodu optimalizace získávání pravidel z dat s využitím genetických algoritmů. Metodu implementuje pomocí systému Matlab a jeho Genetic Algorithm and Direct Search Toolbox.
references: viz http://www.cs.cas.cz/~martin/diplomka24.html
note: šikovný student, který výborně zvládne tuto diplomovou práci, bude mít v případě zájmu možnost navázat na ni příbuzným tématem v doktorandském studiu
last update: 20.11.2017 21:51:24

administrator for this page: Ľubomíra Dvořáková | last update: 09/12/2011
Trojanova 13, 120 00 Praha 2, tel. +420 770 127 494
Czech Technical Univeristy in Prague | Faculty of Nuclear Sciences and Physical Engineering | Department of Mathematics