Objevování zajímavých znalostí v datech pomocí evolučních algoritmů

školitel: Martin Holeňa
e-mail: zobrazit e-mail
typ práce:
zaměření: MI_MM, MI_AMSM, II_SIMI, II_TS, II_PRAK
klíčová slova: evoluční algoritmy, data mining, získávání pravidel z dat
odkaz: http://www.cs.cas.cz/~martin/diplomka24.html
popis: K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží v žádném běžném metrickém prostoru. K nejmodernějším metodám, které se pro optimalizaci na takových množinách používají, patří evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů. Právě využití genetických algoritmů k optimalizaci získávání pravidel z dat by mělo být náplní navržené diplomové práce. Student se nejdříve důkladně seznámí s principy evolučních algoritmů a zejména s jejich použitím při dobývání znalostí z dat. Současně si udělá celkový přehled o metodách získávání pravidel z dat a detailně se seznámí s některým ze systémů pro získávání znalostí z dat používaných při výuce dobývání znalostí z dat na českých vysokých školách (např. LISP-Miner, Ferda). V kontextu tohoto systému navrhne metodu optimalizace získávání pravidel z dat s využitím genetických algoritmů. Metodu implementuje pomocí systému Matlab a jeho Genetic Algorithm and Direct Search Toolbox.
literatura: viz http://www.cs.cas.cz/~martin/diplomka24.html
poznámka: šikovný student, který výborně zvládne tuto diplomovou práci, bude mít v případě zájmu možnost navázat na ni příbuzným tématem v doktorandském studiu
naposledy změněno: 12.10.2011 09:10:25

za obsah této stránky zodpovídá: Radek Fučík | naposledy změněno: 12.9.2011
Trojanova 13, 120 00 Praha 2, tel. 224 358 540, pevná linka 224 923 098, fax 234 358 643
České vysoké učení technické v Praze | Fakulta jaderná a fyzikálně inženýrská | Katedra matematiky