Objevování zajímavých znalostí v datech pomocí evolučních algoritmů
školitel: | Martin Holeňa |
e-mail: | zobrazit e-mail |
typ práce: | |
zaměření: | MI_MM, MI_AMSM, II_SIMI, II_TS, II_PRAK |
klíčová slova: | evoluční algoritmy, data mining, získávání pravidel z dat |
odkaz: | http://www.cs.cas.cz/~martin/diplomka24.html |
popis: | K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží v žádném běžném metrickém prostoru. K nejmodernějším metodám, které se pro optimalizaci na takových množinách používají, patří evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů. Právě využití genetických algoritmů k optimalizaci získávání pravidel z dat by mělo být náplní navržené diplomové práce. Student se nejdříve důkladně seznámí s principy evolučních algoritmů a zejména s jejich použitím při dobývání znalostí z dat. Současně si udělá celkový přehled o metodách získávání pravidel z dat a detailně se seznámí s některým ze systémů pro získávání znalostí z dat používaných při výuce dobývání znalostí z dat na českých vysokých školách (např. LISP-Miner, Ferda). V kontextu tohoto systému navrhne metodu optimalizace získávání pravidel z dat s využitím genetických algoritmů. Metodu implementuje pomocí systému Matlab a jeho Genetic Algorithm and Direct Search Toolbox. |
literatura: | viz http://www.cs.cas.cz/~martin/diplomka24.html |
poznámka: | šikovný student, který výborně zvládne tuto diplomovou práci, bude mít v případě zájmu možnost navázat na ni příbuzným tématem v doktorandském studiu |
naposledy změněno: | 20.11.2017 21:51:24 |
za obsah této stránky zodpovídá:
Ľubomíra Dvořáková | naposledy změněno: 12.9.2011