Objevování zajímavých znalostí v datech pomocí evolučních algoritmů

školitel: doc. Ing. RNDr. Martin Holeňa, CSc.
e-mail: zobrazit e-mail
typ práce: dizertační práce
zaměření: MI_MM, MI_AMSM, II_SIMI
popis: K nejrychleji se rozvíjejícím informačním technologiím patří od první poloviny 90. let dobývání znalostí z dat (data mining). Pod tímto názvem se skrývají metody, které z nepřehledné spousty primárních dat, s níž se dnes člověk musí prakticky ve všech oblastech potýkat, umožňují extrahovat přehledné množiny strukturovaných znalostí, v těchto datech latentně obsažených. Jedním z nejpoužívanějších způsobů strukturovaného vyjádření znalostí obsažených v datech jsou specifické typy logických tvrzení, tzv. pravidla. Dnes již existuje několik desítek metod pro extrakci pravidel z dat, pomocí nichž lze často získat velmi rozsáhlé soubory velmi rozmanitých pravidel. Tím se ztrácí původní účel dobývání znalostí z dat – nahradit velké množství dat malým množstvím důležitých znalostí. Z pravidel, která lze v datech nalézt, je proto nutné vybírat pouze ta, která jsou nejzajímavější nebo z nějakého jiného hlediska nejdůležitější. To vede na úlohu optimalizace na množině pravidel, tedy na diskrétní množině která neleží v žádném běžném metrickém prostoru. K nejmodernějším metodám, které se pro optimalizaci na takových množinách používají, patří evoluční algoritmy, zejména jeden jejich typ - genetické algoritmy. Jejich charakteristickým rysem je, že způsob, kterým se metoda přibližuje k hledanému optimu, je inspirován přirozeným výběrem ve vývoji biologických druhů, v případě genetických algoritmů potom speciálně mutacemi a křížením chromozomů. Právě využití genetických algoritmů k optimalizaci získávání pravidel z dat by mělo být náplní navržené práce.
literatura: Since the early 1990s, data mining belongs to the most quickly developing information technologies. This term covers methods that allow to extract, from unsurveyable amounts of primary data that one has to tackle in nearly all areas, surveyable sets of structured knowledge latently contained in those data. One of the most frequently used ways of a structured representation of knowledge contained in data are specific kinds of logical sentences, called rules. Nowadays, already several dozens of methods for rules extraction from data exist, by means of which very vast sets of very different rules can frequently be obtained. In this way, the original objective of data mining gets lost: to replace a large amount of data with a small amount of important knowledge. Therefore, it is necessary to choose only those from among the rules that can be found in the data that are the most interesting, or from some other point of view the most important. That leads to an optimization task on the set of rules, thus on a discrete set not lying in any common metric space. The most modern methods used for optimization on such sets include evolutionary algorithms, especially one kind of them genetic algorithms. A characteristic feature of evolutionary algorithms is that the way in which the method approaches the sought optimum has been inspired by the natural selection in the evolution of biological species, in the case of genetic algorithms then in particular by mutations and recombinations of chromosomes. It is the use of genetic algorithms for the opimization of obtaining rules from data that should be the topic of the proposed thesis.
naposledy změněno: 13.04.2013 18:29:47

za obsah této stránky zodpovídá: Ľubomíra Dvořáková | naposledy změněno: 12.9.2011
Trojanova 13, 120 00 Praha 2, tel. 224 358 540, pevná linka 224 923 098, fax 234 358 643
České vysoké učení technické v Praze | Fakulta jaderná a fyzikálně inženýrská | Katedra matematiky