Urychlení evolučních algoritmů pomocí transformerů

školitel: Martin Holeňa
e-mail: zobrazit e-mail
typ práce: bakalářská práce, diplomová práce
zaměření: MI_MM, MI_AMSM, MINF, APIN
odkaz: http://www.cs.cas.cz/~martin/
popis: Evoluční algoritmy jsou v posledních desetiletích jednou z nejúspěšnějších metod pro řešení netradičních optimalizačních problémů, jako např. hledání nejvhodnějších dokumentů obsahujících požadované informace, hledání nejvhodnějších materiálů s požadovanými vlastnostmi či další typy optimalizačních úloh, při nichž lze hodnoty cílové funkce získat pouze empiricky. Protože evoluční algoritmy pracují pouze s funkčními hodnotami optimalizované funkce, blíží s k jejímu optimu podstatně pomaleji než optimalizační metody pro hladké funkce, které využívají rovněž informace o gradientu optimalizované funkce, případně o jejích druhých derivacích. Tato vlastnost evolučních algoritmů je zvláště nepříjemná ve spojení se skutečností, že empirické získání hodnoty optimalizované funkce bývá někdy značně nákladné i časově náročné. Evoluční algoritmy však lze podstatně urychlit tím, že při vyhodnocování funkční hodnoty optimalizované funkce používají empirickou optimalizovanou funkci jen občas, zatímco většinou vyhodnocují pouze dostatečně přesný regresní model, sloužící jako její náhradní model. K nejstarším druhům náhradních modelů, které se začaly používat už před 20 i více lety, patřily i tradiční typy umělých neuronových sítí – vícevrstvé perceptrony a sítě s radiálními bázovými funkcemi. Naproti tomu moderní typy neuronových sítí, vyvíjené až v tomto století, byly doposud používány k náhradnímu modelování jen velmi málo nebo vůbec ne. Jedním z nejdůležitější typů moderních neuronových sítí jsou transformery, které se velmi osvědčily zejména s textovými a obrázkovými daty. Jejich nejvýznačnějším rysem je vyhodnocování korelace mezi daty použitými při trénování transformeru a daty, pro která má provádět predikce, pomocí specifické posloupnosti lineárních operátorů označované jako pozornost. Použití lineárních operátorů umožňuje transformerům trénovaným na velkém množství heterogenních dat výrazně zvýšit kvalitu predikce následným dotrénováním na malém množství dat specifických pro daný problém. Díky úspěšnosti transformerů bylo již navrženo použití transformerů i v optimalizaci, zatím ale ještě ne v roli náhradního modelu. Vyzkoušení tohoto přístupu je právě náplní navrhované práce.
literatura: viz https://www.cs.cas.cz/~martin/diplomka69.html
poznámka: Práce je primárně zamýšlená jako diplomová, ale pokud by někdo, kdo chce pokračovat z bakaláře do magistra, chtěl na tomto tématu pracovat od 3. až do 5. ročníku, rád mu seznámení s ním umožním už v bakalářce.
naposledy změněno: 03.07.2024 14:08:10

za obsah této stránky zodpovídá: Pavel Strachota | naposledy změněno: 9.9.2021
Trojanova 13, 120 00 Praha 2, tel. +420 770 127 494
České vysoké učení technické v Praze | Fakulta jaderná a fyzikálně inženýrská | Katedra matematiky