Adaptace modelů strojového učení pro nová data

školitel: Martin Holeňa
e-mail: zobrazit e-mail
typ práce:
zaměření: MI_MM, MI_AMSM, MINF, APIN
odkaz: http://www.cs.cas.cz/~martin/
popis: Díky velké popularitě, kterou v posledních 5-10 letech zažívají hluboké neuronové sítě, se do širšího povědomí dostala i možnost adaptovat již naučenou síť pro data nepříliš odlišná od těch, na kterých se učila. Připomeňme si krátce, o co jde: Množství dat, potřebné pro generalizaci naučeného modelu na celou populaci řídící se stejným rozdělením pravděpodobnosti jako trénovací data roste u všech modelů strojového učení, včetně mělkých a hlubokých sítí, s počtem parametrů modelu. A protože hluboké neuronové sítě typicky mívají hodně velké množství parametrů, bývá pro jejich trénování zapotřebí ohromné množství dat. Pokud je ale síť již natrénovaná, potom k jejímu přetrénování pro generalizaci na populaci z rozdělení podobného tomu, pro které byla trénována původní síť, stačí mnohem menší množství dat. Dobře známým příkladem je strojový překlad pomocí neuronových sítí, jako používá např. Google. Takové sítě se trénují na dvojicích tzv. paralelních vět, tj. vět v obou jazycích, které si navzájem odpovídají jako překlady. Pro trénování sítí, které mají překládat mezi dvěma hodně používanými světovými jazyky, takových dvojic existuje velké množství, ale pro trénování sítí překládajících mezi málo používanými jazyky jich je k dispozici jen málo. Nicméně například síť natrénovanou pro překlad mezi angličtinou a němčinou lze i pomocí malého počtu dvojic paralelních vět adaptovat pro překlad mezi angličtinou a jiným germánským jazykem. Tuto schopnost adaptace lze vysvětlit tím, že při učení se v síti zakóduje znalost rozdělení pravděpodobnosti, které generovalo trénovací data. Tato znalost platí do značné míry i pro podobná rozdělení a ke korekci jejího zakódování do zakódování znalosti podobného rozdělení stačí mnohem méně dat. V této souvislosti se používají pojmy přenos znalostí (knowledge transfer) a učení přenosem (transfer learning). Ty se však netýkají jen hlubokých neuronových sítí, ale i dalších metod strojového učení, a souvisí nejenom s hlubokým supervizovaným učením, ale i s dalšími typy učení, konkrétně se semisupervizovaným učením a s aktivním učením. Student si k tomuto rámcovému tématu může vybrat z několika konkrétních diplomových prací podle toho, jaké má zájmy v oblasti strojového učení i mimo ni a také podle toho, jestli pracuje radši s benchmarkovými nebo reálnými daty.
literatura: viz http://www2.cs.cas.cz/~martin/diplomka54.html
naposledy změněno: 16.09.2020 13:32:04

za obsah této stránky zodpovídá: Radek Fučík | naposledy změněno: 12.9.2011
Trojanova 13, 120 00 Praha 2, tel. 224 358 540, pevná linka 224 923 098, fax 234 358 643
České vysoké učení technické v Praze | Fakulta jaderná a fyzikálně inženýrská | Katedra matematiky