RNDr. Daniel Zeman, Ph.D. (externí spolupracovník)

www: http://ufal.mff.cuni.cz/~zeman/
instituce: MFF UK
 
rozvrh
předmět kód vyučující zs ls zs kr. ls kr.
Počítače a přirozený jazyk 1, 201POPJ12 Bojar, Zeman 0+2 z 0+2 z 2 2
Předmět:Počítače a přirozený jazyk 101POPJ1Mgr. Zeman Daniel0+2 Z-2-
Anotace:Základní kurz počítačového zpracování a porozumění přirozenému jazyku. Budou probrány metody automatické morfologické a syntaktické analýzy včetně moderních statistických metod zjednoznačnění výsledku. Dvojúrovňová morfologie, značkování a jazykové modely, Viterbiho algoritmus, gramatiky, chart parsing, pravděpodobnostní gramatiky.
Osnova:1. Úvod, přehled aplikací.
2. Programovací jazyk Perl.
3. Korpusy, první aplikace.
4. Lingvistická terminologie, roviny zpracování přirozeného jazyka.
5. Vyhodnocení úspěšnosti.
6. Slovníky a morfologické značky.
7. Dvojúrovňová morfologie, morfonologie. 8. Morfologie a bezkontextové gramatiky.
9. Morfologie a unifikační gramatiky.
10. Značkování (zjednoznačnění výsledků morfologické analýzy).
11. Kontrola pravopisu.
12. Složková syntaxe.
13. Závislostní syntaxe.
Osnova cvičení:
Cíle:Znalosti:
Základní metody zpracování textu v přirozeném jazyce od tokenizace po úroveň syntaktické analýzy.

Schopnosti:
Implementovat některé z nich v jazyce Perl. Pracovat s anotovanými korpusy a existujícími volně dostupnými nástroji, jako jsou taggery a parsery.
Požadavky:
Rozsah práce:Student naprogramuje v Perlu řešení některé úlohy související se zpracováním textů v přirozeném jazyce. V některých případech bude těžištěm práce s již existujícím volně dostupným nástrojem (včetně jeho stažení, instalace a rozchození na stroji, na který má student přístup); v takovém případě budou studentovy skripty v Perlu dotyčný nástroj obalovat a doplňovat, aby bylo možné nástroj nasadit na data, která student dostane k dispozici, popř. aby bylo možné z dat získat odpovědi na doplňující otázky apod. Součástí úlohy může být i vyhodnocení úspěšnosti na testovacích datech. Student svůj program předvede a práci popíše v závěrečné prezentaci ke konci semestru. Zápočet se udílí za úspěšnou implementaci a prezentaci řešení.
Kličová slova:Zpracování přirozeného jazyka, anotovaný korpus, tokenizace, morfologická analýza, dvojúrovňová morfologie, značkování, bezkontextová gramatika, unifikační gramatika, syntaktická analýza, závislostní syntax.
Literatura:Povinná literatura:
[1] James Allen: Natural Language Understanding. The Benjamin/Cummings Publishing Company, Inc.; Redwood City, California,1994. ISBN 0-8053-0334-0.

Doporučená literatura:
[2] Larry Wall, Tom Christiansen, Randal Schwartz: Programming Perl. O'Reilly, 1996. ISBN 1-56592-149-6. http://www.perl.com/
[3] Adolf Erhart: Základy jazykovědy. Státní pedagogické nakladatelství; Praha, 1990
[4] Richard Sproat: Morphology and Computation. Massachusetts Institute of Technology; Cambridge, Massachusetts, 1992. ISBN 0-262-19314-0.
[5] Jan Hajič: Unification Morphology Grammar (doktorandská práce). Univerzita Karlova, Praha, 1994
[6] Stuart Shieber: An Introduction to Unification-based Approaches to Grammar. CSLI Lecture Notes No. 4, Stanford, California, 1986
[7] Sandra Kübler, Ryan McDonald, Joakim Nivre: Dependency Parsing. Morgan and Claypool Publishers; 2009. ISBN 978-1-59829596-2.
[8] Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing. The MIT Press, Cambridge, Massachusetts, 1999. ISBN 0-26213-360-1.

Studijní pomůcky:
Počítačová učebna s přístupem na internet a k linuxovým strojům, programovací jazyk Perl 5.8 nebo vyšší, dataprojektor.

Předmět:Počítače a přirozený jazyk 201POPJ2Mgr. Bojar Ondřej / Mgr. Zeman Daniel-0+2 Z-2
Anotace:Cílem předmětu je seznámit studenty se širokou problematikou strojového překladu. Strojový překlad je úlohou, na níž lze velmi názorně ilustrovat obtížnost a techniky modelování systémů složitých jako přirozený jazyk. Podrobně probereme několik velmi odlišných přístupů k této úloze i otázky strojového a lidského hodnocení kvality překladu.
Osnova:1. Metriky kvality strojového překladu (lidské i automatické).
2. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"). Frázový překlad.
3. Paralelní texty, jejich zarovnání a extrakce "překladových slovníků" a pravidel z paralelních dat.
4. Morfologické předzpracování, frázový překlad o více faktorech.
5. Optimalizace parametrů log-lineárního modelu.
6. Složková syntax ve strojovém překladu, překlad založený na parsingu.
7. Závislostí syntax ve strojovém překladu.
8. Hloubková syntax ve strojovém překladu.
9. Prezentace vlastních příspěvků.
Osnova cvičení:
Cíle:Znalosti:
Přehled o přístupech ke strojovému překladu (statistický frázový a hierarchický, stromové modely, hloubkově-syntaktický překlad), loglineární model a jeho optimalizace, prohledávání prostoru částečných hypotéz. Metody strojového a ručního hodnocení překladu.

Schopnosti:
Použití některé z probraných metod na konkrétní jazyková data. Navrhnout vlastní experiment a použít rozsáhlé volně šiřitelné nástroje k jeho realizaci. Vyhodnocení experimentu a srozumitelná prezentace psanou i mluvenou formou.
Požadavky:
Rozsah práce:Studenti si samostatně nebo v dvou- až čtyřčlenných skupinkách vyberou jedno z doporučených témat "projektu". Projekty jsou vždy experimentální povahy, cílem je vyhodnotit nějakou konkrétní techniku z oblasti strojového překladu, ev. navrhnout vlastní či rozšířit existující postup. (Např. automatické vyhodnocování kvality překladu a hledání chyb, identifikace částí vět těžkých pro strojový překlad, čištění paralelních dat, drobná rozšíření frázového překladového modelu ap.) Nedílnou součástí je prezentace projektu a jeho (předběžných) výsledků během semestru a cca čtyřstránková souhrnná zpráva ve formě vědeckému článku. Zápočet se udílí za dobře provedený experiment, jeho prezentaci a závěrečnou zprávu.
Kličová slova:Zpracování přirozeného jazyka, paralelní korpusy, strojový překlad, frázový překlad, hierarchický překlad, syntaktický překlad, vyhodnocování kvality strojového překladu.
Literatura:Povinná literatura:
[1] Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Doporučená literatura:
[2] Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
http://www.statmt.org/moses/
[3] Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.
http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
[4] Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
[5] Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.
[6] Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003.
http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
[7] Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
http://ufal.mff.cuni.cz/pbml/91/art-li.pdf


za obsah této stránky zodpovídá: Radek Fučík | naposledy změněno: 7.8.2011
Trojanova 13, 120 00 Praha 2, tel. 224 358 540, pevná linka 224 923 098, fax 234 358 643
České vysoké učení technické v Praze | Fakulta jaderná a fyzikálně inženýrská | Katedra matematiky