Popis předmětu - B4M36NLP
B4M36NLP | Úvod do zpracování přirozeného jazyka | ||
---|---|---|---|
Role: | Rozsah výuky: | 2P+2C | |
Katedra: | 13136 | Jazyk výuky: | CS |
Garanti: | Zakončení: | Z,ZK | |
Přednášející: | Kreditů: | 6 | |
Cvičící: | Semestr: | Z |
Webová stránka:
http://ufal.mff.cuni.cz/~zabokrtsky/tmp/fel/index.htmlAnotace:
V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými aplikacemi NLP, například strojovým překladem.Cíle studia:
Cílem je uvést studenty do problematiky zpracování přirozeného jazyka, běžně zahrnuté v computer science programech světových universit. Předmět bude vyučován odborníky z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Absolvování předmětu rovněž rozšíří stávající vhled studenta do oblasti umělé inteligence a strojového učení.Obsah:
Obsah předmětu tvoří čtyři na sebe navazující segmenty:a) | úvod, pravděpodobnostní modely, data pro NLP | |
b) | morfologická a syntaktická analýza | |
c) | strojový překlad | |
d) | vyhledávání informací. |
Osnovy přednášek:
1. | Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace. | |
2. | Jazykové modely a jejich vyhlazování. | |
3. | Skryté markovovské modely. | |
4. | Zdroje lingvistických dat, experiment v NLP. | |
5. | Morfologické značkování. | |
6. | Syntaktická analýza. | |
7. | Přehled přístupů ke strojovému překladu. | |
8. | Statistický strojový překlad. | |
9. | Lingvistické rysy ve strojovém překladu. | |
10. | Vyhledávání informací. | |
11. | Váhy termů. | |
12. | Klasifikace a shluková analýza dokumentů. | |
13. | Vektorové modely (word embeddings) | |
14. | Závěrečný písemný test |
Osnovy cvičení:
1. | Zpracování textu na příkazové řádce bash, základní nástroje. | |
2. | Kódování znaků národních abeced, jednoduchý korpus a jeho tokenizace. | |
3. | Výpočet jazykového modelu. | |
4. | Evaluační míry v NLP. | |
5. | Seznámení s Českým národním korpusem. | |
6. | Seznámení se syntakticky značkovanými korpusy. | |
7. | Práce s paralelním korpusem. | |
8. | Práce s překladovým systémem Moses. | |
9. | Moses, pokračování. | |
10. | Konstrukce indexu. | |
11. | Výpočet váhy termů. | |
12. | Klasifikace dokumentů. | |
13. | Vektorové modely. | |
14. | Závěrečný písemný test |
Literatura:
Elektronické studijní materiály dodané k jednotlivým přednáškám. Doporučená literatura nad rámec základních požadavků: Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999 Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010. Manning, C., Raghavan, P., Schuetze, H.:Introduction to Information Retrieval. Cambridge University Press, 2008.Požadavky:
Nejsou vyžadovány žádné speciální znalosti překračující obecný informatický základ. Výhodou je orientace studenta v pravděpodobnostních metodách a strojovém učení, nicméně všechny potřebné základní pojmy budou zopakovány na úvodních přednáškách. Z hlediska cvičení je nezbytností dobrá znalost alespoň jednoho programovacího jazyka použitelného v unixovém prostředí.Poznámka:
pecina |
Předmět je zamýšlen především pro studenty 1.ročníku magisterského studia (kteří budou případně upřednostněni při zápisu). Předmět bude vyučován odborníky z MFF UFAL: prof. RNDr. Jan Hajič, Dr. http://ufal.mff.cuni.cz/jan-hajic |
doc. Ing. Zdeněk Žabokrtský, Ph.D. http://ufal.mff.cuni.cz/zdenek-zabokrtsky |
doc. RNDr. Pavel Pecina, Ph.D. http://ufal.mff.cuni.cz/RNDr. Ondřej Bojar, Ph.D. http://ufal.mff.cuni.cz/ondrej-bojar |
RNDr. Daniel Zeman, Ph.D. http://ufal.mff.cuni.cz/daniel-zeman |
Pro případné zájemce je po dohodě možné též navštěvovat NLP předmety přímo na MFF : http://ufal.mff.cuni.cz/courses |
Klíčová slova:
zpracování přirozeného jazyka, natural language processing, NLPPředmět je zahrnut do těchto studijních plánů:
Plán | Obor | Role | Dop. semestr |
Stránka vytvořena 6.2.2023 17:50:41, semestry: Z,L/2022-3, L/2021-2, Z/2024-5, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: I. Halaška (K336), J. Novák (K336) |