Popis předmětu - AD2M31ZRE
AD2M31ZRE | Zpracování řeči | ||
---|---|---|---|
Role: | Rozsah výuky: | 14KP+6KC | |
Katedra: | 13131 | Jazyk výuky: | CS |
Garanti: | Zakončení: | Z,ZK | |
Přednášející: | Kreditů: | 6 | |
Cvičící: | Semestr: | Z |
Webová stránka:
https://moodle.fel.cvut.cz/courses/AD2M31ZREAnotace:
Předmět je zaměřen na seznámení studentů magisterského studia s problematikou zpracování řečových signálů se zaměřením na použití v multimediálních aplikacích. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví (informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, apod.). Další informace lze nalézt na http://noel.feld.cvut.cz/vyu/ad2m31zre . Pro zapsané studenty jsou detailní informace na výukovém portálu http://moodle.kme.feld.cvut.cz .Výsledek studentské ankety předmětu je zde: AD2M31ZRE
Cíle studia:
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro různé analýzy řečového signálu. V rámci domácí přípravy studenti zpracují semestrální práci, kterou budou prezentovat na cvičení podle plánovaného harmonogramu.Osnovy přednášek:
1. | Úvod - řečový signál (digitální reprezentace), model vzniku řeči | |
2. | Základní charakteristiky řečového signálu včetně fonetických a artikulačních aspektů | |
3. | Spektrální charakteristiky řečového signálu (DFT a LPC spektrum) | |
4. | Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy | |
5. | Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči | |
6. | Principy rozpoznávání řeči, základní úlohy a jejich aplikace | |
7. | Extrakce příznaků pro účely rozpoznávání řeči | |
8. | Rozpoznávání řeči na bázi DTW a HMM s malým slovníkem (HTK) | |
9. | Diktovací a transkripční systémy (rozpoznávání spojité řeči s velkým slovníkem) | |
10. | Rozpoznávání mluvčího: verifikace a identifikace. | |
11. | Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA) | |
12. | Audio-visuální rozpoznávání řeči | |
13. | Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků) | |
14. | Rozpoznávání jazyka. Rezerva |
Osnovy cvičení:
1. | Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů | |
2. | Základní časové charakteristiky: energie, intenzita, průchody nulou, základní tón | |
3. | Spektrální charakteristiky: krátkodobé DFT a LPC spektrum, spektrogram | |
4. | Potlačování aditivního šumu v řečovém signálu | |
5. | Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace | |
6. | Zpracování řeči pro sluchové pomůcky a náhrady | |
7. | Kepstrum a kepstrální vzdálenost: detekci řečových úseků, příznaky pro rozpoznávání | |
8. | Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov | |
9. | Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem | |
10. | Verifikace mluvčího na bázi GMM | |
11. | Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů | |
12. | Prezentace semestrálních prací | |
13. | Prezentace semestrálních prací | |
14. | Rezerva. Zápočty |
Literatura:
[1] | Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007. | |
[2] | Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006. | |
[3] | Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001. |
Požadavky:
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.Poznámka:
Rozsah výuky v kombinované formě studia: 14p+6c |
Klíčová slova:
zpracování řeči, rozpoznávání řeči, zvýrazňování řeči, kódování řeči, syntéza řečiPředmět je zahrnut do těchto studijních plánů:
Plán | Obor | Role | Dop. semestr |
Stránka vytvořena 20.3.2025 17:50:56, semestry: Z,L/2025-6, Z,L/2024-5, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: I. Halaška (K336), J. Novák (K336) |