Přehled studia |
Přehled oborů |
Všechny skupiny předmětů |
Všechny předměty |
Seznam rolí |
Vysvětlivky
Návod
A2M31ZRE |
Zpracování řeči |
Role: | |
Rozsah výuky: | 2P+2C |
Katedra: | 13131 |
Jazyk výuky: | CS |
Garanti: | |
Zakončení: | Z,ZK |
Přednášející: | |
Kreditů: | 6 |
Cvičící: | |
Semestr: | Z |
Webová stránka:
https://moodle.fel.cvut.cz/courses/A2M31ZRE
Anotace:
Předmět je zaměřen na seznámení studentů magisterského studia s problematikou zpracování řečových signálů se zaměřením na použití v multimediálních aplikacích. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví (informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, apod.). Další informace lze nalézt na
http://noel.feld.cvut.cz/vyu/a2m31zre . Pro zapsané studenty jsou detailní informace na výukovém portálu
http://moodle.kme.feld.cvut.cz .
Výsledek studentské ankety předmětu je zde:
A2M31ZRE
Cíle studia:
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro různé analýzy řečového signálu. V rámci domácí přípravy studenti zpracují semestrální práci, kterou budou prezentovat na cvičení podle plánovaného harmonogramu.
Osnovy přednášek:
1. | | Úvod - řečový signál (digitální reprezentace), model vzniku řeči |
2. | | Základní charakteristiky řečového signálu včetně fonetických a artikulačních aspektů |
3. | | Spektrální charakteristiky řečového signálu (DFT a LPC spektrum) |
4. | | Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy |
5. | | Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči |
6. | | Principy rozpoznávání řeči, základní úlohy a jejich aplikace |
7. | | Extrakce příznaků pro účely rozpoznávání řeči |
8. | | Rozpoznávání řeči na bázi DTW a HMM s malým slovníkem (HTK) |
9. | | Diktovací a transkripční systémy (rozpoznávání spojité řeči s velkým slovníkem) |
10. | | Rozpoznávání mluvčího: verifikace a identifikace. |
11. | | Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA) |
12. | | Audio-visuální rozpoznávání řeči |
13. | | Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků) |
14. | | Rozpoznávání jazyka. Rezerva |
Osnovy cvičení:
1. | | Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů |
2. | | Základní časové charakteristiky: energie, intenzita, průchody nulou, základní tón |
3. | | Spektrální charakteristiky: krátkodobé DFT a LPC spektrum, spektrogram |
4. | | Potlačování aditivního šumu v řečovém signálu |
5. | | Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace |
6. | | Zpracování řeči pro sluchové pomůcky a náhrady |
7. | | Kepstrum a kepstrální vzdálenost: detekci řečových úseků, příznaky pro rozpoznávání |
8. | | Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov |
9. | | Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem |
10. | | Verifikace mluvčího na bázi GMM |
11. | | Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů |
12. | | Prezentace semestrálních prací |
13. | | Prezentace semestrálních prací |
14. | | Rezerva. Zápočty |
Literatura:
[1] | | Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007. |
[2] | | Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006. |
[3] | | Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001. |
Požadavky:
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.
Poznámka:
Rozsah výuky v kombinované formě studia: 14p+6c |
Klíčová slova:
zpracování řeči, rozpoznávání řeči, syntéza řeči, aplikace řečových technologií, audio-visuální rozpoznávání a syntéza
Předmět je zahrnut do těchto studijních plánů:
Plán |
Obor |
Role |
Dop. semestr |
Stránka vytvořena 14.5.2024 15:51:35, semestry: L/2023-4, Z/2024-5, Z/2023-4, připomínky k informační náplni zasílejte správci studijních plánů |
Návrh a realizace: I. Halaška (K336), J. Novák (K336) |