Popis předmětu - B2M31ZRE
| B2M31ZRE | Zpracování řeči | ||
|---|---|---|---|
| Role: | PV, P | Rozsah výuky: | 2P+2C |
| Katedra: | 13131 | Jazyk výuky: | CS |
| Garanti: | Pollák P. | Zakončení: | Z,ZK |
| Přednášející: | Pollák P. | Kreditů: | 6 |
| Cvičící: | Pollák P. | Semestr: | L |
Webová stránka:
https://moodle.fel.cvut.cz/courses/B2M31ZREAnotace:
Předmět je zaměřen na problematiku zpracování řečových signálů. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví, kde nejvýznamnější aplikace jsou informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, automatický hlasový výstup. V rámci předmětu studenti se studenti seznámí se základními algoritmy analýzy řeči (spektrální analýza, LPC, kepstrální reprezentace, základní tón, formanty, apod.), principy rozpoznávání řeči (GMM-HMM, ANN-HMM systémy, rozpoznávače s malým i velkým slovníkem), s rozpoznáváním řečníka (na bázi GMM či VQ), se syntézou řeči či zvýrazňováním řeči snímané v hlučném prostředí. Další informace lze nalézt na <a href=http://noel.feld.cvut.cz/vyu/a2m31zre>http://noel.feld.cvut.cz/vyu/a2m31zre</a>. Pro zapsané studenty jsou detailní informace na výukovém portálu <a href=https://moodle.fel.cvut.cz/course/view.php?id=158>Moodle FEL</a>.Cíle studia:
Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro analýzu řečového signálu.Osnovy přednášek:
| 1. | Úvod - model vzniku a vnímání řeči, základní charakteristiky (fonetické a artikulační aspekty) | |
| 2. | Spektrální charakteristiky řečového signálu (DFT a LPC spektrum). | |
| 3. | Kepstrální reprezentace řeči. Příznaky pro rozpoznávání. Detekce řečové aktivity. | |
| 4. | Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy. | |
| 5. | Základní rozpoznávací úlohy a používané techniky (GMM, HMM, VQ, ANN, DNN) | |
| 6. | Verifikace a identifikace mluvčího. Rozpoznávání jazyka. | |
| 7. | Rozpoznávání řeči s malým a velkým slovníkem (DTW, GMM-HMM, LVCSR, nástroje HTK a KALDI). | |
| 8. | Moderní systémy LVCSR (DNN-HMM). Adaptační techniky v rozpoznávání řeči. Speciální parametrizace. | |
| 9. | Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA). | |
| 10. | Audio-visuální rozpoznávání řeči. | |
| 11. | Kódování řeči | |
| 12. | Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči. | |
| 13. | Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků). | |
| 14. | Databáze pro hlasové technologie. Rezerva. |
Osnovy cvičení:
| 1. | Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů | |
| 2. | Základní časové a spektrální charakteristiky řeči | |
| 3. | Odhad základního tónu řeči | |
| 4. | LPC spektrum a odhad formantů | |
| 5. | Kepstrum a kepstrální vzdálenost: detekci řečových úseků | |
| 6. | Základní klasifikační metody (GMM, VQ, HMM): klasifikace samohlásek | |
| 7. | Verifikace mluvčího na bázi VQ | |
| 8. | Identifikace mluvčího na bázi GMM | |
| 9. | Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov | |
| 10. | Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem | |
| 11. | Potlačování aditivního šumu v řečovém signálu | |
| 12. | Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace | |
| 13. | Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů | |
| 14. | Rezerva. Zápočty |
Literatura:
| [1] | Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007. | |
| [2] | Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006. | |
| [3] | Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001. |
Požadavky:
Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.Klíčová slova:
zpracování řeči, rozpoznávání řeči, syntéza řeči, aplikace řečových technologií, audio-visuální rozpoznávání a syntézaPředmět je zahrnut do těchto studijních plánů:
| Plán | Obor | Role | Dop. semestr |
| MPEK2_2018 | Audiovizuální technika a zpracování signálů | P | 2 |
| MPEK5_2018 | Komunikační sítě a internet | PV | 2 |
| MPKIT4_2026 | Audiovizuální technika | P | 2 |
| Stránka vytvořena 16.2.2026 17:51:13, semestry: L/2025-6, L/2027-8, L/2026-7, Z/2027-8, Z/2026-7, připomínky k informační náplni zasílejte správci studijních plánů | Návrh a realizace: I. Halaška (K336), J. Novák (K336) |