Popis předmětu - B2M31ZRE

B2M31ZRE	Zpracování řeči
Role:	PV, P	Rozsah výuky:	2P+2C
Katedra:	13131	Jazyk výuky:	CS
Garanti:	Pollák P.	Zakončení:	Z,ZK
Přednášející:	Pollák P.	Kreditů:	6
Cvičící:	Pollák P.	Semestr:	L

Webová stránka:

https://moodle.fel.cvut.cz/courses/B2M31ZRE

Anotace:

Předmět je zaměřen na problematiku zpracování řečových signálů. Tato problematika má široký aplikační záběr v různých systémech z mnoha odvětví, kde nejvýznamnější aplikace jsou informační dialogové systémy, hlasové ovládání zařízení, diktovací systémy resp. transkripce audio/video záznamů, podpora výuky jazyků, automatický hlasový výstup. V rámci předmětu studenti se studenti seznámí se základními algoritmy analýzy řeči (spektrální analýza, LPC, kepstrální reprezentace, základní tón, formanty, apod.), principy rozpoznávání řeči (GMM-HMM, ANN-HMM systémy, rozpoznávače s malým i velkým slovníkem), s rozpoznáváním řečníka (na bázi GMM či VQ), se syntézou řeči či zvýrazňováním řeči snímané v hlučném prostředí. Další informace lze nalézt na <a href=http://noel.feld.cvut.cz/vyu/a2m31zre>;http://noel.feld.cvut.cz/vyu/a2m31zre<;/a>. Pro zapsané studenty jsou detailní informace na výukovém portálu <a href=https://moodle.fel.cvut.cz/course/view.php?id=158>;Moodle FEL</a>.

Cíle studia:

Cílem předmětu je seznámit studenty se základy používaných řečových technologií v multimediálních systémech, od základních charakteristik řečového signálu, přes zvýrazňování řeči, základní principy rozpoznávání řeči a syntézy řečového signálu až po zpracování audio-vizuálního řečového signálu. Ve cvičeních studenti prakticky zrealizují základní úlohy v programovém prostředí MATLAB resp. si vyzkouší použití volně dostupných nástrojů pro analýzu řečového signálu.

Osnovy přednášek:

1.		Úvod - model vzniku a vnímání řeči, základní charakteristiky (fonetické a artikulační aspekty)
2.		Spektrální charakteristiky řečového signálu (DFT a LPC spektrum).
3.		Kepstrální reprezentace řeči. Příznaky pro rozpoznávání. Detekce řečové aktivity.
4.		Potlačování šumu v řeči: šum aditivní, konvoluční; jednokanálové a vícekanálové systémy.
5.		Základní rozpoznávací úlohy a používané techniky (GMM, HMM, VQ, ANN, DNN)
6.		Verifikace a identifikace mluvčího. Rozpoznávání jazyka.
7.		Rozpoznávání řeči s malým a velkým slovníkem (DTW, GMM-HMM, LVCSR, nástroje HTK a KALDI).
8.		Moderní systémy LVCSR (DNN-HMM). Adaptační techniky v rozpoznávání řeči. Speciální parametrizace.
9.		Syntéza řeči, principy základních přístupů (formantová syntéza, PSOLA).
10.		Audio-visuální rozpoznávání řeči.
11.		Kódování řeči
12.		Sluchové pomůcky a kochleární implantáty: anatomie a model sluchu, zpracování řeči.
13.		Multimediální systémy s hlasovým vstupem (dialogové systémy, logopedie, výuka jazyků).
14.		Databáze pro hlasové technologie. Rezerva.

Osnovy cvičení:

1.		Úvod: řečový signál, nástroje pro analýzu, dostupné zdroje signálů
2.		Základní časové a spektrální charakteristiky řeči
3.		Odhad základního tónu řeči
4.		LPC spektrum a odhad formantů
5.		Kepstrum a kepstrální vzdálenost: detekci řečových úseků
6.		Základní klasifikační metody (GMM, VQ, HMM): klasifikace samohlásek
7.		Verifikace mluvčího na bázi VQ
8.		Identifikace mluvčího na bázi GMM
9.		Rozpoznávání na bázi DTW. Jednoduchý rozpoznávač jednotlivých slov
10.		Rozpoznávání na bázi HMM: jednoduché úlohy a demonstrace průchodu HMM modelem
11.		Potlačování aditivního šumu v řečovém signálu
12.		Potlačování konvolučního šumu - demonstrace dozvuku a možnosti jeho eliminace
13.		Syntéza řeči: formantový syntezátor, demonstrace volně dostupných syntezátorů
14.		Rezerva. Zápočty

Literatura:

[1]		Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. Nakladatelství ČVUT, 2007.
[2]		Psutka, J. - Müller, L. - Matoušek, J. - Radová, V.: Mluvíme s počítačem česky. Academia 2006.
[3]		Huang, X. - Acero, A. - Hon, H.-W.: Spoken Language Processing. Prentice Hall 2001.

Požadavky:

Vstupními požadavky jsou základní znalosti z oblasti číslicového zpracování signálů.

Klíčová slova:

zpracování řeči, rozpoznávání řeči, syntéza řeči, aplikace řečových technologií, audio-visuální rozpoznávání a syntéza

Předmět je zahrnut do těchto studijních plánů:

Plán	Obor	Role	Dop. semestr
MPEK2_2018	Audiovizuální technika a zpracování signálů	P	2
MPEK5_2018	Komunikační sítě a internet	PV	2

Stránka vytvořena 30.12.2024 17:50:26, semestry: Z,L/2024-5, Z/2025-6, připomínky k informační náplni zasílejte správci studijních plánů

Návrh a realizace: I. Halaška (K336), J. Novák (K336)

Za obsah odpovídá: doc. RNDr. Veronika Sobotíková, CSc.

Fakulta elektrotechnická

České vysoké učení technické v Praze

ČVUT v Praze

Spojujeme elektrotechniku a informatiku.

Popis předmětu - B2M31ZRE