Laboratoř zpracování řeči

Katedra teorie obvodů, Technická 2, 160 00 Praha 6
Tel: +420 224 352 049, Fax: +420 233 339 805
http://noel.feld.cvut.cz/speechlab

Kdo jsme?

doc. Ing. Petr Pollák, CSc.
Vedoucí skupiny - řešená problematika: rozpoznávání řeči s užším zaměřením na robustní techniky pro rozpoznávání v hlučném prostředí, rozpoznávání spontánní řeči, speciální parametrizace řeči, sběr řečových databází pro trénování rozpoznávacích systémů, zvýrazňování řeči v komunikačních aplikacích, algoritmy detekce řeči, fonetická segmentace, aplikace fonetické a lingvistické informace ve zpracování řeči.

Ing. Petr Mizera
Doktorand - řešená problematika: rozpoznávání řeči, aplikace neuronových sítí v systémech rozpoznávání řeči, fonetická segmentace, artikulační příznaky

Ing. Michal Borský
Doktorand - řešená problematika: rozpoznávání řeči s užším zaměřením na robustnost na úrovni akustického modelování (diskriminativní metody trénování, adaptační techniky), zpracování narušené řeči, zpracování komprimované řeči (MP3)

Studenti magisterských programů řešící své diplomové práce a podílející se na řešení interního grantu ČVUT Zdeněk Patč, Aleš Brich, Jiří Fiala, Jiří Valíček.

Jakým výzkumem se zabýváme

Obecně se zabýváme analýzou a zpracováním řečového signálu se zaměřením na systémy rozpoznávání řeči a zvýrazňování řeči pro komunikační účely. Naše aktuální aktivity směřují především k následujícím dílčím úlohám:

rozpoznávání spojité řeči s velkým slovníkem s užším zaměřením na zpracování narušené řeči z hlučného prostředí nebo spontánních promluv
extrakce příznaků se zaměřením na robustnost, zahrnutí informance o produkci řeči do příznakového vektoru (artikulční příznaky)
optimalizace akustického modelování v systémech na bázi HMM (diskriminativní a adaptační techniky, kombinace ANN/HMM)
jazykového modelování pro spontánní reč (slovníky s redukovanou výslovností, LM založené na třídách)
automatická fonetická segmentace
sběr a příprava řečových a textových dat
detekce řečové aktivity

K čemu to je

Výše uvedené rozpoznávací úlohy nacházejí uplatnění v systémech pro on-line přepis řeči do textové podoby, typické příklady takových systémů představují diktovací aplikace v PC, on-line titulkování video pořadů, on-line či off-line transkripce audio záznamů s případnou indexací pro archivaci, hlasem řízenné telefonní informační systémy (nejjednodušší hlasové ovládání bývá používáno pro nahrazení nedostupné tónové volby, existují i systémy s komunikací přirozeným dialogem), systémy hlasového ovládání různých zařízení (velmi často v automobilu), systémy pro fonetickou segmentaci jako podpora základního fonetického výzkumu či speciálních technik analýzy řeči (např. patologické řeči). Zvýrazňování reči nachází uplatnění při jakékoliv komunikaci v hlučném prostředí, kdy odstranění šumu před přenosem výrazně zvyšuje srozumitelnost promluvy pro vzdáleného mluvčího, a také při extrakci příznaků pro rozpoznávání šumem narušené řeči (řeč z jedoucího automobilu, z veřejných prostranství, v místnostech s ozvěnou, řeč snímánou vzdáledným mikrofonem, atd.). Detektory řečové aktivity jsou nedílnou součástí řady systémů rozpoznávání či zvýrazňování řeči (detekce začátku a konce promluvy při rozpoznávání povelů, odhad charaktersitik pozadí při zvýrazňování, apod.). Sběr a následné zpracování řečových a textových dat je nezbytné pro trénování rozpoznávacích systémů, které jsou založené na statistických modelech či na principech umělé inteligence.

Na čem konkrétně pracujeme

Rozpoznávání spojité a spontánní řeči

Hlavním cílem našich aktivit je optimalizace rozpoznávání spojité řeči s užším zaměřením na rozpoznávání spontánní a neformální řeči, kde nejdůležitější aktuálně řešené problémy jsou

v první řadě návrh rozpoznávání spojité a spontánní řeči pro češtinu
v rámci různých srovnávacích experimentů pracujeme i s vybranými systémy pro jiné jazyky (zejména angličtinu, slovenštinu, němčinu, francouzštinu)
jazykového modelování, které poskytuje dekodéru informaci o možných mezislovních vazbách, používáme standardní n-gramové jazykové modely (obvykle bigramy, trigramy), které optimalizujeme pro spolehlivější rozpoznávání neformální řeči
dekódování spojité řeči s využitím dostupných systémů a nástrojů na bázi konečných stavových automatů (FST), zejména KALDI nástrojů

Parametrizace řečového signálu

Parametrizace řečového signálu představuje výběr vhodných příznaků pro následnou klasifikaci v dalších stupních rozpoznávacího systému. V této oblasti podrobně studujeme

vlastnosti základních technik (MFCC resp. PLP kepstrální koeficienty) v různých podmínkách s drobnými modifikacemi
techniky pracujícím s delším kontextem v příznakovém vektoru (TRAP, RASTA, MULTI-RASTA)
v rámci posledních aktivit i vlastnosti tzv. artikulačních příznaků
ve výše uvedených speciálních technikách jsou využívány neuronové sítě resp. v poslední době stále více se uplatňující hluboké sítě s větším množstvím skrytých vrstev

Robustní rozpoznávání řeči

Spolehlivé rozpoznávání běžné řeči obsahující i různé typy rušení je důležitým předpokladem aplikace rozpoznávačů v běžných podmínkách. V našich aktivitách pro zvýšení této spolehlivosti se věnujeme řešení následujících problémů:

studiu vlivu a možnosti potlačení aditivního rušení v průběhu parametrizace řeči
významným produktem je nástroj CtuCopy, který implementuje různé metody parametrizace (zahrnující i potlačení šumu) a je kompatibilní s celosvětově používanými nástroji HTK a KALDI
možnosti eliminace rušení na úrovni akustického modelování, zejména pak na bázi aplikací vhodně zvolené trénovací resp. adaptační techniky
jsou také zkoumány vlastnosti speciálních architektur rozpoznávačů řeči jako ANN/HMM, DNN/HMM resp. TANDEM

Implementace a softwarové simulace rozpoznávání řeči

Nemalá část aktivit v oblasti rozpoznávání řeči je též věnována vlastním implementacím vývojových systémů rozpoznávání řeči. Aktivity v této oblasti představují především

využití volně dostupných nástrojů, které jsou průběžně vyvíjené a pomocí kterých lze realizovat vývojové, testovací i finální verze rozpoznávačů (aktuálně zejména KALDI nástroje)
práci na paralelním výpočetním klastru pod operačním systémem Linux, který zajišťuje požadovaný velký výkon pro náročné výpočty při trénování rozpoznávačů i dekódování rozpoznávané řeči a kde realizujeme většinu experimentů
realizaci implementací hlasového ovládání v rámci jednoduchých aplikací na PC nebo v chytrých telefonech s OS Android

Fonetická segmentace promluvy

V této oblasti spolupracujeme s experty v oblasti fonetiky, lingvistiky resp. psycholingvistiky, kteří naše systémy využívají ve svém výzkumu resp. s nimi konzultujeme optimalizace rozpoznávacích systému využívajících informace o produkci řeči. Aktivity směřujeme k:

realizace segmentace v rozsáhlých databází pro účely trénování neuronových sítí
automatické presegmentace v nástrojích pro detailní fonetickou analýzu
výzkumu variability výslovnosti zejména při zpracování spontánní a neformální řeči
tvorbu nástroje pro iteraktivní segmentaci v uživatelském prostředí programu Praat, viz obrázek

Detekce řečové aktivity

V této oblasti jsou studovány algorimty detekce řeči na bázi:

energetických, kepstrálních či koherenčních charakteristik
statistického modelování vybraných příznaků (GMM)
umělých neuronových sítí

Sběr řečových a textových databází

Řečové databáze jsou nezbytné pro tvorbu systémů rozpoznávání řeči, nebo jsou zdrojem informace o variabilitě akustických charakteristik promluvy (řečové databáze) či o pravděpododbnosti konkrétního slovního kontextu (textové databáze). V této oblasti jsme se podíleli na vzniku několika rozsáhlých databázích v rámci evropských projektů či na bázi bilaterálních komerčních spoluprací, které nyní využíváme v našem výzkumu, tj.

telefonní databáze ČÍSLOVKY a Czech SpeechDat, obě s cca 1000 mluvčími (dostupné přes http://www.elra.info
česká verze databáze SPEECON, 650 dospělých mluvčích a 50 dětí v různých prostředích (viz http://www.elra.info)
1000 mluvčích v prostředí automobilu pro TEMIC SDS
databáze s evokovaným Lombardovým jevem
databáze přednášek z oblasti zpracování řečových a biologických signálů
česká a slovenská verze LC-Star lexikonů (viz http://www.elra.info)
databáze spontánní a neformální komunikace, Nijmegen Corpus of Causal Czech (viz http://www.mirjamernestus.nl/Ernestus/NCCCz/index.php)

Kdo financuje náš výzkum

Náš výzkum byl v minulých letech podporován granty GAČR (1996-2011), AV ČR (2004-2007), COST (1994-2005), výzkumným zaměrem (2005-2011), FRVŠ (2010, 2011), interní grant ČVUT (2012-2013). Podíleli jsme se na Evropských projektech SpeechDat-E (1999-2000), SPEECON (2002-2003), LC-StarII (2006-2007). V rámci bilaterálních projektů jsme spolupracovali s firmami Siemens AG, Muenchen, Germany (1999, 2006), Škoda Mladá Boleslav (2002-2003), TEMIC-Harman/Becker, Ulm, Germany (2000-2004), resp. Radboud University of Nijmegen, Netherlands (2008-2009).

Aktuálně je náš výzkum podporován interním grantem ČVUT SGS14/191/OHK3/3T/13 (2014-2016), další projekt je aktuálně v grantové soutěži GAČR.

V rámci hospodářské činnosti aktuálně řešíme dílčí projekty pro firmu ZOOM International.

S kým spolupracujeme

Úzce spolupracujeme s řadou odborníků z různých pracovišť, aktuálně zejména z následujících institucí:

Neformálně příležitostně spolupracujeme také s univerzitními laboratořemi zpracování řeči, zejména s:

Vybrané publikace

Výsledky naší práce jsme publikovali v mezinárodních impaktovaných vědeckých časopisech a na řadě prestižních mezinárodních kongresů a konferencí. Nejvýznamnější práce v minulém obodbí jsou:

Mizera, P. - Pollák, P.: Robust Neural Network-Based Estimation of Articulatory Features For Czech. Neural Network World. 2014, vol. 24, no. 5, p. 463-478. ISSN 1210-0552.
Procházka, V. - Pollák, P. - Žďánský, J. - Nouza, J.: Performance of Czech Speech Recognition with Language Models Created from Public Resources. Radioengineering. 2011, vol. 40, no. 4, p. 1002-1008. ISSN 1210-2512.
Rajnoha, J. - Pollák, P.: ASR systems in Noisy Environment: Analysis and Solutions for Increasing Noise Robustness. Radioengineering. 2011, vol. 20, no. 1, p. 74-84. ISSN 1210-2512.
Vondrášek, M. - Pollák, P.: Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency. Radioengineering. 2005, vol. 14, no. 1, s. 6-11. ISSN 1210-2512.
Ernestus, M. - Kockova-Amortova, L. - Pollák, P.: The Nijmegen Corpus of Casual Czech. In Proceedings of the 9th Language Resources and Evaluation Conference. Paris: ELRA - European Language Resources Association, 2014, vol. 1.
Kolman, A. - Pollák, P.: Speech reduction in Czech. In LabPhone 14. The 14th Conference on Laboratory Phonology. Tokyo: National Institute for Japanese Linguistics in Tokyo, 2014.
Mizera, P. - Pollák, P. - Kolman, A. - Ernestus, M.: Impact of Irregular Pronunciation on Phonetic Segmentation of Nijmegen Corpus of Casual Czech. In Text, Speech, and Dialogue. 17th International Conference, TSD 2014. Heidelberg: Springer, 2014, vol. 1, p. 499-507.
Pollák, P. - Borský, M.: Small and Large Vocabulary Speech Recognition of MP3 Data under Real-Word Conditions: Experimental Study. Communications in Computer and Information Science. 2012, vol. 314, p. 409-419.
Borský, M. - Pollák, P.: The optimization of PLP feature extraction for LVCSR recognition of MP3 data. In 19th International Conference on Applied Electronics 2014. Pilsen: University of West Bohemia, 2014, p. 55-58.
Pollák, P. - Běhunek, M.: Accuracy of MP3 Speech Recognition Under Real-World Conditions. Experimental Study. In Proceedings of SIGMAP 2011 - International Conference on Signal Processing and Multimedia Applications. [CD-ROM]. Sevilla: University of Seville, 2011, vol. 1, p. 5-10.
Pollák, P. - Rajnoha, J.: Multi-Channel Database of Spontaneous Czech with Synchronization of Channels Recorded by Independent Devices. In Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC'10), La Valleta, Malta, 2010.
Volín, J. - Pollák, P.: The Dynamic Dimension of the Global Speech-Rhythm Attributes. In Proceedings of Interspeech 2009 [CD-ROM]. Brighton, UK, 2009, p. 1543-1546.
Pollák, P. - Rajnoha, J.: Long Recording Segmentation Based on Simple Power Voice Activity Detection with Adaptive Threshold and Post-Processing. In SPECOM 2009 Proceedings. St. Petersburg, Russia, 2009, p. 55-60.
Pollák, P. - Volín, J. - Skarnitzl, R.: Phone Segmentation Tool with Integrated Pronunciation Lexicon and Czech Phonetically Labelled Reference Database. In 6th International Conference on Language Resources and Evaluation. Marrakech, Morocco, 2008, vol. 1, p. 1-5.

Členové skupiny přispěli významnou měrou svými příspěvky v monografii

Uhlíř, J. - Sovka, P. - Pollák, P. - Hanžl, V. - Čmejla, R.: Technologie hlasových komunikací. 1. vyd. Praha: Nakladatelství ČVUT, 2007. 276 s. ISBN 978-80-01-03888-8.

Nejvýznamnější pubplikace jsou přístupné on-line na stránkách Laboratoře zpracování řečového signálu, v sekci Publikace

Další týmy

Za obsah odpovídá: RNDr. Patrik Mottl, Ph.D.

Fakulta elektrotechnická

České vysoké učení technické v Praze

ČVUT v Praze

Spojujeme elektrotechniku a informatiku.