Jan Švec a Josef Psutka na Katedře kybernetiky FAV ZČU v Plzni při rozhovoru pro BUSportál © BUSportál
Z návštěvy na Fakultě aplikovaných věd Západočeské univerzity. Dialog cestujícího s počítačem.
Z návštěvy na Fakultě aplikovaných věd Západočeské univerzity. Dialog cestujícího s počítačem.
Katedra kybernetiky Fakulty aplikovaných věd (FAV) Západočeské univerzity (ZČU) se dlouhodobě věnuje tématice řečových technologií a umělé inteligence a s výsledky úsilí školy se může setkávat i veřejnost.
Problematika řečových technologií řeší několik klíčových úloh. Nejdůležitějšími z nich jsou počítačové rozpoznávání a počítačová syntéza řeči. Pod počítačovým rozpoznáváním řeči si lze jednoduše představit automatický přepis mluvené řeči do psané podoby. Oblastí, kde je aplikace používána či se s jejím využitím počítá, je více. Záznamy slouží např. ve zdravotnictví, kde ve spolupráci vždy s konkrétním oborem (je třeba zpracovat specifický slovník oboru) používají hlasové záznamy převedené do písemné formy lékaři např. u popisu snímků. Na vlastní oči se s technologií můžeme seznámit v přenosech z Poslanecké sněmovny (ČT24) - titulky podle hlasových výstupů se online přepisují do teletextu. Ze strany sluchově postižených je velký zájem o online titulkování „živých“ diskusních pořadů. Tady je zpracování složitější, neboť v diskusi mohou mluvit řečníci najednou, hádat se apod. Řešením jsou tzv. stínoví mluvčí, což jsou speciálně vycvičení „překladatelé z češtiny do češtiny“. Stínový mluvčí poslouchá dialog a klidným hlasem jej přemlouvá do počítače, a to tak, aby byl co možná nejlépe zachován sémantický obsah tohoto dialogu. Počítač pak z jeho řeči vytváří automaticky titulky, které bude možné u některých pořadů ČT v krátké době opět naladit na teletextu. Univerzita školí pro práci stínových mluvčích několik pracovníků ČT a též malý tým složený převážně ze studentek Filosofické fakulty ZČU. Mediálně známé je využití automatického rozpoznávání řeči i při přepisu mluvených vzpomínek účastníků holocaustu v rozsáhlém celosvětovém projektu, na jehož řešení se pracovníci katedry kybernetiky ZČU též podíleli.
Druhá klíčová úloha řečových technologií je syntéza řeči z psaného textu. Za úplně vyřešenou je považována srozumitelnost, řeší se přirozenost počítačem vytvářené řeči. K těmto účelům řečníci namlouvají texty ve studiu tak, aby pak počítač mluvil co nejpodobněji přirozené lidské řeči. I tady je kromě hlasů automatických telefonních ústředen překvapivě zákazníkem televize. U starší generace je poptávána služba "počítačového čtení titulků" - tedy náhrada původní zvukové stopy, kde dialog je „doprovázen“ hlukem, hudbou apod., což mnohým divákům velmi ztěžuje nerušené sledování děje. Takovéto "hlasové titulky" navíc vyhovují z právních aspektů a jsou samozřejmě levné.
Pokud je možno převádět řeč a psaný text navzájem, je tu možnost vytváření hlasových dialogových systémů, což jsou systémy umožňující obousměrnou komunikaci člověka s počítačem. Dialogové systémy řeší na Katedře kybernetiky Centrum aplikované kybernetiky. Vývoj se datuje od roku 2000. Na počátku byly "tuhé" dialogy, kdy počítač dával prostřednictvím nápovědy člověku na výběr z velmi omezené množiny slovních povelů a vyžadoval konkrétní odpovědi. Slova a fráze byly předem jasně definovány. Vyšší úrovní dialogu je rozhovor tak, jako by probíhal člověka s člověkem. Počítač vyhodnotí dotaz, jak ho klade člověk člověku a pokud neporozumí nebo dotaz neobsahuje vše, co je třeba, trpělivě se snaží v přirozeném hlasovém dialogu dobrat zadání. I v době internetu a sms zpráv stále existuje velká skupina lidí, kteří si o informace telefonují. Tady je možno odbavit většinu tazatelů při napojení na databázi informací právě počítačem a lidského operátora pak použít jen v mezních situacích. Další úrovní komunikace pak mohou být smíšené volby, kdy dotaz je hlasem, odpověď textem ap.
Praktická demonstrace "Nádraží - hlasový dialogový systém" je umístěna na www.youtube.com
Problematika řečových technologií řeší několik klíčových úloh. Nejdůležitějšími z nich jsou počítačové rozpoznávání a počítačová syntéza řeči. Pod počítačovým rozpoznáváním řeči si lze jednoduše představit automatický přepis mluvené řeči do psané podoby. Oblastí, kde je aplikace používána či se s jejím využitím počítá, je více. Záznamy slouží např. ve zdravotnictví, kde ve spolupráci vždy s konkrétním oborem (je třeba zpracovat specifický slovník oboru) používají hlasové záznamy převedené do písemné formy lékaři např. u popisu snímků. Na vlastní oči se s technologií můžeme seznámit v přenosech z Poslanecké sněmovny (ČT24) - titulky podle hlasových výstupů se online přepisují do teletextu. Ze strany sluchově postižených je velký zájem o online titulkování „živých“ diskusních pořadů. Tady je zpracování složitější, neboť v diskusi mohou mluvit řečníci najednou, hádat se apod. Řešením jsou tzv. stínoví mluvčí, což jsou speciálně vycvičení „překladatelé z češtiny do češtiny“. Stínový mluvčí poslouchá dialog a klidným hlasem jej přemlouvá do počítače, a to tak, aby byl co možná nejlépe zachován sémantický obsah tohoto dialogu. Počítač pak z jeho řeči vytváří automaticky titulky, které bude možné u některých pořadů ČT v krátké době opět naladit na teletextu. Univerzita školí pro práci stínových mluvčích několik pracovníků ČT a též malý tým složený převážně ze studentek Filosofické fakulty ZČU. Mediálně známé je využití automatického rozpoznávání řeči i při přepisu mluvených vzpomínek účastníků holocaustu v rozsáhlém celosvětovém projektu, na jehož řešení se pracovníci katedry kybernetiky ZČU též podíleli.
Druhá klíčová úloha řečových technologií je syntéza řeči z psaného textu. Za úplně vyřešenou je považována srozumitelnost, řeší se přirozenost počítačem vytvářené řeči. K těmto účelům řečníci namlouvají texty ve studiu tak, aby pak počítač mluvil co nejpodobněji přirozené lidské řeči. I tady je kromě hlasů automatických telefonních ústředen překvapivě zákazníkem televize. U starší generace je poptávána služba "počítačového čtení titulků" - tedy náhrada původní zvukové stopy, kde dialog je „doprovázen“ hlukem, hudbou apod., což mnohým divákům velmi ztěžuje nerušené sledování děje. Takovéto "hlasové titulky" navíc vyhovují z právních aspektů a jsou samozřejmě levné.
Pokud je možno převádět řeč a psaný text navzájem, je tu možnost vytváření hlasových dialogových systémů, což jsou systémy umožňující obousměrnou komunikaci člověka s počítačem. Dialogové systémy řeší na Katedře kybernetiky Centrum aplikované kybernetiky. Vývoj se datuje od roku 2000. Na počátku byly "tuhé" dialogy, kdy počítač dával prostřednictvím nápovědy člověku na výběr z velmi omezené množiny slovních povelů a vyžadoval konkrétní odpovědi. Slova a fráze byly předem jasně definovány. Vyšší úrovní dialogu je rozhovor tak, jako by probíhal člověka s člověkem. Počítač vyhodnotí dotaz, jak ho klade člověk člověku a pokud neporozumí nebo dotaz neobsahuje vše, co je třeba, trpělivě se snaží v přirozeném hlasovém dialogu dobrat zadání. I v době internetu a sms zpráv stále existuje velká skupina lidí, kteří si o informace telefonují. Tady je možno odbavit většinu tazatelů při napojení na databázi informací právě počítačem a lidského operátora pak použít jen v mezních situacích. Další úrovní komunikace pak mohou být smíšené volby, kdy dotaz je hlasem, odpověď textem ap.
Praktická demonstrace "Nádraží - hlasový dialogový systém" je umístěna na www.youtube.com
Informace BUSportálu laskavě poskytli Josef Psutka a Jan Švec z Katedry kybernetiky FAV ZČU v Plzni.
Dagmar Braunová