Prezentacija govornih tehnologija i demonstracija prvih primena Prof. dr Vlado Delić Fakultet tehničkih nauka i AlfaNum, Novi Sad Nov. 2013. 1
Agenda Zašto je teško automatizovati pretvaranje: teksta u govor (TTS)? govora u tekst (ASR)? Istraživački projekti razvijeni resursi za ASR i TTS Novi proizvodi pametni telefoni pametne kuće pomagala mesti meti [/0] Vd-s-2-- metak metak ["0] NNms4--- metak metka ["0] NNms2--- metak metke ["0] NNmp4--- metak metkom ["0] NNms6--- metak metku ["0] NNms5--- metak metku ["0] NNms3--- metla metla [\0] NNfs1--- metla metlama [\00] NNfp3--- metla metlama [\00] NNfp6--- metla metle [\0] NNfp4--- metla metle [\0] NNfp5--- metla metle [\0] NNfs2--- metla metle [\0] NNfp1--- metla metli [\0] NNfs3--- metla metli [\0] NNfp2--- Prof. Delić FTN, Novi Sad 2
Voice Assistant Prof. Delić FTN, Novi Sad 3
ASR i TTS u dijalogu čovek-mašina Sinteza govora no osnovu teksta govor govor Automatsko prepoznavanje govora Text-to-Speech Synthesis Automatic Speech Recognition Technology Generisanje govornog jezika Spoken Language Generation tekst akcija Dialogue Management Upravljanje dijalogom značenje tekst Spoken Language Understanding Language Razumevanje govornog jezika Cognition Prof. Delić FTN, Novi Sad 4
Primene ASR i TTS Čovek Srpski Mašina Internet/PSTN Engleski Udaljena mašina Aparati u domaćinstvu Uređaji u kancelariji Instrumenti u kolima Mašine u industriji Udaljeni uređaji Pristup bazama podataka Prof. Delić FTN, Novi Sad 5
Prednosti govorne komunikacije čovek-mašina Ne koriste se ruke i oči Pristup iz daljine Razvoj tehnologije uređaji sve manji tastature i ekrani ne mogu biti manji memorija i procesori sve pristupačniji komunikacioni linkovi sve brži Tehnologije zavisne od jezika - razvoj za svaki jezik posebno Prof. Delić FTN, Novi Sad 6
смишљање поруке текст језички код прозодија Шта ће да каже Како ће да каже нервно-мишићна активност артикулација Начин изговора схватање поруке низ речи = реченица семантика низ гласова = реч језички код синтакса механичко-нервна трансдукција опажање гласова емитовање гласа (вокални тракт) звучна побуда (плућа и гласнице) ГОВОРНИК Јачина и висина тона помераји базиларне мембране спектрална анализа СЛУШАЛАЦ
Uzrok varijabilnosti Posledica razne aplikacije različite govorne poruke P(M) P(W M) P(S W) P(A S) P(X A) P(W X) izvor poruka M lingvistički kanal W artikulacioni kanal S akustički kanal A prenosni kanal ASR X W različiti jezici način izražavanja razni govornici stanje govornika reverberacija prostorije ambijentalna buka vrsta pretvarača kvalitet pretvarača komunikacioni kanal estimirana obeležja HSR W M SLU M različite reči i izgovor alternativni izrazi iste poruke svako drugačije govori emocije, umor, bolest, starost direktan zvuk i refleksije ostali zvuci u zvučnom polju mikrofon, spikerfon, telefon usmerenost i položaj telefonski, radio, VoIP vrsta obeležja, način estimacije Poznavanje izvora varijabilnosti Izvori znanja za rešavanje problema Prof. Delić FTN, Novi Sad 8
Zašto su ASR i TTS teški? Problematika ASR Prepoznati govor govor tekst Razne varijabilnosti: razni jezici i aplikacije različit glas govornika ambijent i buka položaj mikrofona komunikacioni kanal Problematika TTS Sintetizovati govor tekst govor Tekst bez prozodije: koliko traje izgovor slova je li u naglašenom slogu koja od 4 vrste akcenata kako izgovoriti slovo, slog, reč i rečenicu Prof. Delić FTN, Novi Sad 9
Kako funkcionišu ASR i TTS? ASR: TTS: Text Trening (off-line) Primena (on-line) Modeli: AM, PM, LM TRENIRANJE MODELA (off-line) Govorna baza (audio snimci i transkripcija) Akustički model Izgovor reči Leksički model Korpus rečenica Jezički model Akcenatsko- -morfološki rečnik Govorna baza Analiza teksta i sinteza govora T e k s t u g o v o r Analiza teksta Uska fonetska transkripcija Sinteza govora Govor Fonemi Prozodija PREPOZNAVANJE GOVORA (on-line) AM PM LM Audio signal (govor i šum) Izdvajanje obeležja Akustičko poređenje Lingvističko poređenje Prepoznati niz reči A=S+N X P(X W) P(W) W Prof. Delić FTN, Novi Sad 10
SINTEZA GOVORA SINTEZA SIGNALA TEKST JEZIČKA OBRADA TEKSTA PREDOBRADA TEKSTA MORFOLOŠKA ANALIZA MORFOLOŠKA ANOTACIJA SINTAKSNO- PROZODIJSKA ANALIZA FONETIZACIJA GENERISANJE PROZODIJSKIH OBELEŽJA SINTEZA POVEZIVANJEM SEGMENATA SINTEZA SKRIVENIM MARKOVLJEVIM MODELIMA GOVOR GOVOR Razvoj govornih tehnologija za srpski jezik (MPNTR, 2005-08) MORFOLOŠKI REČNIK ALFANUM PREPROCESOR obrada skraćenica obrada neortografskih elemenata (2 devojke, Henri VIII) regularni izrazi SSML 1.0 podrška za specifikaciju interpretacije GOVORNI RESURS TEKSTUALNI RESURS EKSPERTSKI SISTEM AUTOMATSKI OBUČENI SISTEM MATEMATIČKI MODEL 100.000 lema 3.900.000 izvedenih oblika poziciona struktura morfološkog deskriptora sadrži podatke o akcentuaciji mesti meti [/0] Vd-s-2-- metak metak ["0] NNms4--- metak metka ["0] NNms2--- metak metke ["0] NNmp4--- metak metkom ["0] NNms6--- metak metku ["0] NNms5--- metak metku ["0] NNms3--- metla metla [\0] NNfs1--- metla metlama [\00] NNfp3--- metla metlama [\00] NNfp6--- metla metle [\0] NNfp4--- metla metle [\0] NNfp5--- metla metle [\0] NNfs2--- metla metle [\0] NNfp1--- metla metli [\0] NNfs3--- metla metli [\0] NNfp2--- MORFOLOŠKI ANOTIRANI TEKSTUALNI KORPUS 11.000 rečenica 200.000 reči poziciona struktura morfoloških deskriptora sadrži podatke o akcentuaciji ručna provera ispravnosti anotacije ALFANUM SISTEM ZA MORFOLOŠKU ANOTACIJU tačnost morfološke anotacije: 93.4% tačnost akcentuacije: 98.7% (na lakšim tekstovima i veća) TRANSFORMACIONA PRAVILA podizanje tačnosti morfološke anotacije (Brill, 1995) GOVOR OBRADA GOVORNOG SIGNALA IZDVAJANJE OBELEŽJA DETEKCIJA PROZODIJSKIH ELEMENATA IZ TEKSTA položaji i tipovi granica između intonacionih celina naročito naglašen ili nenaglašen izgovor pojedinih reči AuxC plemena koja Sub Pred AuxV zadesila bi Pred AuxV Sub Atr odlazila MODELOVANJE GOVORA MODEL IZGOVORA fonetizacija položaj naglašenih slogova bi sudbina takva NORMALIZACIJA OBELEŽJA JEZIČKI MODEL N-GRAM REČI N-GRAM LEMA N-GRAM KLASA DEKODOVANJE PREPOZNAVANJE GOVORA Adv dalje PREDIKCIJA f0 I TRAJANJA GLASOVA TEKSTUALNI KORPUS NAMENJEN PREPOZNAVANJU GOVORA oko 100 miliona reči različiti funkcionalni stilovi automatska morfološka anotacija regresiona stabla f 0: RMSE = 18Hz trajanja: RMSE = 16ms MOS: 3.9 (1 5) AKUSTIČKI MODEL skriveni Markovljevi modeli Gausove mešavine GOVORNA BAZA NAMENJENA SINTEZI GOVORA TEKST SRPSKI 4 sata govora (1 govornica) fonetski i morfološki anotirana Sadrži podatke o akcentuaciji i drugim elementima prozodije GOVORNA BAZA NAMENJENA PREPOZNAVANJU GOVORA SRPSKI 20 sati govora (1000 govornika) fonetski anotirana sadrži podatke o nekim elementima akcentuacije ručna provera ispravnosti akcentuacije Govorna komunikacija čovek-mašina (MPNTR, 2008-10) Razvoj dijaloških sistema za srpski i druge južnoslovenske jezike (MPNTR, 2011-14) World-Class Speech Technology for South Slavic Languages (FID, 2013-15) Prof. Delić FTN, Novi Sad 11
Квалитет синтезе говора 1 2 3 4 5 Квалитет Пријатност Разумљивост Природност Лакоћа Google AlfaNumSnezana Prof. Delić FTN, Novi Sad 12
Демонстрација ASR и TTS Препознаје говорне команде - ASR Одговара синтетизованим говором TTS 021/475-0204 www.alfanum.co.rs www.alfanum.ftn.uns.ac.rs Prof. Delić FTN, Novi Sad 13
Достигнућа у развоју за српски http://www.alfanum.ftn.uns.ac.rs/ http://www.alfanum.co.rs/ Prof. Delić FTN, Novi Sad 14
Asistivne tehnologije na bazi govornih tehnlogija Neme osobe - gluvonemi, laringektomirani, autistični Osobe oštećenog vida - slepi, slabovidi, disleksija, starije osobe TTS (Tekst Govor) - svi koji žele da slušaju, da im neko čita Fizički hendikep i stare osobe - paraplegičari, distrofičari, cerebrala, multipleskleroza (Na)gluve osobe - gluvonemi, gluve i nagluve osobe ASR (Govor Tekst) - svi koji hoće da komanduju, diktiraju Prof. Delić FTN, Novi Sad 15
Kako slepi čitaju? Tradicionalno: TTS: Knjige na Brajevom pismu + nezavisnost čuvanje i distribucija Audio knjige i časopisi + prirodan ljudski glas distribucija On-line pristup: + Knjige = ravnopravnost u obrazovanju + Novosti = samostalnost u informisanju + Pisma = intimnost u dopisivanju Prof. Delić FTN, Novi Sad 16
Prof. Delić FTN, Novi Sad Audio biblioteka za osobe sa invaliditetom Prvo razvijen za slepe i slabovide Sada se adaptira za druge OSI Povezivanje na druge biblioteke Razni interfejsi i audio formati Razni uređaji (PC, tablet, telefon)
Neki novi projekti Robot pomaže pri terapiji (MARKO) motiviše i doprinosi istrajnosti govorne vežbe Učenje stranih jezika Kako pročitati rečenicu naglas? (TTS) Da li dobro izgovaramo reči? (ASR) Telefon kao pomagalo nemi: napišu šta žele reći autistični: biraju niz slika Prof. Delić FTN, Novi Sad
Anegdota Profesor Delić je jednom prilikom trebao da održi predavanje na skupu na kom su istovremeno bile i osobe koje ne vide i osobe koje ne čuju. Napisao je sve što je želeo da kaže, a ja sam, kao govorna mašina, održala predavanje. Slušale su me osobe koje ne vide, dok su osobe koje ne čuju pratile prikazani tekst, a profesor je mogao da ćuti i posmatra njihova lica, sakupljajući inspiraciju za dalje usavršavanje govornih tehnologija. Tako može jedna potpuno nema osoba istovremeno da komunicira i sa gluvim i sa slepim osobama - što je nezamislivo bez govornih tehnologija. Prof. Delić FTN, Novi Sad 19
Govorne komande u pametnoj kući Alfa, otključaj vrata Alfa, uključi klimu Alfa, upali svetlo u hodniku Alfa, podigni roletne na terasi Alfa, upali muziku, Pojačaj malo Alfa, upali televizor, Kanal broj 201, Pojačaj Prof. Delić FTN, Novi Sad
Položaj mikrofona? Mikrofon na jednom mestu Nije nam uvek pri ruci Često je udaljen od govornika Više reverberantnog od direktnog zvuka Mikrofon na glavi ili bubica Bežična veza do računara Ograničen komfor Mikrofon na mobilnom telefonu Uvek pri ruci Može da obavlja posao računara Prof. Delić FTN, Novi Sad 22
Dodatne mogućnosti govornih tehnologija Na mobilnim uređajima kalendar/alarm (provera) Informacije vezane za lokaciju (npr. turizam) pokretanje aplikacija (kalkulator, muzika, itd.) Primene u automobilima govorne komande navigacija (upravljanje) čitanje Audio biblioteke čitanje knjiga, časopisa Prepoznavanje govornika dete, roditelj, baba, deda Razlikovanje emocija strategija dijaloga Roboti društvo pomoć igra Prof. Delić FTN, Novi Sad 23
Kontakt centri + ASR&TTS&SR Unapeđenje rada pozivnih centara: Prepoznavanje cifara (PIN-ova), ali i iznosa, datuma, gradova... Identifikacija korisnika putem glasa Kreiranje promptova preko TTS-a, umesto snimanjem wav-ova Personalizovano obraćanje korisnicima (po imenu i sl.) Čitanje drugih sadržaja koji postoje u bazi u tekstualnom formatu (obaveštenja, novosti, rezultati pretraga...)... U zavisnosti od usluge koju nudi CC, moguće je smanjiti potreban broj operatera i do 80% Prof. Delić FTN, Novi Sad 24
Primeri govornih automata Informacije o redu vožnje Poziv na glas (Voice Dial) 988 servisi TV Program Sportski rezultati Zakazivanje termina Vremenska prognoza Škole i fakulteti Prof. Delić FTN, Novi Sad 25
Prepoznavanje govornika Verifikacija govornika Kontrola pristupa govornim automatima, objektima i sl. Identifikacija govornika Traženje određenog govornika u velikoj količini audio materijala Korisnici Banke Media monitoring agencije Sigurnosne službe Prof. Delić FTN, Novi Sad 26
Dalji razvoj prepoznavanja govora LVCASR: Prepoznavanje rečnika i do 1M reči Upotreba jezičkih modela Optimizacija pretrage (FST) Unapređenje akustičkih modela (diskriminativna obuka, DNN + HMM) Adaptacija na govornika Prof. Delić FTN, Novi Sad 27
Dalji razvoj sinteze govora HMM-TTS: Govor se modeluje parametarski Potrebna je manja baza Veća otpornost na greške u bazi Veće mogućnosti izmene karakteristika govornika Manji memorijski i CPU zahtevi Problem - zujanje koje je još uvek prisutno Rešenje: modelovanje adekvatnije glotalne pobude Prof. Delić FTN, Novi Sad 28
Perspektive unapređenih tehnologija Text dictation (lawyers, doctors, journalists, writers...) ASR TTS Simple speech commands (computers) Basic IVR systems (telcos, banks, bus stations) Talking Web (speech enabled Internet sites) Aids for the disabled (visually impaired) Towards large vocabularies Accuracy and robustness Flexibility and ease of use Towards more speakers Flexibility and naturalness Smaller footprint LV ASR HMM TTS Speech transcription (security or media monitoring agencies, other institutions requiring transcription of phone calls, meetings, voicemail...) Advanced IVR systems (call centre automation, extended dialling, intuitive dialogue) Human-machine interaction (smart phones, homes, robots, cars...) Aids for the disabled (physically disabled; hearing, speech or visually impaired) Conversion of text to speech (documents, e-mails, SMS, books, websites...) TECHNOLOGY APPLICATION Embedded devices (PDAs, warehousing, daisy players) Education (audio libraries, assisted language learning)... 2013 2014 2015... Prof. Delić FTN, Novi Sad 29
Говорне команде: Персонални рачунари Паметни телефони Позивање гласом Тражење кључних речи Помагала за ОСИ ASR (Мали речници) LVCASR (Велики речници) Говор у текст: Диктирање текста Транскрипција говора Претрага говора Помоћ глувим особама Дијалог: Интеракт. системи Роботи и играчке Паметни телефони Слушање/диктирање: E-mail & SMS Двосмерна говорна комуникација: Интерактивни системи Уређаји у домаћинству... Превођење говора TTS & LVCASR (Дијалог) TTS (Слушање текста) Преслушавање: Аудио-књига Текстова са Интернета Учење страних језика Помагала за особе: које не могу да говоре које не виде Prof. Delić FTN, Novi Sad 30
Pitanja Govorne tehnologije Koje sve tehnologije su obuhvaćene u govornoj komunikaciji čovek-mašina? Čemu služi animirani lik u TTS? Kako slika može da pomogne ASR? Koja je funkcija jezičkih tehnologija? Šta radi dijalog menadžer? Koje su prednosti i mane govornog interfejsa? Opisati izvore varijabilnosti koji otežavaju ASR. Objasniti zašto je teško pretvaranje teksta u govor? Primene ASR i TTS Kojim osobama sa invaliditetom pomaže TTS, a kojim ASR? Kako se ASR i TTS mogu koristiti pri učenju jezika? Objasniti primene u pametnim kućama. Kako ASR i TTS povećavaju efikasnost korišćenja telefona? Prepoznavanje govornika. Primene u telefoniji. Primene LVCASR. Prof. Delić FTN, Novi Sad 31
HVALA NA PAŽNJI! Pametni telefoni Voice Assistant Pomagala za osobe sa invaliditetom Pametne kuće Prof. dr Vlado Delić FTN, Novi Sad 21. TELFOR, Beograd, 27.11.2013. 32