Slide 1

Artikulacija, percepcija i analiza govornog signala Prof. dr Vlado Delić FTN Novi Sad 27.10.2013.

Značaj govora i čula sluha Glas bolje izražava (a uho oseća) smisao i značenje pol, starost, raspoloženje Alternative: pantomima, pismo... Uloge u životu čoveka opstanak: čuje zvuk sa svih strana, čak i kad spava sporazumevanje: govor, muzika, sirena TEDxNoviSad, December 3rd, 2011

smišljanje poruke tekst jezički kod prozodija Šta će da kaže? nervno-mišićna aktivnost artikulacija Kako će da kaže? emitovanje glasa (vokalni trakt) Način izgovora shvatanje poruke Niz reči = rečenice semantika Niz fonema = reči sintaksa mehaničko-nervna transdukcija Razlikovanje fonema pomeraji bazilarne membrane jezički kod spektralna analiza Jačina i visina tona zvučna pobuda (pluća i glasnice) GOVORNIK SLUŠALAC

Govorna komunikacija artikulatorna fonetika auditorna fonetika ASR i TTS ::: Govorni signal akustička fonetika 4

Agenda 1. Stvaranje (artikulacija) i slušanje (percepcija) govora modelovanje procesa izgovaranja i slušanja karakteristike po kojima se razlikuju glasovi osnova za ASR, kodovanje i dr. obrade govornog signala 2. Reprezentacije govornog signala talasni oblik s(t) (obiman, redundantan, varijabilan) spektrogram s(t,f) (bolji, ali i dalje jako varijabilan) 3. Snimanje govora i merenje razumljivosti izbor i postavke mikrofona za snimanje govora objektivne i subjektivne mere kvaliteta govornog signala ASR i TTS ::: Govorni signal 5

Artikulatorna fonetika Motivacija: Modelovanje produkcije govora razumevanje strukture govornog signala projektovanje algoritama za obradu govornog signala Proces artikulacije govora: Pluća pokrenu vazdušnu struju kroz vokalni trakt Oscilacije vazduha se prenose kroz niz povezanih otvora i šupljina, nailaze na različite oblike komora i prepreka specifična je konfiguracija i pokreti organa vokalnog trakta za svaki glas vrši se (ko)artikulacija niza glasova ASR i TTS ::: Govorni signal 6

Uticaj delova VT i uha na zvuk VT je niz cevi i šupljina; i slušni kanal je kao cev Posmatrajmo zvuk od ulaza u jednu cev Da li je talasni front na ulazu u slušni kanal ravan ili sferni? Kako se menja zvučni pritisak u prostoru i vremenu? progresivni zvučni talas Šta ako je cev zatvorena sa druge strane? progresivni i reflektovani zvučni talas Artikulatorna fonetika http://paws.kettering.edu/~drussell/demos/waves-intro/waves-intro.html ASR i TTS ::: Govorni signal 7

Akustička teorija produkcije govora Detaljna akustička teorija mora da razmotri sledeće efekte: Vremenska varijacija oblika vokalnog trakta Gubici usled sprovođenja toplote i viskozne frikcije na zidovima vokalnog trakta Mekoća zidova vokalnog trakta Radijacija zvuka sa usana Uparivanje nazalnog trakta Pobuđivanje zvuka u vokalnom traktu Na ovom kursu ćemo razmotriti efekte prostiranja zvuka (bez gubitaka) kroz krutu glatku cev sa zatvorenim krajem sa krutim/mekim zidom Artikulatorna fonetika ASR i TTS ::: Govorni signal 8

Stojeći talasi u cevi Duvački instrumenti (npr. flauta ili klarinet) duvamo sve, vraćaju se rezonantne f Slušni kanal ovde se traži max na bubnoj opni Vokalni trakt (niz povezanih cevi) svaka komora ima svoju rezonansu formanti postoje samo neparni harmonici f n c n c ( 2n 1), n 1,2,3,... 4L otvoren kraj pritsak pritsak pritsak n L ( 2n 1), n 1,2,3,... 4 zatvoren kraj Artikulatorna fonetika ASR i TTS ::: Govorni signal 9

Uticaj akustičkih cevi na govor Na koje frekvencije je uho najosetljivije? Koja je rezonantna frekvencija slušnog kanala? (dužina je oko 2,5 cm) rezonansa je oko: opseg 3-4 khz se pojačava za oko 12 db a oko 7 khz za svega 3 db Dužina vokalnog trakta je oko 17 cm. U kom opsegu se generiše najviše energije u govoru? rezonansa cevi od 17 cm je: 340m s 4 2,5 cm A od čega zavisi osnovna frekvencija glasa? f c 4 l 1 f c 4 l 340m s 4 17 cm 1 3400Hz 500Hz Artikulatorna fonetika ASR i TTS ::: Govorni signal 10

Pojačanje zvuka u slušnom kanalu Artikulatorna fonetika ASR i TTS ::: Govorni signal 11

Geometrija rezonatora u VT L 17.6cm F 1 F 2 F 3 F 4 500 1500 2500 3500 L A 2 2 L1 8 A 8 1 2 1 F 1 F 2 F 3 F 4 320 1200 2300 3430 L A 2 2 L1 1.2 A 1/8 1 2 1 [a] F 1 F 2 F 3 F 4 780 1240 2720 3350 L A L A 2 2 2 2 L1 1 A 8 1 1 L1 1/ 3 A 1/8 2 2 1 1 L 1 L2 [i] 17.6cm F 1 F 2 F 3 F 4 220 1800 2230 3800 F 1 F 2 F 3 F 4 630 1770 2280 3240 L A 2 2 L1 1.5 A 8 1 Artikulatorna fonetika ASR i TTS ::: Govorni signal 2 1 L 1 L2 14.5cm F 1 F 2 F 3 F 4 260 1990 3050 4130 12

Konfiguracija vokalnog trakta usta dominantno utiču na oblik Model vokalnog trakta Obvojnica rezultujućeg spektra Modeli i spektri pojedinih glasova Artikulatorna fonetika ASR i TTS ::: Govorni signal From Mark Liberman s Web site 13

Delovi govornog mehanizma artikulacioni organi ždrelo fonatorni organi respiratorni organi Artikulatorna fonetika ASR i TTS ::: Govorni signal 14

Model akustičkih cevi Niz šupljina povezanih cevima su ekvivalentno LC kolo rezonatori. Oni filtriraju uobličavaju spektar (formiraju formantne oblasti) - karakteristično za svaki glas. Artikulatorna fonetika ASR i TTS ::: Govorni signal 15

Modelovanje govornog mehanizma glas: M Ž D f0 125 225 300 f0min 80 150 200 f0max 200 350 500 Periodična pobuda Šumna pobuda zvučna bezvučna Vokalni trakt govor Artikulatorna fonetika ASR i TTS ::: Govorni signal 16

Linearni model produkcije govora Pitch Period Voiced Excitation A V IMPULSE TRAIN GENERATOR I(z) GLOTTAL PULSE MODEL G(z) Vocal Tract Parameters Voiced/Unvoiced Switch u G (n) VOCAL TRACT MODEL V(z) RADIATION MODEL R(z) p L (n) RANDOM NOISE GENERATOR N(z) A N Unvoiced Excitation Artikulatorna fonetika ASR i TTS ::: Govorni signal 17

Linearni model produkcije govora 1/F 0 = I(F)G(F) -12 db/oct Pitch Period Time F 0 2F 0... Freq. A V IMPULSE TRAIN GENERATOR I(z) GLOTTAL PULSE MODEL G(z) Vocal Tract Parameters Voiced/Unvoiced Switch u G (n) VOCAL TRACT MODEL V(z) RADIATION MODEL R(z) p L (n) RANDOM NOISE GENERATOR N(z) A N Artikulatorna fonetika ASR i TTS ::: Govorni signal 18

Linearni model produkcije govora Pitch Period A V IMPULSE TRAIN GENERATOR I(z) GLOTTAL PULSE MODEL G(z) Vocal Tract Parameters Voiced/Unvoiced Switch u G (n) VOCAL TRACT MODEL V(z) RADIATION MODEL R(z) p L (n) RANDOM NOISE GENERATOR N(z) Time Artikulatorna fonetika ASR i TTS ::: Govorni signal = N(F) Frequency A N 19

Linearni model produkcije govora Pitch Period A V IMPULSE TRAIN GENERATOR I(z) GLOTTAL PULSE MODEL G(z) V(F) 8 x 10-12 8 x 10-12 8 x 10-12 8 x 10-12 6 6 4 4 2 2 0 0-2 -2 6 6 Vocal 4 4 Tract 2 2 Parameters 0 0-2 -2 Frequency -4-4 -4-4 0 500 10000 1500 2000 10000 2500 1500 3000 2000 10000 3500 2500 1500 4000 3000 2000 1000 3500 2500 1500 4000 3000 2000 3500 2500 4000 3000 3500 4000 R(F) +6 db/oct Frequency Voiced/Unvoiced Switch u G (n) VOCAL TRACT MODEL V(z) RADIATION MODEL R(z) p L (n) RANDOM NOISE GENERATOR N(z) V() z 1 G N k 1 z k k A N Artikulatorna fonetika ASR i TTS ::: Govorni signal 20

Linearni model produkcije govora 1/F 0 = I(F)G(F) -12 db/oct Pitch Period Time F 0 2F 0... Freq. A V IMPULSE TRAIN GENERATOR I(z) GLOTTAL PULSE MODEL G(z) V(F) 8 x 10-12 8 x 10-12 8 x 10-12 8 x 10-12 6 6 4 4 2 2 0 0-2 -2 6 6 Vocal 4 4 Tract 2 2 Parameters 0 0-2 -2 Frequency -4-4 -4-4 0 500 10000 1500 2000 10000 2500 1500 3000 2000 10000 3500 2500 1500 4000 3000 2000 1000 3500 2500 1500 4000 3000 2000 3500 2500 4000 3000 3500 4000 R(F) +6 db/oct Frequency Voiced/Unvoiced Switch u G (n) VOCAL TRACT MODEL V(z) RADIATION MODEL R(z) p L (n) RANDOM NOISE GENERATOR N(z) V() z 1 G N k 1 z k k Time Artikulatorna fonetika ASR i TTS ::: Govorni signal = N(F) Frequency A N 21

Modelovanje govornog aparata Pobuda se može razložiti na zvučni i bezvučni deo Model vokalnog trakta je vremenski promenljivi digitalni filtar Artikulatorna fonetika ASR i TTS ::: Govorni signal 22

Funkcije govornih organa organi nazalni trakt pluća grkljan ždrelo vokalni trakt funkcije rezonancija izdisaj rezultujući efekti pomeranje glasnica rezonancija modulacija rezonancija intenzitet zvučnost i F 0 modulacija modulacija subglotalni pritisak glotalni talas govorni talas fonacija (prozodijski parametri) Artikulatorna fonetika ASR i TTS ::: Govorni signal artikulacija (spektralni parametri) 23

Oralni i nazalni izgovor Oralni izgovor Nazalni izgovor Auditorna fonetika ASR i TTS ::: Govorni signal 24

Uobličavanje spektra vokala Artikulatorna fonetika ASR i TTS ::: Govorni signal 25

Primer sw alata za modelovanje VT Artikulatorna fonetika ASR i TTS ::: Govorni signal 26

Modelovanje vokalnog trakta Artikulatorna fonetika ASR i TTS ::: Govorni signal 27

Auditorna fonetika Motivacija: Modelovanje percepcije govora razumevanje prirodnog prepoznavanja i razumevanja govora projektovanje algoritama za ASR i SLU problem je (ne)poznavanje viših kognitivnih nivoa Proces percepcije govora: Talasni front stigne do spoljnjeg uha Ušna školjka i slušni kanal usmeravaju zvuk na bubnu opnu usmeravaju i posebno pojačavaju govorne frekvencije Oscilacije bubne opne se prenose na bazilarnu membranu vrši spektralnu analizu u toku vremena Mozak razaznaje niz glasova, shvata reči i rečenice, opaža emocije ASR i TTS ::: Govorni signal 28

Delovi slušnog aparata Ušna školjka Slušni kanal Slušne koščice 2.5 0.4 cm 2 Bubna opna Pužasto telo Kohlea Presek kroz uho Auditorna fonetika ASR i TTS ::: Govorni signal 29

-60-40 Amplituda db -20 Frekvencija 0 20 Kako čujemo? zvuk Spoljašnje uho 16 khz Srednje uho Kohlearni fluidi 50 Hz 0 1 2 3 4 Frekvencija khz 0 Položaj 35 mm Slušni nerv Unutrašnje trepljaste ćelije Auditorna fonetika ASR i TTS ::: Govorni signal 30

Frekvencije duž bazilarne membrane Auditorna fonetika ASR i TTS ::: Govorni signal 31

Položaj maksimalnog pomeraja bazilarne membrane za različite frekvencije pobude Auditorna fonetika ASR i TTS ::: Govorni signal 32

Uhu primetne promene fekvencije Osećaj promene visine tona 850 segmenata bazilarne membrane 32 mm po 37 m. Mel vs. Hz skala: - ista do 500 Hz - posle logaritamska Mel skala je linearna duž bazilarne membrane. Radna grupa ćelija bazilarne membrane - oko 100 mela. Auditorna fonetika ASR i TTS ::: Govorni signal 33

Virtuelna visina tona Uho detektuje f0 iako je nema Kombinacija tonova 2f 1 -f 2, 3f 1-2f 2 i 4f 1-3f 2 Izvorni zvučni signal Filtriranje (uklanjanje prva tri harmonika) Spektar ostatka Auditorna fonetika ASR i TTS ::: Govorni signal 34

Subjektivni osećaj visine tona (pič) Ton iste frekvencije različito se doživljava ako je tiši ili glasniji subjektivni osećaj = visina tona (vezana za pič period) Povećanjem intenziteta osećaj visine tona se pomera naviše kod viših frekvencija jači zvuk izgleda još viši osećaj visine tona se pomera naniže kod nižih frekvencija pojačavanjem disharmoničnog zvuka 168 i 318 Hz počinje da se čuje kao harmoničan ton 150 i 300 Hz Visina tona se vezuje za melodijsku skalu kriva Mel-Hz kao pozicije Hz na bazilarnoj membrani Visina tona od 1000 mela = frekvenciji od 1000 Hz samo za nivo od 60 db Auditorna fonetika ASR i TTS ::: Govorni signal 35

Govorno područje (db-hz) Auditorna fonetika ASR i TTS ::: Govorni signal 36

Krive maskiranja Da li se efekat maskiranja odigrava na bazilarnoj membrani ili u CNS? Eksperiment: Maskirajući zvuk na jedno uho, a maskirani na drugo. Ishod? Kritični opsezi povezani sa bazilarnom membranom širina se povećava na višim frekvencijama terce se dobro poklapaju sa kritičnim opsezima Auditorna fonetika ASR i TTS ::: Govorni signal 37

Binauralna lokalizacija izvora Vremenska razlika između levog i desnog uha fazne razlike dominiraju ispod 1 kh Razlika u glasnoći na dva uha je i zbog zasenjivanja glave i ušnih školjki razlike u intenzitetu dominiraju iznad 1 khz Auditorna fonetika ASR i TTS ::: Govorni signal 38

Zakon prvog talasnog fronta Prvo se čuje direktan zvuk, a potom refleksije Ako je vremenska razlika između dva signala na mestu slušaoca veća od 1 ms pozicija slušnog doživljaja zavisi od pravca u kom se nalazi izvor čiji signal je prvi stigao do slušaoca drugi izvor postaje irelevantan u smislu lokalizacije Eksperiment sa govorom stereo postavka zvučnika dozirano kašnjenje i intenzitet iz drugog zvučnika slušalac javlja kada opazi refleksiju Auditorna fonetika ASR i TTS ::: Govorni signal 39

Fuzija audio signala Nakon direktnog zvuka uho prikuplja refleksije još 20-30 ms rane refleksije doprinose intenzitetu zvuka stiče se utisak o zvučnom izvoru lokacija i dr. i ambijentu koliko brzo iščezava zvuk Refleksije koje kasne za više od 50 ms čuju se kao eho ili odjek (jeka) Auditorna fonetika ASR i TTS ::: Govorni signal 40

Odjek (jeka) Ako kašnjenje prekorači neku gornju granicu nastaju dva slušna doživljaja odjek (jeka) njihove pozicije zavise od pozicija izvora Prag jeke nema oštru granicu (kašnjenja) kreće se između 35 i 50 ms zavisi od vrste i glasnosti signala, kao i smera upada povećanjem glasnosti prag se smanjuje, tj. odjek se uočava kod manjeg kašnjenja Auditorna fonetika ASR i TTS ::: Govorni signal 41

Obrada govornog signala Prof. dr Vlado Delić FTN Novi Sad

Jedan ton i govorni signal Koja tri parametra karakterišu sinusoidu? Kako se očitava frekvencija? Kakva je veza između sinusoida i govornog signala? Sabijanje/razređivanje vazduha su pozitivne/negativne amplitude Akustička fonetika Kolika je osnovna frekvencija (f0) govornog signala na slici? ASR i TTS ::: Analiza govornog signala 43

Promene amplitude u vremenu Akustička fonetika ASR i TTS ::: Analiza govornog signala 44

Akustička fonetika ASR i TTS ::: Analiza govornog signala 45

Akustička fonetika ASR i TTS ::: Analiza govornog signala 46

Subjektivni osećaj visine tona Pič je subjektivni osećaj f0 (visina tona) linearna veza do 1kHz logaritamska preko 1kHz Mel je jedinica za visinu tona Mel skala model f0-pič mapiranja f [ mel] 1127 ln(1 f [Hz] 700) Par zvukova koji su po piču perceptualno ekvidistantni udaljeni su za isti broj mela. Akustička fonetika ASR i TTS ::: Analiza govornog signala 47

Spektar jedne rečenice Način Max Shout vloud Nivo 88dBA 82dBA 74dBA Raised 65dBA Normal Relaxed Whisper 57dBA 50dBA 40dBA 1m, anechoic Akustička fonetika ASR i TTS ::: Analiza govornog signala 48

Govorno područje 49

Obvojnica i zvučnost u spektru Bezvučni glas [š] Zvučni glas [a] Akustička fonetika ASR i TTS ::: Analiza govornog signala 50

Glasovi se najviše razlikuju po obvojnici spektra. Akustička fonetika ASR i TTS ::: Analiza govornog signala 51

Glasovi se najviše razlikuju po obvojnici spektra. Akustička fonetika ASR i TTS ::: Analiza govornog signala 52

Spektrogram govora Akustička fonetika ASR i TTS ::: Analiza govornog signala 53

Formantna struktura vokala Akustička fonetika ASR i TTS ::: Analiza govornog signala 54

Spektrogram jedne rečenice Akustička fonetika ASR i TTS ::: Analiza govornog signala 55

Two plus seven is less than ten Akustička fonetika ASR i TTS ::: Analiza govornog signala 56

Širokopojasni spektrogram Akustička fonetika Two plus seven is less than ten ASR i TTS ::: Analiza govornog signala 57

Uskopojasni spektrogram Akustička fonetika Two plus seven is less than ten ASR i TTS ::: Analiza govornog signala 58

SNIMANJE GOVORA ASR i TTS ::: Govorni signal 59

Potrebne karakteristike mikrofona Koji je frekvencijski opseg govora? Koliki je dinamički opseg govora? Koju karakteristiku usmerenosti izabrati? ako čita neće praviti neočekivane izlete iz ose mikrofona koristiti usmeren mikrofon super- ili hiper-kardioid izbegava se reflektovani zvuk i buka ako je slobodna interpretacija okreće glavu, gestikulira koristiti manje usmeren mikrofon kardioid ASR i TTS ::: Govorni signal 60

Postavljanje mikrofona Govor za RTV, film, razglas, pozorište uvek je najvažnija razumljivost Snimatelj se na probi (15-20s) prilagodi govorniku zanima nas zvučna snaga, spektar i dinamika profesionalci su izabrani bez govornih mana Govornik se smešta u ambijent i podesi mu se položaj mikrofona bitna visina i ugao ka govorniku

Problemi u snimanju govora Prenaglašenost sibilanata (piskavih glasova) rešavaju se zakretanjem mikrofona za 20-tak stepeni jer je mikrofon najosetljiviji na VF u pravcu ose Kod praskavaca (ploziva) problem je jak vazdušni udar rešava se udaljavanjem mikrofona osa ostaje u pravcu usta Oba problema može da reši i specijalni štitnik windschutz, windscreen Eventualni mali gubitak u nivou signala lako se pojača Problemi se rešavaju postavkom mikrofona, a tek onda filtrima Kod više govornika, prvo se postavlja najkritičniji retko se jednim mikrofonom rešava više od 3-4 govornika npr. ženski glas bliže ali van ose za više govornika bolja je osmičasta karakteristika usmerenosti

Snimanje govora sa više mikrofona Prednosti: grupisanje izvođača sa govornim manama slobodnije korišćenje filtara, bojenja, i sl. lako balansiranje glasovne ravnoteže veći komfor za izvođače Problemi: otežana operativnost za snimatelja prati tekst replike prati odsečna regulacija povećan nivo šuma i reverberacije ne trebaju svi odjednom preklapanje signala u slušalicama nema binauralnu lokalizaciju

Ozvučavanje vokala Za snimanje u studiju cevni mikrofon (npr. Neumann U 48) Za izvođenje uživo robusnost, otpornost na vlagu, udarce; dinamički kardioidni mikrofon (najčešće SHURE SM 58) Zaštitne mrežice (zbog ploziva) Zakretanje mikrofona kod visokih frekvencija Kompresor drži dinamiku vokala ujednačenom Reverb uklapa vokal u celokupnu sliku, daje efekat prostora vokalu

MERENJE RAZUMLJIVOSTI GOVORA ASR i TTS ::: Govorni signal 65

Merenje razumljivosti govora Zadovoljavajuća logatomi 65% 75% - dobra 60% - nedovoljna reči >90% rečenice blizu 100% 66

Mean Opinion Score (MOS) skala Neprimetna oštećenja Primetna ali ne smetaju Malo smetaju Smetaju Veoma smetaju 67

Uticaj reverberacije i šuma 68

Uticaj jačine na razumljivost ASR i TTS ::: Govorni signal 69

Govor u bučnoj sredini Kriterijumi u db(a) ispod 50 Mogućnost sporazumevanja telefon i dr. normalna 55 zadovoljavajuća 60-65 manje-više otežana 70 iznad 75 teška (samo govorne komande i neki zvučni signali) nezadovoljavajuća (ne može se računati na sporazumevanje govorom) 70

Udaljenost sa koje se razume govor Kriterijumi u db(a) Udaljenost u metrima (normalan govor) Udaljenost u metrima (glasan govor) 40-45 5 10 45-50 2,5 5 50-60 1 2 60-65 0,70 1,20 70 0,40 0,80 75 0,22 0,45 80 0,13 0,25 85 0,07 0,14 90-0,08 Za buku do 70 db(a) govornik se razume iz prihvatljive blizine. Pri buci od preko 75 db(a) moguće je dovikivanje na uvo. 71

Pitanja - artikulacija govora Opisati govornu komunikaciju od govornika do slušaoca. Koji su delovi govornog aparata? Objasniti funkcije pojedinih govornih organa. Kako rade glasnice? Koji efekat stvaraju pluća? Kako funkcioniše vokalni trakt? Skicirati model govornog mehanizma. Kako se modeluju (bez)zvučni glasovi? Kako se modeluje uticaj vokalnog trakta? Kako izgleda dugovremeni spektar govora? Po čemu se razlikuju spektri pojedinih vokala? Šta pokazuje spektrogram?

Pitanja - snimanje i merenje govora Snimanje glasa (govor/vokal) Karakteristike mikrofona: frekvencijski opseg dinamički opseg karakteristika usmerenosti Kako se rešava: prenaglašenost sibilanata vazdušni udar praskavaca Prednosti i mane korišćenja posebnih mikrofona za svakog govornika Merenja govornog signala Objasniti MOS skalu Šta se meri i izražava na njoj? Šta su logatomi i kako se sa njima meri razumljivost? Kako glasnost govora utiče na njegovu razumljivost? Kako reverberacija utiče na razumljivost govora? Kako nivo buke utiče na mogućnost sporazumevanja govorom?

Artikulacija, percepcija i analiza govornog signala Prof. dr Vlado Delić FTN Novi Sad