DIGITALNA OBRADA GOVORA U MOBILNOJ TELEFONIJI
Parametr dgtalnh audo-sgnala Zvuk predstavlja brze promene vazdušnog prtska Ove promene regstrujemo ako su dovoljnog ntenzteta u odgovarajudem frekvencjskom opsegu Frekvencjsk opseg čula sluha je 20Hz 20 khz Uho regstruje ampltudsk spektar zvuka, ne fazn Standardn parametr kodovanja zvuka CD standard Stereo, učestanost odabranja 44.1 khz, 16 bt/odb. (1.4 Mbt/s) Dgtalna telefonja Mono, učestanost odabranja 8 khz, 8 bt/odb. (64 kbt/s) Slabj kvaltet, al mnogo manja kolčna podataka Naprednm tehnkama kodovanja ta kolčna se dodatno smanjuje (npr. u sstemma moblne telefonje) 2
Sgnal govora Produkcja govora može se posmatrat prema modelu pobuda-fltar Pobuda: glotaln sgnal, koj može bt: Perodčan kod vokala (a, e,, o, u) zvučnh konsonanata (b, g, d, z, ž,...), dobjen perodčnm otvaranjem zatvaranjem glotsa Aperodčan kod bezvučnh konsonanata (p, k, t, s, š,...), dobjen prolaskom vazduha kroz opušten glots Fltar: vokaln trakt (usna nosna duplja) razlčt položaj pojednh organa zazvaju razlčt (trenutn) zgled frekvencjske karakterstke 3
Sgnal govora kod vokala Kod vokala glotaln sgnal je (prblžno) perodčan, pa je govorn sgnal (prblžno) perodčan Osnovnu učestanost f 0 opažamo kao vsnu glasa Postoje tpčn opsez f 0 za žene, muškarce, decu f 0 se tokom govora menja Spektar je dskretan Harmonc se nalaze na učestanostma f 0, 2f 0, 3f 0,... Područja gde harmonc maju maksmalne vrednost nazvaju se formant Pojedn vokal razlkuju se po položaju formanata 4
Sgnal govora kod bezvučnh konsonanata Kod bezvučnh konsonanata glotaln sgnal je slučajan (šum), pa je govorn sgnal slučajan Spektar govornog sgnala je kontnualan Izgled spektra određen je zgledom frekvencjske karakterstke vokalnog trakta Pojedn konsonant razlkuju se po zgledu spektra položajma maksmuma u spektru 5
Model pobuda-fltar (vokal) 6
Ideja kompresje govora kod vokala Umesto prenosa vrednost svakog odmerka sgnala posebno, dovoljno je prenet: Podatak o osnovnoj učestanost f 0 Podatke o obvojnc ampltudskog spektra (koj je sporo promenljv pa se može opsat malm brojem parametara) Postoj oko 5 uočljvh formanata na opsegu od nteresa Svak formant (maksmum spektra) modeluje se jednm parom konjugovano kompleksnh polova, pa fltar ma p = 10 polova Na osnovu th podataka govorn sgnal se rekonstruše na prjemnoj stran Tačnje, rekonstruše se sgnal prblžno stog ampltudskog spektra, al uho svakako ne regstruje fazn spektar 7
Ideja kompresje govora kod vokala Glotaln sgnal u stvarnost, doduše, nje perodčan nz δ-mpulsa, ved nek sasvm drugačj perodčan sgnal: g( t) m g 0 ( t mt 0 ) g( t) m δ( t mt 0 ) To ne znač da je model netačan jer se konkretan zgled jednog glotalnog mpulsa g 0 (t) može u okvru modela uključt u mpulsn odzv vokalnog trakta g0( t mt0 ) h( t) δ( t mt0 ) ( g0( t) h( t)) glotaln mpuls u stvarnost mpulsn odzv vokalnog trakta u stvarnost glotaln mpuls u okvru modela mpulsn odzv vokalnog trakta u okvru modela 8
Model pobuda-fltar (konsonant*) * prkazan slučaj odgovara bezvučnom konsonantu 9
Ideja kompresje govora kod konsonanata Umesto prenosa vrednost svakog odmerka sgnala posebno, dovoljno je prenet podatke o ampltudskom spektru (koj je sporo promenljv pa se može opsat malm brojem parametara) Ovde se takođe, z slčnh razloga kao u prethodnom slučaju, utcaj vokalnog trakta modeluje fltrom koj ma p = 10 polova Na osnovu th podataka na prjemnoj stran rekonstruše se sgnal stog ampltudskog spektra, kao u slučaju vokala U praks glotaln sgnal nje bel šum, ved takođe obojen To ne znač da je model netačan jer se specfčan spektraln sadržaj glotalnog sgnala može uključt u frekvencjsku karakterstku vokalnog trakta (na st načn kao u slučaju vokala) 10
Vremenska promenljvost vokalnog trakta Vokaln trakt pr zgovoru razlčth glasova zauzma razlčte položaje Vokaln trakt je vremensk promenljv sstem ( upotreba termna fltar zbog toga nje sasvm korektna) Frekvencjska karakterstka vokalnog trakta je takođe promenljva u vremenu Srednje trajanje jednog glasa je oko 100 ms, dok nek glasov mogu trajat znatno krade od toga Pojam vremensk promenljvog spektra nje u suprotnost sa defncjom spektra, pošto se u praks trajanje sgnala pre zračunavanja spektra svakako ogrančava na nterval od nteresa: X ( τ, ω) x( n) w( n τ) e jωn KRATKOTRAJNA FOURIEROVA TRANSFORMACIJA (eng. STFT) Za potrebe kompresje može se uzet da je frekvencjska karakterstka vokalnog trakta relatvno nepromenljva u toku ntervala od 20 ms 11
LPC kompresja govora LPC (eng. Lnear Predcton Codng) kompresja govora zasnva se na zloženom modelu pobuda-fltar Svakh 20 ms na osnovu odgovarajudeg segmenta govornog sgnala koj treba prenet: Estmra se da l je segment zvučan l bezvučan (da l u seb ma zraženu perodčnu komponentu) Ako je zvučan, estmra se f 0 Estmra se prenosna, pa samm tm frekvencjska karakterstka vokalnog trakta Vokaln trakt modeluje se IIR fltrom koj sadrž 10 polova a ne sadrž nule (eng. all-pole). Ovakav fltar ma 10 koefcjenata u menocu prenosne karakterstke 1 koefcjent u brojocu (pojačanje). Umesto da se u toku 20 ms prenesu pojednačne vrednost 160 odbraka, prenos se samo navedenh 13 vrednost estmranh parametara, čme se postže značajna ušteda 12
LPC kompresja govora (predajna strana) Potrebno je: Preemfazrat govorn sgnal (fltrrat ga tako da mu se zdgnu vsoke učestanost jer one nose vše nformacja) Ovo de bt kompenzovano na prjemnoj stran, deemfazranjem Estmrat zvučnost f 0 (ako je segment zvučan) Estmrat parametre vokalnog trakta (pojačanje + 10 koefcjenata) Kodovat sve ove podatke multpleksrat h Parametr vokalnog trakta estmraju se svakh 20 ms, u okvru Hammngovog prozora šrne 30 ms (sa preklapanjem) DETEKTOR ZVUČNOSTI I UČESTANOSTI KVANTIZER I KODER KODOVANI PODACI O ZVUČNOSTI I OSNOVNOJ UČESTANOSTI MULTIPLEKSER IZLAZNA POVORKA BITA FILTAR ZA PREEMFAZIS MNOŽENJE PROZORSKOM FUNKCIJOM MODUL ZA LPC ANALIZU KVANTIZER I KODER 13
LPC kompresja govora (predajna strana) Parametr vokalnog trakta estmraju se na osnovu mnmzacje odstupanja zmeđu orgnalnog rekonstrusanog sgnala Na prjemnoj stran de se govor rekonstrusat na sleded načn: VOKALNI TRAKT POBUDNI SIGNAL g(n) V( z) 1 p A a z REKONSTRUISANI GOVOR ŝ(n) 1 Sˆ( z) G( z) V( z) 1 A G( z) p 1 a z Sˆ( z) sˆ( n) 1 p 1 Ag( n) a z p 1 A G( z) a sˆ( n ) Dakle, ako su g(n) koefcjent vokalnog trakta poznat, svak odmerak govora može se predvdet na osnovu p = 10 prethodnh 14
LPC kompresja govora (predajna strana) Pr estmacj a ono što je poznato jeste stvarn govorn sgnal s(n) Kada b se parametr a fksral na neke vrednost, to b rezultovalo određenom greškom predkcje, odnosno rezdualnm sgnalom: e( n) s( n) p 1 a s( n ) Što je rezdualn sgnal manj, blž smo stuacj u kojoj se svak odbrak s(n) može zrazt kao (sta) lnearna kombnacja prethodnh 10 odbraka Clj je odabrat koefcjente a tako da energja rezdualnog sgnala bude što manja, tj. da svak odbrak govornog sgnala bude što prblžnj lnearnoj kombnacj prethodnh 10 odbraka s koefcjentma a U 30 ms ma 240 odbraka, sv osm prvh 10 mogu se upoređvat s lnearnm kombnacjama prethodnh 10 Da je e(n) = 0, mal bsmo preodređen sstem 230 jednačna sa 10 nepoznath, koj b po pravlu bo protvrečan Optmaln koefcjent a dobjaju se, umesto toga, na osnovu sstema 10 jednačna s 10 nepoznath, koj se teratvno rešava (Yule-Walkerove jednačne, zasnovane na autokorelacj sgnala s(n)). 15
LPC kompresja govora (prjemna strana) Na prjemnoj stran vrš se rekonstrukcja govornog sgnala na osnovu prmljenh parametara: zvučnost, f 0, A a 1,...a p. ULAZNA POVORKA BITA DEMULTIPLEKSER KOEFICIJENTI FILTRA a POJAČANJE A ZVUČNOST UČESTANOST POBUDE f 0 GENERATOR IMPULSA MODEL VOKALNOG TRAKTA FILTAR ZA DEEMFAZIRANJE s(n) GENERATOR ŠUMA Ovako realzovan sstem ostvaruje vrlo nzak dgtaln protok (oko 2.4 kbt/s), al daje govor relatvno nskog kvalteta Glavn uzrok gubtka kvalteta je gruba odluka zvučno/bezvučno Ovaj sstem bo je npr. do 1996. koršden za sateltsk prenos govora 16
LPC kompresja govora u praks Bolj kvaltet postže se boljm modelovanjem rezdualnog sgnala Da se pr rekonstrukcj, umesto povorke δ-mpulsa l belog šuma, kao pobuda upotreb upravo rezdualn sgnal, bo b dobjen rekonstrusan govor ŝ(n) dentčan orgnalnom s(n) sˆ( n) Ag( n) p 1 a sˆ( n ) e( n) s( n) MPE (eng. Mult-Pulse Excted) Pobuda = određen broj mpulsa (tpčno 10 u okvru frejma dužne 10 ms), čj se položaj ampltude estmraju teratvno u clju mnmzacje odstupanja rekonstrusanog govora od orgnalnog Rezdualn sgnal (sgnal greške) fltrra se tzv. perceptvnm fltrom da b se uklono nepoželjn utcaj formanata na njegovu procenu Jedna varjanta MPE (RPE-LPC eng. Regular Pulse Excted, sa mpulsma na jednakm rastojanjma u pobudnom sgnalu) korstla se u okvru GSM od 1992. do 1996. (13 kbt/s) p 1 a s( n ) 17
LPC kompresja govora u praks CELP (eng. Code-Excted Lnear Predcton) Koder bra jednu od raspoložvh sekvenc pobudnog sgnala z tzv. kodne knjge kodna knjga sadrž (prblžne) mogude sekvence stu kodnu knjgu poseduju predajnk prjemnk Ka prjemnku se šalje samo redn broj zabrane sekvence Na samom govornom sgnalu ovo b blo nemogude zbog velke varjablnost, al na pobudnom sgnalu je sasvm mogude Jedna varjanta CELP (ACELP eng. algebrac CELP) uvedena je 1996. u GSM (11.2 kbt/s uz bolj kvaltet govora), a kasnje standardzovana od strane ITU-T u okvru G.729 (8 kbt/s) Današnj koder se takođe sv zasnvaju na CELP prncpu maju dgtalne protoke od 4.75 kbt/s do 11.2 kbt/s 18