PROGRAMSKA REALIZACIJA METODE ZA AUTOMATSKO PREPOZNAVANJE VOKALA Vladan Vu~kovi} 1 1 Elektronski fakultet u Ni{u I UVOD U radu su opisane osnovne metode i princip programske realizacije sistema za automatsko (ma{insko) prepoznavanje vokala. Program ADS v1.0 kao i aplikacija za automatsko prepoznavanje vokala napisane su od strane autora i ~ine prakti~ni deo ovog rada. Deo rada posve}en je formantnoj analizi vokala kao osnovnoj metodi njihovog prou~avanja. Tako e, bi}e opisan princip funkcionisanja nekoliko tipova klasifikatora vokala baziranih ne samo na formantnoj analizi ve} i na drugim metodama. Vokale mo`emo definisati kao foneme kod kojih su stabilne frekvencijske karakteristike najvi{e izra`ene. Upravo te frekvencijske odnosno formantne karakteristike mogu predstavljati stabilnu osnovu za izgradnju efikasnih algoritama za prepoznavanje vokala. Ideja o tome da osnovni formanti F1, F2 i F3 a pogotovu F1 i F2 imaju osnovnu ulogu u fazi prepoznavanja poti~e jo{ iz 1952. godine iz radova Davis-a, Biddulpha i Balasheka (Slika 1.). Sistem za automatsku klasifikaciju razvijen od strane ove grupe autora svoj rad bazira na formiranju dvodimenzionalnih prostora odluke ~ije su apcisa i ordinata formantne frekvencije F1 i F2 respektivno. Sistem je imao efikasnost prepoznavanja od 98% za govornika koji je obu~avao bazu uzoraka i 50% za ostale govornike. Ovaj sistem istovremeno predstavlja i prvi klasifikator govornih informacija a pristup koji se oslanja na analizu osnovnih formanata zadr`ao se u gotovo neizmenjenom obliku i do danas. Osnovna (fundamentalna) frekvencija predstavlja osnovni laringealni ton prisutan u izgovoru i on svoje poreklo vodi od biomehani~kih karakteristika vokalnog trakta, a pre svega od na~ina funkcionisanja i vibriranja glasnica [11]. Kod zdravih govornika nivo osnovne frekvencije je stabilan i predstavlja jednu od kognitivnih karakteristika govora. Upravo iz tog razloga, mnogi istra`iva~i koriste potpuniji skup karakteristika za obu~avanje klasifikatora: pored formanata F1 i F2 koriste se i formant F3 kao i vrednost osnovne frekvencije F0. Kombinacijom ova ~etiri parametara mogu}e je izgraditi klasifikator koji }e biti znatno efikasniji u odnosu na klasifikator baziran na kori{}enju samo prvog i drugog formanta. Na slede}oj slici prikazane su varijacione oblasti izgovora pojedinih formanata vokala izgovorenih od strane razli~itih govornika [1]: Slika 2. Varijacione oblasti izgovora pojedinih vokala u dvodimenzionalnom F1-F2 prostoru. Slika 1. Sistem za raspoznavanje govorne sekvence Davis-a, Biddulpha i Balashek-a. II KLASIFIKACIJA VOKALA BAZIRANA NA OSNOVNOJ (FUNDAMENTALNOJ) FREKVENCIJI I FORMANTNOJ ANALIZI Za razliku od predhodno pomenutog klasifikatora koji eksploati{e trougao vokala, klasifikator koji bi svoj rad bazirao na varijacionim oblastima bi funkcionisao na slede}i na~in: Na osnovu formantnih frekvencija F1 i F2 odre ivala bi se koordinata reprezentativne ta~ke ispitnog vokala. Zatim bi se ispitivalo kojoj od ozna~enih oblasti pripada data ta~ka i na osnovu toga bi se obavljala klasifikacija izgovorenog fonema (Slika 2.). Prednosti ovog novog metoda bi bilo pove}anje efikasnosti prepoznavanja razli~itih govornika za slu~aj vokala predstavljenih spoljnim
oblastima na dijagramu. Osnovni nedostatak metoda je nizak faktor uspe{nog prepoznavanja za unutra{nje oblasti, u kojima, a to je evidentno i sa slike 2., dolazi do preklapanja klasifikacionih oblasti. U ovim oblastima je radi preciznijeg raspoznavanja potrebno koristiti karakteristike vezane za frekvenciju tre}eg formanta ili jo{ neke dodatne informacije - kao {to su na primer intenziteti pojedinih formanata. Pokazano je da kori{}enje srednjekvadratnih klasifikatora umesto linearnih daje bolje rezultate u prepoznavanju [4]. Tako e, kori{}enje nelinearnih transformacija i krivih drugog stepena omogu}ava preciznije odre ivanje granica klasifikacionih oblasti u odnosu na linearne transformacije. Kod modela klasifikacije baziranom na primeni ~etiri pomenuta parametra formanti F1 i F2 i dalje igraju osnovnu ulogu dok ostala dva parametra imaju funkciju pove}avanja efikasnosti prepoznavanja i njegovog pribli`avanja faktoru koji posti`u ljudski ispitanici. Po{to prilikom izgovora vokala dolazi do uticaja mnogih ne`eljenih parametara veznih kako za individualne karakteristike govornika tako i za brzinu izgovora i fonemsko okru`enje vokala, normalizacione tehnike koje se obavljaju pre samog procesa klasifikacije dobijaju jo{ ve}i zna~aj. Razumevanje i ispravna implementacija normalizacije u najve}em broju slu~ajeva ima presudan zna~aj za efikasnost samog algoritma za prepoznavanje zbog toga {to se ve} u fazi normalizacije mnoge sporedne i nepotrebne karakteristike ispitivanog vokala odbacuju. III KLASIFIKACIJA VOKALA NA OSNOVU SPEKTRALNOG OBLIKA Bez obzira na to {to su prva tri formanta, a posebno formanti F1 i F2 naj~e{}e kori{}ene karakteristike u izgradnji automatskih klasifikatora vokala ipak je o~igledno da se moraju koristiti jo{ neke dodatne frekvencijske karakteristike govornog signala kako bi se postigle maksimalne performanse u prepoznavanju vokala. Studije bazirane na istra`ivanjima prepoznavanja vokala na osnovu formanata pokazale su da ako se ljudskim ispitanicima ponude uzorci vokala dobijeni primenom automatske sinteze ili na osnovu filtriranja prirodno izgovorenih vokala propu{taju}i samo frekvencije koje su bliske formantnim frekvencijama, dolazi do pada performansi u prepoznavanju kod ljudskih ispitanika do nivoa koji se mo`e uporediti sa nivoom koji posti`u automatski klasifikatori. To samim tim zna~i da uticaj na prepoznavanje vokala vr{e i neke druge frekvencijske oblasti koje se nalaze van formantnih oblasti. Kori{}enje osobina vezanih za kontinualni frekvencijski spektar izgovorenog vokala a ne samo za oblasti frekvencija koncentrisanih oko frekvencija osnovnih formanata je pristup koji u svim slu~ajevima dalje bolje rezultate od ~isto formantnog pristupa [5]. Blandon [5] je izneo niz argumenata koji opravdavaju kori{}enje celokupnog spektra govornog signala umesto kori{}enja samo formantnih frekvencija. Prvo, on smatra da je predstavljanje vokala samo preko formanata suvi{e redukovan i determinisan pristup pri kome se gube neke zna~ajne perceptualne informacije. Drugo, sve promene u formantnoj strukturi se odra`avaju i na ukupnu spektralnu strukturu tako da formantna analiza u stvari predstavlja samo deo, podskup potpune spektralne analize. Drugim re~ima, sve informacije vezane za formantnu strukturu su automatski sadr`ane i u spektralnoj strukturi tako da uop{te ne dolazi do gubitka informacija. Tre}i argument odnosi se na ~injenicu da je perceptualna razlika izme u vokala bolje prikazana ako se signal predstavi u potpunom nego u pojednostavljenom, formantnom obliku. U radu [5] detaljno je izvr{ena analiza primenom obe metode: formantne i metode bazirane na spektralnim oblicima. Pri tome je kao karakteristika spektralnog oblika signala kori{}en niz koeficijenata dobijenih diskretnom kosinusnom transformacijom (DCTC) na nelinearno skaliranom spektru govornog signala. IV AUTOMATSKI KLASIFIKATORI Osnovna ~etiri tipa automatskih klasifikatora su: Euklidov klasifikator (EUC) - Klasifikacija se obavlja na osnovu Euklidovog rastojanja u prostoru stanja, Mahalanobis klasifikator (MAH) - Ovaj klasifikator je u skladu sa postulatom (Duda, Hart, 1973) da je klasifikator optimalan ako vektor karakteristika ima Gausovu raspodelu, Bayesian- ov klasifikator (BML) - Bayesian-ov klasifikator najve}e sli~nosti (Bayesian Maximum Likehood Classifier) radi na osnovu minimizacije Bayesian-ovog rastojanja: D i (x)=(x-x i )T i-1 R (x-x i )+ln(r i )-2lnP(G i ), 1<i<M. Klasifikator baziran na primenama neuromre`a (ANN) - Ovaj klasifikator koristi neuromre`u sa jednim skrivenim slojem i sigmoidalnom karakteristikom. U slede}oj tabeli dati su rezultati ispitivanja procenta uspe{nog prepoznavanja 11 vokala kori{}enjem sva ~etiri tipa klasifikatora i ~etiri vrste skala. Sistem za prepoznavanje baziran je na kori{}enju DCTC koeficijenata kao predstavnika frekvencijskog opsega signala izme u 75 Hz i 5500 Hz: Klasifikator r/lin ear Log/ r r/bar k EUC MAH BML ANN 36% 50% 54% 62% 58% 62% 68% 71% 34% 53% 60% 68%
Log/ Bark 59% 65% 78% 75% Tabela 1. Tabela prikazuje procenat prepoznavanja u funkciji razli~itih tipova skala i klasifikatora. Tabela pokazuje da najve}i procenat prepoznavanja posti`u klasifikatori tipa BML i ANN, dok Log/Bark predstavlja odnos skala koji daje najbolje rezultate. Prema ovoj tabeli, optimalni uslovi za eksperiment su upotreba BML klasifikatora uz Log/Bark skalu kao i analiza u frekvencijskom opsegu 75 Hz - 5500 Hz. V PROBLEM PREPOZNAVANJA VOKALA MA[INSKOG Ma{insko prepoznavanje vokala se u velikoj ve}ini dosada{njih realizacija oslanja na formantnu odnosno spektralnu analizu [1],[2],[3]. Kori{}enjem Furijeovih [2],[3] transformacija izdvajaju se formantne u~estanosti na osnovu ~ijeg me usobnog polo`aja i intenziteta se i obavlja njihova klasifikacija. Drugi pristup u re{avanju problema prepoznavanja vokala, koji predstavlja osnovu za realizaciju algoritma u prakti~nom delu ovog rada, podrazumeva kori{}enje talasnog oblika signala dobijenog digitalizacijom govornog signala. Na taj na~in zaobilazi se harmonijska analiza signala ~ime se omogu}ava brzo i efikasno funkcionisanje programa za prepoznavanje. Odre ivanje u~estanosti izgovorenog vokala bazira se na otkrivanju periodi~nosti u talasnom obliku digitalizovanog govornog signala odnosno na pronala`enju sekvence talasnog oblika koja se multiplicira generi{u}i potpun talasni oblik. Analizom i upore ivanjem te normalizovane periode sa bazom referentnih uzorka obavlja se funkcija klasifikacije odnosno prepoznavanje odre enog vokala. Da bi ilustrovali su{tinu metode izdvoji}emo deo talasnog oblika vokala E koriste}i program ADS V1.0 [6],[8]: Slika 3. Deo talasnog oblika vokala E sa izdvojenom periodom. Na slici 3. je kori{}enjem vertikalnih kurzora izdvojena jedna perioda iz talasnog oblika. Ta perioda predstavlja karakteristiku po kojoj se vr{i klasifikacija vokala. Zbog mnogobrojnih uticaja na govorni sistem talasni oblik jednog istog vokala mo`e varirati u nekim granicama zadr`avaju}i ipak pri tome svoj karakteristi~an oblik. Uticaj varijacija mo`e se uspe{no otkloniti normalizacijom signala [7, 9]. VI PROGRAMSKA IMPLEMENTACIJA METODE ZA PREPOZNAVANJE VOKALA Programska implementacija metode za prepoznavanje vokala zasniva se na kori{}enju spektralnog oblika kao osnovne karakteristike kako je to i pokazano u predhodnom delu ovog poglavlja. Proces prepoznavanja vokala sastoji se od nekoliko faza [10]: Slika 4. Dijagram toka - faze u prepoznavanju vokala. Svaka faza implementirana je jednom procedurom ~iji su detalji dati u nastavku rada. Prvi korak u procesu prepoznavanja vokala je otvaranje odgovaraju}e WAV datoteke i pozicioniranje na po~etak serije odbiraka koji predstavaljaju digitalizovani zapis govornog signala (44 bajtova od po~etka datoteke). Signal je digitalizovan na frekvenciji od 22050 Hz sa 16-bitnim odmeravanjem tako da je promenjiva f koja predstavlja simboli~ko ime datoteke definisana kao var f: file of integer; Posle inicijalizacije nizova sledi po~etak samog procesa prepoznavanja koji se sastoji od nekoliko faza: Pronala`enje po~etka digitalizovanog signala (procedura found_signal;) - Procedura nalazi po~etak signala na osnovu intenziteta. WAV datoteka se skanira od po~etka u grupama od 256 odmeraka i kada suma intenziteta pre e odgovaraju}u vrednost pozicionira se pokaziva~ na po~etak i prelazi se na slede}u fazu.
U~itavanje bloka signala (procedura load_signal;) - Obavlja se u~itavanje dela signala (bloka od 1024 odmeraka) u operativnu memoriju. Definisan blok podataka ekvivalentan je Hammingovom prozoru du`ine 46 msec. Generisanje liste promena (procedura generate_change_list;) - Generi{e se lista promena. Lista promena definisana je kao niz od 1024 elemenata ch:array [1..1024] of cltip; gde je : type cltip=record length:integer; change:longint; end; Procedura ima zadatak da generi{e listu promena odnosno da svede obiman ulazni skup odmeraka na mnogo kompaktniji niz podataka. Generisanje lista promena obavlja se tako {to se u ulaznom digitalizovanom nizu odmeraka detektuje svaka promena u porastu odnosno opadanju intenziteta. Samo u slu~aju da je do{lo do promene smera porasta odnosno da signal iz opadanja prelazi u rast i obratno u niz ch upisuje se intenzitet i trajanje te promene. Na taj na~in obavljeno je primarno izdvajanje karakteristike signala uz istovremenu redukciju obima ulaznih parametara za faktor 1:20. Nadalje, sve operacije normalizacije i klasifikacije obavljaju se nad definisanom listom promena a ne nad polaznom WAV datotekom. Normalizacija liste promena (procedura normalizuj_chl;) - Zadatak ove procedure je normalizacija odgovaraju}e liste promena prema intenzitetu najve}e promene. Na taj na~in elimini{e se uticaj intenziteta ulaznog signala na efikasno funkcionisanje procedure za prepoznavanje. Ekstrakcija periode (procedura extract_period;) - Ova procedura obavlja ekstrakciju periode signala na taj na~in {to u listi promena tra`i rastojanje izme u dva elementa sa maksimalnim intenzitetom promene (>90%), ~ije je rastojanje minimalno. Elementi liste promena koji se nalaze izme u ova dva ekstrema predstavljaju uzorak koji se prepoznaje. Broj elemanata promene u listi promena varira u intervalu 4-15 elemenata. Eliminisanje signala kratkog trajanja (procedura eliminate_picks;) - U ekstraktovanoj listi promena ova procedura elimini{e sve promene ~ije je trajanje manja od neke definisane vrednosti. Na taj na~in pobolj{avaju se rezultati prepoznavanja algoritma u slu~ajevima prisustva ometaju}ih signala vi{ih frekvencija kao i u prisustvu signala {uma. U~itavanje baze (procedura load_base;) - Pre poziva procedure za prepoznavanje obavlja se u~itavanje baze. Format baze je jednostavan i sastoji se od niza ekstraktovanih lista promena. Da bi se jo{ vi{e pojednostavilo editovanje baze njen format je definisan u vidu tekstualne datoteke tako da se vrednosti pojedinih elemenata liste promena u njoj mogu menjati iz obi~nog tekstualnog editora. Prepoznavanje vokala (procedura recognize;) - Procedura za prepoznavanje obavlja upore ivanje normalizovane i ekstraktovane periode predstavljene u vidu liste promena sa svim referentnim uzorcima definisanim u bazi u jednom prolazu. Na osnovu minimalne Euklidove udaljenosti odre uje se najsli~niji uzorak. Testiranja ovog programa pokazala su da je za uspe{no prepoznavanje vokala (pri ~emu pod tim smatramo faktor pogodka ve}i od 90%) potrebno da svaki vokal u bazi bude predstavljen sa bar 10 referentnih uzoraka. Ovako veliki broj referentnih uzoraka je posledica karakteristike metode za prepoznavanje koja forsira o{tru klasifikaciju - sa malim intervalom mogu}e tolerancije. Ovako veliki broj uzoraka ne uti~e previ{e na vreme prepoznavanja koje je u linearnoj zavisnosti od broja elemenata u bazi ali ima veoma negativan uticaj na stabilnost rezultata algoritma za prepoznavanje koja je, kao {to je to ve} poznato, u obrnutoj proporciji sa brojem uzoraka. VII ZAKLJU^AK Metoda prepoznavanja vokala koja je realizovana u okviru aplikacije svoj rad bazira na analizi promena u strukturi talasnog oblika i na nala`enju periodi~nosti u digitalizovanom govornom signalu koji predstavlja izgovore odre enih samoglasnika - vokala. Imaju}i u vidu da klasi~na re{enja koja su bazirana na formantnoj analizi tra`e slo`en matemati~ki aparat za realizaciju spektralne analize kori{}enjem Furijeovih transformacija i{lo se na realizaciju kori{}enjem znatno jednostavnije metode obrade. Metod koji je realizovan pokazuje dobre osobine u smislu veoma preciznog automatskog odre ivanja osnovne frekvencije kao i stroge klasifikacije prilikom prepoznavanja {to omogu}ava njegovu potencijalnu primenu u zadacima vezanim za automatsku identifikaciju i verifikaciju govornika. Tako e, mogu}e su i primene u oblastima istra`ivanja uticaja stresa na parametre govornog signala, kao {to je to prikazano u predhodnom delu rada. Kao zaklju~ak mo`emo naglasiti da je u cilju omogu}avanja prepoznavanja razli~itih govornika, smanjenja broja potrebnih referentnih uzoraka u bazi i pove}anja stabilnosti rada algoritma neophodno kombinovati prikazani metod baziran na analizi talasnog oblika sa klasi~nim metodama spektralne odnosno formantne analize. LITERATURA [1]R. Rabiner, R. W. Schafer Digital Processing of Speech Signals, Bell Laboratories, Prentice-Hall, Inc., U.S.A., 1978.
[2]Miodrag V. Popovi} Digitalna obrada signala, Nauka, Beograd, 1994. [3]Ljubi{a Stankovi} Digitalna obrada signala, Nau~na knjiga, Beograd, 1989. [4]James Hillenbrand, R. T. Gayvert Vowel Classification Based on Fundamental Frequency and Formant Frequencies, Journal of Speech and Hearing Research, vol. 36, str. 694-700, U.S.A., August 1993. [5]Stephen A. Zahorian, Amir J. Jagharghi Spectral-shape Features Versus Formants as Acoustic Correlates for Vowels, Journal of Acoustic Sociaty of America, vol. 94, No. 4 str. 1966-1982, U.S.A., October 1993. [6]Milena Stankovi}, Vladan Vu~kovi}, Milkica Ne{i} Prikaz programa ADS V1.0 za digitalnu obradu govornog signala, Zbornik radova II Konferencije telekomunikacije u savremenim satelitskim i kablovskim sistemima (TELSIX 95), str. 238-241 (7-19-7-22), Ni{ 10-12. oktobar 1995. [7]Milena Stankovi}, Vladan Vu~kovi}, Milkica Ne{i} Primena personalnih ra~unara u analizi uticaja stresa na parametre ljudskog govora, Nau~nostru~ni skup Medicinska informatika MI 96, Zbornik radova str. 226-231, Aran elovac 28-31. oktobar 1996. [8]Stankovi} Milena, Vu~kovi} Vladan, Ne{i} Milkica ADS V2.0 - programski paket za merenje i analizu parametara govornog signala, IV Telekomunikacioni forum TELFOR 96, Zbornik radova str. 376-379., Beograd, 26-28. novembar 1996. [9]Miroslava A. Milo{evi}, Dragoljub Pokrajac, Dejan ]iri}, Vladan Vu~kovi} "Uticaj adaptivnog filtriranja govornog iz slo`enog signala sa {umom na razumljivost", Zbornik radova sa XL konferencije ETRAN 96, Budva jun 1996. [10]Vladan Vu~kovi} Digitalna obrada i ma{insko prepoznavanje izolovanih govornih sekvenci, magistarska teza, Elektronski fakultet u Ni{u, maj 1997. [11]E. Lloyd Du Brul Biomechanics of Speech Sounds, Review - Department of Oral Anatomy University of Illinois Medical Center, str. 631-642, Chicago, U.S.A. THE PROGRAM REALIZATION OF THE AUTOMATIC VOWEL RECOGNIZING METHOD, Vladan Vu~kovi} Abstract - This paper is concerned with automatic vowel classification including theoretical and program implementation. Two major methods for automatic recognition are presented: classification based on fundamental frequency and formant analyze; classification of vowels based on spectral shapes. Four types of automatic classificator are described. First step of recognition process is digitalization of vowel sound patterns with standard normalization and noise reduction algorithms applied. After that any of presented classification methods could be performed. The ADS v1.0 application, which was developed by the author as the DSP software for some medical researches, is used for visualizing vowel wave shapes.