Microsoft Word - diplomski1.doc

SVEUČILIŠTE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA DIPLOMSKI RAD br. 1633 Zaštta teksta dgtalnm vodenm žgom Thana Poljak Vodtelj: Marn Golub Zagreb, studen, 2007

1. Uvod U današnje vrjeme postoj sve veća potreba za zašttom osjetljvh nformacja. Enkrpcja, ogrančavanje prstupa zaštta dokumenata za sgurnosne stjene (eng. frewall) neke su od uobčajenh tehnka zaštte osjetljvh nformacja. Enkrpcja je dobar načn sprječavanja neovlaštene osobe od pregledavanja sadržaja osjetljvog dokumenta. Al kada se dokument dekrptra tajnm ključem, ovlaštena osoba lošh namjerna može spremt, koprat, spsat l prosljedt dekrptran dokument. Ogrančavanje prstupa dokumentu nekolcn pojednaca funkconra kod pojednaca vrjednh povjerenja. Nažalost, događa se da se povjerljve nformacje nalaze zvan povjerljvh zona pa čak u medjma. U tom slučaju žel se pronać osobu koja je odala nformacje, što nje uvjek jednostavan ugodan proces. Sgurnosna stjena je učnkovt načn sprječavanja prstupa povjerljvoj mrež od strane vanjskh korsnka, koj nemaju prava prstupa. Al to ne sprječava osobu unutar organzacje da sprem l prosljed osjetljv dokument trećoj stran. Rješenje koje osgurava zašttu osjetljvh nformacja ne može ovst o samo jednoj tehnologj. Umjesto toga, efkasna sgurnost ostvaruje se svm prethodno spomenutma tehnologjama s tme da mora ostavt otsak na samom dokumentu. Pod ostavljanjem otsaka smatra se ugrađvanje jednstvene nformacje u dokument, koja dentfcra vlasnka l prmatelja dokumenta. Ugrađena nformacja može se detektrat dekodrat u blo kojem trenutku, čak nakon spsa skenranja. Proces ostavljanja otsaka u dokumentu može se postć uporabom tehnka označavanja dgtalnm vodenm žgom. Označavanje dgtalnm vodenm žgom je tehnka kojom se mogu zaštt autorska prava razlčth multmedjskh sadržaja. S obzrom da postoj vše razlčth formata: slke, audo podac, vdeo podac, grafčk objekt, potrebno je razvt posebne metode za svak od njh. U usporedb s stražvanjma o označavanju slka, vdeo audo podataka, stražvanja o označavanju teksta su malobrojna. Ipak pojavom novh prmjena kao što su npr. dgtalna knjžnca te knjge u elektrončkom formatu raste nteres za ovo područje. U ovom radu se opsuju razlčt načn označavanja teksta dgtalnm vodenm žgom te njhova prmjena. Poglavlje 2 je uvod u dgtalne vodene žgove njhove prmjene. Poglavlje 3 opsuje kako se dgtalna knjžnca može zašttt uporabom otpornh dgtalnh vodenh žgova. Poglavlje 4 opsuje neke od algortama za označavanje teksta, a poglavlje 5 opsuje praktčnu mplementacju jednog od algortama za označavanje teksta. 1

2. Uvod u dgtalne vodene žgove njhova prmjena 2.1 Osnove označavanja dgtalnm vodenom žgom Osnovna deja označavanja dgtalnm vodenm žgom je stvaranje meta podataka koj sadrže nformacje o dgtalnom medju koj se žel zašttt. Meta podac su voden žg koj se može neprmjetno ugradt u željen medj te treba bt otporan na namjerna nenamjerna zoblčenja sgnala. Sustav za označavanje dgtalnm vodenm žgom sastoj se od dva glavna djela: ugrađvanje vodenog žga detekcja. Ugrađvanje kombnra medj C o, audo vzualn sgnal u koj se ugrađuje nformacja, poruku (eng. payload) P, koja se dodaje medju, čme se stvara označen sadržaj C w. Algortam označavanja ma dva koraka. U prvom se koraku poruka P kodra u voden žg W. Voden žg W mora bt stog tpa sth dmenzja kao medj. Ako je npr. medj C o slka, tada voden žg mora bt uzorak slke sth dmenzja kao orgnalna slka. Bolja sgurnost može se postć korštenjem ključa vodenog žga K u procesu kodranja. U drugoj faz, voden žg W dodaje se medju C o kako b se stvoro označen medj C w. Postoje dvje vrste označavanja: sljepo nformrano. Vrsta označavanja ovs o tome korst l se medj C o prlkom stvaranja vodenog žga W l ne. Za sljepo označavanje nje potreban orgnalan medj, a može se opsat sljedećm zrazom: C W 1( O = 0 K = E C, W ), gdje je W E ( P, ) (2.1) gdje E 1 označava operacju ugrađvanja vodenog žga W u medj C o. Voden žg W dobva se kodranjem (E 0 ) poruke P uz pomoć ključa vodenog žga K. Informrano označavanje korst nformacje z orgnalnog medja prje kreranja vodenog žga W može se opsat sljedećm zrazom: C = E ( C, W ), gdje je W = E ( P, K, C ) (2.2) W 1 O O O gdje E 1 označava operacju ugrađvanja vodenog žga W u medj C o. E 0 označava operacju kodranja, odnosno stvaranje vodenog žga W korštenjem nformacje z orgnalnog medja C o, poruke P ključa vodenog žga K. Označen medj može proć kroz razlčte operacje. Operacje mogu bt razlčta zoblčenja uzrokovana uobčajenm transformacjama sgnala (kompresja, dekompresja, pretvorba z analognog u dgtaln obrnuto) l namjern napad. Prmjenom th operacja može se narušt kvalteta orgnalnog označenog medja, odnosno stvara se nov medj Cw'. Detektor vodenh žgova također se djele na dvje vrste, sljepe nformrane. Vrsta označavanja ovs o tome kolko nformacja o medju je dostupno prlkom procesa detektranja vodenog žga. Informran detektor korst orgnaln medj C o u procesu detekcje te se može opsat sljedećm zrazom: 2

P = D( C ', C, K) (2.3) W gdje D označava proces detekcje poruke P korštenjem zmjenjenog medja Cw', orgnalnog medja C o ključa vodenog žga K. Sljep detektor ne korst orgnaln medj C o te se može opsat sljedećm zrazom: O P = D( C ', K) (2.4) W gdje D predstavlja proces detekcje, Cw' zmjenjen medj, K ključ vodenog žga, a P poruku. Slka 2.1 Prmjer sustava za dgtaln voden žg sa sljepm ugrađvanjem nformranom detekcjom. Slka 2.2 Prmjer sustava za dgtaln voden žg s nformranm ugrađvanjem sljepom detekcjom. 3

Slka 2.1 prkazuje jedno od mogućh ostvarenja sustava za označavanje detekcju dgtalnog vodenog žga koj u ovom slučaju korst sljepo ugrađvanje nformranu detekcju. Slka 2.2 prkazuje još jedno moguće ostvarenje koje ma nformrano ugrađvanje sljepu detekcju. Vše o dgtalnm vodenm žgovma dostupno je u [1]. 2.2 Vrste dgtalnh vodenh žgova 2.2.1 Lomljv voden žgov Zovu se lomljv jer je poželjno da se prlkom prmjene većne tehnka obrade dokumenata zmjene l unšte. Svojstva: 1. Voden žg je nevdljv promatraču. 2. Voden žg se mjenja prlkom prmjene većna tehnka za obradu dokumenata. 3. Neovlaštene osobe ne b smjele moć ubact lažn voden žg. 4. Ovlaštene osobne mogu brzo zvadt voden žg. 5. Očtan voden žg pokazuje gdje je došlo do promjena. Svojstvo nevdljvost vodenog žga teško je zmjert jer ovs o vše faktora. Svojstvo 3 odnos se na mogućnost da se voden žg može učtat z označenog dokumenta ubact u zamjensk. Kako b ovo svojstvo blo ostvareno potrebno je otežat potencjalnm napadačma saznanje je l dokument označen kako je označen. Pogodn su voden žgov koj se mogu učtat samo s posebnm ključem, a ključ se čuva u posebnoj, sgurnoj baz podataka[2]. 2.2.2 Otporn voden žgov Zovu se otporn žgov jer se očekuje da budu postojan neovsno o napadma. Svojstva: 1. Voden žg je nevdljv promatraču. 2. Voden žg ostaje u dokumentu čak nakon obrade dokumenta. 3. Neovlaštene osobe teško mogu detektrat voden žg. 4. Ovlaštene osobe mogu brzo zvadt voden žg. 5. Nakon što je dokument spsan skenran dalje je moguće učtat voden žg. Stvaranje algortama koj posjeduju svojstva 3 5 težak je zadatak, al otporan voden žg nje pretjerano korstan ako se može lagano uklont. Teško je razvt programsk sustav koj će detektrat voden žg čak nakon većne zmjena. Dakle, svojstva 2 4 su kontradktorna. Za ostvarvanje svojstva 3 preporuča se korštenje vodenh žgova koj zahtjevaju poseban ključ za učtavanje[2]. 4

2.3 Prmjena dgtalnh vodenh žgova Prmjene dgtalnh vodenh žgova mogu se klasfcrat na vše razlčth načna (ovsno o medju, poruc td.). Klasfkacja koja sljed temelj se na otpornost vodenog žga na napade. 2.3.1 Dokazvanje autentčnost sadržaja Postoje razlčt programsk sustav za uređvanje dgtalnog sadržaja. S obzrom da je jednostavno mjenjat dgtaln sadržaj btno je nać načn za dokazvanje ntegrteta autentčnost sadržaja. Rješenje ovog problema može se posudt z krptografje, gdje se dgtaln potps korst za dokazvanje autentčnost. U slučaju označavanja dgtalnm vodenm žgom dgtaln potps može bt voden žg koj će se ugradt u sadržaj. Za dokazvanje autentčnost preporuča se korštenje lomljvog vodenog žga z sljedećh razloga: lomljv voden žg mora postat nevažeć u slučaju zmjena, korštenjem lomljvog vodenog žga može se saznat kako je dgtaln sadržaj zmjenjen l koj je do zmjenjen. 2.3.2 Praćenje emtranja Mnogo prozvoda svakodnevno se emtra preko televzjske mreže: vjest, flmov, sportska događanja, reklame, td. Emtranje je vrlo skupo oglašvač moraju zdvajat značajna fnancjska sredstva za svako emtranje kratkh reklama koje se pojavljuju za vrjeme pauza popularnh flmova, serja l sportskh događaja. Mogućnost preczne naplate vrlo je btna. Oglašvač žele bt sgurn da plaćaju samo za reklame koje su se emtrale. Praćenje emtranja (Broadcast Montorng) občno se korst za prkupljanje nformacje o sadržaju koj se emtra. Prkupljene nformacje korste se za naplaćvanje druge potrebe. Jednostavan načn praćenja je korštenje ljudskh promatrača koj prate blježe sve što vde. Ova vrsta praćenja je skupa sklona greškama. Automatzrano praćenje je očto bolj zbor. Postoje dvje vrste sustava za automatzrano praćenje: pasvn aktvn. Pasvn sustav prat sadržaj koj se emtra pokušava ga povezat s poznatm sadržajem pohranjenm u baz. Implementacja pasvnh sustava nje jednostavna z nekolko razloga. Usporedba odaslanh sgnala sa sadržajem baze nje jednostavna. Održavanje velke baze sadržaja za usporedbu je skupo. Aktvn sustav za praćenje oslanjaju se na dodatnu nformacju koja dentfcra sadržaj. Dodatna nformacja emtra se zajedno sa sadržajem. Jedno od rješenja za aktvno praćenje je označavanje dgtalnm vodenm žgom. Voden žg koj sadrž nformacju za dentfkacju emtranja ugrađuje se u sam sadržaj. Za ovu prmjenu voden žgov moraju bt otpornj na napade od lomljvh žgova te h se mora moć lagano očtat. 2.3.3 Ostavljanje otsaka Postoje određene prmjene u kojma dodatna nformacja o dgtalnom sadržaju treba sadržavat nformacje o krajnjem korsnku a ne o vlasnku sadržaja. Npr. okruženje u kojem se stvaraju flmov. Za vrjeme produkcje flma, manj djelov rada na flmu občno se svak dan dstrburaju određenom broju ljud uključenom u stvaranje flma. 5

T dnevn djelov flmova su povjerljv, te ako određena verzja procur, studo žel mat mogućnost dentfcrat uzročnka curenja nformacja. Problem dentfcranja zvora curenja nformacja može se rješt dstrburanjem neznatno razlčth kopja svakom prmatelju. Svaka kopja jednstveno je vezana uz osobu koja ju treba prmt. Drug prmjer prmjene je dstrbucja flmova knma u dgtalnom formatu umjesto korštenja poštanskh usluga celulodnh formata. Iako je ovakva dstrbucja fleksblnja, efkasnja jeftnja, producent dstrbuter ne prhvaćaju je jer se boje potencjalnog novčanog gubtka uzrokovanog legalnm kopranjem redstrbucjom flmova. Rješenje ovog problema je da svako kno prm kopju koja se jednstveno veže uz kno. U slučaju pojave legalnh kopja, može se saznat koje je kno odgovorno te poduzet potrebne pravne akcje protv stog. Povezvanje jednstvene nformacje o svakoj dstrburanoj kopj dgtalnog sadržaja zove se ostavljanje otsaka (eng. Fngerprntng). Označavanje vodenm žgovma je adekvatno rješenje za ovu prmjenu jer je nevdljvo nedjeljvo od sadržaja. Ovaj je tp prmjene poznat pod menom praćenje zdajca (eng. trator tracng) jer je korsno kod praćenja legalno prozvedenh kopja dgtalnog sadržaja. Ova prmjena zahtjeva vsoku raznu otpornost vodenog žga od razlčth vrsta obrade podataka zlonamjernh napada. 2.3.4 Zaštta autorskh prava Zaštta autorskh prava jedna je od prvh područja za koja je označavanje dgtalnm vodenm žgom namjenjeno. Voden žg, u ovom slučaju, sadrž nformacju o vlasnku autorskog prava neprmjetno se ugrađuje u za to namjenjen sadržaj. Ako korsnc dgtalnog sadržaja maju lagan prstup detektorma vodenog žga mogu prepoznat nterpretrat ugrađen voden žg dentfcrat vlasnka autorskog prava. Blo b korsno kada b se ugrađen voden žg mogao korstt kao dokaz vlasnštva. Može se zamslt sljedeć scenarj: Vlasnk autorskog prava dstrbura svoj dgtaln sadržaj s ugrađenm vlasttm nevdljvm vodenm žgom. U slučaju spora oko vlasnštva autorskog prava, legaln vlasnk trebao b moć dokazat svoje vlasnštvo. To se ostvaruje tako da stvarn vlasnk predoč orgnaln dokument detektor vodenog žga. Sporn sadržaj je orgnaln dokument u koj je ugrađen voden žg. Detekcjom vodenog žga vlasnka u spornom dokumentu dokazuje se vlasnštvo nad dokumentom. Nažalost gornj scenarj uz određene pretpostavke može bt pobjen a označavanje vodenm žgom još nje dovoljno pouzdano za dokazvanje vlasnštva. Jedan je potencjaln problem povezan s dostupnost detektora vodenog žga. Ako je detektor dostupan većem broju ljud ne može se očuvat sgurnost vodenog žga. U tom slučaju uvjek je moguće detektrat uklont voden žg. To se može napravt većm brojem neprmjetnh zmjena na označenom sadržaju sve dok detektor vše ne može detektrat voden žg. Jednom kada je voden žg uklonjen orgnaln vlasnk ne može vše dokazat svoje vlasnštvo. Čak ako se voden žg ne uklon u nekm uvjetma moguće je dodat nov voden žg preko postojećeg to za sve kopje dokumenta, uključujuć orgnaln dokument. Zbog toga je potrebno moć dentfcrat prv, voden žg koj je stvarn vlasnk ugrado. Zbog svega toga za ovu prmjenu potrebna je najvša razna otpornost vodenog žga. Vše o raznama otpornost prmjenama u [1] [3]. 6

3. Zaštta dgtalne knjžnce otpornm vodenm žgovma Dgtaln voden žgov su neprmjetne, l vrlo malo vdljve transformacje dgtalnh podataka. Iako se dgtalne slke najvše povezuju s dgtalnm vodenm žgovma, mogu se označavat drug oblc dgtalnh podataka kao što su vdeo audo zaps te tekst. Termn nevdljv voden žgov korst se za ops dgtalnh vodenh žgova koj su ljudskom oku nevdljv, al koj se mogu zvadt pomoću računala. Često je za operacje otklanjanja vodenog žga z medja potrebno znat odgovarajuć loznku. Samo ovlašten korsnc mogu otklont voden žg. Jedna od najvećh prmjena označavanja dgtalnm vodenm žgom je zaštta nformacje o vlasnku. Ova nformacja ma dva oblka: voden žg koj dentfcra osobu koja je stvorla materjal l korsnke kojma je materjal posuđen. Ideja označavanja krajnjeg korsnka, odnosno osobe kojoj je određen materjal posuđen u slučaju knjžnce, jedna je od najvećh prmjena označavanja. Mnoge osobe smatraju označavanje prmatelja kršenjem prvatnost. Ako prmatelj poštuje pravla dalje ne dstrbura l kopra materjal ne mora se bojat otkrvanja osobnh podataka. Označen materjal treba bt prvatan, odnosno treba ostat kod osobe koja ga je dobla (posudla), bez da ga vde druge osobe. Razotkrvanje dentteta prmatelja događa se samo ako osoba ne poštuje pravla. Npr. objavljvanje l dstrbucja materjala bez dozvole autora. Za zašttu autorskog prava, kao što je prje spomenuto, potrebn su veoma otporn dgtaln voden žgov, odnosno potrebno je što vše otežat uklanjanje vodenog žga od strane napadača. Jedna od prmjena je sprečavanje kopranja, pogotovo za vdeo zapse. Tako se može svak flm označt s vodenm žgom koj ma neku od sljedećh vrjednost: zabranjeno kopranje, dozvoljeno kopranje jednom l zabranjeno daljnje kopranje. Svak alat za snmanje morat će moć pročtat ovaj voden žg, te odbt snmat blo koj flm koj ma oznaku zabranjeno snmanje. Velka prednost ove tehnologje je njena neovsnost o tehnologj, protokolu formatu dstrbucje. Voden žg je prsutan u blo kojem trenutku gledanja flma. Označavanje dgtalnm vodenm žgom je područje zanmljvo muzejma, knjžncama za ndustrju zabave jer pruža mogućnost bolje zaštte multmedjskog sadržaja. Važno je spomenut da označavanje dgtalnm vodenm žgom nje jedna tehnologja za zašttu autorskog prava. Ona je jedna od 3 tehnologje (druge dvje su enkrpcja dgtaln potps) koje zajedno pružaju razumnu zašttu autorskh prava za malu cjenu. Vše o sgurnost dgtalne knjžnce moguće je nać u [4]. 7

4. Ops algortama za označavanje teksta 4.1 Algortm za označavanje teksta Većna organzacja ma potrebu za zašttom osjetljvh dokumenata. Označavanje dgtalnm vodenm žgom jedno je od rješenja ovog problema. Korštenjem dgtalnog vodenog žga moguće je ugradt otsak u željen dokument. Otsak može bt jednstven dentfkacjsk broj vlasnka l prmatelja dokumenta. Ugrađen dentfkacjsk broj treba se moć detektrat dekodrat u blo kojem trenutku, čak nakon spsa skenranja. Tehnke za označavanje slka mogu se lagano prmjent na tekstualn dokument, al one u tekstualn dokument unose bjel šum koj se jako prmjećuje. Taj šum nastaje zbog bnarne (crno-bjele) prrode tekstualnog dokumenta velke bjele pozadne. Kako b se zbjegao prethodno spomenut problem razvjeno je nekolko tehnka označavanja vodenog žga posebno za tekstualne dokumente. Postoje četr vrste tehnka za označavanje teksta: pomcanje lnja teksta (eng. lneshft codng), pomcanje rječ unutar ste lnje (eng. word-shft codng), označavanje značajk teksta (eng. feature codng) te jezčno označavanje (eng. natural language NL) označavanje. Prvu drugu metodu je opsao Brassl et. al. u [10] [11]. Kod pomcanja lnja teksta svaka parna lnja neznatno se pomče gore l dolje, ovsno o vrjednost nformacje koja se ugrađuje. Ako je bt jedan odgovarajuća lnja pomče se gore, nače se lnja pomče dolje. Neparne lnje su kontrolne lnje one se ne mjenjaju. Korste se kao reference za mjerenja uspoređvanje razmaka zmeđu lnja za vrjeme dekodranja. Dekodranje se ostvaruje uspoređvanjem razmaka zmeđu baza lnja l razmaka zmeđu centroda lnja. Baze lnja u orgnalnom dokumentu su občno unformno raspoređene dakle orgnalan dokument nje potreban ako se bazne lnje korste. Al centrod nsu nužno unformno raspoređen pa je potreban orgnaln dokument kod metoda koje korste centrode. Kod druge metode, pomcanja rječ, prvo se svaka lnja djel u grupe rječ. Svaka grupa ma dovoljan broj znakova. Zatm se svaka parna grupa pomče u ljevo l desno, ovsno o vrjednost specfčnog bta nformacje koj se ugrađuje. Neparne grupe korste se kao reference za mjerenje uspoređvanje razmaka zmeđu rječ za vrjeme dekodranja. Metoda korelacje metoda centroda korste se za detekcju vodenog žga obje metode zahtjevaju orgnaln tekst. Treća metoda odnos se na mjenjanje određenh značajk teksta (boje, fonta, velčne, td.). Kod četvrte metode, jezčno označavanje, ugrađvanje se zvod mjenjanjem sntakse l semantke odabranh rečenca. Poglavlje 4.2 opsuje algortam koj modfcra razmak zmeđu rječ šrnu rječ, tako da prosječn razmak svake lnje predstavlja uzorak vala snusa specfčne faze frekvencje. Poglavlje 4.3 opsuje algortam koj mjenja razmak zmeđu rječ l zmeđu lnja. Poglavlje 4.4 opsuje prmjer označavanje značajk teksta,a poglavlje 4.5 opsuje jezčno označavanje. 8

4.2 Označavanje slka teksta pomoću valova snusa koj reprezentraju razmake zmeđu rječ 4.2.1 Uvod Ova metoda [5] korst jednu od značajk tekstualnog dokumenta, a to su razmac zmeđu rječ za označavanje tekstualnog dokumenta. Tehnka kodranja podešava razmake zmeđu rječ tako da srednj razmac u razlčtm lnjama pokazuju karakterstke funkcje snus, a nformacju se može ugradt u val l valove snusa. S obzrom da se označava u horzontalnom vertkalnom smjeru ovakvo označavanje je otporno na vanjske utjecaje. Nadalje, do pohranjene nformacje može se doć s l bez orgnalnog dokumenta, a kontrolne lnj l kontroln blokov nsu potrebn za proces detekcje. 4.2.2 Značajke razmaka statstka Stranca teksta u dgtalnom oblku može bt prkazana sljedećom funkcjom: [ 0,1 ], x = 0,1,..., W, y 0,1 L f ( x, y) =,..., (4.1) koja reprezentra bjele crne pksele. U ovoj funkcj W predstavlja šrnu strance, dok L predstavlja duljnu strance u pkselma. U dgtalnoj obrad slka razmak zmeđu rječ se detektra pomoću sljedeće vertkalne projekcje: b v ( x) = f ( x, y) (4.2) y= t koja je suma crnh pksela u vertkalnom stupcu od t (vrha) do b (dna) lnje teksta. Ako ne postoj crn pksel u x uzastopnh pksela, odnosno: v ( x) = 0, x = k, k + 1,.., k + c (4.3) detektran je razmak zmeđu rječ. Slka 4.1 prkazuje tpčan vertkalan profl pet rječ. Prosječan razmak u lnj teksta može bt parametar za proučavanje značajk razmaka tekstualnog dokumenta. Za lnju s d rječ srednj razmak računa se kao: S a = S t /( d 1), d 1 (4.4) gdje je S t ukupna suma razmaka u lnj teksta, u pkselma Učestale su dvje vrste teksta. Jedan je poravnat na ljevu margnu, dok je drug jednolko poravnat s ljeve s desne strane (eng. justfed). Ovaj algortam označava tekst poravnat s obje strane. 9

4.2.3 Označavanje razmaka Slka 4.1 Vertkalan profl 5 rječ S obzrom na slučajan raspored prosječnh razmaka lnje teksta u tekstualnom dokumentu, defnra se dskretna slučajna varjabla X(n): X ( n) = S an, n = 0,1,..., N 1 (4.5) gdje n predstavlja broj lnje teksta u tekstualnom dokumentu s N lnja. S an predstavlja S a (jednadžba (4.4)) n-te lnje. Označavanje razmaka može se gledat kao označavanje slučajne varjable X(n). Funkcja snus koja se mjenja preko lnja teksta ma neke zanmljve karakterstke: 1. Snus se mjenja polako tako da se lokalne varjacje ne zamjećuju 2. Ampltuda, frekvencja početn kut snusa mogu se korstt za pohranu nformacja 3. Perodčna smetrčnost snusa čn proces detekcje lakšm pouzdanm. Mogu se korstt razlčte lnje teksta z određenog dokumenta za ugrađvanje nformacja. Vrjednost S a razlčth lnja teksta mogu se korstt kao uzorc za vrjednost snusa. Kako b označavanje razmaka blo neprmjetno razlke u razmacma zmeđu rječ moraju bt mnmalne, odnosno promjena razmaka mora bt dovoljno velka da se može pravlno detektrat. Zbog ovh ogrančenja postoj usk raspon ampltuda snusnog vala za označavanje. Za spravnu rekonstrukcju vala snusa, frekvencja uzorkovanja mora bt bar dva puta veća od frekvencje snusa. Postoje određene frekvencje koje ljudsk vzualn sustav vše prmjećuje te treba zbjegavat označavanje u blzn th frekvencja. Zbog toga je frekvencja vala snusa također ogrančena. 10

Početn kut vala snusa bra se kao prmarn noslac nformacje. Kod ove metode rječ se ne pomče samo horzontalno, nego se po potreb sužava l šr tako da se postgne tražen S a. Neka nov prosječn razmak nakon modfkacje razmaka zmeđu rječ u lnj teksta treba bt S a '. Tada je promjena ukupne duljne razmaka zmeđu rječ u pkselma: Stc = ( S a ' S a )( d 1) (4.6) gdje je d broj rječ, a S a orgnalan prosječan razmak u lnj teksta opsan u jednadžb (4.4). Ako je S tc > 0 tada će se ukupan razmak zmeđu rječ rašrt, a rječ u ovoj lnj će se skupt. Ako je S tc < 0 tada će se ukupan razmak zmeđu rječ u lnj teksta smanjt, a rječ će se rašrt. Neka je -ta rječ ove lnje ma šrnu prje modfkacje Pxl u pkselma, tada se skupljanje l šrenje šrne ove rječ u pkselma računa kao: ES ES = = d = 1 d = 1 S S tc Pxl tc Pxl Pxl, ako je S tc 0 (4.7) Pxl, ako je S tc < 0 (4.8) ES se zaokružuje na najblž cjel broj, s obzrom da predstavlja broj pksela. Dakle, može postojat razlka zmeđu S tc sume ES, koja se računa kao: S d = S tc d = 1 ES (4.9) U ovoj mplementacj razlka Sd se prbraja najvećem ES. Skupljanje l šrenje rječ ostvaruje se brsanjem l kopranjem svakog Iv tog stupca. Interval Iv se računa kao: Pxl Iv = (4.10) ES Interval Iv zaokružuje se na cjel broj. Nakon skupljanja l šrenja određene rječ, nova šrna u pkselma računa se kao: Pxl ' = Pxl ES (4.11) 11

Dvje strane lnje teksta ne mjenjaju se dok se lnja skuplja l šr. Za skupljanje l šrenje rječ, kod rječ s ljeve strane lnje ljev rub rječ je fksan, dok se rječ skuplja l šr. Ako su rječ s desne strane lnje, desna strana rječ se drž fksna dok se rječ šr l skuplja. Radno okruženje je jedna stranca teksta l vše stranca koje čne jedan dokument. Relevantne lnje teksta u radnom okruženju su uzorc za snus za označavanje. Početn kut može bt l apsolutn početn kut l relatvan početn kut, ako se korst vše razlčth valova. Za ovu metodu označavanja razvjen su prvatn javn algortm za označavanje. 4.2.4 Prvatno označavanje 1. Računa se srednja vrjednost Sa a 1 q n= p S an =, q p + 1 0 p < q < N (4.12) gdje su p q ndeks prve zadnje lnje teksta u radnom okruženju u koje se označavaju snusnm valom. 2. Za svaku lnju računa se komponenta vodenog žga koja je određena sljedećm valom snusa: W n = C1a1 sn( ω 1( n p) + φ1) (4.13) gdje je W n željena komponenta vodenog žga za prvatno označavanje n-te lnje teksta; ω 1 φ 1 su frekvencja u radjanma početn kut vala snusa. C 1 je konstanta koja određuje ampltudu snusa. 3. W n se dodaje S a za n-tu lnju te se generra nov prosječn razmak: S ' = S + W (4.14) an an 4. Na kraju rječ svake od odabranh lnja modfcraju se prmjenom formula (4.6) do (4.11). Prvatna metoda može se shvatt kao dodavanje konstantnog djela orgnalnoj slučajnoj varjabl X(n), te se tako krera slučajna varjabla Y(n) n Y ( n) = X ( n) + (4.15) W n gdje je Y(n) slučajna varjabla za prvatno označavanje, a W n voden žg za prvatno označavanje. 12

4.2.5 Javno označavanje Kod prvatnog označavanja susjedne lnje teksta maju slučajne vrjednost S a, Kod javnog označavanja vrjednost S a lnja koje se korste kod javnog označavanja trebaju mat određenu vezu kako b se mogle korstt drektno kao uzorc za val snusa. Neprkladno je uzmat sve lnje teksta tekstualnog dokumenta za javno označavanje zbog varjacja u S a kod orgnalnh lnja teksta. Promatranjem razlčth profla S a vdljvo je da lnje s velkm brojem rječ maju blske vrjednost S a. Ovo je pogodno z dva razloga. Prvo, u lnj teksta s velkm brojem rječ, prosječnoj rječ odgovarajućem razmaku dodjeljen je manj broj pksela. Dakle razlka zmeđu S a susjednh lnja je manja. Drugo, lnja teksta s većm brojem rječ ma manju vjerojatnost da bude poravnata s obje strane l je to poravnanje manje vdljvo. 1. S obzrom na prethodno opsana opažanja prvo se bra ključ tako da se lnje čj je broj rječ već l jednak ključu označavaju. 2. Nakon toga bra se skup lnja S w z dokumenta tako da broj rječ svake lnje nje manj od zabranog ključa. 3. Računa se srednja vrjednost S a za svaku od lnja z skupa S w : a 2 v S am m= u =, v u + 1 0 u < v < N (4.16) gdje u v maju slčno značenje kao p q u jednadžb, al u v su ndeks lnja z skupa S w ; m je ndeks lnje teksta z skupa S w, a S am je S a m-te lnje. 4. Za svaku lnju teksta z S w računa se komponenta vodenog žga određena valom snusa: W m = C 2a2 sn( ω 2 ( m u) + φ2 ) (4.17) W m je željena komponenta vodenog žga za javno označavanje m-te lnje; ω 2 φ 2 su frekvencja u radjanma početn kut snusa. 5. Za svaku lnju z S w, S a zamjenjuje se sumom a 2 W m te se tako generra nov razmak: S am ' = a 2 + W m, ako je m-ta lnja S w, nače nema zmjena (4.18) 6. Na kraju sve lnje teksta mjenjaju se prema jednadžbama (4.6) do (4.11). Dakle za lnje z skupa S w dobva se nova slučajna varjabla za javno označavanje Y(m): Y ( m) a + (4.19) = 2 W m 13

4.2.6 Detekcja svojstva Ako je tekst označen prvatnom metodom, slučajna varjabla Y(n) dobva se rekonstrukcjom S a prema jednadžb (4.4). S orgnalnm neoznačenm tekstom komponenta vodenog žga W n za prvatno označavanje z jednadžbe (4.15) računa se kao: W n = Y ( n) X ( n) (4.20) Ako je tekst označen javnom metodom ako se pretpostav da je ključ poznat, moguća je rekonstrukcja skupa S w kao ponovno računanje a 2 z jednadžbe (4.16). Komponenta vodenog žga W m za javno označavanje z jednadžbe (4.19) računa se kao: W m = Y ( m) a2, za lnje teksta z w S (4.21) Orgnalan početn kut detektra se računanjem unakrsne korelacje (eng. crosscorelaton) detektrajućeg vala snusa s W n (voden žg za prvatno označavanje) l W m (voden žg za javno označavanje): 1 r( j) = W ( n) Ad sn( ω d n + j), (4.22) T T 1 n= 0 gdje W predstavlja W n l W m ; ω d je frekvencja u radjanma detektrajućeg snusnog vala; a j predstavlja vremensk pomak u broju lnja teksta varra kako b se detektrala označena nformacja. Kroz j koj stvara ekstremnu vrjednost r(j) obnavlja se orgnalna označena nformacja. A d je ampltuda detektrajućeg snusnog vala. T je sumarn broj koj ovs o broju stavk u W n l W m kao ω d. Jedan od parametara koršten u ekspermentma je broj uzoraka (eng. half wave samplng ponts), odnosno broj lnja za označavanje N u jednadžbama (4.13) (4.17) za koj vrjed: 0 ω N < π, gdjeω predstavlja ω 1 l ω 2 (4.23) Rezultat su prkazan u tablcama 1 2. Iz ekspermenata je vdljvo da se razmak zmeđu rječ u tekstualnm dokumentma može označt vodenm žgom bez većh vdljvh zmjena te se st može spravno detektrat. Tablca 4.1 Rezultat detekcje za prvatno označavanje Broj uzoraka 10 7 5 3 Točnost 20/20 20/20 20/20 20/20 14

Tablca 4.2 Rezultat detekcje za javno označavanje Broj uzoraka 7 6 5 3 Točnost 14/15 15/15 14/15 21/21 4.2.7 Zaključak Razmak je jednstvena karakterstka tekstualnog dokumenta. Prethodno je opsan nov algortam za označavanje teksta dgtalnm vodenm žgom korštenjem razmaka zmeđu rječ. Opsana metoda neznatno mjenja razmak zmeđu rječ tako da su razlčte lnje z teksta uzorc za val snusa. Prelmnarn testov pokazal su obečavajuće rezultate. Ova metoda može se prmjent na javno na prvatno označavanje. Ugrađvanje nformacje u horzontalnom vertkalnom smjeru čn ovu metodu otpornju na vanjske utjecaje. 4.3 Označavanje elektrončkh tekstualnh dokumenata slka teksta pomcanjem rječ l lnja 4.3.1 Uvod Ovo poglavlje opsuje metodu [6] za označavanje elektrončkh tekstualnh dokumenata koja je slčna postojećm metodama koje pomču rječ lnje teksta. Al za razlku od postojećh metoda za detekcju vodenog žga nje potreban orgnalan dokument. Također metoda se može prmjent na dokumente koj su poravnat na ljev rub, desn rub l na oba ruba te na pravlan nepravlan razmak zmeđu lnja teksta. Odlomc poravnat na obje strane vrlo su učestal u elektrončkm dokumentma. Kako b "prsll" krajeve posljednje rječ da bude točno na desnoj margn pojedn jezčn procesor automatsk sstematčno šre rječ unutar pojedne lnje. Nepravlan razmak zmeđu lnja rezultat je umetanja matematčkh smbola, slova koja su spod l znad normalnh slova (eng. super- l sub-scrpt) l drugh objekata. Kako b se prlagodlo najvšem objektu svake lnje jezčn procesor automatsk podešava razmak zmeđu lnja kolko je potrebno. U sljedećm poglavljma opsan je algortam za označavanje detekcju, ekspermentaln rezultat te zaključak. 4.3.2 Algortam za označavanje Kod ove metode korste se tehnke raspršenja spektra BCH tehnke kodranja pogrešaka. Te se tehnke korste kao odgovor na efekte koje uzrokuju nepravlan razmak zmeđu rječ l lnja tekstualnh dokumenata. Tehnka koja se predlaže za nepravlan razmak zmeđu lnja vrlo je slčna onoj za nepravlan razmak zmeđu rječ. Te se zbog zbjegavanja redundancje opsuje ona za razmak zmeđu rječ. 15

Informacja BCH kod za spravljanje pogrešaka Raspršenje spektra Orgnaln elektrončk tekstualn dokument Podešavanje razmaka zmeđu rječ Označen elektrončk tekstualn dokument Slka 4.2 Ugrađvanje nformacja u elektrončk tekstualn dokument Slka 4.2 prkazuje proces ugrađvanja nformacje kod predloženog algortma. Proces ugrađvanja započnje upotrebom BCH tehnke za spravljanje pogrešaka rad zaštte nformacje od šuma. Nakon toga korst se jednstvena m-sekvenca za raspršenje svakog od kodranh btova nformacje. Tako raspršen btov ugrađuju se u tekstualn dokument neznatno povećavajuć l smanjujuć razmak zmeđu rječ. Dokument se pregledava od početka do kraja te se svak razmak neznatno povećava l smanjuje za malu delta vrjednost ovsno o vrjednost odgovarajućeg bta vodenog žga. Ako je bt nula razmak se smanjuje, ako je bt jedan razmak se povećava. Delta određuje pomak, rastom delte raste snaga vodenog žga. Al mora se vodt računa da delta bude dovoljno mal tako da unatoč povećanju l smanjenju razmaka rječ ostanu odvojene jedna od druge. Tpčan tekst s dvostrukm proredom psan je u fontu Tmes New Roman, velčne 11 na stranc od 8.5x11 nča ma oko 25 lnja. Svaka lnja ma u prosjeku 13 rječ. Znač, svaka lnja ma 12 razmaka zmeđu rječ, što znač da ma prblžno 300 razmaka zmeđu rječ po stranc. Ako se korst 16-btna sekvenca za raspršenje svakog bta nformacje, tada se 18- btna nformacja može pohrant u svakoj stranc. Ova velčna nformacje dovoljna je za 262144 razlčth dentfkacjskh brojeva, al je dokument podložan šumu koj uzrokuje spsvanje skenranje. Korštenjem BCH koda štt se nformacja od šuma, al značajno smanjuje broj dozvoljenh dentfkacjskh brojeva. Tablca 4.3 prkazuje velčnu dozvoljene nformacje broj grešaka koje se mogu spravt razlčtm BCH kodovma. Teoretsk (15,5) BCH kod pruža najveću zašttu jer može spravt najveć broj grešaka, al ovaj kod također dozvoljava najmanj broj btova nformacje. (15,5) BCH kod može spravt do tr greške, al dozvoljava samo 32 razlčta dentfkacjska broja. S druge strane (15,11) BCH kod dozvoljava najveću velčnu nformacje, al spravlja najmanj broj pogrešaka. Ovaj kod može spravt samo jednu grešku, al dozvoljava 2048 razlčth dentfkacjskh brojeva. (7,4) BCH kod predstavlja ravnotežu zmeđu zaštte velčne nformacje. Taj kod može spravt jednu pogrešku u svaka četr bta. 16

Kada se spoj dva (7,4) koda za zašttu osam btova, mogu spravt dvje greške te se dozvoljava ugrađvanje 256 razlčth dentfkacjskh brojeva. Tablca 4.3 Velčna nformacje, broj dozvoljenh dentfkacjskh brojeva broj btova koj se mogu spravt za razlčte BCH kodove BCH kod Duljna Velčna nformacje Partetn btov Broj grešaka koje se mogu spravt Broj dentfkacjskh brojeva (7,4) 7 4 3 1 16 (15,11) 15 11 4 1 2048 (15,7) 15 7 8 2 128 (15,5) 15 5 10 3 32 Stranca s jednostrukm proredom ma prblžno dva puta vše razmaka nego ona s dvostrukm. Takva stranca dozvoljava ugrađvanje dvostruko većeg broja btova, što znatno povećava broj razlčth dentfkacjskh brojeva. Broj razlčth dentfkacjskh brojeva može se povećat korštenjem vše stranca teksta za označavanje jednog dentfkacjskog broja. Al ovo poboljšanje komplcra proces dekodranja. 16-btn kod za raspršenje spektra može se generrat 4-btnm posmačnm regstrom. Taj kod generra m-sekvencu perode 16, koja se označava s m(n). Ta m-sekvenca ma odgovarajuće korelacjske osobne za upotrebu s detektorom bazranm na korelacj. Kod raspršenja, c(n), generra se z m(n) na sljedeć načn: c ( n) = 2m( n) 1 (4.24) Tme se raspon m-sekvence mjenja z {0,1} na {-1,1}. Ako se svak bt kodrane nformacje označ s bε{-1,1}, tada se prmjena tehnke raspršenja spektra na kodranu nformacju opsuje s: w ( n) = b c( n) (4.25) gdje je w(n) 16-btna sekvenca raspršenja spektra koja predstavlja bt b. 4.3.3 Označavanje elektrončkog dokumenta Kod podešavanja razmaka zmeđu rječ u stvarnom vremenu kod dokumenta poravnatog s obje strane često sam jezčn procesor podešava razmake zmeđu rječ kako b se očuvalo poravnanje. Ekstreman slučaj je kada ta automatska podešavanja pomaknu zadnju rječ trenutne lnje u novu lnju. Ovaj slučaj moguće je zbjeć ako se podes razmak zmeđu svake rječ u svakoj lnj. 17

Ako ows,j predstavlja šrnu j-tog orgnalnog razmaka zmeđu rječ -te lnje, a nws,j predstavlja novu šrnu nakon označavanja, tada je zbroj ovh šrna prje, odnosno poslje označavanja: ows nws = = N j= 1 N j= 1 ows nws, j, j (4.26) gdje je N broj razmaka zmeđu rječ -te lnje. Ako wl,j predstavlja šrnu j-te rječ -te lnje, tada je zbroj šrna svh rječ te lnje: N + 1 = wl, j j= 1 swl (4.27) Kao kompenzacja razlke zmeđu nsw osw šrna svake rječ mora bt podešena na: wl, j ' wl, j +, j = (4.28) gdje,j predstavlja vrlo mal broj dobven sljedećom jednadžbom:, j ( nsw = ( nsw wl osw ) swl wl osw ) swl, j, j, j, j ako je ako je ( nsw ( nsw osw ) 0 osw ) < 0 (4.29) Opsan proces označavanja može se mplementrat na razn upravljačkog programa (eng. drver-a) za postscrpt psač. U tom slučaju, upravljačk program za psač stvara postscrpt dokument koj sadrž nstrukcje koje opsuju strancu. Psač nterpretra te nstrukcje te spravno spsuje strancu. Psač spsuje označen dokument korštenjem zmjenjenh nstrukcja u postscrpt dokumentu kao što je prethodno opsano. 4.3.4 Označavanje spsanog dokumenta Označavanje spsanog dokumenta teže je nego označavanje elektrončkog dokumenta. Taj proces slčan je procesu opsanom u sljedećem poglavlju o detekcj vodenog žga u spsanom dokumentu. U tom procesu spsan dokument prvo se skenra. Nakon skenranja dokument se obrađuje procesorom za obradu slka kako b se dentfcrale lnje razmac zmeđu rječ. Kada su t razmac dentfcran svaka rječ se neznatno pomče. Ist proces korst se prlkom dentfkacje zmjene 18

razmaka zmeđu rječ smanjvanjem l povećavanjem rječ, rad održavanja poravnanja. Prlkom ovog procesa posebno je važno ne unost dodatan šum. 4.3.5 Detekcja vodenog žga u elektrončkom dokumentu Detekcja vodenog žga jednostavan je proces. Detekcja počnje mjerenjem blježenjem razmaka, nws j (šrna razmaka zmeđu rječ nakon označavanja), zmeđu dvje uzastopne rječ. Prje označavanja, ows,j (šrna razmaka prje označavanja) svake lnje prblžno je jednak. Jezčn procesor neznatno podešava ove razmake u svrhu poravnanja. Dakle, srednja vrjednost nws, j dobra je procjena ows,j. Zbog toga se nws, j računa oduzma od svakog od zablježenh razmaka rad procjene n-tog uzorka, w(n), sgnala vodenog žga. Rezultrajuće procjene vodenog žga w(n)' segmentraju se u segmente od 16 uzoraka svaka. Svak od ovh segmenata korelra s orgnalnom m-sekvencom za dohvat bta nformacje. Na kraju se zvod BCH dekodranje na btovma nformacje rad spravljanja pogrešaka. Procjena, w(n)', n-tog uzorka sgnala vodenog žga može se zrazt: w( n)' = w( n) ( w( n + 1) + w( n 1)) / 2 + φ( n) (4.30) gdje φ(n) predstavlja slučajan šum. Za elektrončke dokumente φ(n) je šum koj nastaje zbog nepravlnog razmaka zmeđu rječ prje označavanja. Slka 4.3 prkazuje vjerojatnosnu razdobu φ(n) za poravnan tekst velčne 11, Tmes New Roman. Iz slke je vdljvo da je šum φ(n) srednje vrjednost nula, Gaussov šum s varjancom od 0.23. Potrebno je spomenut da je φ(n) nula za ne poravnat tekst. Za skenran dokument φ(n) također uključuje šum dobven spsom skenranjem. Slka 4.3 Vjerojatnosna funkcja šuma φ(n), zbog poravnavanja lnje Izraz ( w ( n + 1) + w( n 1)) / 2 još je jedan zvor šuma koj ne b trebao mat utjecaja na detekcju. Zamjenom w(n) z jednadžbe (4.25) u jednadžbu (4.30) dobva se: w( n)' = bc( n) ( bc( n + 1) + bc( n 1)) / 2 + φ( n) (4.31) Prmjenom korelacjskog detektora na jednadžbu (4.31) dobva se: 19

N n= 1 N N N N 1 1 w( n)' c( n) = b c( n) c( n) bc( n + 1) c( n) + bc( n 1) c( n) + φ ( n) c( n) (4.32) 2 2 n= 1 n= 1 gdje je N duljna koda za raspršenje c(n). S obzrom da je c(n) m-sekvenca, drug treć do desne strane jednadžbe (4.32) prelaze u nulu. Ovakav rezultat se dobva jer je autokorelacja m-sekvence delta funkcja. Zadnj zraz s desne strane jednadžbe (4.32) reprezentra šum male magntude η(n). Tme se jednadžba (4.32) pojednostavljuje na: n= 1 n= 1 N n= 1 w( n)' c( n) = b +η( n) (4.33) Vrjednost b vodenog žga dobva se prmjenom sljedećeg praga na rezultate korelacje: 1 b = 1 N n= 1 N n= 1 w( n)' c( n) 0 w( n)' c( n) < 0 (4.34) 4.3.6 Detekcja vodenog žga u spsanom dokumentu Detekcja vodenog žga u spsanom dokumentu malo je zahtjevnja. Proces se može opsat sljedećm koracma: 1. Skenrat dokument tako da bude prhvatljve kvaltete rezolucje. Što je vša kvalteta rezolucja bolj su rezultat detekcje. 2. Pretvort slku u bnarnu slku korštenjem odgovarajućeg praga. Vrjednost praga može se jednostavno odredt z hstograma slke, koj je bmodalan. Vrjednostma všma od praga dodjeljuje se vrjednost 1, a vrjednostma spod praga 0. Dakle, tekst će mat vrjednost nula. 3. Ispravt blo kakvo odstupanje zmeđu orjentacje skenranog dokumenta elektrončkog dokumenta. Detektor može uzet smjer lnja skenranog dokumenta kao početnu vrjednost. U željenoj aplkacj korsnk treba pazt da spravno postav dokument u skener. Tme se uzrokuju samo neznatna odstupanja u orjentacj, koja se lagano spravljaju. 20

Slka 4.4 (a) Vertkaln profl tpčnog tekstualnog dokumenta, (b) lokacje lnja 4. Dohvatt lnje skenranog dokumenta. To se može postć računanjem vertkalnog profla, gdje je vertkaln profl v(), slke I(,j): W v( ) = I(, j) (4.35) j= 1 gdje je W šrna slke I(,j). Slka 4.4(a) prkazuje vertkaln profl tpčnog tekstualnog dokumenta skenranog s 300 DPI te pretvorenog u crno-bjelu slku. Slka 4.4(b) prkazuje lokacje dohvaćenh lnja stog dokumenta. Lokacje su određene uspoređujuć profl v() sa zadanm pragom te blježenjem lokacja dolna. 5. Detektrat dohvatt razmake zmeđu svake dvje uzastopne rječ. Ovaj korak postže se računanjem horzontalnog profla h(j), malog djela slke S(,j) oko svake lnje: H h( j) = S(, j) (4.36) = 1 gdje H predstavlja vsnu djelća slke S(,j). Slka 4.5 (a) prkazuje segment slke oko lnje u tpčnom tekstualnom dokumentu. Slka 4.5 (b) prkazuje horzontalan profl ste. Iz tog horzontalnog profla mogu se zračunat razmac zmeđu rječ, detektranjem vršnh vrjednost horzontalnog profla. Vrlo šroke vrlo uske vršne vrjednost gnorraju se. Vrlo šroke vršne vrjednost predstavljaju margne strance, a vrlo uske vršne vrjednost razmak zmeđu slova u rječ. Slka 4.5 (c) prkazuje lokacje detektranh razmaka zmeđu rječ prkazanh u (a) djelu. 21

Slka 4.5 (a) Mal do slke oko lnje tpčnog tekstualnog dokumenta, (b) Horzontaln profl segmenta slke prkazanog u (a) djelu, (c) lokacje dohvaćenh razmaka 6. Povezat sve zmjerene razmake z svh lnja te nastavt kao u djelu o detekcj u elektrončkom dokumentu; povezat svakh 16 segmenata sa sekvencom za raspršenje za dobvanje bta vodenog žga; dekodrat btove vodenog žga s BCH dekoderom za spravljanje eventualnh pogrešaka dobvanje btova nformacje. 4.3.7 Ekspermentaln rezultat Iz ostvarene mplementacje algortma opsanog u poglavljma o označavanju detekcj te s razlčtm konfguracjama ste ostvarena su sljedeća zapažanja. U jednoj od konfguracja korštena je 32-btna m-sekvenca 8-btna nformacja (256 razlčth dentfkacjskh brojeva), al bez kodova za spravljanje pogrešaka. 8-btna nformacja dovoljna je za praćenje dokumenta dentfkacju orgnalnog prmatelja za organzacju s 256 zaposlenka. Gore spomenuta konfguracja testrana je ugrađvanjem nformacje u tekstualn dokument velčne 11 Tmes New Roman, s 256 razlčth dentfkacjskh brojeva. Korštenjem detekcjskog algortma za detekcju svakh od 256 dentfkacjskh brojeva z označenh, nezmjenjenh tekstualnh dokumenata ustanovljeno je da je uspješnost detekcje 98.8%. Svak od pogrešno detektranh dentfkacjskh brojeva ma samo jedan bt greške. Tablca 4.4 prkazuje slučajeve pogrešne detekcje te uspoređuje orgnalno ugrađene vrjednost s pogrešno detektranma. Tablca također prkazuje bt pogreške u svakom od slučajeva. S obzrom da je greška bla u samo jednom btu, upotrebom blo kojeg od prje spomenuth BCH kodova za spravljanje pogrešaka sve greške ble b otklonjene. Slčna uspješnost detekcje postgnuta je kada je algortam testran na zmjenjenom tekstu. Izmjene su uključvale promjenu fonta velčne slova; zmjenu rječ, zmjenu poravnanja te mjenjanje ljeve desne margne strance. 22

Tablca 4.4 Pogrešno detektrane vrjednost njhove orgnalno ugrađene vrjednost Detektrana vrjednost Ugrađena vrjednost Decmalno Bnarno Decmalno Bnarno 9 00001001 41 00101001 25 00011001 57 00111001 145 10010001 209 11010001 Operacje zmjene teksta kao što su brsanje umetanje rječ postgle su dvojake rezultate. U većem broju detekcja je bla uspješna jer je tehnka raspršenja spektra otporna na lokalne greške, pogotovo ako se greške pojavljuju pr kraju sekvence za raspršvanje. U ovom slučaju većna sekvence za raspršvanje ostala je nepromjenjena pa je detektor uspo detektrat ugrađen bt. Al, ako je greška blže sredn nt jedan od djelova nje dovoljan za spravnu detekcju ugrađenog bta. U drugoj konfguracj, koršten je (15,7) BCH kod za zašttu dokumenata od dvostrukh grešaka. Konfguracja zahtjeva smanjvanje sekvence za raspršvanje s 32 na 16 btova za 15 btn kod u stranc s dvostrukm proredom. Ovaj korak nje potreban kod strance s jednostrukm proredom, jer takva stranca ma dovoljan broj razmaka. 7-btna nformacja dovoljna je za praćenje dentfkacju dokumenata za organzacju s 128 zaposlenka. Uspješnost detekcje bla je 100% kod nezmjenjenh, označenh dokumenta. Ipak blže promatranje pokazuje da je 40% brojeva malo greške koje su spravl BCH kodov za spravljanje grešaka. Većna od ovh pogrešaka ble su jednostruke pogreške, al blo je manj broj dvostrukh pogrešaka. Ovaj rezultat pokazuje da smanjvanje sekvence za raspršvanje s 32 na 16 btova ma negatvan učnak na mogućnost greške. Velčna sekvence za raspršvanje nformacje može se povećat korštenjem dva spojena (7,4) BCH koda umjesto (15,7). Takav spojen BCH kod omogućava povećavanje nformacje na 8 btova sekvence na 20 btova s stom velčnom dokumenta. 8-btna nformacja omogućava 256 razlčth dentfkacjskh brojeva. Iz prjašnjeg ekspermenta vdljvo je da je maksmalan broj btova grešaka 2, a dva spojena (7,4) BCH koda spravljaju 2 bta greške. Već broj btova sekvence smanjuje broj grešaka prje samog spravljanje grešaka od strane BCH koda. Matlab je koršten za mplementacju detekcje kod spsanh dokumenata, za detekcju lnja razmaka zmeđu rječ. Prelmnarn rezultat ukazuju da je algortam spravno detektrao zmjero razmake u spsanom dokumentu. Ipak potrebno je dodatno podešavanje kako b detekcja bla pouzdanja. 4.3.8 Zaključak U ovom poglavlju opsan je algortam za označavanje povjerljvh dokumenata te detekcju orgnalnog prmatelja blo gdje. Algortam je bazran na podešavanju razmaka zmeđu rječ l zmeđu lnja teksta. Ovaj algortam daje dobre rezultate za 23

sva poravnanja teksta (ljevo, desno, te s obje strane), kao za tekst s nepravlnm razmakom zmeđu lnja. Algortam korst tehnku za raspršenje spektra te BCH kodove za spravljanje pogrešaka ne treba orgnalan dokument za detekcju. Tehnka raspršenja spektra otklanja greške uzrokovane šumom nastalm nepravlnm razmakom. BCH kodov za spravljanje grešaka pomažu kod grešaka uzrokovanh šumom zbog spsa skenranja. Rezultat smulacje pokazal su da je algortam otporan na određene oblke formatranja teksta kao što je zmjena fonta margna. Također prelmnarn rezultat detekcje mjerenja razmaka zmeđu rječ lnja kod spsanog dokumenta su obećavajuć. Dodatna podešavanja stražvanja algortama za detekcju vodenog žga u spsanm dokumentma su u tjeku. 4.4 Označavanje značajk teksta 4.4.1 Uvod Kod aplkacja koje se bave dentfkacjom, autentčnost zašttom, zmjena skrvenh podataka znač da je sam dokument bo zmjenjen. Dakle, potrebne su lomljve l polu-lomljve metode [7]. Lomljve metode prhvatljve su za dgtalne dokumente dok su polu-lomljve (otporne na nenamjerne napade, npr. šum nakon spsa skenranja) prhvatljve za dgtalne spsane dokumente. Glavn zahtjev za polu-lomljvu metodu skrvanja podataka trebal b bt: 1. Funkconra kod dgtalnh spsanh oblka dokumenata 2. Treba bt nezavsna od formata dokumenta, s tme da format podržava određen nvo opsa teksta. Nek od modernh formata koj zadovoljavaju ovaj uvjet su: Mcrosoft Offce Word (DOC), Rch Text Format (RTF), PostScrpt (PS), Portable Document Format (PDF) drug. 3. Orgnaln tekstualn dokument mora se moć pretvort z jednog formata u drug tako da zadrž skrvenu nformacju. 4. Označen dokument ne b se trebal vdljvo razlkovat od orgnalnog teksta. 5. Potrebna je veća stopa označavanja. Tako da pojedne strance sadrže određene osnovne nformacje (npr. me autora, vrjeme datum kreranja, komentar, td.) 6. Jednostavna za automatzacju. Automatzacja procesranje bez nadzora su važne značajke koje čne rješenje zanmljvm za praktčne prmjene. U nastavku poglavlja bt će opsane dvje polu-lomljve metode označavanja. Prva metoda, kvantzacja boje, može se korstt za dgtalne spsane dokumente. Druga metoda, halftone kvantzacja odnos se na spsane tekstualne dokumente. 4.4.2 Kvantzacja boje U ovoj metod značajka teksta u koju se ugrađuje nformacja je boja teksta. Glavna deja ove metode je kvantzrat boju svakog znaka tako da ljudsk vzualn sustav ne može odredt razlku zmeđu orgnalnh kvantzranh znakova, al da specjalzran 24

čtač može odredt razlku, npr. skener s velkm dnamčkm rasponom u slučaju spsanh dokumenata. Slka 4.6 prkazuje prmjer kvantzacje boje. Dakle, tamn znakov se kodraju kao 0, a svjetlj znakov kao 1. Znač može se ugradt bnarna sekvenca. Također se može prmjett da se po tekstu ugrađuje vše nformacja nego kod metoda koje mjenjaju razmak zmeđu rječ lnja. Kako b dokument bo otporan na pretvorbu z dgtalnog u analogn pa opet u dgtaln oblk određen znakov mogu se zuzet z označavanja. Manj znakov, kao što su točka zarez, nsu dobr nosoc nformacje za spsane dokumente. Kod dgtalnh dokumenata ne b trebalo bt ovh problema. Slka 4.6 Kvantzacja boje: (a) orgnalan tekst, (b) označen tekst Ova metoda zadovoljava zahtjeve 1, 2, 3. Zahtjev 4 također je zadovoljen jer se zna da ljudsk vzualn sustav ne detektra manje promjene u lumnacj. Također varjacje lumnacje preko svjetlh l tamnh podloga manje su vdljve nego kod svh podloga. Na sreću većna dokumenata psana je tamnm slovma preko svjetle podloge. Korštenjem modernh tekst procesora vdljvo je da se u dgtalnom okruženju ovom metodom može ugradt do 4 bta po znaku (korštenjem razna sve od 0-15), a da žg dalje ne bude vdljv ljudskom oku. Ako se skrven tekst ugrađuje u spsane dokument onda će se ugradt 1 do 2 bta nformacje po znaku. Dvo-raznsk kvantzator Najjednostavnja metoda ugrađvanja nformacja je korštenje dvoraznskog kvantzatora. U ovom prstupu bra se referentna boja koja reprezentra 0. Dobar zbor je orgnalna boja teksta u dokumentu (većnom je crna). Zatm se bra svjetlja njansa koja reprezentra 1. Slka 4.7 je prmjer ove metode, gdje je 0 označena s crnom (lumnacja je 0), a 1 sa svjetljom njansom crne (lumnacja 46). Slka 4.7 Dvo-raznsk kvantzator (a) orgnaln tekst; (b) označen tekst 25

Rezultat ove metode opsan su u poglavlju o ekspermentalnm rezultatma. Všeraznska kvantzacja Prethodno opsana metoda može se prošrt na vše razna. Umjesto korštenja dvje razne boje, može se korstt četr l osam razna boje. Ova metoda dopušta označavanje vše btova po znaku. Što se tče praktčnh prmjena ova metoda ovs o kvaltet psača skenera. Zbog razvoja kvaltetnjh psača skenera ovu metodu ne treba odbact. 4.4.3 Halftone kvantzacja Ova metoda oslanja se na halftonng, šroku korštenu metodu spsa koja omogućava da slke koje maju kontnurajuću boju mogu bt spsane s tntom jedne boje (sva skala) l nekolko tnta u boj. Ovdje se ogrančava na crno-bjele psače. Kako b se smulrala dana njansa sve, halftone psač korst halfotne zaslon. Ova metoda skorštava čnjencu da može postojat vše razlčth halftone zaslona koj vode k stoj njans sve. Ta osobna može se korstt kod skrvanja podataka korštenjem razlčth halftone zaslona za označavanje pojednh znakova, ovsno o poruc koja se žel ugradt. Tpčne značajke halftone zaslona koje su korsne za ugrađvanje podataka su: kut zaslona oblk točk na zaslonu (elptčan, okrugl, pravokutn). Slka 4.8 prkazuje prmjer prmjene ove metode gdje se kut zaslona od 0 korst za kodranje 0, a kut od 45 za kodranje 1. Jedna od većh prednost ove metode jest da sv znakov ste njanse sve. Ako se ne kombnra s nekom od tehnka kvantzacje boje ova metoda može se korstt samo za označavanje spsanh dokumenata. Tako se npr. s dvje njanse sve može ugradt nformacja u dgtalnu verzju dokumenta, a korštenjem halftone zaslona s uzorcma u kombnacj s dva kuta zaslona za ugrađvanje nformacje u spsanu verzju tekstualnog dokumenta. Slka 4.8 Halftone kvantzacja: (a) orgnalan znak; (b) označen znak za m=0; (c) označen znak za m=1 4.4.4 Ekspermentaln rezultat U ovom djelu opsuje se praktčna mplementacja prethodno opsane kvantzacje boje. Kao što je prethodno spomenuto ova metoda može se korstt za označavanje dgtalnh spsanh tekstualnh dokumenata. Implementacja ove metode u dgtalnom okruženju prlčno je jednostavna. U ekspermentma mplementran je prototp za Mcrosoft Offce Word dokument sposoban za ugrađvanje zdvajanje prozvoljne poruke. Ako se pretpostav 26