SVEUČILIŠTE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA DIPLOMSKI RAD br. 1633 Zaštta teksta dgtalnm vodenm žgom Thana Poljak Vodtelj: Marn Golub Zagreb, studen, 2007
1. Uvod U današnje vrjeme postoj sve veća potreba za zašttom osjetljvh nformacja. Enkrpcja, ogrančavanje prstupa zaštta dokumenata za sgurnosne stjene (eng. frewall) neke su od uobčajenh tehnka zaštte osjetljvh nformacja. Enkrpcja je dobar načn sprječavanja neovlaštene osobe od pregledavanja sadržaja osjetljvog dokumenta. Al kada se dokument dekrptra tajnm ključem, ovlaštena osoba lošh namjerna može spremt, koprat, spsat l prosljedt dekrptran dokument. Ogrančavanje prstupa dokumentu nekolcn pojednaca funkconra kod pojednaca vrjednh povjerenja. Nažalost, događa se da se povjerljve nformacje nalaze zvan povjerljvh zona pa čak u medjma. U tom slučaju žel se pronać osobu koja je odala nformacje, što nje uvjek jednostavan ugodan proces. Sgurnosna stjena je učnkovt načn sprječavanja prstupa povjerljvoj mrež od strane vanjskh korsnka, koj nemaju prava prstupa. Al to ne sprječava osobu unutar organzacje da sprem l prosljed osjetljv dokument trećoj stran. Rješenje koje osgurava zašttu osjetljvh nformacja ne može ovst o samo jednoj tehnologj. Umjesto toga, efkasna sgurnost ostvaruje se svm prethodno spomenutma tehnologjama s tme da mora ostavt otsak na samom dokumentu. Pod ostavljanjem otsaka smatra se ugrađvanje jednstvene nformacje u dokument, koja dentfcra vlasnka l prmatelja dokumenta. Ugrađena nformacja može se detektrat dekodrat u blo kojem trenutku, čak nakon spsa skenranja. Proces ostavljanja otsaka u dokumentu može se postć uporabom tehnka označavanja dgtalnm vodenm žgom. Označavanje dgtalnm vodenm žgom je tehnka kojom se mogu zaštt autorska prava razlčth multmedjskh sadržaja. S obzrom da postoj vše razlčth formata: slke, audo podac, vdeo podac, grafčk objekt, potrebno je razvt posebne metode za svak od njh. U usporedb s stražvanjma o označavanju slka, vdeo audo podataka, stražvanja o označavanju teksta su malobrojna. Ipak pojavom novh prmjena kao što su npr. dgtalna knjžnca te knjge u elektrončkom formatu raste nteres za ovo područje. U ovom radu se opsuju razlčt načn označavanja teksta dgtalnm vodenm žgom te njhova prmjena. Poglavlje 2 je uvod u dgtalne vodene žgove njhove prmjene. Poglavlje 3 opsuje kako se dgtalna knjžnca može zašttt uporabom otpornh dgtalnh vodenh žgova. Poglavlje 4 opsuje neke od algortama za označavanje teksta, a poglavlje 5 opsuje praktčnu mplementacju jednog od algortama za označavanje teksta. 1
2. Uvod u dgtalne vodene žgove njhova prmjena 2.1 Osnove označavanja dgtalnm vodenom žgom Osnovna deja označavanja dgtalnm vodenm žgom je stvaranje meta podataka koj sadrže nformacje o dgtalnom medju koj se žel zašttt. Meta podac su voden žg koj se može neprmjetno ugradt u željen medj te treba bt otporan na namjerna nenamjerna zoblčenja sgnala. Sustav za označavanje dgtalnm vodenm žgom sastoj se od dva glavna djela: ugrađvanje vodenog žga detekcja. Ugrađvanje kombnra medj C o, audo vzualn sgnal u koj se ugrađuje nformacja, poruku (eng. payload) P, koja se dodaje medju, čme se stvara označen sadržaj C w. Algortam označavanja ma dva koraka. U prvom se koraku poruka P kodra u voden žg W. Voden žg W mora bt stog tpa sth dmenzja kao medj. Ako je npr. medj C o slka, tada voden žg mora bt uzorak slke sth dmenzja kao orgnalna slka. Bolja sgurnost može se postć korštenjem ključa vodenog žga K u procesu kodranja. U drugoj faz, voden žg W dodaje se medju C o kako b se stvoro označen medj C w. Postoje dvje vrste označavanja: sljepo nformrano. Vrsta označavanja ovs o tome korst l se medj C o prlkom stvaranja vodenog žga W l ne. Za sljepo označavanje nje potreban orgnalan medj, a može se opsat sljedećm zrazom: C W 1( O = 0 K = E C, W ), gdje je W E ( P, ) (2.1) gdje E 1 označava operacju ugrađvanja vodenog žga W u medj C o. Voden žg W dobva se kodranjem (E 0 ) poruke P uz pomoć ključa vodenog žga K. Informrano označavanje korst nformacje z orgnalnog medja prje kreranja vodenog žga W može se opsat sljedećm zrazom: C = E ( C, W ), gdje je W = E ( P, K, C ) (2.2) W 1 O O O gdje E 1 označava operacju ugrađvanja vodenog žga W u medj C o. E 0 označava operacju kodranja, odnosno stvaranje vodenog žga W korštenjem nformacje z orgnalnog medja C o, poruke P ključa vodenog žga K. Označen medj može proć kroz razlčte operacje. Operacje mogu bt razlčta zoblčenja uzrokovana uobčajenm transformacjama sgnala (kompresja, dekompresja, pretvorba z analognog u dgtaln obrnuto) l namjern napad. Prmjenom th operacja može se narušt kvalteta orgnalnog označenog medja, odnosno stvara se nov medj Cw'. Detektor vodenh žgova također se djele na dvje vrste, sljepe nformrane. Vrsta označavanja ovs o tome kolko nformacja o medju je dostupno prlkom procesa detektranja vodenog žga. Informran detektor korst orgnaln medj C o u procesu detekcje te se može opsat sljedećm zrazom: 2
P = D( C ', C, K) (2.3) W gdje D označava proces detekcje poruke P korštenjem zmjenjenog medja Cw', orgnalnog medja C o ključa vodenog žga K. Sljep detektor ne korst orgnaln medj C o te se može opsat sljedećm zrazom: O P = D( C ', K) (2.4) W gdje D predstavlja proces detekcje, Cw' zmjenjen medj, K ključ vodenog žga, a P poruku. Slka 2.1 Prmjer sustava za dgtaln voden žg sa sljepm ugrađvanjem nformranom detekcjom. Slka 2.2 Prmjer sustava za dgtaln voden žg s nformranm ugrađvanjem sljepom detekcjom. 3
Slka 2.1 prkazuje jedno od mogućh ostvarenja sustava za označavanje detekcju dgtalnog vodenog žga koj u ovom slučaju korst sljepo ugrađvanje nformranu detekcju. Slka 2.2 prkazuje još jedno moguće ostvarenje koje ma nformrano ugrađvanje sljepu detekcju. Vše o dgtalnm vodenm žgovma dostupno je u [1]. 2.2 Vrste dgtalnh vodenh žgova 2.2.1 Lomljv voden žgov Zovu se lomljv jer je poželjno da se prlkom prmjene većne tehnka obrade dokumenata zmjene l unšte. Svojstva: 1. Voden žg je nevdljv promatraču. 2. Voden žg se mjenja prlkom prmjene većna tehnka za obradu dokumenata. 3. Neovlaštene osobe ne b smjele moć ubact lažn voden žg. 4. Ovlaštene osobne mogu brzo zvadt voden žg. 5. Očtan voden žg pokazuje gdje je došlo do promjena. Svojstvo nevdljvost vodenog žga teško je zmjert jer ovs o vše faktora. Svojstvo 3 odnos se na mogućnost da se voden žg može učtat z označenog dokumenta ubact u zamjensk. Kako b ovo svojstvo blo ostvareno potrebno je otežat potencjalnm napadačma saznanje je l dokument označen kako je označen. Pogodn su voden žgov koj se mogu učtat samo s posebnm ključem, a ključ se čuva u posebnoj, sgurnoj baz podataka[2]. 2.2.2 Otporn voden žgov Zovu se otporn žgov jer se očekuje da budu postojan neovsno o napadma. Svojstva: 1. Voden žg je nevdljv promatraču. 2. Voden žg ostaje u dokumentu čak nakon obrade dokumenta. 3. Neovlaštene osobe teško mogu detektrat voden žg. 4. Ovlaštene osobe mogu brzo zvadt voden žg. 5. Nakon što je dokument spsan skenran dalje je moguće učtat voden žg. Stvaranje algortama koj posjeduju svojstva 3 5 težak je zadatak, al otporan voden žg nje pretjerano korstan ako se može lagano uklont. Teško je razvt programsk sustav koj će detektrat voden žg čak nakon većne zmjena. Dakle, svojstva 2 4 su kontradktorna. Za ostvarvanje svojstva 3 preporuča se korštenje vodenh žgova koj zahtjevaju poseban ključ za učtavanje[2]. 4
2.3 Prmjena dgtalnh vodenh žgova Prmjene dgtalnh vodenh žgova mogu se klasfcrat na vše razlčth načna (ovsno o medju, poruc td.). Klasfkacja koja sljed temelj se na otpornost vodenog žga na napade. 2.3.1 Dokazvanje autentčnost sadržaja Postoje razlčt programsk sustav za uređvanje dgtalnog sadržaja. S obzrom da je jednostavno mjenjat dgtaln sadržaj btno je nać načn za dokazvanje ntegrteta autentčnost sadržaja. Rješenje ovog problema može se posudt z krptografje, gdje se dgtaln potps korst za dokazvanje autentčnost. U slučaju označavanja dgtalnm vodenm žgom dgtaln potps može bt voden žg koj će se ugradt u sadržaj. Za dokazvanje autentčnost preporuča se korštenje lomljvog vodenog žga z sljedećh razloga: lomljv voden žg mora postat nevažeć u slučaju zmjena, korštenjem lomljvog vodenog žga može se saznat kako je dgtaln sadržaj zmjenjen l koj je do zmjenjen. 2.3.2 Praćenje emtranja Mnogo prozvoda svakodnevno se emtra preko televzjske mreže: vjest, flmov, sportska događanja, reklame, td. Emtranje je vrlo skupo oglašvač moraju zdvajat značajna fnancjska sredstva za svako emtranje kratkh reklama koje se pojavljuju za vrjeme pauza popularnh flmova, serja l sportskh događaja. Mogućnost preczne naplate vrlo je btna. Oglašvač žele bt sgurn da plaćaju samo za reklame koje su se emtrale. Praćenje emtranja (Broadcast Montorng) občno se korst za prkupljanje nformacje o sadržaju koj se emtra. Prkupljene nformacje korste se za naplaćvanje druge potrebe. Jednostavan načn praćenja je korštenje ljudskh promatrača koj prate blježe sve što vde. Ova vrsta praćenja je skupa sklona greškama. Automatzrano praćenje je očto bolj zbor. Postoje dvje vrste sustava za automatzrano praćenje: pasvn aktvn. Pasvn sustav prat sadržaj koj se emtra pokušava ga povezat s poznatm sadržajem pohranjenm u baz. Implementacja pasvnh sustava nje jednostavna z nekolko razloga. Usporedba odaslanh sgnala sa sadržajem baze nje jednostavna. Održavanje velke baze sadržaja za usporedbu je skupo. Aktvn sustav za praćenje oslanjaju se na dodatnu nformacju koja dentfcra sadržaj. Dodatna nformacja emtra se zajedno sa sadržajem. Jedno od rješenja za aktvno praćenje je označavanje dgtalnm vodenm žgom. Voden žg koj sadrž nformacju za dentfkacju emtranja ugrađuje se u sam sadržaj. Za ovu prmjenu voden žgov moraju bt otpornj na napade od lomljvh žgova te h se mora moć lagano očtat. 2.3.3 Ostavljanje otsaka Postoje određene prmjene u kojma dodatna nformacja o dgtalnom sadržaju treba sadržavat nformacje o krajnjem korsnku a ne o vlasnku sadržaja. Npr. okruženje u kojem se stvaraju flmov. Za vrjeme produkcje flma, manj djelov rada na flmu občno se svak dan dstrburaju određenom broju ljud uključenom u stvaranje flma. 5
T dnevn djelov flmova su povjerljv, te ako određena verzja procur, studo žel mat mogućnost dentfcrat uzročnka curenja nformacja. Problem dentfcranja zvora curenja nformacja može se rješt dstrburanjem neznatno razlčth kopja svakom prmatelju. Svaka kopja jednstveno je vezana uz osobu koja ju treba prmt. Drug prmjer prmjene je dstrbucja flmova knma u dgtalnom formatu umjesto korštenja poštanskh usluga celulodnh formata. Iako je ovakva dstrbucja fleksblnja, efkasnja jeftnja, producent dstrbuter ne prhvaćaju je jer se boje potencjalnog novčanog gubtka uzrokovanog legalnm kopranjem redstrbucjom flmova. Rješenje ovog problema je da svako kno prm kopju koja se jednstveno veže uz kno. U slučaju pojave legalnh kopja, može se saznat koje je kno odgovorno te poduzet potrebne pravne akcje protv stog. Povezvanje jednstvene nformacje o svakoj dstrburanoj kopj dgtalnog sadržaja zove se ostavljanje otsaka (eng. Fngerprntng). Označavanje vodenm žgovma je adekvatno rješenje za ovu prmjenu jer je nevdljvo nedjeljvo od sadržaja. Ovaj je tp prmjene poznat pod menom praćenje zdajca (eng. trator tracng) jer je korsno kod praćenja legalno prozvedenh kopja dgtalnog sadržaja. Ova prmjena zahtjeva vsoku raznu otpornost vodenog žga od razlčth vrsta obrade podataka zlonamjernh napada. 2.3.4 Zaštta autorskh prava Zaštta autorskh prava jedna je od prvh područja za koja je označavanje dgtalnm vodenm žgom namjenjeno. Voden žg, u ovom slučaju, sadrž nformacju o vlasnku autorskog prava neprmjetno se ugrađuje u za to namjenjen sadržaj. Ako korsnc dgtalnog sadržaja maju lagan prstup detektorma vodenog žga mogu prepoznat nterpretrat ugrađen voden žg dentfcrat vlasnka autorskog prava. Blo b korsno kada b se ugrađen voden žg mogao korstt kao dokaz vlasnštva. Može se zamslt sljedeć scenarj: Vlasnk autorskog prava dstrbura svoj dgtaln sadržaj s ugrađenm vlasttm nevdljvm vodenm žgom. U slučaju spora oko vlasnštva autorskog prava, legaln vlasnk trebao b moć dokazat svoje vlasnštvo. To se ostvaruje tako da stvarn vlasnk predoč orgnaln dokument detektor vodenog žga. Sporn sadržaj je orgnaln dokument u koj je ugrađen voden žg. Detekcjom vodenog žga vlasnka u spornom dokumentu dokazuje se vlasnštvo nad dokumentom. Nažalost gornj scenarj uz određene pretpostavke može bt pobjen a označavanje vodenm žgom još nje dovoljno pouzdano za dokazvanje vlasnštva. Jedan je potencjaln problem povezan s dostupnost detektora vodenog žga. Ako je detektor dostupan većem broju ljud ne može se očuvat sgurnost vodenog žga. U tom slučaju uvjek je moguće detektrat uklont voden žg. To se može napravt većm brojem neprmjetnh zmjena na označenom sadržaju sve dok detektor vše ne može detektrat voden žg. Jednom kada je voden žg uklonjen orgnaln vlasnk ne može vše dokazat svoje vlasnštvo. Čak ako se voden žg ne uklon u nekm uvjetma moguće je dodat nov voden žg preko postojećeg to za sve kopje dokumenta, uključujuć orgnaln dokument. Zbog toga je potrebno moć dentfcrat prv, voden žg koj je stvarn vlasnk ugrado. Zbog svega toga za ovu prmjenu potrebna je najvša razna otpornost vodenog žga. Vše o raznama otpornost prmjenama u [1] [3]. 6
3. Zaštta dgtalne knjžnce otpornm vodenm žgovma Dgtaln voden žgov su neprmjetne, l vrlo malo vdljve transformacje dgtalnh podataka. Iako se dgtalne slke najvše povezuju s dgtalnm vodenm žgovma, mogu se označavat drug oblc dgtalnh podataka kao što su vdeo audo zaps te tekst. Termn nevdljv voden žgov korst se za ops dgtalnh vodenh žgova koj su ljudskom oku nevdljv, al koj se mogu zvadt pomoću računala. Često je za operacje otklanjanja vodenog žga z medja potrebno znat odgovarajuć loznku. Samo ovlašten korsnc mogu otklont voden žg. Jedna od najvećh prmjena označavanja dgtalnm vodenm žgom je zaštta nformacje o vlasnku. Ova nformacja ma dva oblka: voden žg koj dentfcra osobu koja je stvorla materjal l korsnke kojma je materjal posuđen. Ideja označavanja krajnjeg korsnka, odnosno osobe kojoj je određen materjal posuđen u slučaju knjžnce, jedna je od najvećh prmjena označavanja. Mnoge osobe smatraju označavanje prmatelja kršenjem prvatnost. Ako prmatelj poštuje pravla dalje ne dstrbura l kopra materjal ne mora se bojat otkrvanja osobnh podataka. Označen materjal treba bt prvatan, odnosno treba ostat kod osobe koja ga je dobla (posudla), bez da ga vde druge osobe. Razotkrvanje dentteta prmatelja događa se samo ako osoba ne poštuje pravla. Npr. objavljvanje l dstrbucja materjala bez dozvole autora. Za zašttu autorskog prava, kao što je prje spomenuto, potrebn su veoma otporn dgtaln voden žgov, odnosno potrebno je što vše otežat uklanjanje vodenog žga od strane napadača. Jedna od prmjena je sprečavanje kopranja, pogotovo za vdeo zapse. Tako se može svak flm označt s vodenm žgom koj ma neku od sljedećh vrjednost: zabranjeno kopranje, dozvoljeno kopranje jednom l zabranjeno daljnje kopranje. Svak alat za snmanje morat će moć pročtat ovaj voden žg, te odbt snmat blo koj flm koj ma oznaku zabranjeno snmanje. Velka prednost ove tehnologje je njena neovsnost o tehnologj, protokolu formatu dstrbucje. Voden žg je prsutan u blo kojem trenutku gledanja flma. Označavanje dgtalnm vodenm žgom je područje zanmljvo muzejma, knjžncama za ndustrju zabave jer pruža mogućnost bolje zaštte multmedjskog sadržaja. Važno je spomenut da označavanje dgtalnm vodenm žgom nje jedna tehnologja za zašttu autorskog prava. Ona je jedna od 3 tehnologje (druge dvje su enkrpcja dgtaln potps) koje zajedno pružaju razumnu zašttu autorskh prava za malu cjenu. Vše o sgurnost dgtalne knjžnce moguće je nać u [4]. 7
4. Ops algortama za označavanje teksta 4.1 Algortm za označavanje teksta Većna organzacja ma potrebu za zašttom osjetljvh dokumenata. Označavanje dgtalnm vodenm žgom jedno je od rješenja ovog problema. Korštenjem dgtalnog vodenog žga moguće je ugradt otsak u željen dokument. Otsak može bt jednstven dentfkacjsk broj vlasnka l prmatelja dokumenta. Ugrađen dentfkacjsk broj treba se moć detektrat dekodrat u blo kojem trenutku, čak nakon spsa skenranja. Tehnke za označavanje slka mogu se lagano prmjent na tekstualn dokument, al one u tekstualn dokument unose bjel šum koj se jako prmjećuje. Taj šum nastaje zbog bnarne (crno-bjele) prrode tekstualnog dokumenta velke bjele pozadne. Kako b se zbjegao prethodno spomenut problem razvjeno je nekolko tehnka označavanja vodenog žga posebno za tekstualne dokumente. Postoje četr vrste tehnka za označavanje teksta: pomcanje lnja teksta (eng. lneshft codng), pomcanje rječ unutar ste lnje (eng. word-shft codng), označavanje značajk teksta (eng. feature codng) te jezčno označavanje (eng. natural language NL) označavanje. Prvu drugu metodu je opsao Brassl et. al. u [10] [11]. Kod pomcanja lnja teksta svaka parna lnja neznatno se pomče gore l dolje, ovsno o vrjednost nformacje koja se ugrađuje. Ako je bt jedan odgovarajuća lnja pomče se gore, nače se lnja pomče dolje. Neparne lnje su kontrolne lnje one se ne mjenjaju. Korste se kao reference za mjerenja uspoređvanje razmaka zmeđu lnja za vrjeme dekodranja. Dekodranje se ostvaruje uspoređvanjem razmaka zmeđu baza lnja l razmaka zmeđu centroda lnja. Baze lnja u orgnalnom dokumentu su občno unformno raspoređene dakle orgnalan dokument nje potreban ako se bazne lnje korste. Al centrod nsu nužno unformno raspoređen pa je potreban orgnaln dokument kod metoda koje korste centrode. Kod druge metode, pomcanja rječ, prvo se svaka lnja djel u grupe rječ. Svaka grupa ma dovoljan broj znakova. Zatm se svaka parna grupa pomče u ljevo l desno, ovsno o vrjednost specfčnog bta nformacje koj se ugrađuje. Neparne grupe korste se kao reference za mjerenje uspoređvanje razmaka zmeđu rječ za vrjeme dekodranja. Metoda korelacje metoda centroda korste se za detekcju vodenog žga obje metode zahtjevaju orgnaln tekst. Treća metoda odnos se na mjenjanje određenh značajk teksta (boje, fonta, velčne, td.). Kod četvrte metode, jezčno označavanje, ugrađvanje se zvod mjenjanjem sntakse l semantke odabranh rečenca. Poglavlje 4.2 opsuje algortam koj modfcra razmak zmeđu rječ šrnu rječ, tako da prosječn razmak svake lnje predstavlja uzorak vala snusa specfčne faze frekvencje. Poglavlje 4.3 opsuje algortam koj mjenja razmak zmeđu rječ l zmeđu lnja. Poglavlje 4.4 opsuje prmjer označavanje značajk teksta,a poglavlje 4.5 opsuje jezčno označavanje. 8
4.2 Označavanje slka teksta pomoću valova snusa koj reprezentraju razmake zmeđu rječ 4.2.1 Uvod Ova metoda [5] korst jednu od značajk tekstualnog dokumenta, a to su razmac zmeđu rječ za označavanje tekstualnog dokumenta. Tehnka kodranja podešava razmake zmeđu rječ tako da srednj razmac u razlčtm lnjama pokazuju karakterstke funkcje snus, a nformacju se može ugradt u val l valove snusa. S obzrom da se označava u horzontalnom vertkalnom smjeru ovakvo označavanje je otporno na vanjske utjecaje. Nadalje, do pohranjene nformacje može se doć s l bez orgnalnog dokumenta, a kontrolne lnj l kontroln blokov nsu potrebn za proces detekcje. 4.2.2 Značajke razmaka statstka Stranca teksta u dgtalnom oblku može bt prkazana sljedećom funkcjom: [ 0,1 ], x = 0,1,..., W, y 0,1 L f ( x, y) =,..., (4.1) koja reprezentra bjele crne pksele. U ovoj funkcj W predstavlja šrnu strance, dok L predstavlja duljnu strance u pkselma. U dgtalnoj obrad slka razmak zmeđu rječ se detektra pomoću sljedeće vertkalne projekcje: b v ( x) = f ( x, y) (4.2) y= t koja je suma crnh pksela u vertkalnom stupcu od t (vrha) do b (dna) lnje teksta. Ako ne postoj crn pksel u x uzastopnh pksela, odnosno: v ( x) = 0, x = k, k + 1,.., k + c (4.3) detektran je razmak zmeđu rječ. Slka 4.1 prkazuje tpčan vertkalan profl pet rječ. Prosječan razmak u lnj teksta može bt parametar za proučavanje značajk razmaka tekstualnog dokumenta. Za lnju s d rječ srednj razmak računa se kao: S a = S t /( d 1), d 1 (4.4) gdje je S t ukupna suma razmaka u lnj teksta, u pkselma Učestale su dvje vrste teksta. Jedan je poravnat na ljevu margnu, dok je drug jednolko poravnat s ljeve s desne strane (eng. justfed). Ovaj algortam označava tekst poravnat s obje strane. 9
4.2.3 Označavanje razmaka Slka 4.1 Vertkalan profl 5 rječ S obzrom na slučajan raspored prosječnh razmaka lnje teksta u tekstualnom dokumentu, defnra se dskretna slučajna varjabla X(n): X ( n) = S an, n = 0,1,..., N 1 (4.5) gdje n predstavlja broj lnje teksta u tekstualnom dokumentu s N lnja. S an predstavlja S a (jednadžba (4.4)) n-te lnje. Označavanje razmaka može se gledat kao označavanje slučajne varjable X(n). Funkcja snus koja se mjenja preko lnja teksta ma neke zanmljve karakterstke: 1. Snus se mjenja polako tako da se lokalne varjacje ne zamjećuju 2. Ampltuda, frekvencja početn kut snusa mogu se korstt za pohranu nformacja 3. Perodčna smetrčnost snusa čn proces detekcje lakšm pouzdanm. Mogu se korstt razlčte lnje teksta z određenog dokumenta za ugrađvanje nformacja. Vrjednost S a razlčth lnja teksta mogu se korstt kao uzorc za vrjednost snusa. Kako b označavanje razmaka blo neprmjetno razlke u razmacma zmeđu rječ moraju bt mnmalne, odnosno promjena razmaka mora bt dovoljno velka da se može pravlno detektrat. Zbog ovh ogrančenja postoj usk raspon ampltuda snusnog vala za označavanje. Za spravnu rekonstrukcju vala snusa, frekvencja uzorkovanja mora bt bar dva puta veća od frekvencje snusa. Postoje određene frekvencje koje ljudsk vzualn sustav vše prmjećuje te treba zbjegavat označavanje u blzn th frekvencja. Zbog toga je frekvencja vala snusa također ogrančena. 10
Početn kut vala snusa bra se kao prmarn noslac nformacje. Kod ove metode rječ se ne pomče samo horzontalno, nego se po potreb sužava l šr tako da se postgne tražen S a. Neka nov prosječn razmak nakon modfkacje razmaka zmeđu rječ u lnj teksta treba bt S a '. Tada je promjena ukupne duljne razmaka zmeđu rječ u pkselma: Stc = ( S a ' S a )( d 1) (4.6) gdje je d broj rječ, a S a orgnalan prosječan razmak u lnj teksta opsan u jednadžb (4.4). Ako je S tc > 0 tada će se ukupan razmak zmeđu rječ rašrt, a rječ u ovoj lnj će se skupt. Ako je S tc < 0 tada će se ukupan razmak zmeđu rječ u lnj teksta smanjt, a rječ će se rašrt. Neka je -ta rječ ove lnje ma šrnu prje modfkacje Pxl u pkselma, tada se skupljanje l šrenje šrne ove rječ u pkselma računa kao: ES ES = = d = 1 d = 1 S S tc Pxl tc Pxl Pxl, ako je S tc 0 (4.7) Pxl, ako je S tc < 0 (4.8) ES se zaokružuje na najblž cjel broj, s obzrom da predstavlja broj pksela. Dakle, može postojat razlka zmeđu S tc sume ES, koja se računa kao: S d = S tc d = 1 ES (4.9) U ovoj mplementacj razlka Sd se prbraja najvećem ES. Skupljanje l šrenje rječ ostvaruje se brsanjem l kopranjem svakog Iv tog stupca. Interval Iv se računa kao: Pxl Iv = (4.10) ES Interval Iv zaokružuje se na cjel broj. Nakon skupljanja l šrenja određene rječ, nova šrna u pkselma računa se kao: Pxl ' = Pxl ES (4.11) 11
Dvje strane lnje teksta ne mjenjaju se dok se lnja skuplja l šr. Za skupljanje l šrenje rječ, kod rječ s ljeve strane lnje ljev rub rječ je fksan, dok se rječ skuplja l šr. Ako su rječ s desne strane lnje, desna strana rječ se drž fksna dok se rječ šr l skuplja. Radno okruženje je jedna stranca teksta l vše stranca koje čne jedan dokument. Relevantne lnje teksta u radnom okruženju su uzorc za snus za označavanje. Početn kut može bt l apsolutn početn kut l relatvan početn kut, ako se korst vše razlčth valova. Za ovu metodu označavanja razvjen su prvatn javn algortm za označavanje. 4.2.4 Prvatno označavanje 1. Računa se srednja vrjednost Sa a 1 q n= p S an =, q p + 1 0 p < q < N (4.12) gdje su p q ndeks prve zadnje lnje teksta u radnom okruženju u koje se označavaju snusnm valom. 2. Za svaku lnju računa se komponenta vodenog žga koja je određena sljedećm valom snusa: W n = C1a1 sn( ω 1( n p) + φ1) (4.13) gdje je W n željena komponenta vodenog žga za prvatno označavanje n-te lnje teksta; ω 1 φ 1 su frekvencja u radjanma početn kut vala snusa. C 1 je konstanta koja određuje ampltudu snusa. 3. W n se dodaje S a za n-tu lnju te se generra nov prosječn razmak: S ' = S + W (4.14) an an 4. Na kraju rječ svake od odabranh lnja modfcraju se prmjenom formula (4.6) do (4.11). Prvatna metoda može se shvatt kao dodavanje konstantnog djela orgnalnoj slučajnoj varjabl X(n), te se tako krera slučajna varjabla Y(n) n Y ( n) = X ( n) + (4.15) W n gdje je Y(n) slučajna varjabla za prvatno označavanje, a W n voden žg za prvatno označavanje. 12
4.2.5 Javno označavanje Kod prvatnog označavanja susjedne lnje teksta maju slučajne vrjednost S a, Kod javnog označavanja vrjednost S a lnja koje se korste kod javnog označavanja trebaju mat određenu vezu kako b se mogle korstt drektno kao uzorc za val snusa. Neprkladno je uzmat sve lnje teksta tekstualnog dokumenta za javno označavanje zbog varjacja u S a kod orgnalnh lnja teksta. Promatranjem razlčth profla S a vdljvo je da lnje s velkm brojem rječ maju blske vrjednost S a. Ovo je pogodno z dva razloga. Prvo, u lnj teksta s velkm brojem rječ, prosječnoj rječ odgovarajućem razmaku dodjeljen je manj broj pksela. Dakle razlka zmeđu S a susjednh lnja je manja. Drugo, lnja teksta s većm brojem rječ ma manju vjerojatnost da bude poravnata s obje strane l je to poravnanje manje vdljvo. 1. S obzrom na prethodno opsana opažanja prvo se bra ključ tako da se lnje čj je broj rječ već l jednak ključu označavaju. 2. Nakon toga bra se skup lnja S w z dokumenta tako da broj rječ svake lnje nje manj od zabranog ključa. 3. Računa se srednja vrjednost S a za svaku od lnja z skupa S w : a 2 v S am m= u =, v u + 1 0 u < v < N (4.16) gdje u v maju slčno značenje kao p q u jednadžb, al u v su ndeks lnja z skupa S w ; m je ndeks lnje teksta z skupa S w, a S am je S a m-te lnje. 4. Za svaku lnju teksta z S w računa se komponenta vodenog žga određena valom snusa: W m = C 2a2 sn( ω 2 ( m u) + φ2 ) (4.17) W m je željena komponenta vodenog žga za javno označavanje m-te lnje; ω 2 φ 2 su frekvencja u radjanma početn kut snusa. 5. Za svaku lnju z S w, S a zamjenjuje se sumom a 2 W m te se tako generra nov razmak: S am ' = a 2 + W m, ako je m-ta lnja S w, nače nema zmjena (4.18) 6. Na kraju sve lnje teksta mjenjaju se prema jednadžbama (4.6) do (4.11). Dakle za lnje z skupa S w dobva se nova slučajna varjabla za javno označavanje Y(m): Y ( m) a + (4.19) = 2 W m 13
4.2.6 Detekcja svojstva Ako je tekst označen prvatnom metodom, slučajna varjabla Y(n) dobva se rekonstrukcjom S a prema jednadžb (4.4). S orgnalnm neoznačenm tekstom komponenta vodenog žga W n za prvatno označavanje z jednadžbe (4.15) računa se kao: W n = Y ( n) X ( n) (4.20) Ako je tekst označen javnom metodom ako se pretpostav da je ključ poznat, moguća je rekonstrukcja skupa S w kao ponovno računanje a 2 z jednadžbe (4.16). Komponenta vodenog žga W m za javno označavanje z jednadžbe (4.19) računa se kao: W m = Y ( m) a2, za lnje teksta z w S (4.21) Orgnalan početn kut detektra se računanjem unakrsne korelacje (eng. crosscorelaton) detektrajućeg vala snusa s W n (voden žg za prvatno označavanje) l W m (voden žg za javno označavanje): 1 r( j) = W ( n) Ad sn( ω d n + j), (4.22) T T 1 n= 0 gdje W predstavlja W n l W m ; ω d je frekvencja u radjanma detektrajućeg snusnog vala; a j predstavlja vremensk pomak u broju lnja teksta varra kako b se detektrala označena nformacja. Kroz j koj stvara ekstremnu vrjednost r(j) obnavlja se orgnalna označena nformacja. A d je ampltuda detektrajućeg snusnog vala. T je sumarn broj koj ovs o broju stavk u W n l W m kao ω d. Jedan od parametara koršten u ekspermentma je broj uzoraka (eng. half wave samplng ponts), odnosno broj lnja za označavanje N u jednadžbama (4.13) (4.17) za koj vrjed: 0 ω N < π, gdjeω predstavlja ω 1 l ω 2 (4.23) Rezultat su prkazan u tablcama 1 2. Iz ekspermenata je vdljvo da se razmak zmeđu rječ u tekstualnm dokumentma može označt vodenm žgom bez većh vdljvh zmjena te se st može spravno detektrat. Tablca 4.1 Rezultat detekcje za prvatno označavanje Broj uzoraka 10 7 5 3 Točnost 20/20 20/20 20/20 20/20 14
Tablca 4.2 Rezultat detekcje za javno označavanje Broj uzoraka 7 6 5 3 Točnost 14/15 15/15 14/15 21/21 4.2.7 Zaključak Razmak je jednstvena karakterstka tekstualnog dokumenta. Prethodno je opsan nov algortam za označavanje teksta dgtalnm vodenm žgom korštenjem razmaka zmeđu rječ. Opsana metoda neznatno mjenja razmak zmeđu rječ tako da su razlčte lnje z teksta uzorc za val snusa. Prelmnarn testov pokazal su obečavajuće rezultate. Ova metoda može se prmjent na javno na prvatno označavanje. Ugrađvanje nformacje u horzontalnom vertkalnom smjeru čn ovu metodu otpornju na vanjske utjecaje. 4.3 Označavanje elektrončkh tekstualnh dokumenata slka teksta pomcanjem rječ l lnja 4.3.1 Uvod Ovo poglavlje opsuje metodu [6] za označavanje elektrončkh tekstualnh dokumenata koja je slčna postojećm metodama koje pomču rječ lnje teksta. Al za razlku od postojećh metoda za detekcju vodenog žga nje potreban orgnalan dokument. Također metoda se može prmjent na dokumente koj su poravnat na ljev rub, desn rub l na oba ruba te na pravlan nepravlan razmak zmeđu lnja teksta. Odlomc poravnat na obje strane vrlo su učestal u elektrončkm dokumentma. Kako b "prsll" krajeve posljednje rječ da bude točno na desnoj margn pojedn jezčn procesor automatsk sstematčno šre rječ unutar pojedne lnje. Nepravlan razmak zmeđu lnja rezultat je umetanja matematčkh smbola, slova koja su spod l znad normalnh slova (eng. super- l sub-scrpt) l drugh objekata. Kako b se prlagodlo najvšem objektu svake lnje jezčn procesor automatsk podešava razmak zmeđu lnja kolko je potrebno. U sljedećm poglavljma opsan je algortam za označavanje detekcju, ekspermentaln rezultat te zaključak. 4.3.2 Algortam za označavanje Kod ove metode korste se tehnke raspršenja spektra BCH tehnke kodranja pogrešaka. Te se tehnke korste kao odgovor na efekte koje uzrokuju nepravlan razmak zmeđu rječ l lnja tekstualnh dokumenata. Tehnka koja se predlaže za nepravlan razmak zmeđu lnja vrlo je slčna onoj za nepravlan razmak zmeđu rječ. Te se zbog zbjegavanja redundancje opsuje ona za razmak zmeđu rječ. 15
Informacja BCH kod za spravljanje pogrešaka Raspršenje spektra Orgnaln elektrončk tekstualn dokument Podešavanje razmaka zmeđu rječ Označen elektrončk tekstualn dokument Slka 4.2 Ugrađvanje nformacja u elektrončk tekstualn dokument Slka 4.2 prkazuje proces ugrađvanja nformacje kod predloženog algortma. Proces ugrađvanja započnje upotrebom BCH tehnke za spravljanje pogrešaka rad zaštte nformacje od šuma. Nakon toga korst se jednstvena m-sekvenca za raspršenje svakog od kodranh btova nformacje. Tako raspršen btov ugrađuju se u tekstualn dokument neznatno povećavajuć l smanjujuć razmak zmeđu rječ. Dokument se pregledava od početka do kraja te se svak razmak neznatno povećava l smanjuje za malu delta vrjednost ovsno o vrjednost odgovarajućeg bta vodenog žga. Ako je bt nula razmak se smanjuje, ako je bt jedan razmak se povećava. Delta određuje pomak, rastom delte raste snaga vodenog žga. Al mora se vodt računa da delta bude dovoljno mal tako da unatoč povećanju l smanjenju razmaka rječ ostanu odvojene jedna od druge. Tpčan tekst s dvostrukm proredom psan je u fontu Tmes New Roman, velčne 11 na stranc od 8.5x11 nča ma oko 25 lnja. Svaka lnja ma u prosjeku 13 rječ. Znač, svaka lnja ma 12 razmaka zmeđu rječ, što znač da ma prblžno 300 razmaka zmeđu rječ po stranc. Ako se korst 16-btna sekvenca za raspršenje svakog bta nformacje, tada se 18- btna nformacja može pohrant u svakoj stranc. Ova velčna nformacje dovoljna je za 262144 razlčth dentfkacjskh brojeva, al je dokument podložan šumu koj uzrokuje spsvanje skenranje. Korštenjem BCH koda štt se nformacja od šuma, al značajno smanjuje broj dozvoljenh dentfkacjskh brojeva. Tablca 4.3 prkazuje velčnu dozvoljene nformacje broj grešaka koje se mogu spravt razlčtm BCH kodovma. Teoretsk (15,5) BCH kod pruža najveću zašttu jer može spravt najveć broj grešaka, al ovaj kod također dozvoljava najmanj broj btova nformacje. (15,5) BCH kod može spravt do tr greške, al dozvoljava samo 32 razlčta dentfkacjska broja. S druge strane (15,11) BCH kod dozvoljava najveću velčnu nformacje, al spravlja najmanj broj pogrešaka. Ovaj kod može spravt samo jednu grešku, al dozvoljava 2048 razlčth dentfkacjskh brojeva. (7,4) BCH kod predstavlja ravnotežu zmeđu zaštte velčne nformacje. Taj kod može spravt jednu pogrešku u svaka četr bta. 16
Kada se spoj dva (7,4) koda za zašttu osam btova, mogu spravt dvje greške te se dozvoljava ugrađvanje 256 razlčth dentfkacjskh brojeva. Tablca 4.3 Velčna nformacje, broj dozvoljenh dentfkacjskh brojeva broj btova koj se mogu spravt za razlčte BCH kodove BCH kod Duljna Velčna nformacje Partetn btov Broj grešaka koje se mogu spravt Broj dentfkacjskh brojeva (7,4) 7 4 3 1 16 (15,11) 15 11 4 1 2048 (15,7) 15 7 8 2 128 (15,5) 15 5 10 3 32 Stranca s jednostrukm proredom ma prblžno dva puta vše razmaka nego ona s dvostrukm. Takva stranca dozvoljava ugrađvanje dvostruko većeg broja btova, što znatno povećava broj razlčth dentfkacjskh brojeva. Broj razlčth dentfkacjskh brojeva može se povećat korštenjem vše stranca teksta za označavanje jednog dentfkacjskog broja. Al ovo poboljšanje komplcra proces dekodranja. 16-btn kod za raspršenje spektra može se generrat 4-btnm posmačnm regstrom. Taj kod generra m-sekvencu perode 16, koja se označava s m(n). Ta m-sekvenca ma odgovarajuće korelacjske osobne za upotrebu s detektorom bazranm na korelacj. Kod raspršenja, c(n), generra se z m(n) na sljedeć načn: c ( n) = 2m( n) 1 (4.24) Tme se raspon m-sekvence mjenja z {0,1} na {-1,1}. Ako se svak bt kodrane nformacje označ s bε{-1,1}, tada se prmjena tehnke raspršenja spektra na kodranu nformacju opsuje s: w ( n) = b c( n) (4.25) gdje je w(n) 16-btna sekvenca raspršenja spektra koja predstavlja bt b. 4.3.3 Označavanje elektrončkog dokumenta Kod podešavanja razmaka zmeđu rječ u stvarnom vremenu kod dokumenta poravnatog s obje strane često sam jezčn procesor podešava razmake zmeđu rječ kako b se očuvalo poravnanje. Ekstreman slučaj je kada ta automatska podešavanja pomaknu zadnju rječ trenutne lnje u novu lnju. Ovaj slučaj moguće je zbjeć ako se podes razmak zmeđu svake rječ u svakoj lnj. 17
Ako ows,j predstavlja šrnu j-tog orgnalnog razmaka zmeđu rječ -te lnje, a nws,j predstavlja novu šrnu nakon označavanja, tada je zbroj ovh šrna prje, odnosno poslje označavanja: ows nws = = N j= 1 N j= 1 ows nws, j, j (4.26) gdje je N broj razmaka zmeđu rječ -te lnje. Ako wl,j predstavlja šrnu j-te rječ -te lnje, tada je zbroj šrna svh rječ te lnje: N + 1 = wl, j j= 1 swl (4.27) Kao kompenzacja razlke zmeđu nsw osw šrna svake rječ mora bt podešena na: wl, j ' wl, j +, j = (4.28) gdje,j predstavlja vrlo mal broj dobven sljedećom jednadžbom:, j ( nsw = ( nsw wl osw ) swl wl osw ) swl, j, j, j, j ako je ako je ( nsw ( nsw osw ) 0 osw ) < 0 (4.29) Opsan proces označavanja može se mplementrat na razn upravljačkog programa (eng. drver-a) za postscrpt psač. U tom slučaju, upravljačk program za psač stvara postscrpt dokument koj sadrž nstrukcje koje opsuju strancu. Psač nterpretra te nstrukcje te spravno spsuje strancu. Psač spsuje označen dokument korštenjem zmjenjenh nstrukcja u postscrpt dokumentu kao što je prethodno opsano. 4.3.4 Označavanje spsanog dokumenta Označavanje spsanog dokumenta teže je nego označavanje elektrončkog dokumenta. Taj proces slčan je procesu opsanom u sljedećem poglavlju o detekcj vodenog žga u spsanom dokumentu. U tom procesu spsan dokument prvo se skenra. Nakon skenranja dokument se obrađuje procesorom za obradu slka kako b se dentfcrale lnje razmac zmeđu rječ. Kada su t razmac dentfcran svaka rječ se neznatno pomče. Ist proces korst se prlkom dentfkacje zmjene 18
razmaka zmeđu rječ smanjvanjem l povećavanjem rječ, rad održavanja poravnanja. Prlkom ovog procesa posebno je važno ne unost dodatan šum. 4.3.5 Detekcja vodenog žga u elektrončkom dokumentu Detekcja vodenog žga jednostavan je proces. Detekcja počnje mjerenjem blježenjem razmaka, nws j (šrna razmaka zmeđu rječ nakon označavanja), zmeđu dvje uzastopne rječ. Prje označavanja, ows,j (šrna razmaka prje označavanja) svake lnje prblžno je jednak. Jezčn procesor neznatno podešava ove razmake u svrhu poravnanja. Dakle, srednja vrjednost nws, j dobra je procjena ows,j. Zbog toga se nws, j računa oduzma od svakog od zablježenh razmaka rad procjene n-tog uzorka, w(n), sgnala vodenog žga. Rezultrajuće procjene vodenog žga w(n)' segmentraju se u segmente od 16 uzoraka svaka. Svak od ovh segmenata korelra s orgnalnom m-sekvencom za dohvat bta nformacje. Na kraju se zvod BCH dekodranje na btovma nformacje rad spravljanja pogrešaka. Procjena, w(n)', n-tog uzorka sgnala vodenog žga može se zrazt: w( n)' = w( n) ( w( n + 1) + w( n 1)) / 2 + φ( n) (4.30) gdje φ(n) predstavlja slučajan šum. Za elektrončke dokumente φ(n) je šum koj nastaje zbog nepravlnog razmaka zmeđu rječ prje označavanja. Slka 4.3 prkazuje vjerojatnosnu razdobu φ(n) za poravnan tekst velčne 11, Tmes New Roman. Iz slke je vdljvo da je šum φ(n) srednje vrjednost nula, Gaussov šum s varjancom od 0.23. Potrebno je spomenut da je φ(n) nula za ne poravnat tekst. Za skenran dokument φ(n) također uključuje šum dobven spsom skenranjem. Slka 4.3 Vjerojatnosna funkcja šuma φ(n), zbog poravnavanja lnje Izraz ( w ( n + 1) + w( n 1)) / 2 još je jedan zvor šuma koj ne b trebao mat utjecaja na detekcju. Zamjenom w(n) z jednadžbe (4.25) u jednadžbu (4.30) dobva se: w( n)' = bc( n) ( bc( n + 1) + bc( n 1)) / 2 + φ( n) (4.31) Prmjenom korelacjskog detektora na jednadžbu (4.31) dobva se: 19
N n= 1 N N N N 1 1 w( n)' c( n) = b c( n) c( n) bc( n + 1) c( n) + bc( n 1) c( n) + φ ( n) c( n) (4.32) 2 2 n= 1 n= 1 gdje je N duljna koda za raspršenje c(n). S obzrom da je c(n) m-sekvenca, drug treć do desne strane jednadžbe (4.32) prelaze u nulu. Ovakav rezultat se dobva jer je autokorelacja m-sekvence delta funkcja. Zadnj zraz s desne strane jednadžbe (4.32) reprezentra šum male magntude η(n). Tme se jednadžba (4.32) pojednostavljuje na: n= 1 n= 1 N n= 1 w( n)' c( n) = b +η( n) (4.33) Vrjednost b vodenog žga dobva se prmjenom sljedećeg praga na rezultate korelacje: 1 b = 1 N n= 1 N n= 1 w( n)' c( n) 0 w( n)' c( n) < 0 (4.34) 4.3.6 Detekcja vodenog žga u spsanom dokumentu Detekcja vodenog žga u spsanom dokumentu malo je zahtjevnja. Proces se može opsat sljedećm koracma: 1. Skenrat dokument tako da bude prhvatljve kvaltete rezolucje. Što je vša kvalteta rezolucja bolj su rezultat detekcje. 2. Pretvort slku u bnarnu slku korštenjem odgovarajućeg praga. Vrjednost praga može se jednostavno odredt z hstograma slke, koj je bmodalan. Vrjednostma všma od praga dodjeljuje se vrjednost 1, a vrjednostma spod praga 0. Dakle, tekst će mat vrjednost nula. 3. Ispravt blo kakvo odstupanje zmeđu orjentacje skenranog dokumenta elektrončkog dokumenta. Detektor može uzet smjer lnja skenranog dokumenta kao početnu vrjednost. U željenoj aplkacj korsnk treba pazt da spravno postav dokument u skener. Tme se uzrokuju samo neznatna odstupanja u orjentacj, koja se lagano spravljaju. 20
Slka 4.4 (a) Vertkaln profl tpčnog tekstualnog dokumenta, (b) lokacje lnja 4. Dohvatt lnje skenranog dokumenta. To se može postć računanjem vertkalnog profla, gdje je vertkaln profl v(), slke I(,j): W v( ) = I(, j) (4.35) j= 1 gdje je W šrna slke I(,j). Slka 4.4(a) prkazuje vertkaln profl tpčnog tekstualnog dokumenta skenranog s 300 DPI te pretvorenog u crno-bjelu slku. Slka 4.4(b) prkazuje lokacje dohvaćenh lnja stog dokumenta. Lokacje su određene uspoređujuć profl v() sa zadanm pragom te blježenjem lokacja dolna. 5. Detektrat dohvatt razmake zmeđu svake dvje uzastopne rječ. Ovaj korak postže se računanjem horzontalnog profla h(j), malog djela slke S(,j) oko svake lnje: H h( j) = S(, j) (4.36) = 1 gdje H predstavlja vsnu djelća slke S(,j). Slka 4.5 (a) prkazuje segment slke oko lnje u tpčnom tekstualnom dokumentu. Slka 4.5 (b) prkazuje horzontalan profl ste. Iz tog horzontalnog profla mogu se zračunat razmac zmeđu rječ, detektranjem vršnh vrjednost horzontalnog profla. Vrlo šroke vrlo uske vršne vrjednost gnorraju se. Vrlo šroke vršne vrjednost predstavljaju margne strance, a vrlo uske vršne vrjednost razmak zmeđu slova u rječ. Slka 4.5 (c) prkazuje lokacje detektranh razmaka zmeđu rječ prkazanh u (a) djelu. 21
Slka 4.5 (a) Mal do slke oko lnje tpčnog tekstualnog dokumenta, (b) Horzontaln profl segmenta slke prkazanog u (a) djelu, (c) lokacje dohvaćenh razmaka 6. Povezat sve zmjerene razmake z svh lnja te nastavt kao u djelu o detekcj u elektrončkom dokumentu; povezat svakh 16 segmenata sa sekvencom za raspršenje za dobvanje bta vodenog žga; dekodrat btove vodenog žga s BCH dekoderom za spravljanje eventualnh pogrešaka dobvanje btova nformacje. 4.3.7 Ekspermentaln rezultat Iz ostvarene mplementacje algortma opsanog u poglavljma o označavanju detekcj te s razlčtm konfguracjama ste ostvarena su sljedeća zapažanja. U jednoj od konfguracja korštena je 32-btna m-sekvenca 8-btna nformacja (256 razlčth dentfkacjskh brojeva), al bez kodova za spravljanje pogrešaka. 8-btna nformacja dovoljna je za praćenje dokumenta dentfkacju orgnalnog prmatelja za organzacju s 256 zaposlenka. Gore spomenuta konfguracja testrana je ugrađvanjem nformacje u tekstualn dokument velčne 11 Tmes New Roman, s 256 razlčth dentfkacjskh brojeva. Korštenjem detekcjskog algortma za detekcju svakh od 256 dentfkacjskh brojeva z označenh, nezmjenjenh tekstualnh dokumenata ustanovljeno je da je uspješnost detekcje 98.8%. Svak od pogrešno detektranh dentfkacjskh brojeva ma samo jedan bt greške. Tablca 4.4 prkazuje slučajeve pogrešne detekcje te uspoređuje orgnalno ugrađene vrjednost s pogrešno detektranma. Tablca također prkazuje bt pogreške u svakom od slučajeva. S obzrom da je greška bla u samo jednom btu, upotrebom blo kojeg od prje spomenuth BCH kodova za spravljanje pogrešaka sve greške ble b otklonjene. Slčna uspješnost detekcje postgnuta je kada je algortam testran na zmjenjenom tekstu. Izmjene su uključvale promjenu fonta velčne slova; zmjenu rječ, zmjenu poravnanja te mjenjanje ljeve desne margne strance. 22
Tablca 4.4 Pogrešno detektrane vrjednost njhove orgnalno ugrađene vrjednost Detektrana vrjednost Ugrađena vrjednost Decmalno Bnarno Decmalno Bnarno 9 00001001 41 00101001 25 00011001 57 00111001 145 10010001 209 11010001 Operacje zmjene teksta kao što su brsanje umetanje rječ postgle su dvojake rezultate. U većem broju detekcja je bla uspješna jer je tehnka raspršenja spektra otporna na lokalne greške, pogotovo ako se greške pojavljuju pr kraju sekvence za raspršvanje. U ovom slučaju većna sekvence za raspršvanje ostala je nepromjenjena pa je detektor uspo detektrat ugrađen bt. Al, ako je greška blže sredn nt jedan od djelova nje dovoljan za spravnu detekcju ugrađenog bta. U drugoj konfguracj, koršten je (15,7) BCH kod za zašttu dokumenata od dvostrukh grešaka. Konfguracja zahtjeva smanjvanje sekvence za raspršvanje s 32 na 16 btova za 15 btn kod u stranc s dvostrukm proredom. Ovaj korak nje potreban kod strance s jednostrukm proredom, jer takva stranca ma dovoljan broj razmaka. 7-btna nformacja dovoljna je za praćenje dentfkacju dokumenata za organzacju s 128 zaposlenka. Uspješnost detekcje bla je 100% kod nezmjenjenh, označenh dokumenta. Ipak blže promatranje pokazuje da je 40% brojeva malo greške koje su spravl BCH kodov za spravljanje grešaka. Većna od ovh pogrešaka ble su jednostruke pogreške, al blo je manj broj dvostrukh pogrešaka. Ovaj rezultat pokazuje da smanjvanje sekvence za raspršvanje s 32 na 16 btova ma negatvan učnak na mogućnost greške. Velčna sekvence za raspršvanje nformacje može se povećat korštenjem dva spojena (7,4) BCH koda umjesto (15,7). Takav spojen BCH kod omogućava povećavanje nformacje na 8 btova sekvence na 20 btova s stom velčnom dokumenta. 8-btna nformacja omogućava 256 razlčth dentfkacjskh brojeva. Iz prjašnjeg ekspermenta vdljvo je da je maksmalan broj btova grešaka 2, a dva spojena (7,4) BCH koda spravljaju 2 bta greške. Već broj btova sekvence smanjuje broj grešaka prje samog spravljanje grešaka od strane BCH koda. Matlab je koršten za mplementacju detekcje kod spsanh dokumenata, za detekcju lnja razmaka zmeđu rječ. Prelmnarn rezultat ukazuju da je algortam spravno detektrao zmjero razmake u spsanom dokumentu. Ipak potrebno je dodatno podešavanje kako b detekcja bla pouzdanja. 4.3.8 Zaključak U ovom poglavlju opsan je algortam za označavanje povjerljvh dokumenata te detekcju orgnalnog prmatelja blo gdje. Algortam je bazran na podešavanju razmaka zmeđu rječ l zmeđu lnja teksta. Ovaj algortam daje dobre rezultate za 23
sva poravnanja teksta (ljevo, desno, te s obje strane), kao za tekst s nepravlnm razmakom zmeđu lnja. Algortam korst tehnku za raspršenje spektra te BCH kodove za spravljanje pogrešaka ne treba orgnalan dokument za detekcju. Tehnka raspršenja spektra otklanja greške uzrokovane šumom nastalm nepravlnm razmakom. BCH kodov za spravljanje grešaka pomažu kod grešaka uzrokovanh šumom zbog spsa skenranja. Rezultat smulacje pokazal su da je algortam otporan na određene oblke formatranja teksta kao što je zmjena fonta margna. Također prelmnarn rezultat detekcje mjerenja razmaka zmeđu rječ lnja kod spsanog dokumenta su obećavajuć. Dodatna podešavanja stražvanja algortama za detekcju vodenog žga u spsanm dokumentma su u tjeku. 4.4 Označavanje značajk teksta 4.4.1 Uvod Kod aplkacja koje se bave dentfkacjom, autentčnost zašttom, zmjena skrvenh podataka znač da je sam dokument bo zmjenjen. Dakle, potrebne su lomljve l polu-lomljve metode [7]. Lomljve metode prhvatljve su za dgtalne dokumente dok su polu-lomljve (otporne na nenamjerne napade, npr. šum nakon spsa skenranja) prhvatljve za dgtalne spsane dokumente. Glavn zahtjev za polu-lomljvu metodu skrvanja podataka trebal b bt: 1. Funkconra kod dgtalnh spsanh oblka dokumenata 2. Treba bt nezavsna od formata dokumenta, s tme da format podržava određen nvo opsa teksta. Nek od modernh formata koj zadovoljavaju ovaj uvjet su: Mcrosoft Offce Word (DOC), Rch Text Format (RTF), PostScrpt (PS), Portable Document Format (PDF) drug. 3. Orgnaln tekstualn dokument mora se moć pretvort z jednog formata u drug tako da zadrž skrvenu nformacju. 4. Označen dokument ne b se trebal vdljvo razlkovat od orgnalnog teksta. 5. Potrebna je veća stopa označavanja. Tako da pojedne strance sadrže određene osnovne nformacje (npr. me autora, vrjeme datum kreranja, komentar, td.) 6. Jednostavna za automatzacju. Automatzacja procesranje bez nadzora su važne značajke koje čne rješenje zanmljvm za praktčne prmjene. U nastavku poglavlja bt će opsane dvje polu-lomljve metode označavanja. Prva metoda, kvantzacja boje, može se korstt za dgtalne spsane dokumente. Druga metoda, halftone kvantzacja odnos se na spsane tekstualne dokumente. 4.4.2 Kvantzacja boje U ovoj metod značajka teksta u koju se ugrađuje nformacja je boja teksta. Glavna deja ove metode je kvantzrat boju svakog znaka tako da ljudsk vzualn sustav ne može odredt razlku zmeđu orgnalnh kvantzranh znakova, al da specjalzran 24
čtač može odredt razlku, npr. skener s velkm dnamčkm rasponom u slučaju spsanh dokumenata. Slka 4.6 prkazuje prmjer kvantzacje boje. Dakle, tamn znakov se kodraju kao 0, a svjetlj znakov kao 1. Znač može se ugradt bnarna sekvenca. Također se može prmjett da se po tekstu ugrađuje vše nformacja nego kod metoda koje mjenjaju razmak zmeđu rječ lnja. Kako b dokument bo otporan na pretvorbu z dgtalnog u analogn pa opet u dgtaln oblk određen znakov mogu se zuzet z označavanja. Manj znakov, kao što su točka zarez, nsu dobr nosoc nformacje za spsane dokumente. Kod dgtalnh dokumenata ne b trebalo bt ovh problema. Slka 4.6 Kvantzacja boje: (a) orgnalan tekst, (b) označen tekst Ova metoda zadovoljava zahtjeve 1, 2, 3. Zahtjev 4 također je zadovoljen jer se zna da ljudsk vzualn sustav ne detektra manje promjene u lumnacj. Također varjacje lumnacje preko svjetlh l tamnh podloga manje su vdljve nego kod svh podloga. Na sreću većna dokumenata psana je tamnm slovma preko svjetle podloge. Korštenjem modernh tekst procesora vdljvo je da se u dgtalnom okruženju ovom metodom može ugradt do 4 bta po znaku (korštenjem razna sve od 0-15), a da žg dalje ne bude vdljv ljudskom oku. Ako se skrven tekst ugrađuje u spsane dokument onda će se ugradt 1 do 2 bta nformacje po znaku. Dvo-raznsk kvantzator Najjednostavnja metoda ugrađvanja nformacja je korštenje dvoraznskog kvantzatora. U ovom prstupu bra se referentna boja koja reprezentra 0. Dobar zbor je orgnalna boja teksta u dokumentu (većnom je crna). Zatm se bra svjetlja njansa koja reprezentra 1. Slka 4.7 je prmjer ove metode, gdje je 0 označena s crnom (lumnacja je 0), a 1 sa svjetljom njansom crne (lumnacja 46). Slka 4.7 Dvo-raznsk kvantzator (a) orgnaln tekst; (b) označen tekst 25
Rezultat ove metode opsan su u poglavlju o ekspermentalnm rezultatma. Všeraznska kvantzacja Prethodno opsana metoda može se prošrt na vše razna. Umjesto korštenja dvje razne boje, može se korstt četr l osam razna boje. Ova metoda dopušta označavanje vše btova po znaku. Što se tče praktčnh prmjena ova metoda ovs o kvaltet psača skenera. Zbog razvoja kvaltetnjh psača skenera ovu metodu ne treba odbact. 4.4.3 Halftone kvantzacja Ova metoda oslanja se na halftonng, šroku korštenu metodu spsa koja omogućava da slke koje maju kontnurajuću boju mogu bt spsane s tntom jedne boje (sva skala) l nekolko tnta u boj. Ovdje se ogrančava na crno-bjele psače. Kako b se smulrala dana njansa sve, halftone psač korst halfotne zaslon. Ova metoda skorštava čnjencu da može postojat vše razlčth halftone zaslona koj vode k stoj njans sve. Ta osobna može se korstt kod skrvanja podataka korštenjem razlčth halftone zaslona za označavanje pojednh znakova, ovsno o poruc koja se žel ugradt. Tpčne značajke halftone zaslona koje su korsne za ugrađvanje podataka su: kut zaslona oblk točk na zaslonu (elptčan, okrugl, pravokutn). Slka 4.8 prkazuje prmjer prmjene ove metode gdje se kut zaslona od 0 korst za kodranje 0, a kut od 45 za kodranje 1. Jedna od većh prednost ove metode jest da sv znakov ste njanse sve. Ako se ne kombnra s nekom od tehnka kvantzacje boje ova metoda može se korstt samo za označavanje spsanh dokumenata. Tako se npr. s dvje njanse sve može ugradt nformacja u dgtalnu verzju dokumenta, a korštenjem halftone zaslona s uzorcma u kombnacj s dva kuta zaslona za ugrađvanje nformacje u spsanu verzju tekstualnog dokumenta. Slka 4.8 Halftone kvantzacja: (a) orgnalan znak; (b) označen znak za m=0; (c) označen znak za m=1 4.4.4 Ekspermentaln rezultat U ovom djelu opsuje se praktčna mplementacja prethodno opsane kvantzacje boje. Kao što je prethodno spomenuto ova metoda može se korstt za označavanje dgtalnh spsanh tekstualnh dokumenata. Implementacja ove metode u dgtalnom okruženju prlčno je jednostavna. U ekspermentma mplementran je prototp za Mcrosoft Offce Word dokument sposoban za ugrađvanje zdvajanje prozvoljne poruke. Ako se pretpostav 26
savršena snkronzacja kod čtanja označenh znakova, prototp je sposoban zdvojt poruku bez grešaka. Dakle, za ovaj slučaj nje potreba uporaba kodova za otklanjanje pogrešaka za pouzdano zdavanje ugrađene poruke. Također je potvrđeno da se pretvorbom z DOC formata u PDF l PS format zadržava nformacja o boj svakog znaka. Implementacja uspjeva zdvojt ugrađenu nformacju z dokumenata dobvenh pretvorbom z DOC u PDF PS formate. Sljed ops prošrene mplementacje metode kvantzacje boje za tekstualne dokumente koj su podložn spsu ponovnom skenranju. Ova mplementacja korst samo dvoraznsk kvantzator, al može se prošrt tako da korst všeraznsk kvantzator. Tablca 4.5 prkazuje opremu koja se korstla za potrebe ekspermenta. Uobčajene postavke prntera (rezolucja, frekvencja zaslona, halftone algortam) korštene su za sps tekstualnh dokumenata. Za skenranje tekstualnh dokumenata korštena je rezolucja r s =600 pp, sva kala, 8 btova dubne, cjel dnamčk raspon, γ- korekcja je postavljena na 1, te unsharp mask fltar vsoke razne ovsno o sučelju upravljačkog programa svakog od skenera. Tablca 4.5 Korštena oprema za potrebe ekspermenta Model HP Color LaserJet 4600 Tp Lasersk psač Epson Perfecton 3170 Photo CCD skener Epson Perfecton 4990 Photo CCD skener Canon LDE 50 CCD skener Rad jednostavnost, prvo su odabran slučajn crn tekstov koj korste latncu (A,B,...,Z,a,b,...,z), uobčajen nterpunkcjsk znakov, specjaln znakov (zarez, točka, dvotočka, točka-zarez,-,?,!,'',',(,),<,>,@, ), brojev (0,1,...,9) artmetčk znakov (+,-,*,/,=). Ova mplementacja može radt s drugm abecedama. Kao font koršten je Aral, velčne 10. Kako b sustav bo što otpornj na skenranje sps nek od znakova su sključen z označavanja. To su sljedeć znakov: zarez, točka, dvotočka, točka-zarez, dvostruk jednostruk navodnc mnus. Jednak broj prozvoljnh poruka ugrađen je u dgtalne tekstove korštenjem metode dvoraznskog kvantzatora. Označen dgtaln tekst nakon toga je spsan skenran s opsanom opremom. Nakon toga skenran dokument je procesran kako b se dohvatla ugrađena nformacja. Proces dohvaćanja nformacje može se podjelt u 3 djela: segmentacja znakova, demodulacja značajk teksta (u ovom slučaju boje) te dekodranje zasnovano na kvantzacj. Rezultat su bl slčn za sve korštene skenere. Tablca 4.6 prkazuje rezultate za Epson Perfecton 3170 Photo skener. Za označavanje 0 zabrana je crna boja lumnacje 0. Za označavanje 1 zabrano je vše razlčth lumnacja označenh koje predstavlja varjabla Q 1 (x). 27
Tablca 4.6 Svojstva metode dvo-raznske kvantzacje boje Q 1 (x) Broj grešaka Postotak greške 41 1342 32.7% 46 824 20.1% 51 315 7.7% 56 120 2.9% 61 62 1.5% 66 23 0.6% 4.4.5 Zaključak U ovom poglavlju opsana je nova metoda za rješavanje problema skrvanja podataka u tekstualnm dokumentma. Glavna deja bla je da se tekstualn znak smatra kao struktura koja se sastoj od vše značajk kao što su oblk, pozcja, orjentacja, velčna, boja, td. Od th značajk odabrana je boja te je prkazana metoda kvantzacje boje kao nova metoda za polu-lomljvo skrvanje podataka u dgtalnm spsanm dokumentma. Eksperment su pokazal da ljudsko oko vrlo malo zamjećuje ovu metodu. Može se velk broj btova nformacje ugradt u dokument te se može u potpunost automatzrat. Iz prethodno spomenutog vdljvo je kako je ova metoda prhvatljva za sljedeće prmjene: dentfkacja dokumenata, autentčnost sprječavanje zmjena. 4.5 Jezčno označavanje 4.5.1 Uvod Iako se povećala kolčna slka te vdeo podataka, tekstualn podac dalje čne većnu prometa na Internetu drugh tpova podataka z svakodnevnog žvota. Većna časopsa, novna znanstvenh publkacja pruža članke u dgtalnom formatu. Iako je to poboljšalo načn na koj čtatelj mogu pretražvat prstupat nformacjama, također otvara razlčta ptanja autorma o tome kako se njhov rad dstrbura ponovno korst. Prava vlasnštva posebno su važna za tekstualne podatke jer h je lakše sknut s Interneta modfcrat od recmo slka l flmova. Ovo poglavlje bav se trenutnm stanjem jezčnog (eng. natural language, NL) označavanja, koje označava dokumente manpulranjem semantčkom /l sntaksnom strukturom rečence. Ovaj prstup razlkuje se od svh prethodno opsanh koj mjenjaju zgled elemenata teksta, kao što je zmjena formata l velčne teksta, razmaka zmeđu rječ l lnja, td. U usporedb s tm metodama NL označavanje vrlo je mlado područje. Osm zaštte sadržaja, otporn NL algortm označavanja mat će prmjene kao što su revzja teksta, sprečavanje zmjena traženje zdajca [8]. 28
4.5.2 Tehnke jezčnog procesranja zvor nformacja Jezčno procesranje (eng. Natural Language Processng, NLP) bav se algortmma koj će analzrat, razumjet automatsk generrat natural language. Ovo poglavlje ukratko opsuje NLP tehnke zvore nformacja koj su od nteresa za skrvanje nformacje u natural language tekstu. Izvor podataka Uspjeh skrvanja nformacje ovs o prbavljanju dobrh modela medja u koje će se nformacja ugradt, a to se može ostvart velkm skupovma podataka. Statstčk reprezentatvan uzorak natural language-a zove se korpus. S obzrom da se većna NLP stražvanja zasnva na statstčkoj analz sustavma strojnog učenja, potrebn su velk korpus u oblku čtljvom za strojeve. Zbog toga je stvoren već broj korpusa u elektrončkom oblku koje se korste u NLP stražvanju. Osm korpusa postoje elektrončk rječnc koj su u stvar velke baze leksčkh veza zmeđu rječ. Najpoznatj takav rječnk je Wordnet. U Wordnet-u engleske mence, prdjev, prloz prjedloz su organzran u setove snonma. VerbNet je također još jedan elektrončk rječnk koj je lekskon glagola sa sntaksnom semantčkom nformacjom o glagolma z engleskog jezka. Lngvstčke transformacje Kako b se ugradla nformacja u NL tekst potrebna je sstematčna metoda za zmjenu l transformranje teksta. Ove transformacje trebale b sačuvat gramatku rečenca. Idealno je da se ne prmjećuju n promjene u značenju rečence uzrokovane ovm transformacjama. Občno se korste tr vrste transformacja za zmjene: supsttucja snonma, sntaksne transformacje semantčke transformacje. Supsttucja snonma najšre je korštena lngvstčka transformacja za sustave skrvanja podataka jer je najjednostavnja. Supsttucja snonma uzma u obzr smsao rječ. Kako b se sačuvao smsao rečence rječ mora bt zamjenjena snonmom stog smsla. Elektrončk rječnk Wordnet klasfcra sve rječ fraze u skupove snonma te tme olakšava potragu za snonmom tražene rječ. Ipak određvanje spravnog smsla dane rječ velk je problem jer je teško nać defncju za smsao rječ. Drug tp transformacja su sntaksne transformacje. U njh se ubrajaju stvaranje pasvnog oblka rečence, te stvaranje složenje rečence spajanjem glavne podređene rečence kojma se ostvaruje smsao koj je mogao bt ostvaren jednostavnjom rečencom (eng. cleftng). Tablca 4.7 prkazuje neke od česth sntaksnh transformacja u engleskom jezku. Osm th, postoj još jedan grupa sntaksnh transformacja koja se bazra samo na kategorzacj glavnog glagola u rečenc. Glagol se mogu klasfcrat prema zajednčkom značenju ponašanju. Razlčte klase glagola dozvoljavaju razlčte transformacje rečence. Tablca 4.8 prkazuje prmjer znan kao zmjena lokacje (eng. locatve alternaton). 29
Tablca 4.7 Česte sntaksne transformacje u engleskom jezku Transformacja Orgnalna rečenca Transformrana rečenca Passvzaton The slobberng dog kssed the bg boy. The bg boy was kssed by the slobberng dog. Topcalzaton I lke bagels. Bagels, I lke. Cleftng He bought a brand new car. It was a brand new car that he bought. Extraposton To beleve that s dffcult. It s dffcult to beleve that. Preposng I lke bg bowls of beans. Bg bowls of beans are what lke. Thereconstructon A uncorn s n the garden. There s a uncorn n the garden. Pronomnalzaton I put the letter n the malbox. I put t there. Frontng ''What!'' Alce cred. ''What!' cred Alce. Treć tp lngvstčkh transformacje su semantčke transformacje. Ova metoda generra semantčke transformacje koje čuvaju smsao korštenjem koreferenc menca glagola. Dvje menčke fraze su koreferentne ako se odnose na st enttet. Ovsno o konceptu koreference uvode se razlčte transformacje. Jedna takva nformacja je coreferent prunng gdje se nformacja o koreferenc koja se ponavlja brše. Suprotno od ove transformacje je corefernt graftng koja se također zvod kada se nformacja o koreferenc ponavlja l se dodaje tekstu korštenjem baze čnjenca. Na kraju može se zvest coreferent substtuton koja se može gledat kao Tablca 4.8 Prmjer zmjene lokacje Jack sprayed pant on the wall Jack sprayed the wall wth pant 'Henry clared the dshes from the table Henry cleared the table of the dshes kombnacja prjašnje dvje transformacje. Slka 4.9 prkazuje novnsk članak na kojem će bt pokazane semantčke transformacje. Analza se usredotočuje na referentn pojam ''Bobby Fscher''. Prunnng se prmjenjuje na prvu rečencu, a zdvojena nformacja se korst za transformacju druge rečence. Slčno tome, nformacja dobvena z treće rečence korst se za gratfng četvrte. Slka 4.9 Novnsk tekst prje transformacja 30
Slka 4.10 Novnsk tekst nakon transformacja Jedan od problema s znad opsanm prstupom jest razrješavanje koreference, što je ujedno jedna od najtežh zadaća u NLP-u. Nadalje nje preporučljvo zamjent dvje koreferentne fraze u određenm okolnostma. Slka 4.11 prkazuje jedan od dobro poznath prmjera ovog problema. Slka 4.11 Prmjer problema razrješenja korefernc Iako se fraze Spderman Peter Parker odnose na stu osobu, nekome tko ne zna ovu čnjencu prva rečenca se može čnt točna a druga ne. Parsranje Parsranje je proces koj od zadane rečence stvara određenu vrste strukture. Izlaz parsranja može bt morfološka, sntaksna, semantčka struktura rečence l njhova kombnacja. Parsranje je btan proces jer se njme dobva nformacja o struktur rečence kao o ulogama rječ koje ju čne. Većna parsera korste part-of-speech taggers koj kategorzraju rječ u predodređene razrede (kao što su mence, prdjev l glagol) morfolške analzatore koj razbjaju rječ u morfeme kao jedan od koraka prje procesranja. Još uvjek nje dostupan u potpunost mplementran semantčk parser. Ipak postoje razlčt alat koj pretvaraju strukture fraze generrane snatksnm parserom u stabla zavsnost, koja lustrraju bt l vezu zmeđu rječ u rečenc. Slka 4.12 (a) prkazuje prmjer generranog stabla zavsnost za jednostavnu rečencu. Stvaranje NL-a Stvaranje NL-a (eng. Natural Language Generaton - NLG) defnra se kao proces konstruranja zlaza NL-a od ne lngvstčke reprezentacje nformacje prema određenm specfkacjama komunkacje. Slka 4.12 (b) prkazuje djelove tpčnog NLG sustava. Dobar prmjer NLG sustava je Forecast Generator (FOG), sustav za vremensku prognozu koju generra tekst na Engleskom Francuskom. Ovaj sustav uzma meteorološke podatke generra vremensku prognozu. Što se tče NL skrvanja nformacja NLG je presudna komponenta. Nakon što je nformacja dodana rečenc mjenjanjem strukturne reprezentacje, ova zmjenjena reprezentacja treba bt pretvorena natrag u NL korštenjem NLG sustava. 31
Clj komunkacje Baza znanja jon Vnken wll board as 29 Planer djaloga Perre old years the drector Nov. a nonexecutve Specfkacja djaloga 61 Površnsk realzator NL zlaz (a) (b) Slka 4.12 (a) Stablo zavsnost za rečencu: ''Perre Vnken, 61 years old, wll jon the board as a non executve drector Nov. 29.''; (b) Komponente tpčnog sustava za generranje NL-a; Parafrazranje teksta Zadaća parafrazranja teksta uključuje mjenjanje parametara teksta kao što su duljna, čtljvost stl za specfčnu namjernu bez gubtka temeljnog značenja teksta. Dakle parafrazranje teksta drektno je vezano uz NL označavanje. Parafrazranje teksta slčno je strojnom prevođenju; samo što umjesto pretvaranja teksta z jednog jezka u drug, mjenja oblk teksta z jednog oblka u drug unutar stog jezka. Sustav za parafrazranje teksta se većnom zasnvaju na kreranju l skupljanju skupova l parova semantčk ekvvalentnh rječ, fraza uzoraka. Slka 4.13 prkazuje prmjer parafrazranja teksta. 32
Slka 4.13 Prmjer parafrazranja teksta korštenjem prstupa s konačnm brojem stanja 33
4.5.3 Dosadašnj rad na jezčnom označavanju Kao što je prethodno spomenuto ovo je još vrlo mlado područje tako da za razlku od NL steganografje postoj manje dokumentacje. Supsttucja snonma temeljena na kvadratnm ostacma Ideja o korštenju semantke sntakse teksta za ubacvanje vodenog žga je prvo predložena od strane Atallah et. al. [12] u 2000. gdje su se ASCII vrjednost rječ korštene za ugrađvanje nformacje u tekst zvršavanjem leksčke supsttucje u skupovma snonma. Neka je m mod k bt vodenog žga koj se žel ugradt. w je trenutna rječ koja se razmatra je l pogodna za ugrađvanje. ASCII vrjednost trenutne rječ (w ) A(w ). Ako je: x 2 m mod k =1 = ( A( w ) + r mod k )( mod p) (4.37) odnosno ( A ( w ) + r mod k ) je kvadratn ostatak modulo p tada se w ne mjenja. Inače se mjenja. p je 20-znamenkast prmarn ključ, k je broj btova poruke vodenog žga, a r 0, r 1,..., r k-1 sekvenca pseudoslučajnh brojeva generranh korštenjem p kao početne vrjednost (eng. seed). Ugrađvanje nformacje u stablo koje sadrž strukturu rečence U kasnjm radovma od Atallah et al [12] predlažu se dva algortma ugrađvanja nformacja u stablo sa strukturom rečence umjesto korštenja leksčke supsttucje. Ove tehnke ugrađuju voden žg u parsrane reprezentacje rečenca umjesto u sam tekst kao kod leksčke supsttucje. Korštenje neposredne reprezentacje čn ove algortme otpornjma na napade u usporedb s leksčkm supsttucjskh sustavma. Razlke zmeđu dva predložena algortma jest da prv modfcra sntaksno stablo dobveno parsranjem teksta u koj će se nformacja ugrađvat, dok drug ugrađuje u semantčko stablo. Sntaksno stablo je reprezentacja razlčth djelova rečence koja je sntaksno parsrana. Slka 4.14 prkazuje prmjere sntasknh stabala za dvje rečence. Slka 4.14 Prmjer sntaksnog stabla za dvje rečence Za razlku od sntaksnog, semantčko stablo korst reprezentacju teksta u oblku stabla koje se odnos na reprezentacju značenja rječ rečence. Takve reprezentacje rečence generraju se korštenjem ontološkh semantčkh zvora. Slka 4.15 prkazuje prmjer semantčkog stabla za zadanu rečencu. 34
Slka 4.15 Prmjer semantčkog stabla Izbor rečenca koje će nost nformacju vodenog žga ovs samo o struktur stabla vrš se na sljedeć načn: Čvorov stabla T rečence s teksta su označen prolasku s vrha prema dnu kroz stablo. Nakon toga, čvor s oznakom j se pretvara u 1 ako je j + H ( p) (4.38) kvadratn ostatak modulo p, a 0 nače, gdje je p tajn ključ a H() jednostrana hash funkcja. Nakon toga se generra nova sekvenca oznaka B prolaskom kroz drvo od dna prema vrhu. Rang d se tada dobva za svaku rečencu s korštenjem d = H ( B ) XOR H ( p) (4.39) te se rečence sortraju po rangu. Počevš od najmanje rangrane rečence s j, voden žg se umeće u nasljednka s j. Rečenca s j se nazva marker rečenca jer pokazuje na rečencu koja nos voden žg. Umetanje vodenog žga nastavlja se sa sljedećom rečencom u lst poredanoj po rangu. Kada su odabrane rečence za označavanje btov se spremaju prmjenom sntaksne l semantčke transformacje. 4.5.4 Smjernce Unatoč nekm poboljšanjma jezčno označavanje dalje je u povojma. Preporuča se suradnja zajednca koje se bave jezčnm označavanjem označavanjem slka. Za neke aspekte jezčnog označavanja mogu se usvojt neke od deja označavanja teksta, dok se za druge aspekte moraju razvt u potpunost nov prstup koj mogu upravljat drektnom rekurzvnom prrodom jezka. Vjeruje se da su prstup koj se oslanjanju na ugrađvanje nformacja korštenjem sntaksne strukture rečenca obećavajuć za jezčno označavanje. Buduć sustav za jezčno označavanje trebal b vodt računa o koherentnoj semantc retorčkoj struktur rečence. Ocjena jezčnog sustava za označavanje predstavlja već problem nego ocjenjvanje označavanja slka jer takv sustav moraju pazt na ptanja o značenju rječ l rečence, gramatc stlu teksta. Trenutno ne postoje objektvne ocjene ljudske percepcje NL označenog teksta korštenjem razlčth algortama nt studje otpornost jezčnog označavanja na napade. Potrebno je uložt još mnogo truda u ovo područje. 35
4.5.5 Zaključak Jezčno označavanje korštenjem lngvstčkh tehnka novo je područje stražvanja s velkm potencjalom za mnoge prmjene. Trenutno nema u potpunost funkconalnh sustava, ako je nteres za ovo područje porastao. Došlo b do velkog poboljšanja u jezčnom označavanju ako b se skustvo znanje z označavanja slka audo zapsa moglo upotrjebt uz pomoć stražvača z ovog područja. 36
5. Ops praktčnog rada 5.1 Ops korštenog algortma Odabran je algortam koj označava tekst klasfcranjem rječ podešavanjem statstke razmaka zmeđu rječ [9]. Sve rječ u tekstu klasfcraju se prema nekoj značajc, zatm se od th rječ stvaraju segment. U svak se segment umeće sta kolčna nformacje. Informacja se umeće mjenjanjem statstke razmaka zmeđu rječ određenog segmenta. Algortam ma globalna svojstva, u smslu da skrva do nformacje u određen segment čj se element nalaze u cjelom dokumentu. Pretpostavka je da je cjel dokument već segmentran u strance, lnje rječ. 5.1.1 Klasfkacja rječ Pretpostavlja se da lnja teksta ma n rječ. -ta rječ označava se s w, a šrna w se označava s l(w ). Šrna rječ, l(w ), mjer se u pkselma. Neka je K broj klasa rječ, a class(w ) klasa rječ w. Šrna rječ je značajka koja se korst za klasfkacju. Klasfkator korst šrne susjednh rječ kod određvanja klase. Tablca 5.1 prkazuje pravlo klasfkacje rječ koje generra dvje klase rječ, odnosno K=2. Određuje se klasa rječ w uspoređujuć šrne ljeve (w -1 ) desne (w +1 ) rječ. Tablca 5.2 prkazuje još jedno klasfkacjsko pravlo koje uspoređuje 5 uzastopnh rječ stvara 4 klase, odnosno K=4. Za klasfkacju prve zadnje rječ smatra se da je lsta crkularna, odnosno ljeva rječ od w 1 je w n, a desna rječ od w n je w 1. Tablca 5.1 Pravlo klasfkacje rječ (K=2) Uvjet class(w ) l(w -1 )>l(w +1 ) 0 l(w -1 ) l(w +1 ) 1 5.1.2 Segment klasfkacja Segment se defnra kao s uzastopnh rječ u lnj. Prv segment je uređena lsta (w 1, w 2,..., w s ). Sljedeć segment počnje od prve rječ prethodnog segmenta pa drug segment zgleda (w s, w s+1,..., w 2s-1 ). Slka 5.1 prkazuje prmjer klasfkacje rječ segmenata. Segment se uvod kako pomac rječ ne b međusobno nterferral. S obzrom da su prva posljednja zajednčke susjednm segmentma, njhove lokacje su fksne. Dozvoljava se pomcanje samo unutarnjh rječ. Segment dobvaju oznake z oznaka pojednh rječ u segmentu. Npr. rječ u drugom segmentu maju oznake 1,0,0 tako da je oznaka segmenta 100. Broj klasa segmenata označava se s L, gdje se L računa prema formul (5.5). 37
Tablca 5.2 Pravlo klasfkacje rječ (K=4) Uvjet class(w ) a b c d 00 (0) a b c<d 01 (1) a<b c d 10 (2) a<b c<d 11 (3) gdje su a l w ) l( w ) (5.1) = ( 2 + 1 b l w ) l( w ) (5.2) = ( + 1 + + 2 c l w ) l( w ) (5.3) = ( 1 + + 1 d l w ) l( w ) (5.4) = ( 2 + + 2 Broj klasa segmenata: Slka 5.1 Prmjer klasfkacje rječ klasfkacje segmenata s L = k (5.5) 5.1.3 Umetanje detekcja vodenog žga Strategja je defnranje određene statstke za klase segmenata te ugrađvanje sgnala vodenog žga tako da statstka zadovoljava neke predodređene uvjete. Statstka se određuje za razmake zmeđu rječ za pojedne segmente. Statstka razmaka zmeđu rječ 38
Prvo se odvja proces klasfkacje opsan u prethodnom poglavlju, s tme da dokument može mat vše od jedne strance. Segment s stom oznakom nakon toga se grupraju u skup segmenata S(k) gdje je 1 k L. Pretpostavka je da dokument ma dovoljan broj segmenata da je L skupova segmenata uravnoteženo što se tče njhove velčne. To je realna pretpostavka s obzrom da tekstualn dokument občno maju vše tsuća rječ. Korštenjem segmenata z S(k), formulra se statstka za s-1 razmaka zmeđu rječ. Neka se statstka označava s Ω neka vrjed 1 k L 1 s-1. Najjednostavnj slučaj statstke je srednja vrjednost k Ω = µ, gdje je srednja vrjednost defnrana u jednadžb (5.6). Još jedna statstka je srednja vrjednost varjanca koje su defnrane u jednadžb (5.7). k m k Ω =( µ, σ ) k µ = (1/ m) p j, 1 s 1 (5.6) m j= 1 k k k 2 2 ( µ, ) = ((1/ ), ( ( ) / ) 1/ σ m p j p j µ m ), 1 s 1 (5.7) U ovm jednadžbama segmenata u S(k). j= 1 m j= 1 p j predstavlja j-t razmak -tog segmenta, a m je broj Umetanje detekcja sgnala dgtalnog vodenog žga Fksna kolčna nformacje umeće se u svaku od klasa segmenata, Ako postoj p btova nformacje po klas segmenta, velčna nformacje koja se može ugradt je p*l gdje je L broj klasa segmenata. Sljede jednostavna pravla kodranja. Pravlo 1: (s=3,l=64, Ω=µ, velčna nformacje koja se može ugradt je 64 bta) Ako je (µ1 µ2) sgnal je 1, nače 0 Pravlo 2: (s=3,l=64, Ω=(µ,σ), velčna nformacje koja se može ugradt je 128 btova) Ako je (µ1 µ2) (σ1 σ2) sgnal je 00 (0) Inače ako je (µ1 µ2) (σ1>σ2) sgnal je 01 (1) Inače ako je (µ1>µ2) (σ1 σ2) sgnal je 10 (2) Inače ako je (µ1>µ2) (σ1>σ2) sgnal je 11 (3) Kodranje nformacje zahtjeva specfčnu statstku razmaka zmeđu rječ. Rječ u segmentu moraju se pomaknut u ljevo l u desno ovsno o traženoj dstrbucj. To se jednostavno ostvaruje s obzrom da susjedn segment djele rubne rječ. Lokacja zajednčkh rječ je fksna, a pomču se ostale s-2 rječ. k k k 39
Pravla se odnose na statstku segmenta, a ne na pojedne rječ pa ako je statstka segmenta spravna nema potrebe pomcat rječ tog segmenta. Inače se rječ pomču jedan po jedan pksel dok se ne ostvare uvjet. Tako se umeće nformacja s najmanjom kolčnom pomaka rječ. Detekcja sgnala sljed sljedeće korake: 1. Prmjent segmentacju lnje rječ 2. Klasfcrat rječ segmente 3. Konstrurat skupove segmenata zračunat razmake zmeđu rječ. 4. Izračunat statstčke dstrbucje 5. Dekodrat sgnal z dstrbucja 5.2 Praktčna zvedba algortma za pomcanje rječ Algortam je mplementran zvršava se u Matlabu. Matlab je zabran jer ma zvrsnu podršku za obradu slka, a algortam označava skenrane slke teksta. Algortam je namjenjen tekstu poravnatom s obje strane (eng. justfed). Prvo se učtana slka pretvara u bnarnu slku, crno bjelu slku koja ma vrjednost pksela 0 l 1. S obzrom da vrjednost pksela 0 znač da je u ptanju tekst, odnosno crna boja, rad lakšeg daljnjeg rada ta bnarna slka se nvertra. Nakon toga kreće se sa segmentranjem dokumenta u lnje. Osnova segmentranja lnja je vertkaln profl. Slke su u Matlabu reprezentrane matrcama, pa je vertkaln profl zbroj vrjednost pksela svakog retka matrce. Slka 5.2 prkazuje prmjer jednog vertkalnog profla, u kojem su jasno vdljve lnje, odnosno grance lnja. S obzrom da je slka nvertrana, mnmum predstavljaju razmak zmeđu lnja, a maksmum same lnje. Iz takvog vertkalnog profla računaju se grance lnja, početn završn redak svake lnje, šrne lnja. Slka 5.2 Prmjer vertkalnog profla 40
Kad je stranca segmentrana u lnje kreće se na segmentacju rječ. Za svaku lnju određuje se šrna rječ razmaka zmeđu rječ u lnj te se zatm računaju klase rječ klase segmenata rječ. Jedan od najvećh problema ovog programskog ostvarenja blo je ostaje upravo određvanje šrne pojednh rječ razmaka zmeđu rječ. Za određvanje strukture lnje korst se horzontaln profl lnje. Horzontaln profl je ustvar suma vrjednost pksela pojednog stupca lnja. Kako b se što vše smanjo razmak zmeđu pojednh slova u rječma, prvo se scrtaju grance pojednh slova, te se od tako zmjenjene lnje računa horzontaln profl. Iscrtavanjem lnja razmac zmeđu rječ trebal b postat zraženj od razmak zmeđu slova, al to nažalost nje uvjek slučaj. Slka 5.3 prkazuje prmjer lnje, a Slka 5.4 horzontaln profl te lnje z kojeg se vde grance lnje. Slka 5.3 Prmjer lnje Slka 5.4 Prmjer horzontalnog profla Nakon računanja horzontalnog profla bršu se zaostal razmac zmeđu slova. Računa se kolka je brojnost koje šrne razmaka, jer se ekspermentom ustanovlo da će uvjek bt zaostalh razmaka zmeđu slova unutar rječ te da je to najbrojnja šrna 41
razmaka. Nažalost uklanjanje najbrojnje šrne razmaka ne spaja u potpunost slova pojedne rječ. Problem su slova koja maju jednu l vše okomth stranca (npr.,l,m,n, td.), takve rječ unose dodatan razmak te se rječ koja h sadrž može detektrat kao dvje rječ umjesto jedne. Također, nek nterpunkcjsk znakov (npr. točka, zarez) mogu se detektrat kao zasebna rječ pa h se treba spojt s najblžom rječ. Detekcja th nterpunkcjskh znakova je jednostavna, jer je vrjednost zbroja z horzontalnog profla za takve znakove manja u odnosu na ostala slova. Poslje obrade lnja, prstupa se određvanju klasa rječ segmenata. Segment je velk 3 rječ. Ostvarene su dvje klase rječ, K=2, koja se računa prema Tablca 5.1. Kod druge klase rječ, K=4, klase se računaju prema Tablca 5.2 jednadžbama (5.1), (5.2), (5.3) (5.4). Za svaku lnju se računaju oznake segmenata te lnje spremaju se u novu matrcu. Iz matrce s oznakama segmenata za svaku lnju stvara se skup segmenata. Skup segmenata za svaku oznaku segmenta sadrž nformacju o broju lnje u kojoj se pojedn segment s tom oznakom nalaz te rednom broju segmenta. Kada je stvoren skup segmenata prstupa se računanju statstke pojedne oznake segmenta. Za statstku su odabrane srednja vrjednost standardna devjacja. Ako određena oznaka segmenta sadrž samo jedan segment, takva se oznaka brše, te se u taj segment ne ugrađuje nformacja. Tme se nažalost smanjuje velčna nformacje koja se žel ugradt. Oznake sa samo jednm segmentom bršu se jer nema smsla računat srednje vrjednost standardne devjacje samo jedne vrjednost. Iz zračunath vrjednost računa se vrjednost vodenog žga prema pravlu 1 odnosno 2. U slučaju detekcje z th vrjednost računa se ugrađena poruka. Ako se rad o označavanju tada se sgnal, odnosno btov orgnalnog teksta uspoređuju s btovma poruke. Ako se bt poruke razlkuje od bta z orgnalnog teksta za određenu oznaku segmenta, sv segment s tom oznakom se mjenjaju. S obzrom da je ovo sljep algortam, za uklanjanje vodenog žga z teksta potreban je orgnaln tekst. Algortam može ugradt poruke velčne 8, 16, 64, 128 btova. Uspješna detekcja najvše ovs o tome kolko točno algortam računa šrnu rječ razmaka zmeđu rječ prlkom označavanja detekcje. Slka 5.5 prkazuje korsnčko sučelje programa. Korsnk može odabrat žel l označt datoteku l detektrat voden žg u željenoj datotec. Osm toga može se odabrat velčna nformacje koja se ugrađuje. Može se ugradt 8, 16,64, 128 btova nformacje. Kod velčne nformacje od 8 16 btova, zbog malog raspona brojeva, označava se samo broj korsnka. Kod 128 btova može se ugradt željen broj korsnka, broj knjžnce, broj zaposlenka koj se posudo dokument, broj samog dokumenta, te datum posudbe povratka. Datum posudbe može se odabrat kao trenutn datum, l se ručno unjet. Datum povratka se može odabrat kao 3 tjedna, mjesec dana l 3 mjeseca od dana posudbe l se može ručno unjet. 42
5.3 Ekspermentaln rezultat Slka 5.5 Korsnčko sučelje programa Slka 5.6 Prkazuje orgnaln tekst koršten u ekspermentma. Ovaj tekst je odabran jer funkcja za obradu lnje, odnosno funkcje koja računa šrnu razmaka zmeđu lnja šrnu rječ u većn slučajeva točno računa šrnu razmaka rječ. Nažalost ovaj tekst nema dovoljno oznaka segmenata za označavanje 64, odnosno 128 btova poruke. U njega se mogu ugradt poruke velčne 8, 16, 32 64 bta. Prlog 1 prkazuje rezultate ugrađvanja poruke velčne 8, 16, 32, 64 bta u orgnalan tekst. Tablca 5.3 prkazuje prmjer orgnalnog označenog teksta kod ugrađvanja poruke velčne 8 btova. U gornjem redu je orgnaln, a u donjem označen tekst. Ubačena vrjednost je broj 20. U prvom stupcu se vd neznatan pomak slova H udesno. U drugom stupcu se vd da pomakom rječ was udesno jedan stupac razmaka prelaz preko slova b, pa je okomt do slova b tanj. Te na kraju u trećem stupcu se vd pomak rječ n uljevo. Kod nezmjenjene označene slke detekcjom se spravno detektra svh 255 mogućh vrjednost. Kod zmjenjene slke, kod 10 razlčth vrjednost, svh 10 unatoč zmjenama (brsanjem čtavh redaka) uspješno se detektra. Uspješnost detekcje ovs o zbrsanom retku, makar se u ovom slučaja vrlo rjetko se detektra krva vrjednost. 43
Slka 5.6 Orgnaln tekst 44
Tablca 5.3 Orgnaln označen tekst Tablca 5.4, prv redak prkazuje tekst označen vrjednost 255. Drug redak prkazuje zmjenjen tekst, dobven brsanjem 3 retka. Zanmljvo je da se čak s 3 zbrsana retka dalje dobro detektra označena vrjednost. Točna vrjednost nformacje može se očtat čak samo z 1. l 2. l 5. odlomka. Pogrešna vrjednost se detektra kad postoj samo 3. l samo 4. odlomak. Tablca 5.4 Označen tekst zmjenjen označen tekst 45
Kod označavanja nformacje velčne 16 btova rezultat su slčn kao kod 8 btova. Od 10 slka označenh razlčtm vrjednostma te zatm zmjenjenh kod svh 10 je uspješno detektrana ugrađena vrjednost. Tablca 5.5 prkazuje razlku zmeđu orgnalnog označenog teksta. U prvom drugom stupcu vdljvo je da se rječ pomcala za vše od 1 pksela, jer je ostao trag od okomtog djela n odnosno m. U trećem stupcu se vd pomak rječ of u ljevo. Također je ostao trag od slova f. Tablca 5.5 Orgnalne označene vrjednost za velčnu nformacje od 16 btova Tablca 5.6 Označen tekst, gore je nezmjenjen, dolje je zmjenjen Tablca 5.6 prkazuje označen tekst koj je u gornjem retku nezmjenjen, a u donjem zmjenjen. I ovdje se unatoč 2 zbrsana retka detektra spravna vrjednost. 46
Tablca 5.7 Orgnalne označene vrjednost za velčnu nformacje od 32 btova Kod slke označene porukom velčne 32 bta vdljva su veća zoblčenja, uzrokovana većm pomakom rječ. Tablca 5.7 prkazuje te razlke. Tablca 5.8 Označen tekst, gore je nezmjenjen, dolje je zmjenjen Tablca 5.8 prkazuje označen zmjenjen nezmjenjen tekst. Opet se unatoč brsanju čak 3 retka detektrala točna vrjednost. I opet je bla točna detekcja kod svh 10 testnh prmjera. 47
Tablca 5.9 Orgnalne označene vrjednost za velčnu nformacje od 64 bta Tablca 5.9 prkazuje razlke zmeđu označenog orgnalnog teksta. Iako je ugrađeno 64 bta nformacja, nema prevelkh zoblčenja, al ona pak postoje. Tablca 5.10 Označen tekst, gore je nezmjenjen, dolje je zmjenjen Tablca 5.10 prkazuje označen zmjenjen nezmjenjen tekst. Algortam je opet uspo točno odredt vrjednost ugrađene nformacje u svh 10 testnh prmjera. 48
Tablca 5.11 Ljevo je označena modfcrana stranca teksta, desno je označena stranca bez modfkacja, velčna ubačene nformacje je 64 bta U ovom slučaju dolaz do pogrešne detekcje, al ubačen broj je 1234567, a detektran 1234565, tako da čak uz ovolko brsanja nje velka razlka. 49
6. Zaključak Eksperment su pokazal da točnost detekcje u označenom zmjenjenom označenom nezmjenjenom tekstu najvše ovs o točnost funkcje koja određuje šrnu razmaka zmeđu rječ šrnu rječ. Što je ubačena nformacja manja to su manja zoblčenja pa funkcja za obradu lnje točnje računa šrne. Tako za najmanju velčnu ugrađene nformacje za sve moguće vrjednost nformacje kod nezmjenjenog označenog teksta detekcja detektra točne vrjednost. Također kod najmanjeg broja btova nformacje napadač mora uložt mnogo truda da slom voden žg jer se zbog male kolčne nformacje, nformacja nalaz na cjelom dokumentu. Odnosno postoj mal broj oznaka segmenata (0-7 za 8 btova nformacje) al zato za svaku oznaku postoj dovoljan broj segmenata za spravnu detekcju. Kako velčna nformacje raste tako se smanjuje broj segmenata za svaku oznaku, a tme se povećava mogućnost greške. Tako se može dogodt da napad zmjen tekst na načn da oznaka segmenta koja je mala samo 1 segment vše ne postoj čme se može zmjent vrjednost očtanog vodenog žga. Rješenje za taj problem je dovoljno velk tekstualn dokument, jer je tme veća vjerojatnost da će svaka od oznaka segmenata mat dovoljan broj segmenata da voden žg bude otporan na napade. Također je ptanje hoće l se splatt napadaču obradt velk tekstualn dokument, pogotovo ako je dokument u spsanom oblku pa tada napadač treba zdvojt dosta vremena dok skenra sve strance dokumenta, a nakon toga još vrš zmjene nad svm strancama. Implementran algortam dobar je za zašttu tekstualnh dokumenata koj će se spsvat. Ispsvanjem ponovnm skenranjem unos se mal šum, koj ne smeta jer se slka pretvara u bnarnu. Još jedna od prednost mplementranog algortma je što razlke zmeđu orgnalnog označenog teksta nsu jako vdljve. Ako se rječ pomče za samo jedan pksel razlke gotovo nsu vdljve. U slučaju pomaka za vše pksela razlke mogu postat vdljvje, al to nje uvjek slučaj. Otpornost opsanog algortma na napade ne treba ovst o velčn ugrađene nformacje, ako se povećanjem nformacje povećava kolčna teksta za označavanje. Naravno preduvjet za dobru detekcju, neovsno o velčn ugrađene nformacje, je dobro ugođena funkcja za obradu lnje. Tako da b clj budućeg rada na ovom algortmu blo što bolje ugađanje funkcje za obradu lnje, te prošrvanje algortma da ne označava samo tekst poravnat na obje strane, nego druga poravnanja. 50
7. Lteratura [1] Edn Muharemagc, Borko Furht, Multmeda Securty: Watermarkng Technques [2] Fred Mntzer, Gordon W. Braudaway Mnerva M. Yeung, Effectve and neffectve Dgtal Watermarks [3] Fran Hartung, Matrn Kutter, Multmeda Watermarkng Technques [4] http://www.dlb.org.ar/dlb/july98/gladney/07gladney.html#deployment_problem [5] Dng Huang, Hong Yang, Interword Dstance Changes Represented by Sne Waves For Watermarkng Text Images [6] Adnan M. Alattar, Osama M. Alattar, Watermarkng Electronc Text Documents Contanng Justfed Paragraphs and Irregular Lne Spacng [7] R. Vll an, S. Voloshynovsky, O. Koval, J. Vla, E. Topak, F. Degullaume, Y. Rytsar, T. Pun, Text Data-Hdng for Dgtal and Prnted Documents:Theoretcal and Practcal Consderatons [8] Mercan Topkara, Cuneyt M. Taskran, Edward J. Delp, Natural Language Watermarkng [9] Young-Won Km, Kyung-Ae Moon, Il-Seok Oh, A Text Watermarkng Algorthm based on Word Classfcaton and Inter-word Space Statstcs [10] J. T. Brassl, S. Low, N. F. Maxemchuk, and L. O Gorman, Electronc Markng and Identfcaton Technques to Dscourage Document Copyng, IEEE Journal on Selected Areas n Communcatons, vol. 13, no. 8, October 1995, pp. 1495-1504. [11] J. T. Brassl, S. Low, and N. F. Maxemchuk, "Copyrght Protecton for the Electronc Dstrbuton of Text Documents," Proceedngs of the IEEE, vol. 87, no. 7, July 1999, pp.1181-1196. [12] M. Atallah, C. McDonough, S. Nrenburg, and V. Raskn, Natural Language Processng for Informaton Assurance and Securty: An Overvew and Implementatons, Proceedngs 9th ACM/SIGSAC New Securty Paradgms Workshop, September, 2000, Cork, Ireland, pp. 51 65. 51
8. Prlog 1 Prmjer označavanja teksta porukom razlčte duljne Slka 8.1 Tekst označen porukom velčne 8 btova 52
Slka 8.2 Tekst označen porukom velčne 16 btova 53
Slka 8.3 Tekst označen porukom velčne 32 bta 54