Nenad Mitić Matematički fakultet nenad@matf.bg.ac.rs
Kako odrediti sličnost/različitost, obrazaca, atributa, dogadjaja... Podaci različitog tipa i strukture Zavisnost od tipa, raspodele, dimenzionalnosti podataka,... Često se meri vrednostima u intervalu [0,1] Funkcije sličnosti - veća vrednost veća sličnost za za tekstualni i binarni podataka sa diskretni 1.2
- nastavak Različitost -numerička mera koliko su dva,... različiti Najmanja različitost je često 0; gornja granica varira Kao sinonim koristi se i termin rastojanje Funkcije rastojanja - manja vrednost veća sličnost Termin blizina (eng. proximity) označava ili sličnost ili različitost za za tekstualni i binarni podataka sa diskretni 1.3
- nastavak Primeri sličnost/različitosti atributa p i q Tip atributa Sličnost { Različitost { 1 ako p = q 1 ako p q Nominalni s = d = 0 ako p q 0 ako p = q Redni s = 1 p q n 1 d = p q n 1 vrednosti se preslikavaju u skup [0, n 1] gde je n broj vrednosti Intervalni ili s = d, s = 1 1+d, d = p q razmerni s = 1 d min d max d min d za za tekstualni i binarni podataka sa diskretni 1.4
Funkcija rastojanja d je metrika ako važi 1 Pozitivna odredjenost d(p, q) 0 p, q d(p, q) = 0 akko p = q 2 Simetrija: d(p, q) = d(q, p) p, q 3 Nejednakost trougla: d(p, r) d(p, q) + d(q, r) p, q, r za za tekstualni i binarni podataka sa diskretni 1.5
Ultrametrika Ako je funkcija rastojanja d metrika i ako važi d(p, r) max{d(p, q), d(q, r)} p, q, r tada je funkcija d ultrametrika Primeri mear koje jesu metrika/ultrametrika? koje nisu metrika/ultrametrika? za za tekstualni i binarni podataka sa diskretni 1.6
za Rastojanje izmedju dve tačke u n dimenzionom prostoru X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) Hamingovo rastojanje Hamming(X, Y ) = n q i gde je q i = i=1 Najčešće korišćena mera je rastojanje Minkovskog ili L p mera ( n ) 1/p Dist(X, Y ) = x i y i p i=1 { 1, ako x i y i 0, inače za za tekstualni i binarni podataka sa diskretni 1.7
Rastojanje Minkovskog za Specijalni slučajevi p = 1 - Gradski blok (taksi, Menhetn,...) p = 2 - Euklidsko rastojanje p supremum rastojanje (L max, L norma) = max 1 i n x i y i Ne mešati n (broj dimenzija podatka) i p (veličinu parametra) za tekstualni i binarni podataka sa diskretni 1.8
Rastojanje Minkovskog - nedostaci Nije pogodno za primenu kod retkih višedimenzionih podatka sa nepoznatom raspodelom, šumovima,... ako postoje lokalno irelevantni atributi (primer: analiza krvi za pacijente od različitih bolesti) zbog šuma koji se kumulira pri izračunavanju za za tekstualni i binarni podataka sa diskretni 1.9
Mahalanobisovo rastojanje za Maha(X, Y ) = (X Y )Σ 1 (X Y ) T gde je Σ 1 inverzna matrica matrice kovarijansi podataka za tekstualni i binarni podataka sa diskretni 1.10
Uticaj raspodele na rastojanje Medjusobno rastojanje tačaka A( 6.8, 2.9) i B(6.8, 3.1) za za tekstualni i binarni podataka sa diskretni Euklidsko rastojanje tačaka je 14.7, a Mahalanobisovo 6 1.11
Mahalanobisovo rastojanje Korisno je kada važi atributi su u korelaciji atributi imaju različite opsege vrednosti (različite varijanse) raspodela podataka je približno normalna (Gausova) za za tekstualni i binarni podataka sa diskretni 1.12
za Sličnost dva podatka X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) sa kategoričkim se može definisati preko sličnosti njihovih pojedinačnih atributa za za tekstualni i binarni podataka sa Sim(X, Y ) = n S(x i, y i ) i=1 diskretni 1.13
za za Najjednostavniji { slučaj: 1 ako x i = y i S(x i, y i ) = 0 inače Ne uzima se u obzir relativna frekvencija atributa Koristi se agregiranje statističkih osobina Manje frekventne uparene vrednosti imaju veću težinu za tekstualni i binarni podataka sa diskretni 1.14
Sličnost atributa Neka je p k (x) količnik broja slogova u kojima k-ti atribut uzima vrednost x Mere koje uključuju frekvenciju su Inverzna učestalost pojavljivanja { 1/p k (x i ) 2, ako x i = y i S(x i, y i ) = 0, inače Pojavljivanje je dobro. Veća sličnost je kada je vrednost manje učestala { 1 p k (x i ) 2, ako x i = y i S(x i, y i ) = 0, inače za za tekstualni i binarni podataka sa diskretni 1.15
Inverzna frekvencija dokumenata Sličnost dva dokumenta se bolje ocenjuje ako se koriste reči koje su zajedničke Za normalizaciju se koristi funkcija broja dokumenata n i u kome se javlja reč i u ukupnom broju dokumenata n: id i = log(n/n i ) Za smanjenje mogućnosti da česta pojava neke reči utiče na sličnost mogu da se koriste funkcije f (x i ) = sqrt(x i ) f (x i ) = log(x i ) za za tekstualni i binarni podataka sa diskretni 1.16
Inverzna frekvencija dokumenata normalizovana frekvencija za i-tu reč može da se definiše kao h(x i ) = f (x i ) id i Kosinusno i prošireno Žakardovo rastojanje sa normalizovanom frekvencijom reči su J(X, Y ) = d h(x i ) h(y i ) i=1 cos(x, Y ) = d d h(x i ) 2 h(y i ) 2 i=1 i=1 d h(x i ) h(y i ) i=1 d h(x i ) 2 + d h(y i ) 2 d h(x i ) h(y i ) i=1 i=1 i=1 za za tekstualni i binarni podataka sa diskretni 1.17
Rastojanje Minkovskog sa težinama za U slučaju da je potrebno dodeliti težinske faktore a i i za tekstualni i binarni podataka sa ( d ) 1/p Dist(X, Y ) = a i x i y i p i=1 diskretni 1.18
kategoričkim za za Sličnost dva sloga X = (X n, X c ) i Y = (Y n, Y c ) Sim(X, Y ) = λ NumSim(X n, Y n ))+ (1 λ) CatSim(X c, Y c )) tekstualni i binarni podataka sa gde λ odredjuje relativnu važnost kategoričkih i numeričkih atributa diskretni 1.19
podataka sa tekstualnim i binarnim Sličnost dva sloga X = (x 1, x 2,..., x d ) i Y = (y 1, y 2,..., y d ) sa binarnim se može definisati preko sledećih vrednosti za za tekstualni i binarni podataka sa M 01 =broj atributa koji su jednaki 0 u X i 1 u Y M 10 =broj atributa koji su jednaki 1 u X i 0 u Y M 00 =broj atributa koji su jednaki 0 u X i 0 u Y M 11 =broj atributa koji su jednaki 1 u X i 1 u Y diskretni 1.20
za za Jednostavno uparivanje koeficijenata (SMC) SMC=broj uparenih/broj atributa = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) Žakardovi. Koriste se u slučaju asimetričnih atributa (samo prisustvo ne-nula se smatra važnim) J=broj parova 11/broj atributa gde nisu obe vrednosti 0 = M 11 /(M 01 + M 10 + M 11 ) tekstualni i binarni podataka sa diskretni 1.21
( Tanimoto-a) za za Varijanta Žakardovih koeficijenata primenljiva na atribute sa neprekidnim i prebrojivim vrednostima U slučaju atributa sa binarnim vrednostima redukuje se na Žakardove koeficijente X Y T (X, Y ) = X 2 + Y 2 X Y tekstualni i binarni podataka sa diskretni 1.22
Ako su X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) dva vektora dokumenata tada se njihova sličnost može odrediti pomoću kosinusne sličnosti odnosno cos(x, Y ) = cos(x, Y ) = ( d X Y X Y d x i y i i=1 x 2 i=1 i ) ( d i=1 y 2 i ) za za tekstualni i binarni podataka sa diskretni 1.23
Koristi se kod velikog broja parova tipa 00 pri čemu može da bude primenjena i na ne-binarne vektore (npr. pore denje sličnosti dva dokumenta po rečima koje se javljaju u njima) Primer: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 d 1 d 2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos(d 1, d 2 ) = 0.3150 za za tekstualni i binarni podataka sa diskretni 1.24
Korelacija Korelacija dva objekta koji imaju binarne ili neprekidne atribute je mera linearnog odnosa izme du njihovih atributa ρ xy = cov xy /(σ x σ y ) kovarijansa(x, y) = cov xy = 1 n 1 n (x k x)(y k y) k=1 standardna devijacija(x) = σ x = 1 n (x k x) n 1 srednja vrednost(x) = x = 1 n n k=1 k=1 x k za za tekstualni i binarni podataka sa diskretni 1.25
za za tekstualni i binarni podataka sa diskretni Ako je korelacija =1 (-1) perfektni pozitivan (negativan) linearni odnos x k = ay k + b 1.26
Edit rastojanje, rastojanje za transformacije X = (x 1, x 2,..., x m ) i Y = (y 1, y 2,..., y n ). Za prvih i simbola iz X i prvih j simbola iz Y Edit(i 1, j) + cena brisanja Edit(i, j) = min Edit(i, j 1) + cena umetanja Edit(i 1, j 1) I ij cena zamene gde je I ij indikator da li su jednaki i-ti simbol X i j-ti simbol Y Primer: ababababab i bababababa za za tekstualni i binarni podataka sa diskretni 1.27
Odredjivanje najduže zajedničke podniske za X = (x 1, x 2,..., x m ) i Y = (y 1, y 2,..., y n ). Za prvih i simbola iz X i prvih j simbola iz Y, u oznaci X i i Y i LCSS(i 1, j 1) + 1 LCSS(i, j) = max Edit(i 1, j) Edit(i, j 1) Primer: agbfcgdhei i afbgchdiei ako x i = y i x i y i za za tekstualni i binarni podataka sa diskretni 1.28
Neke mere sličnosti su zasnovane na teoriji Entropija X - doga daj sa n mogućih ishoda x 1,..., x n verovatnoća ishoda je p 1,..., p n Entropija doga daja X je H(X) = n p i log 2 p i i=1 H(X) [0, log 2 n] i predstavlja meru koliko bitova je potrebno u proseku za predstavljanje doga daja X za za tekstualni i binarni podataka sa diskretni 1.29
Meri se stepen bliskosti u nekom oblasti Koncept gustine se koristi u klasterovanju i otkrivanju anomalija Najčešće se koriste Euklidska - broj tačaka po jedinici površine/zapremine Gustina verovatnoća - procena distribucije podataka na osnovu izgleda Graf zasnovane gustine - na osnovu povezanosti za za tekstualni i binarni podataka sa diskretni 1.30
Primer: Euklidska zasnovana na ćelijama - podela regiona na neki broj ćelija i definisanje gustine preko broja tačaka u ćelijama za za tekstualni i binarni podataka sa diskretni 1.31
Primer: Euklidska zasnovana na centru - broj ćelija na odre denoj udaljenosti od centralne tačke za za tekstualni i binarni podataka sa diskretni 1.32