Mere slicnosti

Слични документи
PowerPoint Presentation

Drveta odlucivanja - algoritmi

Klaster analiza

Slide 1

Прва економска школа Београд РЕПУБЛИЧКО ТАКМИЧЕЊЕ ИЗ СТАТИСТИКЕ март године ОПШТЕ ИНФОРМАЦИЈЕ И УПУТСТВО ЗА РАД Укупан број такмичарских

Tеорија одлучивања

Sadržaj 1 Diskretan slučajan vektor Definicija slučajnog vektora Diskretan slučajan vektor

Slide 1

Microsoft PowerPoint - Ispitivanje povezanosti Regresija redovni decembar 2007 [Compatibility Mode]

DUBINSKA ANALIZA PODATAKA

Univerzitet u Nišu PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku PORTFOLIO TEORIJA MASTER RAD Student: Bojana Živković Mentor: Prof. dr Miljan

Osnovni pojmovi teorije verovatnoce

1

My_ST_FTNIspiti_Free

1 Konusni preseci (drugim rečima: kružnica, elipsa, hiperbola i parabola) Definicija 0.1 Algebarska kriva drugog reda u ravni jeste skup tačaka opisan

Техничко решење: Метода мерења ефективне вредности сложенопериодичног сигнала Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић

Paper Title (use style: paper title)

ФАКУЛТЕТ ОРГАНИЗАЦИОНИХ НАУКА

Microsoft PowerPoint - jkoren10.ppt

Техничко решење: Метода мерења реактивне снаге у сложенопериодичном режиму Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић Аут

PowerPoint Presentation

Matrice. Algebarske operacije s matricama. - Predavanje I

РЕШЕЊА 1. (2) Обележја статистичких јединица посматрања су: а) особине које су заједничке за јединице посматрања б) особине које се проучавају, а подр

Analiticka geometrija

Metode izbora lokacije

Slide 1

Analiticka geometrija

Test iz Linearne algebre i Linearne algebre A qetvrti tok, U zavisnosti od realnog parametra λ rexiti sistem jednaqina x + y + z = λ x +

1 Polinomi jedne promenljive Neka je K polje. Izraz P (x) = a 0 + a 1 x + + a n x n = n a k x k, x K, naziva se algebarski polinom po x nad poljem K.

Microsoft Word - ETH2_EM_Amperov i generalisani Amperov zakon - za sajt

ТЕОРИЈА УЗОРАКА 2

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

08 RSA1

СТРАХИЊА РАДИЋ КЛАСИФИКАЦИJА ИЗОМЕТРИJА И СЛИЧНОСТИ Према књизи [1], свака изометриjа σ се може представити ком позици - jом неке транслациjе за векто

Analiticka geometrija

ТРОУГАО БРЗИНА и математичка неисправност Лоренцове трансформације у специјалној теорији релативности Александар Вукеља www.

Microsoft Word - 13pavliskova

Raspodjela i prikaz podataka

PRIRODNO MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA RAČUNARSKE NAUKE Utorak, godine PRIJEMNI ISPIT IZ INFORMATIKE 1. Koja od navedenih ekste

Uvod u statistiku

Microsoft PowerPoint - 03-Slozenost [Compatibility Mode]

Slide 1

Slide 1

1

Matematka 1 Zadaci za vežbe Oktobar Uvod 1.1. Izračunati vrednost izraza (bez upotrebe pomoćnih sredstava): ( ) [ a) : b) 3 3

IRL201_STAR_sylab_ 2018_19

1 MATEMATIKA 1 (prva zadaća) Vektori i primjene 1. U trokutu ABC točke M i N dijele stranicu AB na tri jednaka dijela. O

Microsoft PowerPoint - IS_G_predavanja_ [Compatibility Mode]

ALGEBRA I (2010/11)

Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: min c T x Ax = b x 0 x Z n Gde pretpostavljamo da je A celobrojna matrica

Verovatnoća - kolokvijum 17. decembar Profesor daje dva tipa ispita,,,težak ispit i,,lak ispit. Verovatnoća da student dobije težak ispit je

UNIVERZITET U NOVOM SADU FAKULTET TEHNIČKIH NAUKA NOVI SAD Odsek/smer/usmerenje: Matematika u tehnici DIPLOMSKI - MASTER RAD Kandidat: Ljubo Nedović B

Hej hej bojiš se matematike? Ma nema potrebe! Dobra priprema je pola obavljenog posla, a da bi bio izvrsno pripremljen tu uskačemo mi iz Štreberaja. D

Microsoft PowerPoint - DS-1-16 [Compatibility Mode]

Model podataka

STABILNOST SISTEMA

PowerPoint Presentation

УНИВЕРЗИТЕТ У НИШУ ПРИРОДНО-МАТЕМАТИЧКИ ФАКУЛТЕТ ДЕПАРТМАН ЗА МАТЕМАТИКУ МАСТЕР РАД Доношење одлука у условима неодређености Студент: Јелена Матић бр.

6-8. ČAS Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: Gde pretpostavljamo da je A celobrojna matrica dimenzije,. Takođe


MIP-heuristike (Matheuristike) Hibridi izmedu metaheurističkih i egzaktnih metoda Tatjana Davidović Matematički institut SANU

Наставно-научном већу Математичког факултета Универзитета у Београду На 305. седници Наставно-научног већа Математичког факултета Универзитета у Беогр

РАСПОРЕД ИСПИТА У ИСПИТНОМ РОКУ ЈАНУАР 1 ШКОЛСКЕ 2016/2017. ГОДИНЕ (последња измена ) Прва година: ПРВА ГОДИНА - сви сем информатике Име пр

No Slide Title

PRIRODNO-MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA MATEMATIKU I INFORMATIKU ZADACI SA REŠENJIMA SA PRIJEMNOG ISPITA IZ MATEMATIKE, JUN Odrediti

PowerPoint Presentation

PowerPoint Presentation

УНИВЕРЗИТЕТ У НОВОМ САДУ ОБРАЗАЦ 6

Grafovi 1. Posmatrajmo graf prikazan na slici sa desne strane. a) Odrediti skup čvorova V i skup grana E posmatranog grafa. Za svaku granu posebno odr

DR DRAGOŚ CVETKOVIC DR SLOBODAN SIMIC DISKRETNA MATEMATIKA MATEMATIKA ZA KOMPJUTERSKE NAUKĘ DRUGO ISPRAYLJENO I PROSIRENO IZDANJE HMUJ

Inženjering informacionih sistema

Teorija igara

Veeeeeliki brojevi

Орт колоквијум

Матрична анализа конструкција

Klasifikacija slika kucnih brojeva dubokim konvolucijskim modelima

Konstrukcija linearnih višekoračnih metodi Postoje tri važne familije višekoračnih metoda: Adamsovi metodi Adams-Bashfortovi metodi kod kojih je ρ(w)

Ravno kretanje krutog tela

Microsoft Word - AIDA2kolokvijumRsmerResenja.doc

Slide 1

Орт колоквијум

PowerPoint Presentation

Postojanost boja

ZADACI ZA VJEŽBU 1. Dokažite da vrijedi: (a) (A \ B) (B \ A) = (A B) (A C B C ), (b) A \ (B \ C) = (A C) (A \ B), (c) (A B) \ C = (A \ C) (B \ C). 2.

Proizvođač Примена оптимизационе методе ARAS при избору фрижидера Увод Аутор: Ана Лазовић 351/2007 Факултет техничких наука Чачак Техника и информатик

Tutoring System for Distance Learning of Java Programming Language

ЗАДАЦИ ИЗ МАТЕМАТИКЕ ЗА ПРИПРЕМАЊЕ ЗАВРШНОГ ИСПИТА

FAKULTET STROJARSTVA I BRODOGRADNJE KATEDRA ZA STROJARSKU AUTOMATIKU SEMINARSKI RAD IZ KOLEGIJA NEIZRAZITO I DIGITALNO UPRAVLJANJE Mehatronika i robot

UNIVERZITET U NIŠU PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku MASTER RAD VaR Mentor: Prof. dr Miljana Jovanović Student: Milena Stošić Niš,

PRVI KOLOKVIJUM Odrediti partikularno rexee jednaqine koje zadovo ava uslov y(0) = 0. y = x2 + y 2 + y 2xy + x + e y 2. Odrediti opxte rexee

Microsoft Word - Domacii zadatak Vektori i analiticka geometrija OK.doc

C2 MATEMATIKA 1 ( , 3. kolokvij) 1. Odredite a) lim x arctg(x2 ), b) y ( 1 2 ) ako je y = arctg(4x 2 ). c) y ako je y = (sin x) cos x. (15 b

Microsoft PowerPoint - Bazdaric_vrste istrazivanja 2014_ pptx [Read-Only]

Newtonova metoda za rješavanje nelinearne jednadžbe f(x)=0

UAAG Osnovne algebarske strukture 5. Vektorski prostori Borka Jadrijević

Microsoft Word - 15ms261

УНИВЕРЗИТЕТ У НИШУ ПРИРОДНО-МАТЕМАТИЧКИ ФАКУЛТЕТ Департман за рачунарске науке Писмени део испита из предмета Увод у рачунарство 1. [7 пое

broj 043.indd - show_docs.jsf

VISOKA TEHNI^KA [KOLA STRUKOVNIH STUDIJA MILORADOVI] MIROLJUB M A T E M A T I K A NERE[ENI ZADACI ZA PRIJEMNI ISPIT AGRONOMIJA, EKOLOGIJA, E

Транскрипт:

Nenad Mitić Matematički fakultet nenad@matf.bg.ac.rs

Kako odrediti sličnost/različitost, obrazaca, atributa, dogadjaja... Podaci različitog tipa i strukture Zavisnost od tipa, raspodele, dimenzionalnosti podataka,... Često se meri vrednostima u intervalu [0,1] Funkcije sličnosti - veća vrednost veća sličnost za za tekstualni i binarni podataka sa diskretni 1.2

- nastavak Različitost -numerička mera koliko su dva,... različiti Najmanja različitost je često 0; gornja granica varira Kao sinonim koristi se i termin rastojanje Funkcije rastojanja - manja vrednost veća sličnost Termin blizina (eng. proximity) označava ili sličnost ili različitost za za tekstualni i binarni podataka sa diskretni 1.3

- nastavak Primeri sličnost/različitosti atributa p i q Tip atributa Sličnost { Različitost { 1 ako p = q 1 ako p q Nominalni s = d = 0 ako p q 0 ako p = q Redni s = 1 p q n 1 d = p q n 1 vrednosti se preslikavaju u skup [0, n 1] gde je n broj vrednosti Intervalni ili s = d, s = 1 1+d, d = p q razmerni s = 1 d min d max d min d za za tekstualni i binarni podataka sa diskretni 1.4

Funkcija rastojanja d je metrika ako važi 1 Pozitivna odredjenost d(p, q) 0 p, q d(p, q) = 0 akko p = q 2 Simetrija: d(p, q) = d(q, p) p, q 3 Nejednakost trougla: d(p, r) d(p, q) + d(q, r) p, q, r za za tekstualni i binarni podataka sa diskretni 1.5

Ultrametrika Ako je funkcija rastojanja d metrika i ako važi d(p, r) max{d(p, q), d(q, r)} p, q, r tada je funkcija d ultrametrika Primeri mear koje jesu metrika/ultrametrika? koje nisu metrika/ultrametrika? za za tekstualni i binarni podataka sa diskretni 1.6

za Rastojanje izmedju dve tačke u n dimenzionom prostoru X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) Hamingovo rastojanje Hamming(X, Y ) = n q i gde je q i = i=1 Najčešće korišćena mera je rastojanje Minkovskog ili L p mera ( n ) 1/p Dist(X, Y ) = x i y i p i=1 { 1, ako x i y i 0, inače za za tekstualni i binarni podataka sa diskretni 1.7

Rastojanje Minkovskog za Specijalni slučajevi p = 1 - Gradski blok (taksi, Menhetn,...) p = 2 - Euklidsko rastojanje p supremum rastojanje (L max, L norma) = max 1 i n x i y i Ne mešati n (broj dimenzija podatka) i p (veličinu parametra) za tekstualni i binarni podataka sa diskretni 1.8

Rastojanje Minkovskog - nedostaci Nije pogodno za primenu kod retkih višedimenzionih podatka sa nepoznatom raspodelom, šumovima,... ako postoje lokalno irelevantni atributi (primer: analiza krvi za pacijente od različitih bolesti) zbog šuma koji se kumulira pri izračunavanju za za tekstualni i binarni podataka sa diskretni 1.9

Mahalanobisovo rastojanje za Maha(X, Y ) = (X Y )Σ 1 (X Y ) T gde je Σ 1 inverzna matrica matrice kovarijansi podataka za tekstualni i binarni podataka sa diskretni 1.10

Uticaj raspodele na rastojanje Medjusobno rastojanje tačaka A( 6.8, 2.9) i B(6.8, 3.1) za za tekstualni i binarni podataka sa diskretni Euklidsko rastojanje tačaka je 14.7, a Mahalanobisovo 6 1.11

Mahalanobisovo rastojanje Korisno je kada važi atributi su u korelaciji atributi imaju različite opsege vrednosti (različite varijanse) raspodela podataka je približno normalna (Gausova) za za tekstualni i binarni podataka sa diskretni 1.12

za Sličnost dva podatka X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) sa kategoričkim se može definisati preko sličnosti njihovih pojedinačnih atributa za za tekstualni i binarni podataka sa Sim(X, Y ) = n S(x i, y i ) i=1 diskretni 1.13

za za Najjednostavniji { slučaj: 1 ako x i = y i S(x i, y i ) = 0 inače Ne uzima se u obzir relativna frekvencija atributa Koristi se agregiranje statističkih osobina Manje frekventne uparene vrednosti imaju veću težinu za tekstualni i binarni podataka sa diskretni 1.14

Sličnost atributa Neka je p k (x) količnik broja slogova u kojima k-ti atribut uzima vrednost x Mere koje uključuju frekvenciju su Inverzna učestalost pojavljivanja { 1/p k (x i ) 2, ako x i = y i S(x i, y i ) = 0, inače Pojavljivanje je dobro. Veća sličnost je kada je vrednost manje učestala { 1 p k (x i ) 2, ako x i = y i S(x i, y i ) = 0, inače za za tekstualni i binarni podataka sa diskretni 1.15

Inverzna frekvencija dokumenata Sličnost dva dokumenta se bolje ocenjuje ako se koriste reči koje su zajedničke Za normalizaciju se koristi funkcija broja dokumenata n i u kome se javlja reč i u ukupnom broju dokumenata n: id i = log(n/n i ) Za smanjenje mogućnosti da česta pojava neke reči utiče na sličnost mogu da se koriste funkcije f (x i ) = sqrt(x i ) f (x i ) = log(x i ) za za tekstualni i binarni podataka sa diskretni 1.16

Inverzna frekvencija dokumenata normalizovana frekvencija za i-tu reč može da se definiše kao h(x i ) = f (x i ) id i Kosinusno i prošireno Žakardovo rastojanje sa normalizovanom frekvencijom reči su J(X, Y ) = d h(x i ) h(y i ) i=1 cos(x, Y ) = d d h(x i ) 2 h(y i ) 2 i=1 i=1 d h(x i ) h(y i ) i=1 d h(x i ) 2 + d h(y i ) 2 d h(x i ) h(y i ) i=1 i=1 i=1 za za tekstualni i binarni podataka sa diskretni 1.17

Rastojanje Minkovskog sa težinama za U slučaju da je potrebno dodeliti težinske faktore a i i za tekstualni i binarni podataka sa ( d ) 1/p Dist(X, Y ) = a i x i y i p i=1 diskretni 1.18

kategoričkim za za Sličnost dva sloga X = (X n, X c ) i Y = (Y n, Y c ) Sim(X, Y ) = λ NumSim(X n, Y n ))+ (1 λ) CatSim(X c, Y c )) tekstualni i binarni podataka sa gde λ odredjuje relativnu važnost kategoričkih i numeričkih atributa diskretni 1.19

podataka sa tekstualnim i binarnim Sličnost dva sloga X = (x 1, x 2,..., x d ) i Y = (y 1, y 2,..., y d ) sa binarnim se može definisati preko sledećih vrednosti za za tekstualni i binarni podataka sa M 01 =broj atributa koji su jednaki 0 u X i 1 u Y M 10 =broj atributa koji su jednaki 1 u X i 0 u Y M 00 =broj atributa koji su jednaki 0 u X i 0 u Y M 11 =broj atributa koji su jednaki 1 u X i 1 u Y diskretni 1.20

za za Jednostavno uparivanje koeficijenata (SMC) SMC=broj uparenih/broj atributa = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) Žakardovi. Koriste se u slučaju asimetričnih atributa (samo prisustvo ne-nula se smatra važnim) J=broj parova 11/broj atributa gde nisu obe vrednosti 0 = M 11 /(M 01 + M 10 + M 11 ) tekstualni i binarni podataka sa diskretni 1.21

( Tanimoto-a) za za Varijanta Žakardovih koeficijenata primenljiva na atribute sa neprekidnim i prebrojivim vrednostima U slučaju atributa sa binarnim vrednostima redukuje se na Žakardove koeficijente X Y T (X, Y ) = X 2 + Y 2 X Y tekstualni i binarni podataka sa diskretni 1.22

Ako su X = (x 1, x 2,..., x n ) i Y = (y 1, y 2,..., y n ) dva vektora dokumenata tada se njihova sličnost može odrediti pomoću kosinusne sličnosti odnosno cos(x, Y ) = cos(x, Y ) = ( d X Y X Y d x i y i i=1 x 2 i=1 i ) ( d i=1 y 2 i ) za za tekstualni i binarni podataka sa diskretni 1.23

Koristi se kod velikog broja parova tipa 00 pri čemu može da bude primenjena i na ne-binarne vektore (npr. pore denje sličnosti dva dokumenta po rečima koje se javljaju u njima) Primer: d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 d 1 d 2 = 3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos(d 1, d 2 ) = 0.3150 za za tekstualni i binarni podataka sa diskretni 1.24

Korelacija Korelacija dva objekta koji imaju binarne ili neprekidne atribute je mera linearnog odnosa izme du njihovih atributa ρ xy = cov xy /(σ x σ y ) kovarijansa(x, y) = cov xy = 1 n 1 n (x k x)(y k y) k=1 standardna devijacija(x) = σ x = 1 n (x k x) n 1 srednja vrednost(x) = x = 1 n n k=1 k=1 x k za za tekstualni i binarni podataka sa diskretni 1.25

za za tekstualni i binarni podataka sa diskretni Ako je korelacija =1 (-1) perfektni pozitivan (negativan) linearni odnos x k = ay k + b 1.26

Edit rastojanje, rastojanje za transformacije X = (x 1, x 2,..., x m ) i Y = (y 1, y 2,..., y n ). Za prvih i simbola iz X i prvih j simbola iz Y Edit(i 1, j) + cena brisanja Edit(i, j) = min Edit(i, j 1) + cena umetanja Edit(i 1, j 1) I ij cena zamene gde je I ij indikator da li su jednaki i-ti simbol X i j-ti simbol Y Primer: ababababab i bababababa za za tekstualni i binarni podataka sa diskretni 1.27

Odredjivanje najduže zajedničke podniske za X = (x 1, x 2,..., x m ) i Y = (y 1, y 2,..., y n ). Za prvih i simbola iz X i prvih j simbola iz Y, u oznaci X i i Y i LCSS(i 1, j 1) + 1 LCSS(i, j) = max Edit(i 1, j) Edit(i, j 1) Primer: agbfcgdhei i afbgchdiei ako x i = y i x i y i za za tekstualni i binarni podataka sa diskretni 1.28

Neke mere sličnosti su zasnovane na teoriji Entropija X - doga daj sa n mogućih ishoda x 1,..., x n verovatnoća ishoda je p 1,..., p n Entropija doga daja X je H(X) = n p i log 2 p i i=1 H(X) [0, log 2 n] i predstavlja meru koliko bitova je potrebno u proseku za predstavljanje doga daja X za za tekstualni i binarni podataka sa diskretni 1.29

Meri se stepen bliskosti u nekom oblasti Koncept gustine se koristi u klasterovanju i otkrivanju anomalija Najčešće se koriste Euklidska - broj tačaka po jedinici površine/zapremine Gustina verovatnoća - procena distribucije podataka na osnovu izgleda Graf zasnovane gustine - na osnovu povezanosti za za tekstualni i binarni podataka sa diskretni 1.30

Primer: Euklidska zasnovana na ćelijama - podela regiona na neki broj ćelija i definisanje gustine preko broja tačaka u ćelijama za za tekstualni i binarni podataka sa diskretni 1.31

Primer: Euklidska zasnovana na centru - broj ćelija na odre denoj udaljenosti od centralne tačke za za tekstualni i binarni podataka sa diskretni 1.32