Klaster analiza Nenad Mitić Matematički fakultet nenad@matf.bg.ac.rs
Šta je klaster analiza? Pronalaženje grupa objekata takvih da su objekti u grupi medjusobno slični (ili povezani), i da su objekti u različitim grupama medjusobno različiti (ili nepovezani) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.2
Šta nije klaster analiza? snovani na Klasifikacija pod nadzorom Jednostavna podela (npr. podela studenata po prvom slovu prezimena) Rezultat upita Podela grafa sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.3
Dvosmislenost pojma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.4
Tipovi Klasterovanje je postupak dobijanja Particiono - podela skupa u nepreklapajuće podskupove (klastere) takve da je svaki podatak tačno u jednom podskupu Hijerarhijsko - skup ugnježdenih organizovan u obliku hijerarhijskog drveta snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.5
Particiono snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.6
Hijerarhijsko snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.7
Tipovi Eksluzivno/neeksluzivno. U neeksluzivnom klasterovanju tačke mogu da se nalaze u više. Mogu da predstavljaju više klasa ili graničnih tačaka Rasplinuto/nerasplinuto. U rasplinutom klasterovanju tačka pripada svakom klasteru sa nekom težinom izmedju 0 i 1 (zbir svih težina je jednak 1) Delimično/kompletno (klasteruje se samo deo ) Heterogeno/homogeno (klasteri različite veličine, oblika i gustine) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.8
Tipovi Dobro razdvojeni klasteri (eng. well-separated) snovani na Klaster je skup tačaka takvih da je bilo koja tačka u klasteru bliže (ili više slična) ostalim tačkama u klasteru nego tačkama koje nisu u klasteru Klasteri zasnovani na centru (eng. center-based, prototype-based) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Klaster je skup objekata takvih da je bilo koji objekat u klasteru bliže (ili više sličan) prototipu ( centru ) u odnosu na prototipove (centre) ostalih. Centar je često centroid (prosek svih tačaka u klasteru) ili medoid (najreprezentativnija tačka u klasteru) 6.9
Tipovi (nastavak) Klasteri zasnovani na susedstvu (eng. contiguous) snovani na Klaster je skup tačaka takvih da je tačka u klasteru bliža (ili više slična) jednoj ili više tačaka u klasteru nego bilo kojoj tački koja nije u klasteru Klasteri zasnovani na gustini (eng. density-based) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Klasteri su oblasti sa velikom gustinom tačaka koje su razdvojene oblastima sa malom gustinom tačaka. Koriste se kada su klasteri nepravilni ili isprepleteni, i kada je prisutan šum ili elementi van granica 6.10
Tipovi (nastavak) snovani na Klasteri zasnovani na grafovima Konceptualni klasteri/ na osnovu zajedničkih osobina (eng. conceptual) sakupljajućeg razdvajajućeg snovani na Opisani ciljnom funkcijom (eng. described by an objective function) Spoljašnji kriterijumi 6.11
Cilj: uklanjanje elemenata van granica Modeli sa filtriranjem: svakoj karakteristici se dodeli odredjena vrednost koja predstavlja granicu za isključivanje Modeli sa omotačem: algoritam za se koristi da bi se odredila važnost skupa karakteristika Neke karakteristike : tip podatka, dimenzionalnost, tip atributa, tip raspodele, raštrkasnost, gustina,... snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.12
Vrste algoritama za zasnovani na (prototipovima) hijerarhijskog zasnovani na zasnovani na verovatnosnim modelima zasnovani na grafovima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.13
snovani na Osnovni princip: uzima se k reprezentativnih predstavnika Y 1, Y 2,... Y k, gde je k broj traženih i računa rastojanje tačaka X 1, X 2,..., X n do njih. Cilj je tako odrediti reprezentativne predstavnike koji minimizuju funkciju snovani na sakupljajućeg razdvajajućeg O = n [min j Dist(X i, Y j )] i=1 snovani na Funkcije rastojanja i reprezentativni predstavnici mogu da se biraju na različite načine. Spoljašnji kriterijumi 6.14
snovani na podacima snovani na /* Skup : D, Broj reprezent. : k */ _sa (D, k) begin inicijalni izbor skupa reprezentativnih predstavnika S; repeat Formiraj klastere (C1,...Ck) dodelom svake tacke iz D najblizem predstavniku iz S koristeci funkciju rastojanja Dist(x,x); Ponovo formiraj S odredjivanjem novog predstavnika Yj za svaki Cj koji minimizuje prethodnu funkciju O until doslo je do konvergencije; return (C1,..., Ck); end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.15
Pristup particionim m, model sa prototipom Svakom klasteru je pridružen centroid (centralna tačka) K broj koji mora da se navede Svaka tačka je dodeljena klasteru sa najbližim centroidom. Na primer, pripadnost klasteru se odredjuje pomoću zbira kvadarata Euklidskog rastojanja (kosinusnog rastojanja,...) do najbližeg reprezentativnih predstavnika Dist(X, Y ) = X i Y 2 snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.16
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.17
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.18
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.19
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.20
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.21
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.22
: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.23
snovani na Različite mere rastojanja. Varijacija algoritma k-sredina je odredjivanje lokalnog Mahalanobisovog rastojanja Početni centroid se često bira na slučajan način Klasteri mogu da se razlikuju - loši rezultati!! Uobičajeno je da je centroid srednja vrednost tačaka u klasteru sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.24
snovani na Algoritam konvergira za pomenute mere. Najveći deo konvergencije se dešava u prvih nekoliko iteracija Uslov zaustavljanja - broj tačaka koji promeni klaster Složenost: vremenska O(n K I d), prostorna O((n + K ) d) (n = broj tačaka, K = broj, I = broj iteracija, d = broj atributa) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.25
Evaluacija metode K-sredina Za podatke u Euklidskom prostoru se najčešće se kao mera koristi zbir kvadrata grešaka (eng. sum of squared errors, SSE) Za svaku tačku, greška je rastojanje do najbližeg centroida () Formalno SSE = K i=1 x C i dist(c i, x) 2 gde je x je tačka u klasteru C i i, c i je reprezentativna tačka u klasteru C i i snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.26
Evaluacija metode K-sredina Od dva moguća bira se onaj sa manjom SSE Različite mere rastojanja. Varijacija algoritma k-sredina je odredjivanje lokalnog Mahalanobisovog rastojanja Jedan od načina za smanjenje SSE je povećanje broja K Dobro sa malim K može da ima manju SSE grešku od lošeg sa velikim K snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.27
Evaluacija metode K-sredina Za dokumente se kao mera koristi kosinusno rastojanje Podaci se predstavljaju preko matrice termova Kohezija - stepen sličnosti dokumentata u klasteru sa centroidom Ukupna kohezija = K i=1 x C i cosinus(c i, x) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.28
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Optimalno i suboptimalno 6.29
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.30
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.31
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.32
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.33
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.34
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.35
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.36
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.37
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.38
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.39
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.40
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.41
Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.42
Izbor početnih centroida Ako postoji K realnih tada je verovatnoća da se izabere po jedan centroid u svakom od njih relativno mala Ako je K veliko šansa za dobar izbor je mala Ako klasteri imaju istu veličinu n, tada važi P = broj nacina za izbor centroida u svakom klasteru broj nacina za izbor K centroida P = K!nK (Kn) K = K! K K Na primer, za K=10, verovatnoća je 10!/10 1 0=0.00036 Ponekad se inicijalni centroidi sami poravnaju na pravi redosled, a ponekad ne snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.43
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.44
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.45
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.46
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.47
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.48
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.49
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.50
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.51
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.52
Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.53
Izbor početnih centroida Uzastopna izvršavanja Svaki sa npr. slučajno izabranim centroidima Izme du njih se izabere klaster sa najmanjim SSE Nad uzorcima se primeni hijerarhijsko i izaberu početni centroidi Izabere se više od K početnih centroida i bira se izme du njih Potrebno je da obuhvate što širi prostor Postprocesiranje Bisekcija K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.54
Preprocesiranje i postprocesiranje Preprocesiranje Normalizacija Eliminacija elemenata van granica (ne važi za svaku aplikaciju, npr. kompresija) Postprocesiranje Eliminacija malih sa elementima van granica Podela sa visokim SSE Integracija koji su blizu i imaju relativno mali SSE Ovi koraci mogu da se koriste u procesu klasterizacije snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.55
Rad sa praznim klasterima Osnovni algoritam može da proizvede praznne klastere snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Strategije za eliminaciju: zamenjuje se centroid 6.56
Algoritam bisekcije K-sredina Varijanta K-sredine koja može da proizvede particiono ili hijerarhijsko Osnovna ideja: za dobijanje K podeli se skup svih tačaka u dva, izabere se jedan od njih za podelu, uz ponavljanje postupka sve dok se ne dobije K Različiti načini podele najveći klaster klaster sa najvećim SSE kriterijum zasnovan i na veličini i na veličini SSE-a Često se dobijeni centroidi koriste za ulaz u osnovni K-sredina algoritam snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.57
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.58
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.59
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.60
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.61
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.62
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.63
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.64
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.65
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.66
Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.67
Najbolje radi sa globularnim podacima Nedostaci: ne funkcioniše za klastere proizvoljnog oblika ne funkcioniše za klastere različitih gustina osetljvost na elemente van granica. Mogu da dovedu do jediničnih ili praznih Rastojanje: Mahalanobis k-sredina prepoznaje klastere različitih gustina Problem: odredjivanje reprezentativnih predstavnika i k broja snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.68
Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.69
Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.70
Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.71
Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.72
Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.73
Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.74
Algoritam kernel k-sredina snovani na Kernel trik: transformacija tako da klaster proizvoljnog oblika u novom okruženju postaje pogodan za korišćenje Euklidskog rastojanja sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.75
snovani na Koristi se rastojanje taksi blok, odnosno Menhetn. Pokazuje se da reprezentativni predstavnik medijana po svakoj dimenziji C j. Manja osetljivost na elemente van granica sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.76
snovani na Koristi se rastojanje taksi blok, odnosno Menhetn. Razlog - uticaj elemenata van granica na medijanu Ponekad je teško da se izračuna centar za odredjene (složene) tipove sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.77
/* Skup : D, Broj reprezent. : k */ _sa (D, k) begin inicijalni izbor skupa reprezentativnih predstavnika S izborom iz D; repeat Formiraj klastere (C1,...Ck) dodelom svake tacke iz D najblizem predstavniku iz S koristeci funkciju rastojanja Dist(x,x); Odrediti par Xi iz D i Yj iz S tako da zamena Yj sa Xi daje najbolje moguce povecanje ciljne funkcije O; Izvrsiti zamenu Xi i Yj samo ako je povecanje pozitivno; until nema poboljsanja vrednosti funkcije; return (C1,..., Ck); end snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.78
Formiraju skup ugnježdenih organizovanih u obliku hijerahijskog drveta Vizuelizuju se u obliku dendograma ili dijagrama sa ugnejždenim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.79
Odozdo/naviše - sakupljajuće (eng. aglomerativno). Odozgo/naniže - razdvajajuće (eng. divisive) U oba slučaja formira se hijerahija Tradicionalni hijerarhijski algoritmi koriste matrice sličnosti ili matrice rastojanja Dele ili spajaju po jedan klaster u jednom koraku Inicijalno se ne navodi broj snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.80
sakupljajućeg snovani na U početku je svaka tačka jedan klaster U svakom koraku se sakuplja najbliži par u novi klaster sve dok ne ostane jedan (ili k) Glavna razlika izmedju algoritama ovog tipa je izbor funkcije na osnovu koje se vrši spajanje dva Problem - čuvanje matrice rastojanja sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.81
sakupljajućeg snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.82
sakupljajućeg snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.83
sakupljajućeg /* Podatak: D*/ Sakupljajuce_(D) begin inicijalizacija matrice rastojanja M dimenzije n x n na osnovu D; repeat Uzeti najblizi par i i j koristeci M; Kombinovati klastere i i j; Obrisati redove i kolone i i j iz M i formirati novi red i kolonu u M za novodobijeni klaster; Uneti novi red i kolonu u M; until kriterijum izlaska; return tekuci skup ; end snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.84
sakupljajućeg snovani na Odredjivanje rastojanja izmedju dva sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.85
sakupljajućeg snovani na Odredjivanje rastojanja izmedju dva sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.86
sakupljajućeg Najbolja (najmanja, pojedinačna) veza snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.87
sakupljajućeg Pogodnost najbolje veze: može da obradi ne-eliptičke klastere snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.88
sakupljajućeg Nedostaci najbolje veze: osetljivost na šum i elemente van granica snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.89
sakupljajućeg Najgora (najduža, kompletna) veza snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.90
sakupljajućeg Pogodnost najgore veze: otpornost na šum i elemente van granica snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.91
sakupljajućeg Nedostatak najgore veze: tendencija razbijanja velikih i naginjanje globularnim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.92
sakupljajućeg Sličnost : prosek rastojanja parova elemenata iz dva snovani na sakupljajućeg razdvajajućeg snovani na slicnost(x, y) x C i,y C j slicnost(c i, C j ) = m i m j Spoljašnji kriterijumi m i, m j broj elemenata C i, C j 6.93
sakupljajućeg Prosek rastojanja parova elemenata iz dva Kompromis izme du pojedinačne i kompletne veze Pogodnost: manje je osetljiva na šum i elemente van granica Nedostaci: naklonost ka globularnim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.94
sakupljajućeg Sličnost : rastojanje centroida snovani na Ward-ova metoda sličnost - povećanje kvadrata greške pri spajanju dva slično proseku rastojanja parova elemenata ako je mera rastojanja kvadrat greške manje je osetljiva na šum i elemente van granica naklonost ka globularnim klasterima Hijerarhijski analogon K-sredina; može da se korsiti za inicijalizaciju K-sredina sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.95
sakupljajućeg Rezultati različitim metodama snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.96
sakupljajućeg snovani na Vremenska i prostorna složenost Prostorna O(N 2 ) gde je N broj tačaka (zbog matrice sličnosti) Vremenska O(N 3 ): N koraka u kojima se računaju elemenati mastrice sličnosti (O(N 2 )) Može da se smanji na O(N 2 log(n)) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.97
sakupljajućeg Nedostaci sakupljajućeg hijerarhijskog Posle kombinovanja klasteri ne mogu da se razfvoje Ne postoji globalna funkcija koja se direktno minimizuje U zavisnosti od računanja rastojanja javljaju se osetljivost na šum i elemente van granica teškoće u obradi različitih veličina teškoće u obradi neglobularnih tendencija ka razbijanju velikih snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.98
Lance-Williams-ova formula za sličnost Neka je klaster R dobijen spajanjem A i B, i neka je p(.,.) funkcija sličnosti. Sličnost R i Q je jednaka p(r, Q) = α A p(a, Q)+α B p(b, Q)+βp(A, B)+γ p(a, Q) p(b, Q) Sve tehnike sakupljajućeg koje mogu da se predstave Lance-Williams-ovom formulom ne moraju da čuvaju originalne tačke, već je moguće da se matrica sličnosti ažurira kod svakog spajanja. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.99
Lance-Williams-ova formula za sličnost p(r, Q) = α A p(a, Q)+α B p(b, Q)+βp(A, B)+γ p(a, Q) p(b, Q) Metoda α A α B β γ Pojedinačna veza 1/2 1/2 0-1/2 Kompletna veza 1/2 1/2 0 1/2 m Prosek grupe A m B m A +m B m A +m B 0 0 m Centroid A m B m A m B m A +m B m A +m Q m A +m B +m Q m A +m B m B +m Q m A +m B +m Q (m A +m B ) 2 0 m Q m A +m B +m Q 0 Ward-ova metoda gde su m A, m B i m Q brojevi elementara u klasterima A, B i Q snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.100
razdvajajućeg Počinje se sa jednim klasterom koji uključuje sve tačke U svakom koraku se klaster deli sve dok se ne dodje do toga da svaki klaster sadrži samo jednu tačku ili dok se ne javi k Za deobu može da posluži bilo koji algoritam (na ravnom skupu ) Algoritam bisekcije k-sredina (podela se uvek vrši na 2 ) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.101
razdvajajućeg snovani na /* Podatak: D, Klasterovanje ravnih : A*/ Sakupljajuce_(D, A) begin inicijalizovati drvo T tako da koren sadrzi D; repeat Izabrati list drveta L u T na osnovu predefinisane strategije; Koristeci algoritam A razdvojiti L na L1,..., Lk; Dodati L1,..., Lk kao decu cvora L u T; until kriterijum izlaska; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.102
snovani na snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.103
snovni na mrežama snovani na /* Podatak: D, Gustina tacaka: t, Gustina mreze: p */ Klasterovanje_mreze(D, p, t) begin Diskretizovati svaku dimenziju podatka D u p vrednosti; Odrediti gustinu celija mreze za gustinu tacaka t; Napraviti grafik u kome su guste celije povezane ako su susedne; Odrediti veze delova grafa return tacke u svakoj povezanoj komponenti kao klaster; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.104
Za zadatu vrednost Eps i broj t, tacka se klasifikuje kao Tacka jezgra ako se u krugu poluprecnika Eps nalazi bar t drugih tacaka Tacka na granici ako se u krugu poluprecnika Eps nalazi manje od t druhih tacaka, ali se nalazi bar jedna tačka jezgra Šum ako nije niti u jezgru niti na granici. Konstruiše se graf povezivanjem svih tačaka u jezgru Svaka povezana celina predstavlja jedan klaster. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.105
snovani na /* Podatak: D, Poluprecnik: eps, Gustina tacaka: t */ (D, p, t) begin Odrediti jezgro, granicu i sum tacaka iz D za par (Eps, t); Formirati graf u kome su povezane tacke koje pripadaju jezgru ako su medjusobno unutar Eps; Odrediti povezane komponente grafa; Svaku tacku na granici dodeliti povezanoj komponenti sa kojom je najbolje povezana; return tacke svake povezane komponenti kao klaster; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.106
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.107
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.108
Pogodnost algoritma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.109
Nedostatak algoritma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.110
Odre divanje Eps i k Posmatra se ponašanje rastojanja od tačke do suseda za različito k Za tačke iz istog rastojanje je malo ako k nije veće od veličine Varijacije rastojanja nisu velike ako se gustina znatno ne menja Ako tačke nisu u klasteru (npr. šum) rastojanje je znatno veće Računaju se rastojanja za sve snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.111
Težak zadatak u realnom okruženju - nenadgledana klasifikacija Interni (unutrašnji) kriterijum jako zavisi od korišćenog algoritma U opštem slučaju nema spoljašnjeg kriterijuma koji je na raspolaganju za proveru Delimično, moguća je provera preko spoljašnjeg kriterijuma ako postoje sintetički generisani podaci za testiranje postoje oznake klasa snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.112
Zbir kvadrata rastojanja do centroida Pogodniji za algoritme sa računanjem rastojanja sa mrežama i gustinom? Kohezija i razdvajanje snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.113
(nastavak) Kohezija - zbir rastojanja svih veza u klasteru Razdvajanje - zbir rastojanja izme du elemenata u klasteru i elemenata van Odnos rastojanja u klasteru/van : manja vrednost - bolje Uzorak od r parova tačaka: P pripadaju istom klasteru, Q ostale Prosečna rastojanja u i van U klasteru = Van = (X i,x j ) P (X i,x j ) Q dist(x i, X j )/ P dist(x i, X j )/ Q snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.114
(nastavak) Senka koeficijent, eng. Silhouette coefficient AvgDisti in prosečno rastojanje X i do tačaka unutar kome pripapda x i ; AvgDisti out prosečno rastojanje X i do tačaka kome ne pripapda x i ; MinDisti out = min{avgdisti out } Koeficijent senke S i u odnosu na i-ti objekat S i = out MinDisti AvgDisti in max{mindist out i, AvgDist in i } Vrednosti bliske 1 - dobro razdvojeni klasteri; negativne vrednost - mešavina u klasterima Dobra osobina - apsolutna vrednost nosi informaciju o kvalitetu snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.115
(nastavak) Verovatnosna mera Model sa pomešanim podacima za procenu kvaliteta pojedinačnog Pretpostavka: centroid mešanih je centroid nadjenih Ostali parametri se računaju koristeći metodu sličnu EM (eng. expectation-maximization) algoritmu Korisno kada se znada klasteri trebaju da imaju specifičan oblik snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.116
Spoljašnji kriterijumi snovani na Spoljašnji kriterijum Moguć u slučaju sintetički generisanih Matrica konfuzije Različite mere - najčešće Ginijev indeks sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.117
Napredni koncepti snovani na Različite vrste za Kategorički podaci Diskretni podaci Višedimenzioni podaci Massivni (po količini) podaci sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.118
Napredni koncepti snovani na Odredjivanje kvaliteta Polunadgledano Interaktivno i vizuelno Meta(?) (eng. ensemble) celinom, bez obzira na pojedinačne vredosti sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.119
Klasterovanje kategoričkih Jedan način konverzija u binarne podatke Odredjivanje centroida za kategoričke podatke histogram verovatnoća za svaki atribut centroid - kategorička vrednost koja se javlja u najvećem procentu Računanje sličnosti kategoričkih Različiti algoritmi. Npr. ROCK (RObust Clustering using links) je zasnovan na sakupljajućem pristupu gde se klasteri kombinuju koristeći kriterijum sličnosti. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.120
Klasterovanje kategoričkih K-modalno Za svaki od atributa se odredjuje modalna vrednost (vrednost sa najvećom frekvencijom) Modalna vrednost svakog od atributa se odredjuje nezavisno u odnosu na vrednosti drugih atributa zbog čega odabrana reprezentativna vrednost ( centroid ) ne mora da pripada skupu k-modalno može efektivno da se koristi ako su vrednosti kategoričkih atributa ravnomerno rasporedjene Ako vrednosti kategoričkih atributa nisu ravnomerno rasporedjene vrši se normalizacija deobom frekvencije u klasteru sa frekvencijom u kompletnom skupu K-medoid - reprezentativna tačka je iz materijala snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.121
Klasterovanje skalabilnih Kompletni podaci ne mogu da se smeste u memoriju snovani na različitim metodama CLARA (Clustering Large Applications) i CLARANS (Clustering Large Applications on RANdomized Search) su zasnovani na uopštenju pristupa klasterovanju pomoću k-medoida CURE (Clustering Using REpresentatives) je sakupljajući algoritam za hijerarhijsko BIRCH (Balanced Iterative Reducing and Clustering using Hiearchies) predstavlja uopštenje algoritma k-sredina na hijerarhijsku metodu odozgo-naniže snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.122
Pogodne za (i za klasifikaciju) Slične KNN Uključuju topografsku organizaciju centroida (neurona) Svaki centroid je odre den parom koordinata Pri radu ažuriraju se tekući centroid i centroidi koji su mu u blizini po topografskoj orijentaciji snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.123
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.124
Osnovni algoritam Osnovni algoritam snovani na Inicijalizovati centroide repeat Izabrati sledeci objekat Odrediti najblizi centroid izabranom objektu Azurirati centroid i susedne centroide (centroide koji su u blizini) until Centroidi se ne menjaju /dostignut je prag Dodeliti svaki objekat najblizem centroidu i vratiti centroide i klastere sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.125
Osnovni algoritam - koraci Incijalizacija slučajan izbor centroida u intervalu posmatranih vrednosti slučajan izbor tačaka za centroide Izbor objekta ako je broj objekata jako veliki, ne koriste se svi Odre divanje najbližeg centroida metrike rastojanja (euklidsko/kosinusno rastojanje) Ažuriranje centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Terminiranje 6.126
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.127
Ažuriranje centroida Neka su m 1,..., m k centroidi Neka je p(t) tekući objekat u trenutku t i neka je njemu najbliži centroid m j U trenutku t + 1 j-ti centroid se ažurira m j (t + 1) = m j (t) + h j (t)(p(t) m j (t)) h(t) odre duje efekat razlike i obično se bira ili dist(r j,r k ) 2 h j (t) = α(t)e 2σ 2 (t) h j (t) = (Gausova funkcija) { α(t) ako dist(r j, r k ) prag 0 inace gde je 0 < α(t) < 1, r k = (x k, y k ) su koordinate centroida, a dist(r j, r k ) je Euklidsko rastojanje izme du dva centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.128
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.129
Prednosti i ograničenja Prednosti Susedni klasteri su više u relaciji od nesusednih Pogodno za vizuelizaciju odre duje strukturu Nedostaci Potreban odabir parametara, funkcije za računaje susedstva i izbor centroida klaster ne odgovara prirodnom klasteru (može da sadrži više prirodnih ali i jedan prirodni klaster može da se razbije na više ) Nedostaje specifična funkcija objekta kojom može da se izrazi postupak Nema garancije za konvergenciju, mada u praksi često konvergira snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.130
snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.131