Klaster analiza

Слични документи
Mere slicnosti

Drveta odlucivanja - algoritmi

PowerPoint Presentation

08 RSA1

Uvod u statistiku

Verovatnoća - kolokvijum 17. decembar Profesor daje dva tipa ispita,,,težak ispit i,,lak ispit. Verovatnoća da student dobije težak ispit je

P11.3 Analiza zivotnog veka, Graf smetnji

PowerPoint Presentation

Classroom Expectations

PRIRODNO MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA RAČUNARSKE NAUKE Utorak, godine PRIJEMNI ISPIT IZ INFORMATIKE 1. Koja od navedenih ekste

PowerPoint Presentation

Рачунарска интелигенција

ТЕОРИЈА УЗОРАКА 2

Slide 1

P9.1 Dodela resursa, Bojenje grafa

Tеорија одлучивања

Техничко решење: Метода мерења ефективне вредности сложенопериодичног сигнала Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић

Grafovi 1. Posmatrajmo graf prikazan na slici sa desne strane. a) Odrediti skup čvorova V i skup grana E posmatranog grafa. Za svaku granu posebno odr

Техничко решење: Метода мерења реактивне снаге у сложенопериодичном режиму Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић Аут

Tutoring System for Distance Learning of Java Programming Language

Slide 1

PowerPoint Presentation

Metode izbora lokacije

Рационални Бројеви Скуп рационалних бројева 1. Из скупа { 3 4, 2, 4, 11, 0, , 1 5, 12 3 } издвој подскуп: а) природних бројева; б) целих броје

Programiranje u C-u ili C++-u Pseudo-slučajni brojevi; Dinamička alokacija memorije 1 ZADACI SA ČASA Zadatak 1 Napraviti funkciju koja generišlučajan

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

Funkcije predavač: Nadežda Jakšić

Funkcije predavač: Nadežda Jakšić

Microsoft Word - ETH2_EM_Amperov i generalisani Amperov zakon - za sajt

PowerPoint Presentation

Microsoft PowerPoint - vezbe 4. Merenja u telekomunikacionim mrežama

Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: min c T x Ax = b x 0 x Z n Gde pretpostavljamo da je A celobrojna matrica

Slide 1

DUBINSKA ANALIZA PODATAKA

Ravno kretanje krutog tela

Microsoft Word - AIDA2kolokvijumRsmerResenja.doc

untitled

PowerPoint Presentation

Kombinatorno testiranje

SVEUČILIŠTE U ZAGREBU PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK Nina Šunjo VIŠESTRUKA REGRESIJA I PROGNOZA UKUPNE AKCIJSKE PRODAJE Diploms

Microsoft PowerPoint - 03-Slozenost [Compatibility Mode]

Математика основни ниво 1. Одреди елементе скупова A, B, C: a) б) A = B = C = 2. Запиши елементе скупова A, B, C на основу слике: A = B = C = 3. Броје

6-8. ČAS Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: Gde pretpostavljamo da je A celobrojna matrica dimenzije,. Takođe

Microsoft PowerPoint - jkoren10.ppt

1

Microsoft Word - 13pavliskova

1 Polinomi jedne promenljive Neka je K polje. Izraz P (x) = a 0 + a 1 x + + a n x n = n a k x k, x K, naziva se algebarski polinom po x nad poljem K.

Р273 Пројектовање база података Примери питања за колоквијум 1. Навести најважније моделе података кроз историју рачунарства до данас. 2. Објаснити ос

Microsoft PowerPoint - C-4-1

Analiticka geometrija

Matematka 1 Zadaci za vežbe Oktobar Uvod 1.1. Izračunati vrednost izraza (bez upotrebe pomoćnih sredstava): ( ) [ a) : b) 3 3

РЕШЕЊА 1. (2) Обележја статистичких јединица посматрања су: а) особине које су заједничке за јединице посматрања б) особине које се проучавају, а подр

My_ST_FTNIspiti_Free

2015_k2_z12.dvi

Model podataka

The Contemporary Systems Development Project Landscape

Algoritmi

Projektovanje informacionih sistema i baze podataka

QFD METODA – PRIMER

Osnovni pojmovi teorije verovatnoce

VEŽBA 5: KLASE I OBJEKTI U C# Cilj ove vežbe je upoznavanje sa osnovama rada sa klasama i objektima u programskom jeziku C#. Pored toga, bide demonstr

Problemi zadovoljavanja ogranicenja.

STABILNOST SISTEMA

NAPOMENA: Studenti na ispit donose kod urađenog zadatka

Konstrukcija i analiza algoritama vežbe 10 Nina Radojičić 15. decembar Algoritamske strategije - podeli pa vladaj (divide and conquer) Ova stra

MIP-heuristike (Matheuristike) Hibridi izmedu metaheurističkih i egzaktnih metoda Tatjana Davidović Matematički institut SANU

Прва економска школа Београд РЕПУБЛИЧКО ТАКМИЧЕЊЕ ИЗ СТАТИСТИКЕ март године ОПШТЕ ИНФОРМАЦИЈЕ И УПУТСТВО ЗА РАД Укупан број такмичарских

Slide 1

Microsoft PowerPoint - Ekoloska (city) logistika 8.3

Математика 1. Посматрај слику и одреди елементе скуупова: а) б) в) средњи ниво А={ } B={ } А B={ } А B={ } А B={ } B А={ } А={ } B={ } А B={ } А B={ }

DR DRAGOŚ CVETKOVIC DR SLOBODAN SIMIC DISKRETNA MATEMATIKA MATEMATIKA ZA KOMPJUTERSKE NAUKĘ DRUGO ISPRAYLJENO I PROSIRENO IZDANJE HMUJ

Орт колоквијум

Република Србија МИНИСТАРСТВО ПРОСВЕТЕ, НАУКЕ И ТЕХНОЛОШКОГ РАЗВОЈА ЗАВОД ЗА ВРЕДНОВАЊЕ КВАЛИТЕТА ОБРАЗОВАЊА И ВАСПИТАЊА ЗАВРШНИ ИСПИТ У ОСНОВНОМ ОБРА

Microsoft Word - Matematika_kozep_irasbeli_javitasi_0802.doc

Maksimalni protok kroz mrežu - Ford-Fulkerson, Edmonds-Karp

DISKRETNA MATEMATIKA

СТРАХИЊА РАДИЋ КЛАСИФИКАЦИJА ИЗОМЕТРИJА И СЛИЧНОСТИ Према књизи [1], свака изометриjа σ се може представити ком позици - jом неке транслациjе за векто

Microsoft Word - CAD sistemi

Broj indeksa:

MATEMATIKA EKSTERNA PROVJERA ZNANJA UČENIKA NA KRAJU III CIKLUSA OSNOVNE ŠKOLE UPUTSTVO VRIJEME RJEŠAVANJA TESTA: 70 MINUTA Pribor: grafitna olovka i

Postojanost boja

Microsoft PowerPoint - Predavanje3.ppt

(Microsoft Word - LOCIRANJE ROBE U SKLADI\212TU-vezbe doc)

Veeeeeliki brojevi

Microsoft PowerPoint - Topic02 - Serbian.ppt

Inženjering informacionih sistema

EFIKASNO MODELIRANJE REALNIH OPTIMIZACIONIH PROBLEMA Tatjana Davidović Matematički institut SANU tanjad

Microsoft PowerPoint - Topic02 - Serbian.ppt

Numeričke metode u fizici 1, Projektni zadataci 2018./ Za sustav običnih diferencijalnih jednadžbi, koje opisuju kretanje populacije dviju vrs

Sadržaj 1 Diskretan slučajan vektor Definicija slučajnog vektora Diskretan slučajan vektor

06 Poverljivost simetricnih algoritama1

Tutoring System for Distance Learning of Java Programming Language

ФАКУЛТЕТ ОРГАНИЗАЦИОНИХ НАУКА

УНИВЕРЗИТЕТ У НИШУ ПРИРОДНО-МАТЕМАТИЧКИ ФАКУЛТЕТ Департман за рачунарске науке Писмени део испита из предмета Увод у рачунарство 1. [7 пое

OOP1 - domaci 2 (2004/05)

(Microsoft Word - Dr\236avna matura - studeni osnovna razina - rje\232enja)

Technology management performance indicators in global country rankings

Paper Title (use style: paper title)

Profajliranje ivica: Knutov algoritam i njegova unapredenja Seminarski rad u okviru kursa Verifikacija softvera Matematički fakultet Nevena Nikolić, 1

Транскрипт:

Klaster analiza Nenad Mitić Matematički fakultet nenad@matf.bg.ac.rs

Šta je klaster analiza? Pronalaženje grupa objekata takvih da su objekti u grupi medjusobno slični (ili povezani), i da su objekti u različitim grupama medjusobno različiti (ili nepovezani) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.2

Šta nije klaster analiza? snovani na Klasifikacija pod nadzorom Jednostavna podela (npr. podela studenata po prvom slovu prezimena) Rezultat upita Podela grafa sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.3

Dvosmislenost pojma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.4

Tipovi Klasterovanje je postupak dobijanja Particiono - podela skupa u nepreklapajuće podskupove (klastere) takve da je svaki podatak tačno u jednom podskupu Hijerarhijsko - skup ugnježdenih organizovan u obliku hijerarhijskog drveta snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.5

Particiono snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.6

Hijerarhijsko snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.7

Tipovi Eksluzivno/neeksluzivno. U neeksluzivnom klasterovanju tačke mogu da se nalaze u više. Mogu da predstavljaju više klasa ili graničnih tačaka Rasplinuto/nerasplinuto. U rasplinutom klasterovanju tačka pripada svakom klasteru sa nekom težinom izmedju 0 i 1 (zbir svih težina je jednak 1) Delimično/kompletno (klasteruje se samo deo ) Heterogeno/homogeno (klasteri različite veličine, oblika i gustine) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.8

Tipovi Dobro razdvojeni klasteri (eng. well-separated) snovani na Klaster je skup tačaka takvih da je bilo koja tačka u klasteru bliže (ili više slična) ostalim tačkama u klasteru nego tačkama koje nisu u klasteru Klasteri zasnovani na centru (eng. center-based, prototype-based) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Klaster je skup objekata takvih da je bilo koji objekat u klasteru bliže (ili više sličan) prototipu ( centru ) u odnosu na prototipove (centre) ostalih. Centar je često centroid (prosek svih tačaka u klasteru) ili medoid (najreprezentativnija tačka u klasteru) 6.9

Tipovi (nastavak) Klasteri zasnovani na susedstvu (eng. contiguous) snovani na Klaster je skup tačaka takvih da je tačka u klasteru bliža (ili više slična) jednoj ili više tačaka u klasteru nego bilo kojoj tački koja nije u klasteru Klasteri zasnovani na gustini (eng. density-based) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Klasteri su oblasti sa velikom gustinom tačaka koje su razdvojene oblastima sa malom gustinom tačaka. Koriste se kada su klasteri nepravilni ili isprepleteni, i kada je prisutan šum ili elementi van granica 6.10

Tipovi (nastavak) snovani na Klasteri zasnovani na grafovima Konceptualni klasteri/ na osnovu zajedničkih osobina (eng. conceptual) sakupljajućeg razdvajajućeg snovani na Opisani ciljnom funkcijom (eng. described by an objective function) Spoljašnji kriterijumi 6.11

Cilj: uklanjanje elemenata van granica Modeli sa filtriranjem: svakoj karakteristici se dodeli odredjena vrednost koja predstavlja granicu za isključivanje Modeli sa omotačem: algoritam za se koristi da bi se odredila važnost skupa karakteristika Neke karakteristike : tip podatka, dimenzionalnost, tip atributa, tip raspodele, raštrkasnost, gustina,... snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.12

Vrste algoritama za zasnovani na (prototipovima) hijerarhijskog zasnovani na zasnovani na verovatnosnim modelima zasnovani na grafovima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.13

snovani na Osnovni princip: uzima se k reprezentativnih predstavnika Y 1, Y 2,... Y k, gde je k broj traženih i računa rastojanje tačaka X 1, X 2,..., X n do njih. Cilj je tako odrediti reprezentativne predstavnike koji minimizuju funkciju snovani na sakupljajućeg razdvajajućeg O = n [min j Dist(X i, Y j )] i=1 snovani na Funkcije rastojanja i reprezentativni predstavnici mogu da se biraju na različite načine. Spoljašnji kriterijumi 6.14

snovani na podacima snovani na /* Skup : D, Broj reprezent. : k */ _sa (D, k) begin inicijalni izbor skupa reprezentativnih predstavnika S; repeat Formiraj klastere (C1,...Ck) dodelom svake tacke iz D najblizem predstavniku iz S koristeci funkciju rastojanja Dist(x,x); Ponovo formiraj S odredjivanjem novog predstavnika Yj za svaki Cj koji minimizuje prethodnu funkciju O until doslo je do konvergencije; return (C1,..., Ck); end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.15

Pristup particionim m, model sa prototipom Svakom klasteru je pridružen centroid (centralna tačka) K broj koji mora da se navede Svaka tačka je dodeljena klasteru sa najbližim centroidom. Na primer, pripadnost klasteru se odredjuje pomoću zbira kvadarata Euklidskog rastojanja (kosinusnog rastojanja,...) do najbližeg reprezentativnih predstavnika Dist(X, Y ) = X i Y 2 snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.16

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.17

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.18

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.19

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.20

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.21

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.22

: primer snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.23

snovani na Različite mere rastojanja. Varijacija algoritma k-sredina je odredjivanje lokalnog Mahalanobisovog rastojanja Početni centroid se često bira na slučajan način Klasteri mogu da se razlikuju - loši rezultati!! Uobičajeno je da je centroid srednja vrednost tačaka u klasteru sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.24

snovani na Algoritam konvergira za pomenute mere. Najveći deo konvergencije se dešava u prvih nekoliko iteracija Uslov zaustavljanja - broj tačaka koji promeni klaster Složenost: vremenska O(n K I d), prostorna O((n + K ) d) (n = broj tačaka, K = broj, I = broj iteracija, d = broj atributa) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.25

Evaluacija metode K-sredina Za podatke u Euklidskom prostoru se najčešće se kao mera koristi zbir kvadrata grešaka (eng. sum of squared errors, SSE) Za svaku tačku, greška je rastojanje do najbližeg centroida () Formalno SSE = K i=1 x C i dist(c i, x) 2 gde je x je tačka u klasteru C i i, c i je reprezentativna tačka u klasteru C i i snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.26

Evaluacija metode K-sredina Od dva moguća bira se onaj sa manjom SSE Različite mere rastojanja. Varijacija algoritma k-sredina je odredjivanje lokalnog Mahalanobisovog rastojanja Jedan od načina za smanjenje SSE je povećanje broja K Dobro sa malim K može da ima manju SSE grešku od lošeg sa velikim K snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.27

Evaluacija metode K-sredina Za dokumente se kao mera koristi kosinusno rastojanje Podaci se predstavljaju preko matrice termova Kohezija - stepen sličnosti dokumentata u klasteru sa centroidom Ukupna kohezija = K i=1 x C i cosinus(c i, x) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.28

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Optimalno i suboptimalno 6.29

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.30

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.31

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.32

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.33

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.34

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.35

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.36

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.37

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.38

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.39

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.40

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.41

Važnost izbora početnog centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.42

Izbor početnih centroida Ako postoji K realnih tada je verovatnoća da se izabere po jedan centroid u svakom od njih relativno mala Ako je K veliko šansa za dobar izbor je mala Ako klasteri imaju istu veličinu n, tada važi P = broj nacina za izbor centroida u svakom klasteru broj nacina za izbor K centroida P = K!nK (Kn) K = K! K K Na primer, za K=10, verovatnoća je 10!/10 1 0=0.00036 Ponekad se inicijalni centroidi sami poravnaju na pravi redosled, a ponekad ne snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.43

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.44

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.45

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.46

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.47

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.48

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.49

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.50

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.51

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.52

Izbor početnih centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.53

Izbor početnih centroida Uzastopna izvršavanja Svaki sa npr. slučajno izabranim centroidima Izme du njih se izabere klaster sa najmanjim SSE Nad uzorcima se primeni hijerarhijsko i izaberu početni centroidi Izabere se više od K početnih centroida i bira se izme du njih Potrebno je da obuhvate što širi prostor Postprocesiranje Bisekcija K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.54

Preprocesiranje i postprocesiranje Preprocesiranje Normalizacija Eliminacija elemenata van granica (ne važi za svaku aplikaciju, npr. kompresija) Postprocesiranje Eliminacija malih sa elementima van granica Podela sa visokim SSE Integracija koji su blizu i imaju relativno mali SSE Ovi koraci mogu da se koriste u procesu klasterizacije snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.55

Rad sa praznim klasterima Osnovni algoritam može da proizvede praznne klastere snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Strategije za eliminaciju: zamenjuje se centroid 6.56

Algoritam bisekcije K-sredina Varijanta K-sredine koja može da proizvede particiono ili hijerarhijsko Osnovna ideja: za dobijanje K podeli se skup svih tačaka u dva, izabere se jedan od njih za podelu, uz ponavljanje postupka sve dok se ne dobije K Različiti načini podele najveći klaster klaster sa najvećim SSE kriterijum zasnovan i na veličini i na veličini SSE-a Često se dobijeni centroidi koriste za ulaz u osnovni K-sredina algoritam snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.57

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.58

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.59

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.60

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.61

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.62

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.63

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.64

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.65

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.66

Algoritam bisekcije K-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.67

Najbolje radi sa globularnim podacima Nedostaci: ne funkcioniše za klastere proizvoljnog oblika ne funkcioniše za klastere različitih gustina osetljvost na elemente van granica. Mogu da dovedu do jediničnih ili praznih Rastojanje: Mahalanobis k-sredina prepoznaje klastere različitih gustina Problem: odredjivanje reprezentativnih predstavnika i k broja snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.68

Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.69

Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.70

Ograničenja algoritma k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.71

Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.72

Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.73

Prevazilaženje ograničenja alg. k-sredina snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.74

Algoritam kernel k-sredina snovani na Kernel trik: transformacija tako da klaster proizvoljnog oblika u novom okruženju postaje pogodan za korišćenje Euklidskog rastojanja sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.75

snovani na Koristi se rastojanje taksi blok, odnosno Menhetn. Pokazuje se da reprezentativni predstavnik medijana po svakoj dimenziji C j. Manja osetljivost na elemente van granica sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.76

snovani na Koristi se rastojanje taksi blok, odnosno Menhetn. Razlog - uticaj elemenata van granica na medijanu Ponekad je teško da se izračuna centar za odredjene (složene) tipove sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.77

/* Skup : D, Broj reprezent. : k */ _sa (D, k) begin inicijalni izbor skupa reprezentativnih predstavnika S izborom iz D; repeat Formiraj klastere (C1,...Ck) dodelom svake tacke iz D najblizem predstavniku iz S koristeci funkciju rastojanja Dist(x,x); Odrediti par Xi iz D i Yj iz S tako da zamena Yj sa Xi daje najbolje moguce povecanje ciljne funkcije O; Izvrsiti zamenu Xi i Yj samo ako je povecanje pozitivno; until nema poboljsanja vrednosti funkcije; return (C1,..., Ck); end snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.78

Formiraju skup ugnježdenih organizovanih u obliku hijerahijskog drveta Vizuelizuju se u obliku dendograma ili dijagrama sa ugnejždenim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.79

Odozdo/naviše - sakupljajuće (eng. aglomerativno). Odozgo/naniže - razdvajajuće (eng. divisive) U oba slučaja formira se hijerahija Tradicionalni hijerarhijski algoritmi koriste matrice sličnosti ili matrice rastojanja Dele ili spajaju po jedan klaster u jednom koraku Inicijalno se ne navodi broj snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.80

sakupljajućeg snovani na U početku je svaka tačka jedan klaster U svakom koraku se sakuplja najbliži par u novi klaster sve dok ne ostane jedan (ili k) Glavna razlika izmedju algoritama ovog tipa je izbor funkcije na osnovu koje se vrši spajanje dva Problem - čuvanje matrice rastojanja sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.81

sakupljajućeg snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.82

sakupljajućeg snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.83

sakupljajućeg /* Podatak: D*/ Sakupljajuce_(D) begin inicijalizacija matrice rastojanja M dimenzije n x n na osnovu D; repeat Uzeti najblizi par i i j koristeci M; Kombinovati klastere i i j; Obrisati redove i kolone i i j iz M i formirati novi red i kolonu u M za novodobijeni klaster; Uneti novi red i kolonu u M; until kriterijum izlaska; return tekuci skup ; end snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.84

sakupljajućeg snovani na Odredjivanje rastojanja izmedju dva sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.85

sakupljajućeg snovani na Odredjivanje rastojanja izmedju dva sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.86

sakupljajućeg Najbolja (najmanja, pojedinačna) veza snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.87

sakupljajućeg Pogodnost najbolje veze: može da obradi ne-eliptičke klastere snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.88

sakupljajućeg Nedostaci najbolje veze: osetljivost na šum i elemente van granica snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.89

sakupljajućeg Najgora (najduža, kompletna) veza snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.90

sakupljajućeg Pogodnost najgore veze: otpornost na šum i elemente van granica snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.91

sakupljajućeg Nedostatak najgore veze: tendencija razbijanja velikih i naginjanje globularnim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.92

sakupljajućeg Sličnost : prosek rastojanja parova elemenata iz dva snovani na sakupljajućeg razdvajajućeg snovani na slicnost(x, y) x C i,y C j slicnost(c i, C j ) = m i m j Spoljašnji kriterijumi m i, m j broj elemenata C i, C j 6.93

sakupljajućeg Prosek rastojanja parova elemenata iz dva Kompromis izme du pojedinačne i kompletne veze Pogodnost: manje je osetljiva na šum i elemente van granica Nedostaci: naklonost ka globularnim klasterima snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.94

sakupljajućeg Sličnost : rastojanje centroida snovani na Ward-ova metoda sličnost - povećanje kvadrata greške pri spajanju dva slično proseku rastojanja parova elemenata ako je mera rastojanja kvadrat greške manje je osetljiva na šum i elemente van granica naklonost ka globularnim klasterima Hijerarhijski analogon K-sredina; može da se korsiti za inicijalizaciju K-sredina sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.95

sakupljajućeg Rezultati različitim metodama snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.96

sakupljajućeg snovani na Vremenska i prostorna složenost Prostorna O(N 2 ) gde je N broj tačaka (zbog matrice sličnosti) Vremenska O(N 3 ): N koraka u kojima se računaju elemenati mastrice sličnosti (O(N 2 )) Može da se smanji na O(N 2 log(n)) sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.97

sakupljajućeg Nedostaci sakupljajućeg hijerarhijskog Posle kombinovanja klasteri ne mogu da se razfvoje Ne postoji globalna funkcija koja se direktno minimizuje U zavisnosti od računanja rastojanja javljaju se osetljivost na šum i elemente van granica teškoće u obradi različitih veličina teškoće u obradi neglobularnih tendencija ka razbijanju velikih snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.98

Lance-Williams-ova formula za sličnost Neka je klaster R dobijen spajanjem A i B, i neka je p(.,.) funkcija sličnosti. Sličnost R i Q je jednaka p(r, Q) = α A p(a, Q)+α B p(b, Q)+βp(A, B)+γ p(a, Q) p(b, Q) Sve tehnike sakupljajućeg koje mogu da se predstave Lance-Williams-ovom formulom ne moraju da čuvaju originalne tačke, već je moguće da se matrica sličnosti ažurira kod svakog spajanja. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.99

Lance-Williams-ova formula za sličnost p(r, Q) = α A p(a, Q)+α B p(b, Q)+βp(A, B)+γ p(a, Q) p(b, Q) Metoda α A α B β γ Pojedinačna veza 1/2 1/2 0-1/2 Kompletna veza 1/2 1/2 0 1/2 m Prosek grupe A m B m A +m B m A +m B 0 0 m Centroid A m B m A m B m A +m B m A +m Q m A +m B +m Q m A +m B m B +m Q m A +m B +m Q (m A +m B ) 2 0 m Q m A +m B +m Q 0 Ward-ova metoda gde su m A, m B i m Q brojevi elementara u klasterima A, B i Q snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.100

razdvajajućeg Počinje se sa jednim klasterom koji uključuje sve tačke U svakom koraku se klaster deli sve dok se ne dodje do toga da svaki klaster sadrži samo jednu tačku ili dok se ne javi k Za deobu može da posluži bilo koji algoritam (na ravnom skupu ) Algoritam bisekcije k-sredina (podela se uvek vrši na 2 ) snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.101

razdvajajućeg snovani na /* Podatak: D, Klasterovanje ravnih : A*/ Sakupljajuce_(D, A) begin inicijalizovati drvo T tako da koren sadrzi D; repeat Izabrati list drveta L u T na osnovu predefinisane strategije; Koristeci algoritam A razdvojiti L na L1,..., Lk; Dodati L1,..., Lk kao decu cvora L u T; until kriterijum izlaska; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.102

snovani na snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.103

snovni na mrežama snovani na /* Podatak: D, Gustina tacaka: t, Gustina mreze: p */ Klasterovanje_mreze(D, p, t) begin Diskretizovati svaku dimenziju podatka D u p vrednosti; Odrediti gustinu celija mreze za gustinu tacaka t; Napraviti grafik u kome su guste celije povezane ako su susedne; Odrediti veze delova grafa return tacke u svakoj povezanoj komponenti kao klaster; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.104

Za zadatu vrednost Eps i broj t, tacka se klasifikuje kao Tacka jezgra ako se u krugu poluprecnika Eps nalazi bar t drugih tacaka Tacka na granici ako se u krugu poluprecnika Eps nalazi manje od t druhih tacaka, ali se nalazi bar jedna tačka jezgra Šum ako nije niti u jezgru niti na granici. Konstruiše se graf povezivanjem svih tačaka u jezgru Svaka povezana celina predstavlja jedan klaster. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.105

snovani na /* Podatak: D, Poluprecnik: eps, Gustina tacaka: t */ (D, p, t) begin Odrediti jezgro, granicu i sum tacaka iz D za par (Eps, t); Formirati graf u kome su povezane tacke koje pripadaju jezgru ako su medjusobno unutar Eps; Odrediti povezane komponente grafa; Svaku tacku na granici dodeliti povezanoj komponenti sa kojom je najbolje povezana; return tacke svake povezane komponenti kao klaster; end sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.106

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.107

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.108

Pogodnost algoritma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.109

Nedostatak algoritma snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.110

Odre divanje Eps i k Posmatra se ponašanje rastojanja od tačke do suseda za različito k Za tačke iz istog rastojanje je malo ako k nije veće od veličine Varijacije rastojanja nisu velike ako se gustina znatno ne menja Ako tačke nisu u klasteru (npr. šum) rastojanje je znatno veće Računaju se rastojanja za sve snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.111

Težak zadatak u realnom okruženju - nenadgledana klasifikacija Interni (unutrašnji) kriterijum jako zavisi od korišćenog algoritma U opštem slučaju nema spoljašnjeg kriterijuma koji je na raspolaganju za proveru Delimično, moguća je provera preko spoljašnjeg kriterijuma ako postoje sintetički generisani podaci za testiranje postoje oznake klasa snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.112

Zbir kvadrata rastojanja do centroida Pogodniji za algoritme sa računanjem rastojanja sa mrežama i gustinom? Kohezija i razdvajanje snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.113

(nastavak) Kohezija - zbir rastojanja svih veza u klasteru Razdvajanje - zbir rastojanja izme du elemenata u klasteru i elemenata van Odnos rastojanja u klasteru/van : manja vrednost - bolje Uzorak od r parova tačaka: P pripadaju istom klasteru, Q ostale Prosečna rastojanja u i van U klasteru = Van = (X i,x j ) P (X i,x j ) Q dist(x i, X j )/ P dist(x i, X j )/ Q snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.114

(nastavak) Senka koeficijent, eng. Silhouette coefficient AvgDisti in prosečno rastojanje X i do tačaka unutar kome pripapda x i ; AvgDisti out prosečno rastojanje X i do tačaka kome ne pripapda x i ; MinDisti out = min{avgdisti out } Koeficijent senke S i u odnosu na i-ti objekat S i = out MinDisti AvgDisti in max{mindist out i, AvgDist in i } Vrednosti bliske 1 - dobro razdvojeni klasteri; negativne vrednost - mešavina u klasterima Dobra osobina - apsolutna vrednost nosi informaciju o kvalitetu snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.115

(nastavak) Verovatnosna mera Model sa pomešanim podacima za procenu kvaliteta pojedinačnog Pretpostavka: centroid mešanih je centroid nadjenih Ostali parametri se računaju koristeći metodu sličnu EM (eng. expectation-maximization) algoritmu Korisno kada se znada klasteri trebaju da imaju specifičan oblik snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.116

Spoljašnji kriterijumi snovani na Spoljašnji kriterijum Moguć u slučaju sintetički generisanih Matrica konfuzije Različite mere - najčešće Ginijev indeks sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.117

Napredni koncepti snovani na Različite vrste za Kategorički podaci Diskretni podaci Višedimenzioni podaci Massivni (po količini) podaci sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.118

Napredni koncepti snovani na Odredjivanje kvaliteta Polunadgledano Interaktivno i vizuelno Meta(?) (eng. ensemble) celinom, bez obzira na pojedinačne vredosti sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.119

Klasterovanje kategoričkih Jedan način konverzija u binarne podatke Odredjivanje centroida za kategoričke podatke histogram verovatnoća za svaki atribut centroid - kategorička vrednost koja se javlja u najvećem procentu Računanje sličnosti kategoričkih Različiti algoritmi. Npr. ROCK (RObust Clustering using links) je zasnovan na sakupljajućem pristupu gde se klasteri kombinuju koristeći kriterijum sličnosti. snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.120

Klasterovanje kategoričkih K-modalno Za svaki od atributa se odredjuje modalna vrednost (vrednost sa najvećom frekvencijom) Modalna vrednost svakog od atributa se odredjuje nezavisno u odnosu na vrednosti drugih atributa zbog čega odabrana reprezentativna vrednost ( centroid ) ne mora da pripada skupu k-modalno može efektivno da se koristi ako su vrednosti kategoričkih atributa ravnomerno rasporedjene Ako vrednosti kategoričkih atributa nisu ravnomerno rasporedjene vrši se normalizacija deobom frekvencije u klasteru sa frekvencijom u kompletnom skupu K-medoid - reprezentativna tačka je iz materijala snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.121

Klasterovanje skalabilnih Kompletni podaci ne mogu da se smeste u memoriju snovani na različitim metodama CLARA (Clustering Large Applications) i CLARANS (Clustering Large Applications on RANdomized Search) su zasnovani na uopštenju pristupa klasterovanju pomoću k-medoida CURE (Clustering Using REpresentatives) je sakupljajući algoritam za hijerarhijsko BIRCH (Balanced Iterative Reducing and Clustering using Hiearchies) predstavlja uopštenje algoritma k-sredina na hijerarhijsku metodu odozgo-naniže snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.122

Pogodne za (i za klasifikaciju) Slične KNN Uključuju topografsku organizaciju centroida (neurona) Svaki centroid je odre den parom koordinata Pri radu ažuriraju se tekući centroid i centroidi koji su mu u blizini po topografskoj orijentaciji snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.123

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.124

Osnovni algoritam Osnovni algoritam snovani na Inicijalizovati centroide repeat Izabrati sledeci objekat Odrediti najblizi centroid izabranom objektu Azurirati centroid i susedne centroide (centroide koji su u blizini) until Centroidi se ne menjaju /dostignut je prag Dodeliti svaki objekat najblizem centroidu i vratiti centroide i klastere sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.125

Osnovni algoritam - koraci Incijalizacija slučajan izbor centroida u intervalu posmatranih vrednosti slučajan izbor tačaka za centroide Izbor objekta ako je broj objekata jako veliki, ne koriste se svi Odre divanje najbližeg centroida metrike rastojanja (euklidsko/kosinusno rastojanje) Ažuriranje centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi Terminiranje 6.126

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.127

Ažuriranje centroida Neka su m 1,..., m k centroidi Neka je p(t) tekući objekat u trenutku t i neka je njemu najbliži centroid m j U trenutku t + 1 j-ti centroid se ažurira m j (t + 1) = m j (t) + h j (t)(p(t) m j (t)) h(t) odre duje efekat razlike i obično se bira ili dist(r j,r k ) 2 h j (t) = α(t)e 2σ 2 (t) h j (t) = (Gausova funkcija) { α(t) ako dist(r j, r k ) prag 0 inace gde je 0 < α(t) < 1, r k = (x k, y k ) su koordinate centroida, a dist(r j, r k ) je Euklidsko rastojanje izme du dva centroida snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.128

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.129

Prednosti i ograničenja Prednosti Susedni klasteri su više u relaciji od nesusednih Pogodno za vizuelizaciju odre duje strukturu Nedostaci Potreban odabir parametara, funkcije za računaje susedstva i izbor centroida klaster ne odgovara prirodnom klasteru (može da sadrži više prirodnih ali i jedan prirodni klaster može da se razbije na više ) Nedostaje specifična funkcija objekta kojom može da se izrazi postupak Nema garancije za konvergenciju, mada u praksi često konvergira snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.130

snovani na sakupljajućeg razdvajajućeg snovani na Spoljašnji kriterijumi 6.131