Univerzitet u Ni²u Prirodno - matemati ki fakultet Departman za matematiku KLASTER ANALIZA U STATISTIƒKOM ZAKLjUƒIVANjU Master rad Student: Katarina M

Слични документи
3. Neprekinute funkcije U ovoj to ki deniramo neprekinute funkcije. Slikovito, graf neprekinute funkcije moºemo nacrtati a da ne diºemo olovku s papir

Seminar 13 (Tok funkcije) Obavezna priprema za seminar nalazi se na drugoj stranici ovog materijala. Ove materijale obražujemo na seminarima do kraja

LINEARNA ALGEBRA 2 Popravni kolokvij srijeda, 13. velja e Zadatak 1. ( 7 + 5=12 bodova) Zadan je potprostor L = {(x 1, x 2, x 3, x 4 ) C 4 : x 1

Univerzitet u Ni²u Prirodno - matemati ki fakultet Departman za matematiku Linearni regresioni modeli u nansijama Master rad Mentor: dr Aleksandar Nas

Seminar peti i ²esti U sljede a dva seminara rije²avamo integrale postavljene u prosturu trostruke integrale. Studenti vjeºbom trebaju razviti sposobn

My_ST_FTNIspiti_Free

Univerzitet u Ni²u PRIRODNO-MATEMATIƒKI FAKULTET Departman za informatiku Ugraživanje re i i fraza u vektorske prostore i polu-nadgledano otkrivanje s

Mere slicnosti

Uvod u statistiku

Sadrºaj 1 Uvod 2 2 Prikupljanje i organizacija podataka Populacija i uzorak Izvori podataka

IErica_ActsUp_paged.qxd

Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: min c T x Ax = b x 0 x Z n Gde pretpostavljamo da je A celobrojna matrica

Grafovi 1. Posmatrajmo graf prikazan na slici sa desne strane. a) Odrediti skup čvorova V i skup grana E posmatranog grafa. Za svaku granu posebno odr

Studij Ime i prezime Broj bodova MATEMATIKA 2 1. dio, grupa A 1. kolokvij 12. travnja Kolokvij se sastoji od dva dijela koja se pi²u po 55 minut

Matematiqki fakultet Univerzitet u Beogradu Iracionalne jednaqine i nejednaqine Zlatko Lazovi 29. mart 2017.

Sveu ili²te J.J. Strossmayera u Osijeku Odjel za matematiku Sveu ili²ni preddiplomski studij matematike Nata²a Galiot Algebarska struktura grupa Zavr²

6-8. ČAS Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: Gde pretpostavljamo da je A celobrojna matrica dimenzije,. Takođe

Microsoft Word - 6ms001

Microsoft Word _Vipnet_komentar_BSA_final.doc

Z A K O N O SUDSKIM VEŠTACIMA I. UVODNE ODREDBE lan 1. Ovim zakonom ure uju se uslovi za obavljanje vešta enja, postupak imenovanja i razrešenja sudsk

Sluzbeni glasnik Grada Poreca br

Рационални Бројеви Скуп рационалних бројева 1. Из скупа { 3 4, 2, 4, 11, 0, , 1 5, 12 3 } издвој подскуп: а) природних бројева; б) целих броје

Орт колоквијум

ТЕОРИЈА УЗОРАКА 2

1

Прва економска школа Београд РЕПУБЛИЧКО ТАКМИЧЕЊЕ ИЗ СТАТИСТИКЕ март године ОПШТЕ ИНФОРМАЦИЈЕ И УПУТСТВО ЗА РАД Укупан број такмичарских

1 Polinomi jedne promenljive Neka je K polje. Izraz P (x) = a 0 + a 1 x + + a n x n = n a k x k, x K, naziva se algebarski polinom po x nad poljem K.

Орт колоквијум

MEHANIKA VOŽNJE - Odsek za puteve, železnice i aerodrome

Microsoft Word - ASIMPTOTE FUNKCIJA.doc

Osnovi programiranja Beleške sa vežbi Smer Računarstvo i informatika Matematički fakultet, Beograd Jelena Tomašević i Sana Stojanović November 7, 2005

MARKOVLJEVI LANCI Prvi kolokvij 28. studenog Zadatak 1. (a) (5 bodova) Za Markovljev lanac (X n ) i njegovo stanje i S neka T (n) i u stanje i.

OpenStax-CNX module: m Kriptografija * Jasmin Ahmeti This work is produced by OpenStax-CNX and licensed under the Creative Commons Attribution

Skripte2013

PowerPoint Presentation

ЛИНЕАРНА ФУНКЦИЈА ЛИНЕАРНА ФУНКЦИЈА у = kх + n А утврди 1. Које од наведених функција су линеарне: а) у = 2х; б) у = 4х; в) у = 2х 7; г) у = 2 5 x; д)

Programiranje u C-u ili C++-u Pseudo-slučajni brojevi; Dinamička alokacija memorije 1 ZADACI SA ČASA Zadatak 1 Napraviti funkciju koja generišlučajan

Microsoft Word - prijemni 2011.ekonomika.doc

Microsoft Word - CAD sistemi

Програмирај!

Република Србија МИНИСТАРСТВО ПРОСВЕТЕ, НАУКЕ и технолошког развоја ЗАВОД ЗА ВРЕДНОВАЊЕ КВАЛИТЕТА ОБРАЗОВАЊА И ВАСПИТАЊА ЗАВРШНИ ИСПИТ НА КРАЈУ ОСНОВН

Verovatnoća - kolokvijum 17. decembar Profesor daje dva tipa ispita,,,težak ispit i,,lak ispit. Verovatnoća da student dobije težak ispit je

Konstrukcija i analiza algoritama Nina Radojičić februar Analiza algoritama, rekurentne relacije 1 Definicija: Neka su f i g dve pozitivne fun

Slide 1

Матрична анализа конструкција

PRIRODNO MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA RAČUNARSKE NAUKE Utorak, godine PRIJEMNI ISPIT IZ INFORMATIKE 1. Koja od navedenih ekste

My_P_Trigo_Zbir_Free

My_P_Red_Bin_Zbir_Free

Paper Title (use style: paper title)

Microsoft Word - van sj Zakon o privrednoj komori -B.doc

1. GRUPA Pismeni ispit iz MATEMATIKE Prezime i ime broj indeksa 1. (15 poena) Rexiti matriqnu jednaqinu 3XB T + XA = B, pri qemu

Tеорија одлучивања

Београд, МАТРИЧНА АНАЛИЗА КОНСТРУКЦИЈА ЗАДАТАК 1 За носач приказан на слици: а) одредити дужине извијања свих штапова носача, ако на носач

LAB PRAKTIKUM OR1 _ETR_

Slide 1

MAT-KOL (Banja Luka) XXIII (4)(2017), DOI: /МК Ž ISSN (o) ISSN (o) ЈЕДНА

Slide 1

Microsoft Word - Lekcija 11.doc

ФАКУЛТЕТ ОРГАНИЗАЦИОНИХ НАУКА

ТРОУГАО БРЗИНА и математичка неисправност Лоренцове трансформације у специјалној теорији релативности Александар Вукеља www.

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

PowerPoint Presentation

Microsoft Word - AIDA2kolokvijumRsmerResenja.doc

Република Србија МИНИСТАРСТВО ПРОСВЕТЕ, НАУКЕ И ТЕХНОЛОШКОГ РАЗВОЈА ЗАВОД ЗА ВРЕДНОВАЊЕ КВАЛИТЕТА ОБРАЗОВАЊА И ВАСПИТАЊА ПРОБНИ ЗАВРШНИ ИСПИТ школска

(Microsoft Word - Dr\236avna matura - kolovoz ni\236a razina - rje\232enja)

Matrice. Algebarske operacije s matricama. - Predavanje I

Microsoft Word - 13pavliskova

untitled

Microsoft PowerPoint - Ispitivanje povezanosti Regresija redovni decembar 2007 [Compatibility Mode]

Microsoft Word doc

PowerPoint Presentation

Analiticka geometrija

QFD METODA – PRIMER

Република Србија МИНИСТАРСТВО ПРОСВЕТЕ, НАУКЕ И ТЕХНОЛОШКОГ РАЗВОЈА ЗАВОД ЗА ВРЕДНОВАЊЕ КВАЛИТЕТА ОБРАЗОВАЊА И ВАСПИТАЊА ТЕСТ МАТЕМАТИКА школска 2013/

Uloga topolo²kih svojstava konguracijskog prostora u vi²e esti im sustavima identi nih estica Grgur imuni Mentor: prof. dr. sc. Hrvoje Buljan Fizi ki

P11.3 Analiza zivotnog veka, Graf smetnji

Microsoft Word - 15ms261

Microsoft Word - Ispitivanje toka i grafik funkcije V deo

9. : , ( )

Matematika 2 za kemi are tre i kolokvij, 16. lipnja Napomene. Dopu²tena pomagala za rje²avanje kolokvija su: kalkulator, tiskane ili rukom pisan

Matematika 1 - izborna

Ravno kretanje krutog tela

0_Zbornik radova - LIMEN 2015.pdf

Grupiranje podataka: pristupi, metode i primjene, ljetni semestar 2013./ Standardizacija podataka Predavanja i vježbe 8 Ako su podaci zadani

Trougao Bilo koje tri nekolinearne tačke određuju tacno jednu zatvorenu izlomljenu liniju. Trougaona linija je zatvorena izlomljena linija određena sa

Орт колоквијум

Skladištenje podataka Prof.dr.sc. Dražena Gašpar

Istraživanje turističkog tržišta

Veeeeeliki brojevi

Istrazivanje trzista 15, dec 2018

Popularna matematika

Kvadratna jednaqina i funkcija 1. Odrediti sve n N takve da jednaqina x3 + 7x 2 9x + 1 x 2 bar jedno celobrojno rexee. = n ima 2. Ako za j-nu ax 2 +bx

P1.1 Analiza efikasnosti algoritama 1

Microsoft Word - NULE FUNKCIJE I ZNAK FUNKCIJE.doc

ДРУШТВО ФИЗИЧАРА СРБИЈЕ МИНИСТАРСТВО ПРОСВЕТЕ И СПОРТА РЕПУБЛИКЕ СРБИЈЕ Задаци за републичко такмичење ученика средњих школа 2006/2007 године I разред

0_Zbornik radova - LIMEN 2015.pdf

Primjena neodredenog integrala u inženjerstvu Matematika 2 Erna Begović Kovač, Literatura: I. Gusić, Lekcije iz Matematike 2

P R E D L O G ZAKON O IZMENAMA I DOPUNAMA ZAKONA O IGRAMA NA SRE U lan 1. U Zakonu o igrama na sre u ( Službeni glasnik RS, br. 88/11 i 93/12-dr. zako

Sveučilište J.J. Strossmayera Fizika 2 FERIT Predložak za laboratorijske vježbe Određivanje relativne permitivnosti sredstva Cilj vježbe Određivanje r

Osnovni pojmovi teorije verovatnoce

Транскрипт:

Univerzitet u Ni²u Prirodno - matemati ki fakultet Departman za matematiku KLASTER ANALIZA U STATISTIƒKOM ZAKLjUƒIVANjU Master rad Student: Katarina M. Krsti Mentor: Prof. dr Aleksandar S. Nasti br. indeksa 193 Ni², 2018.

Sadrºaj 1 Uvod 2 2 Klaster analiza 3 3 Mere rastojanja i sli nosti 7 3.1 Mere rastojanja za parove elemenata.................. 8 3.1.1 Mere rastojanja za numeri ka obeleºja............. 8 3.1.2 Mere rastojanja za binarne promenljive............. 10 3.2 Mere rastojanja za parove promenljivih................. 14 4 Algoritmi klasterovanja 17 4.1 Hijerarhijske metode........................... 17 4.2 Nehijerarhijske metode.......................... 40 5 Zaklju ak 46 Literatura 47 Biograja 48 1

Glava 1 Uvod Klaster analiza je multivarijaciona statisti ka metoda koja obuhvata niz razli itih algoritama, povezana je sa razli itim oblastima istraºivanja i prisutna je u literaturi ve nekoliko decenija. Mada postoje i ranije formulacije klaster analize, najve i doprinos i uticaj na njen dalji razvoj imaju trojica istraºiva a: Trajon 1, Vard 2 i Dºonson 3. Ovi autori su imali razli ite pristupe u vezi sa prirodom klaster analize. Brzi razvoj ra unara i temeljni zna aj grupisanja doprineli su popularnosti ove metode. U ovom radu bavi emo se istraºivanjem metoda koje imaju za cilj grupisanje elemenata u vi²e razli itih grupa. Ideja je na i prirodno grupisanje mežu elementima koji se prou avaju pri emu elementi unutar grupe treba da budu bliºi jedni drugima, nego elementi u drugim grupama. Elementi mogu biti opisani sa skupom karakteristika ili svojom vezom s drugim elementima. Struktura ovog rada sastoji se iz pet celina. Nakon uvodnog dela, u drugoj glavi emo prvo denisati ciljeve kao i najvaºnije korake u klaster analizi. U tre oj glavi bavi emo se denisanjem nekih od mera udaljenosti (sli nosti) jer odabir adekvatnog na ina za odreživanje rastojanja izmežu elemenata igra vaºnu ulogu u klaster analizi. Kona no, u etvrtoj glavi opisa emo neke od naj e² ih algoritama za sortiranje elemenata u klastere, koje smo podelili na hijerarhijske i nehijerarhijske metode. Rad se zavr²ava zaklju kom i spiskom literature. 1 Robert Choate Tryon (1901-1967), ameri ki psiholog. 2 Joe H. Ward Jr. (1926-2011), ameri ki matemati ar. 3 Stephen C. Johnson, ameri ki nau nik. 2

Glava 2 Klaster analiza Klaster analiza je metoda multivarijacione statisti ke analize koja ima za cilj grupisanje elemenata u klastere na osnovu njihovih karakteristika. Klasterovanje elemenata se vr²i na osnovu realizovanih vrednosti posmatranog obeleºja, tako da maksimizira internu homogenost (unutar klastera) i eksternu heterogenost (izmežklastera). Vaºna osobina klaster analize je injenica da ona nije metoda strogog statisti kog zaklju ivanja gde se odabrani uzorak nuºno smatra i reprezentativnim za odreženu populaciju. Klaster analiza je metoda kojom se odrežuju strukturalne karakteristike izmerenih svojstava na strogoj matemati koj, ali ne i statisti koj utemeljenosti. Prema tome, da bi rezultati klaster analize bili smisleni potrebno je utvrditi pretpostavke koje se odnose na reprezentativnost uzorka. Pouzdanost rezultata klaster analize zavisi od reprezentativnosti uzorka. Termin klaster analiza obuhvata niz razli itih algoritama i metoda za grupisanje elemenata sli nog tipa u odgovaraju e kategorije. Drugim re ima, klaster analiza je istraºiva ka tehnika za analizu podataka koja ima za cilj da sortira razli ite elemente u grupe tako da je stepen udruºivanja izmežu dva elementa maksimalan ako pripadaju istoj grupi i minimalan ako pripadaju razli itoj. Klaster analiza jednostavno otkriva strukture u podacima ne obja²njavaju i za²to one postoje. Kod ove tehnike nisu poznati broj grupa i karakteristike grupe pre izvoženja samog postupka. Osnovni ciljevi klaster analize su: Otkrivanje prirodnih grupacija elemenata koje posmatramo; Istraºivanje podataka - Ako ne znamo kako je skup elemenata strukturiran, klaster analizom otkrivamo nepoznatu strukturu; Redukcija podataka; Generisanje hipoteza - Za skup podataka nepoznate strukture, klaster analizom formiraju se grupe iji broj i sastav pomaºu u denisanju hipoteza o strukturi podataka. Tako, na primer, broj grupa sugerisan prvobitnom analizom moºe biti hipoteza koja bi se testirala novim skupom podataka; Predvižanje. 3

Klaster analiza 4 Pored toga, ako klaster analiza pokaºe neko neo ekivano grupisanje jedinica posmatranja, onda postoji verovatno a da su pronažene odrežene relacije izmežu jedinica posmatranja koje do tada nisu bile poznate i koje treba ispitati. Neke od vaºnih odluka koje treba doneti pri sprovoženju klaster analiza su: 1. Izbor uzorka kojeg emo podvrgnuti klaster analizi; 2. Odrediti skup relevantnih promenljivih koje e reprezentovati obeleºja elemenata; 3. Odrediti transformaciju originalnih podataka; 4. Odrediti metodu za odreživanje udaljenosti ili sli nosti izmežu elemenata; 5. Odrediti metodu koju emo koristiti za povezivanje elemenata u klastere; 6. Ocena validnosti dobijenih rezultata. Uz ve inu ovih odluka vezuje se izbor prikladnog statisti kog algoritma, odnosno tehnike. Ovaj tip analize podse a na metode klasikacije predmeta. Ipak, ove dve analiti ke metode su dosta razli ite jedna od druge. Prvo, u klasikaciji, poznato nam je, jo² na po etku, u koliko klasa ili grupa treba klasikovati podatke i koje elemente gde razvrstati. U klaster analizi, broj klastera je nepoznat, kao i koji element gde treba grupisati. Drugo, u klasikaciji, cilj je da se klasikuju novi elementi (ukoliko je mogu e u obliku skupa) u jednu od datih klasa na osnovu prethodnog iskustva. Klasterovanje pada vi²e u okvir istraºiva ke analize podataka, pri emu ne postoje dostupne informacije o strukturi podataka. Tre e, klasikacija se bavi skoro isklju- ivo klasikacijom opservacija, dok se grupisanje moºe primeniti i na promenljive i na opservacije ili na oba istovremeno, u zavisnosti od toga ²ta analiziramo. Klaster analiza ima zna ajnu primenu u razli itim oblastima istraºivanja. Na primer, u istraºivanjima iz oblasti medicine, veoma zna ajnu ulogu u daljoj analizi moºe imati klasterovanje oboljenja, ili simptoma oboljenja. U psihologiji, klaster analiza se koristi za pronalaºenje tipova li nosti na osnovu upitnika. U arheologiji, primenjuje se za klasterovanje umetni kih dela u razli itim vremenskim periodima. Druge nau ne grane koje koriste klaster analizu su prirodne nauke, ekonomija, marketing, istraºivanje podataka (eng. data mining)... Da bismo prikazali do kakvih pote²ko a moºemo do i prilikom denisanja prirodnih grupacija, posmatra emo problem grupisanja 16 karata za igru. Neke od mogu ih grupa prikazane su na slici 2.1. Sada je jasnije da podela u grupe zavisi od denicije sli nosti. U mnogim oblastima, gde je mogu e primeniti klaster analizu, istraºiva moºe dosta dobro razlikovati dobru od lo²e grupacije. Zbog toga, prirodno se name e pitanje, za²to se ne deni²u sve mogu e grupe a zatim se odaberu one najbolje za dalju analizu?

Klaster analiza 5 Slika 2.1: Grupisanje karata za igru Odgovor na ovo pitanje moºemo prona i upravo u na²em primeru. Ukoliko ºelimo da svih 16 karata grupi²emo u jedan klaster tada za to imamo samo jedan na in. Ali, ukoliko ºelimo da formiramo dve grupe (razli itih veli ina) tada postoji 32 767 na ina da to uradimo. Za tri grupe (razli itih veli ina) ve postoji 7 141 686 na ina, i tako dalje 1. Mežutim, da bi denisali sve te grupe potrebno je dosta vremena da se to uradi ru no pa ak i pomo u kompjutera. Zbog toga je neophodno denisati algoritme pomo u kojih emo traºiti dobre, ali ne i nuºno najbolje, grupe. Postupak klaster analize se sastoji iz dva osnovna koraka, izbora odgovaraju e mere udaljenosti (sli nosti) i izbora algoritma klasterovanja. Podaci se iz posmatranog skupa grupi²u u klastere na osnovu mera sli nosti (ili udaljenosti) izmežu dva razli ita elementa. Ne postoji slaganje oko toga koja mera udaljenosti je najadekvatnija za primenu u klasterovanju. Vrlo je bitno znati da ²to je vi²e promenljivih 1 Broj mogu ih na ina za sortiranje n elemenata u k razli itih nepraznih grupa se naziva Stirlingov broj druge vrste koji se deni²e kao 1 k! k ( 1) k j( ) k j j n j=0

Klaster analiza 6 uklju eno u analizu i ²to su one vi²e mežusobno nezavisne, teºe je prona i odgovaraju i model za grupisanje elemenata koje posmatramo. U klaster analizi, koncept slu ajne promenljive je ponovo centralna tema, ali na potpuno druga iji na in od drugih multivarijacionih tehnika. Fokus klaster analize je na poreženju elemenata zasnovanih na slu ajnoj promenljivoj, a ne na proceni same slu ajne promenljive. Klaster analiza nema statisti ku osnovu kod kojih se mogu izvu i statisti ka zaklju ivanja iz uzorka i kori² ena je prvenstveno kao tehnika istraºivanja. Re²enja nisu jedinstvena i istraºiva mora voditi ra una u proceni uticaja svake odluke uklju ene u izvoženje klaster analize.

Glava 3 Mere rastojanja i sli nosti Da bi se formirale grupe (klasteri) potrebno je uloºiti dosta napora prilikom odabira adekvatnih mera sli nosti (ili udaljenosti). ƒesto se u tom slu aju javlja i odrežena mera subjektivnosti. Takože je vaºno uzeti u obzir prirodu promenljivih (diskretne, neprekidne i binarne), zatim tipove mernih skala (nominalne, ordinalne, intervalne, racionalne) kao i poznavanje predmeta istraºivanja. Kada se odrede karakteristike podataka, tada nailazimo na problem pronalaska adekvatnog na ina za odreživanje udaljenosti izmežu dva elementa. Odabir mere sli nosti izmežu dva elementa je klju an za klaster analizu. U tom slu aju moraju se uzeti u obzir matemati ka svojstva te mere, vrsta podataka koje treba obraditi, pona²anje te mere u odnosu na podatke i upotreba matrice sli nosti ili matrice udaljenosti. Ne postoji op²te pravilo za odlu ivanje koja od metoda za ra unanje mere udaljenosti ili sli nosti je najbolja za primenu u konkretnom slu aju. Izbor metode je veoma vaºan, zato ²to esto razli ite metode daju i razli ite rezultate. Neka je A skup od n podataka i neka su x, y A p-dimenzionalni vektori, x = (x 1, x 2,..., x p ), y = (y 1, y 2,..., y p ). Mera rastojanja se moºe opisati realnom funkcijom d : (x, y) R, koja ima slede a svojstva: d(x, y) 0 nenegativnost, d(x, x) = 0, d(x, y) = d(y, x) simetri nost. Ako mera rastojanja zadovoljava i slede a dva svojstva: d(x, y) = 0 x = y, z A, d(x, y) d(x, z) + d(z, y) nejednakost trougla, tada se ona zove metrika. Svaka metrika jeste mera rastojanja, ali nije svaka mera rastojanja metrika. Pored mere rastojanja moºemo denisati i meru sli nosti. Za meru s : (x, y) [0, 1] kaºemo da predstavlja meru sli nosti ako zadovoljava slede a svojstva: 7

Mere rastojanja i sli nosti 8 0 s(x, y) 1 normiranost, s(x, y) = 1 x = y, s(x, y) = s(y, x) simetri nost. Ve ina algoritama po inje sa matricom podataka dimenzije n p koja sadrºi promenljive koje opisuju svaki element koji posmatramo: x 11 x 12 x 1p x 21 x 22....... X =............. x n1 x n2 x np Realizacija x ij predstavlja vrednost j-te promenljive na i-tom elementu. Na osnovu n p matrice podataka formiramo simetri nu n n matricu udaljenosti D ili matricu sli nosti S iji elementi mere stepen razlike ili sli nosti izmežu svih parova elemenata iz matrice podataka. Na primer, element d ij, i, j {1, 2,... n} je mera bliskosti izmežu i-tog i j-tog elementa. d 11 d 12 d 1n d 21 d 22....... D =............ d n1 d n2 d nn s 11 s 12 s 1n s 21 s 22......., S =............. s n1 s n2 s nn 3.1 Mere rastojanja za parove elemenata 3.1.1 Mere rastojanja za numeri ka obeleºja Rastojanje za numeri ka obeleºja se moºe meriti na razli itim skalama, pa je zbog toga, naj e² e, prvo potrebno standardizovati ih. Standardizacija nije obavezna i uglavnom se koristi da merne jedinice ne bi uticale na dalju analizu, odnosno, da bi se svim elementima dala ista vaºnost. Formula za standardizaciju je slede a:

Mere rastojanja i sli nosti 9 y ij = x ij µ j σ j (3.1) gde je x ij i-ta realizacija promenljive x j, µ j je aritmeti ka sredina i σ j standardna devijacija promenljive x j. U cilju merenja rastojanja izmežu dva elementa uvek uporežujemo parove opservacija x = (x 1, x 2,..., x p ), y = (y 1, y 2,..., y p ). Postoji mnogo tipova mera rastojanja, od kojih je naj e² a Euklidova mera. Ona se deni²e na slede i na in: d(x, y) = (x 1 y 1 ) 2 + (x 2 y 2 ) 2 + + (x p y p ) 2. (3.2) Slede a mera rastojanja koju moºemo koristiti jeste metrika Minkovskog, koju moºemo ozna avati sa L m za m > 0. Nju deni²emo kao: [ p ] 1/m d(x, y) = x i y i m, m > 0. (3.3) i=1 Primetimo da za m = 1, d(x, y) predstavlja blok rastojanje izmežu dve ta ke u p-dimenzionalnom prostoru, ²to predstavlja L 1 metriku. Poznata je i pod nazivom blok metrika ili apsolutna metrika. Za m = 2, ona postaje Euklidova ili L 2 metrika. Osobina ove metrike je da ²to je ve e m to je ja i uticaj velikih razlika x i y i na dobijenu udaljenost izmežu elemenata, odnosno, mera rastojanja je manje osetljiva na prisustvo nestandardnih opservacija. Kanberova metrika i koecijent ƒekanovskog predstavljaju mere koje su denisane samo za nenegativne vrednosti promenljivih: Kanberova metrika : d(x, y) = koecijent ƒekanovskog : p i=1 2 d(x, y) = 1 x i y i (x i + y i ), p min (x i, y i ). p (x i + y i ) i=1 i=1 Kada se odrežuje rastojanje elemenata poºeljno je koristiti mere koje zadovoljavaju osobine metrike. Mežutim, postoje i mere koje ne zadovoljavaju neku od ovih osobina, pa je tada u tom slu aju neophodno vr²iti klasterovanje na osnovu subjektivno dodeljenih rastojanja izmežu elemenata.

Mere rastojanja i sli nosti 10 Primer 1. Posmatrajmo 3 elementa iz prostora dimenzije 2, x 1 = (1, 1), x 2 = (0, 1) i x 3 = (6, 3). Matrica njihovog rastojanja ra unata pomo u L 1 norme (primenom formule (3.3) za m = 1) je: 0 1 7 D 1 = 1 0 8. 7 8 0 Primenom kvadrirane L 2 norme (kvadriranjem formule (3.2)) dobijamo: 0 1 29 D 2 = 1 0 38. 29 38 0 Ukoliko promenljive nisu merene na istim skalama, tada pre formiranja matrice treba izvr²iti njihovu standardizaciju pomo u formule (3.1). 3.1.2 Mere rastojanja za binarne promenljive ƒesto se susre emo sa promenljivama koje imaju samo binarne vrednosti kao ²to su: 0 ili 1, prisustvo ili odsustvo (neke karakteristike), pozitivne ili negativne (vrednosti), ta no ili neta no... Udaljenost takvih parova elemenata ne moºemo izmeriti pomo u p-dimenzionalnih mera koje smo do sada naveli. Zbog toga je neophodno uvesti mere sli nosti pomo u kojih emo uporeživati elemente na osnovu prisustva ili odsustva odreženih karakteristika. Sli ni elementi imaju vi²e zajedni kih karakteristika nego ²to imaju oni koji su razli iti. Binarne promenljive su promenljive pomo u kojih moºemo opisati prisustvo ili odsustvo posmatrane karakteristike, pri emu ona moºe imati samo dve vrednosti, 0 ili 1. Ona ima vrednost 0 ukoliko element nema posmatranu karakteristiku a vrednost 1 ukoliko je poseduje. Za prikazivanje binarnih promenljivih esto se koristi tablica frekvencija (tabela 3.1). Neka su x i y p-dimenzionalne binarne promenljive. x y 1 0 ukupno 1 a b a+b 0 c d c+d ukupno a+c b+d p=a+b+c+d Tabela 3.1: Tablica frekvencija

Mere rastojanja i sli nosti 11 U ovoj tabeli a predstavlja broj 1-1 poklapanja, b je broj 1-0 poklapanja i tako dalje. Objasni emo sada ovo na jednom primeru. Posmatrajmo binarne promenljive za p=5 ije su vrednosti na elementima i i k date u tabeli: 1 2 3 4 5 element i 1 0 0 1 1 element k 0 1 0 1 0 Ozna imo sa x ij vrednost j-te promenljive na i-tom elementu i sa x kj vrednost j-te p promenljive na k-tom elementu. Kvadriranjem Euklidove metrike, (x ij x kj ) 2, dobijamo broj elemenata koji se ne poklapaju, odnosno, razli iti su. U na²em slu aju taj broj je: j=1 5 (x ij x kj ) 2 = (1 0) 2 + (0 1) 2 + (0 0) 2 + (1 1) 2 + (1 0) 2 = 3. j=1 Na osnovu tabele frekvencija, u na²em slu aju je a=c=d=1 i b=2. Mežutim, iz izraza: { (x ij x kj ) 2 0, x ij = x kj = 0 ili x ij = x kj = 1 = 1, x ij x kj moºemo zaklju iti da ova metrika daje podjednaku zna ajnost poklapanjima 0-0 i 1-1. U nekim slu ajevima je neophodno razdvojiti ih, ili ak zanemariti poklapanje 0-0, zato ²to poklapanje 1-1 moºe imati ja i uticaj na sli nost izmežu elemenata. Upravo u tom slu aju se primenjuju tablice frekvencija. Uvodimo sada neke koecijente sli nosti za binarne promenljive: Sokal-Mi enerov koecijent (daje podjednaku vrednost poklapanjima 0-0 i 1-1) a + d p. (3.4) Prvi Sokal-Snitov koecijent (duplira vrednost poklapanjima 0-0 i 1-1) 2(a + d) 2(a + d) + b + c. Rodºers-Tanimotov koecijent (duplira vrednost parovima koji se ne poklapaju)

Mere rastojanja i sli nosti 12 a + d a + d + 2(b + c). Rasel-Raov koecijent (ne uklju uje 0-0 poklapanje u brojiocu) a p. šakarov koecijent (ne uklju uje 0-0 poklapanje ni u brojiocu ni u imeniocu) a a + b + c. Koecijent ƒekanovskog (ne uklju uje 0-0 poklapanje ni u brojiocu ni u imeniocu, ali duplira vrednost 1-1 poklapanja) 2a 2a + b + c. Drugi Sokal-Snitov koecijent (ne uklju uje 0-0 poklapanje ni u brojiocu ni u imeniocu, ali duplira vrednost parovima koji se ne poklapaju) a a + 2(b + c). Koecijent Kulcinskog (odnos poklapanja 1-1 sa poklapanjima 1-0 i 0-1, pri emu je poklapanje 0-0 isklju eno) a b + c. Denisali smo neke od mera rastojanja i koecijenata sli nosti koje moºemo koristiti za formiranje matrica rastojanja odnosno matrica sli nosti. Nave² emo sada formule pomo u kojih moºemo iz rastojanja dobiti sli nosti kao i iz mera sli nosti dobiti rastojanje. Dakle, ukoliko imamo meru rastojanja izmedju i-tog i k-tog elementa, d ik, tada meru sli nosti moºemo odrediti kao: s ik = 1 1 + d ik gde je 0 < s ik 1 mera sli nosti izmežu i-tog i k-tog elementa. Sa druge strane, meru rastojanja koja zadovoljava uslove metrike ne moºemo uvek dobiti pomo u mere sli nosti. Zadovoljava e uslove samo ukoliko je matrica sli nosti nenegativno denitna. Pod tim uslovom i ukoliko je s ii = 1 vaºi: d ik = 2(1 s ik ).

Mere rastojanja i sli nosti 13 Primer 2. Posmatrane su slede e osobine petoro ljudi: visina, teºina, boja o iju, boja kose, dominantna ruka, pol, i njihove vrednosti su prikazane u tabeli: Visina Teºina Boja o iju Boja kose Dominantna ruka Pol Osoba 1 1,65m 55kg plava smeža desna ºenski Osoba 2 1,75m 72kg braon plava desna mu²ki Osoba 3 1,68m 84kg zelene smeža desna mu²ki Osoba 4 1,58m 50kg braon crna desna ºenski Osoba 5 1,92m 90kg braon crna leva mu²ki Deni²imo 6 binarnih promenljivih X 1, X 2, X 3, X 4, X 5, X 6 na slede i na in: X 1 = { 1, visina 1, 70m 0, visina < 1, 70m X 4 = { 1, smeža kosa 0, druga boja X 2 = { 1, teºina 70kg 0, teºina < 70kg X 5 = { 1, desna ruka 0, leva ruka X 3 = { 1, braon o i 0, druga boja X 6 = { 1, ºenski 0, mu²ki Vrednosti binarnih promenljivih posmatrane na osobi 3 i osobi 4 su: X 1 X 2 X 3 X 4 X 5 X 6 Osoba 3 0 1 0 1 1 0 Osoba 4 0 0 1 0 1 1 Tabela frekvencija tada ima slede i oblik: osoba 3 osoba 4 1 0 ukupno 1 1 2 3 0 2 1 3 ukupno 3 3 6

Mere rastojanja i sli nosti 14 Ukoliko primenimo koecijent sli nosti (3.4) za popunjavanje matrice sli nosti, tj koecijent a + d, tada za osobu 3 i osobu 4 on iznosi: p a + d = 1 + 1 = 1 p 6 3. Primenjuju i ovaj koecijent na ostale parove osoba, matrica sli nosti ima slede i oblik: 1 1 2 2 0 6 3 3 1 1 1 1 5 6 2 2 6 2 1 1 1 1 3 2 3 3 2 1 1 1 1 3 2 3 3 0 5 1 1 1 6 3 3 Na osnovu vrednosti iz matrice sli nosti zaklju ujemo da su osobe 2 i 5 najsli nije dok osobe 1 i 5 imaju najmanje sli nosti. 3.2 Mere rastojanja za parove promenljivih Do sada smo denisali mere rastojanja i sli nosti za parove elemenata. Mežutim, e² e se javlja problem grupisanja promenljivih. U tom slu aju, za procenu sli nosti, naj e² e se koriste koecijenti korelacije. Visoka korelacija pokazuje sli nost, a slaba korelacija ozna ava nedostatak iste. Ukoliko su u pitanju binarne promenljive, podatke moºemo prikazati pomo u tabela frekvencija (tabela 3.2). Razlika izmežu ove tabele i tabele koju smo prethodno denisali je u tome ²to ovde promenljive opisuju kategorije i za svaki par promenljivih imamo po n elemenata koje opisujemo. Tada tabela izgleda ovako:. x y 1 0 ukupno 1 a b a+b 0 c d c+d ukupno a+c b+d n=a+b+c+d Tabela 3.2: Tablica frekvencija za parove promenljivih Koecijent korelacije koji se primenjuje za binarne promenljive je: r = ad bc (a + b)(c + d)(a + c)(b + d). (3.5)

Mere rastojanja i sli nosti 15 Koriste i korelacioni koecijent (3.5) moºemo pomo u χ 2 statistike (r 2 : χ 2 n) testirati nezavisnost para promenljivih. Primer 3. Posmatra emo sli nost u pisanju prvih 10 brojeva na 11 evropskih jezika. Prikaza emo poreženje jezika samo na osnovu pisanja brojeva. Kratkim pregledom pravopisa brojeva u tabeli 3.4 moºemo zaklju iti da su prva 5 jezika engleski, norve²ki, danski, holandski i nema ki dosta sli ni. Takože, ima dosta sli nosti i izmežu francuskog, ²panskog i italijanskog jezika, dok mažarski ali i nski nemaju sli nosti ni sa jednim od navedenih jezika a ni mežusobno. Poljski jezik ima sli nosti skoro sa svim jezicima. Sve ove na²e zaklju ke moºemo proveriti formiranjem tablice frekvencija tako ²to emo porediti jezike gledaju i prva slova u pisanju brojeva (tabela 3.3). E No D H N Fr I P M F E 10 No 8 10 D 8 9 10 H 3 5 4 10 N 4 6 5 5 10 Fr 4 4 4 1 3 10 4 4 5 1 3 8 10 I 4 4 5 1 3 9 9 10 P 3 3 4 0 2 5 7 6 10 M 1 2 2 2 1 0 0 0 0 10 F 1 1 1 1 1 1 1 1 1 2 10 Tabela 3.3: Tablica saglasnosti prvih slova u pisanju brojeva Na osnovu tabele 3.3 vidimo da norve²ki i engleski imaju isto prvo slovo za 8 od 10 re i kao i danski i engleski. Ostali brojevi u tabelici su dobijeni analogno. Rezultati u tabeli potvržuju na²e zaklju ke da engleski, norve²ki, danski, holandski i nema ki formiraju jednu grupu, zatim da francuski, ²panski, italijanski i poljski mogu formirati drugu grupu dok mažarski i nski ne pripadaju ni jednoj, odnosno svaki formira zasebnu grupu. U dosada²njim primerima koristili smo subjektivne metode prilikom formiranja grupa elemenata. Sada emo predstaviti neke od metoda grupisanja koje ne uklju uju subjektivnost.

Mere rastojanja i sli nosti 16 engleski(e) norve²ki(no) danski(d) holandski(h) nema ki(ne) francuski(fr) ²panski( ) italijanski(i) poljski(p) mažarski(m) nski(f) one en en een eins un uno uno jeden egy yksi two to to twee zwei deux dos due dwa ketto kaksi three tre tre drie drei trois tres tre trzy harom kolme four re re vier vier quatre cuatro quattro cztery negy neljȧ ve fem fem vijf funf cinq cinco cinque piec ot viisi six seks seks zes sechs six seis sei szesc hat kuusi seven sju syv zeven sieben sept siete sette siedem het seitseman eight atte otte acht acht huit ocho otto osiem nyolc kahdeksan nine ni ni negen neun neuf nueve nove dziewiec kilenc yhdeksan ten ti ti tien zehn dix diez dieci dziesiec tiz kymmenen Tabela 3.4: Pisanje brojeva na 11 jezika

Glava 4 Algoritmi klasterovanja Postupak klaster analize se sastoji iz dva osnovna koraka, prvi je izbor odgovaraju e mere udaljenosti (sli nosti) a drugi je izbor algoritma klasterovanja, odnosno niza procedura za grupisanje elemenata tako da postoje male razlike unutar klastera, a velike izmežu klastera. Postoje razli iti algoritmi za re²avanje problema klasterovanja. Mežutim, ne postoji objektivno najbolji algoritam za klasterovanje jer odreženi algoritam moºe dati dobre rezultate na jednom skupu podataka, a lo²e na drugom, zato ²to klasterovanje zavisi od dimenzionalnosti, strukture i vrste podataka. Algoritme klasterovanja moºemo klasikovati u odnosu na tipove podataka koje unosimo u algoritam, zatim na osnovu prisutnog preklapanja klastera, ali najzastupljenija je klasikacija na slede e metode: Hijerarhijske metode Nehijerarhijske metode 4.1 Hijerarhijske metode Klasterovanje zasnovano na povezivanju, poznatije pod nazivom hijerarhijsko klasterovanje, zasnovano je na osnovnoj ideji da su bliski elementi u ja oj vezi nego ²to su elementi koji su na ve oj udaljenosti. Hijerarhijski algoritmi stvaraju niz sukcesivnih particija skupa na klastere koriste i neki od kriterijuma. Pre toga, neophodno je najpre izra unati udaljenost izmežu svakog novog elementa i svih ostalih ve odreženih klastera. Na razli itim rastojanjima e se formirati razli iti klasteri zajedno ine i skup ugnjeºdenih klastera organizovanih u obliku drveta koji se naj e² e prikazuju pomo u dendrograma. Ukoliko dendrogram prikaºemo u koordinatnom sistemu, tada na x-osi moºemo rasporediti elemente dok se na y-osi obeleºavaju visine na kojoj se pojedini elementi spajaju. Grupisanje elemenata u klastere je zasnovano na karakteristikama koje merimo kod svakog elementa. Uzmimo, na primer, dve karakteristike koje merimo kod svakog elementa. U tom slu aju, za gra ki prikaz podataka u cilju odreživanja 17

Algoritmi klasterovanja 18 grupa mo emo uzeti dijagram rasturanja. Na osnovu dijagrama rasturanja moºemo denisati prirodne grupe kao oblasti u dvodimenzionalnom prostoru sa velikom gustinom ta aka koje su razdvojene od drugih oblasti, oblastima sa malom gustinom ta aka. Mežutim, ako deni²emo prirodne grupe na osnovu kriterijuma bliskosti, moºemo smatrati da elementi unutar grupe treba da budu bliºi jedni drugima, nego elementi u drugim grupama. Osim gra kih metoda, kod kojih se subjektivnom procenom formiraju grupe, postoje i analiti ki postupci pomo u kojih se prema skupu formalnih pravila vr²i grupisanje elemenata u grupe. U osnovi svih ovih metoda se nalazi matrica podataka, tj. matrica sa n redova (elemenata) i p kolona (promenljivih). Elementi u jednom redu odnose se na razli ite karakteristike jednog elementa i formiraju njegov prol. Dendrogram Krajnji rezultat svih hijerarhijskih metoda grupisanja je dendrogram (tj. hijerarhijski drvo-dijagram). Dendrogram se moºe crtati horizontalno ili vertikalno, u zavisnosti od izbora samog istraºiva a. Oba tipa daju iste informacije. U ovoj diskusiji predstavi emo vertikalni dendrogram. Dendrogram omogu ava istraºiva u da pro ita visinu na kojoj su povezani elementi ili klasteri ili gde oba kombinovano formiraju novi, ve i klaster. Elementi koji su sli niji jedan drugom kombinuju se na maloj visini, dok su predmeti koji se mežusobno vi²e razlikuju kombinovani na ve oj visini na dendrogramu. Stoga razlika u visini nam pokazuje koliko su bliske elemnti jedan drugom. to je ve a razlika izmežu visina na kojima se klasteri kombinuju, lak²e moºemo uo iti strukturu podataka. U dendrogramu se netipi ne vrednosti (eng. outlier) tj. podaci jako razli iti od ostalih uo avaju kao izolovana grana. Podela podataka u odreženi broj grupa moºe se dobiti tako ²to prese emo dendrogram na odgovaraju oj visini. Ako nacrtamo horizontalnu liniju na dendrogramu na odreženoj visini, tada dobijamo jedno mogu e re²enje za grupisanje elemenata. Broj vertikalnih linija koje se nalaze ispod te horizontalne linije ozna ava broj klastera, a elementi koji se nalaze na kraju svih grana ispod te horizontalne linije ine lanove klastera. Jedan od problema kod hijerarhijskog klasterovanja je taj ²to ne postoji jedinstven na in prilikom odabira broja klastera. Na slici 4.2 a) vidimo da ukoliko prese emo dendrogram na prikazan na in tada dobijamo 2 klastera, dok na slici 4.2 b), ukoliko prese emo na drugom mestu, dobijamo 1 klaster i 2 zasebna elementa. Za razliku od vertikalnih rastojanja, koja su klju na u denisanju re²enja, horizontalna odstojanja izmežu elemenata su irelevantna. Program kojim crtamo dendrogram je napravljen tako da se dendrogram moºe lako tuma iti. Mežutim, za velike skupove podataka ovaj cilj postaje nemogu.

Algoritmi klasterovanja 19 Slika 4.1: Primer dendrograma Slika 4.2: Odreživanje broja klastera

Algoritmi klasterovanja 20 Hijerarhijske metode moºemo podeliti na dva tipa: Aglomerativne metode (metode udruºivanja ili spajanja) Divizione metode (metode razdvajanja ili deobe) Aglomerativni hijerarhijski algoritmi polaze od toga da je svaki element sam u grupi od jednog lana. Tako, na po etku, imamo onoliko klastera koliko imamo i elemenata. Bliske grupe se postepeno spajaju dok se na kraju ne nažu svi elementi u jednoj grupi. Kod tehnike razdvajanja ide se obrnutim redosledom (slika 4.3), gde se od jedne grupe stvaraju dve, tako da elementi u jednoj podgrupi budu ²to udaljeniji od elemenata iz druge podgrupe. Ove podgrupe se dalje dele sve dok ne bude svaki element koji posmatramo u posebnoj grupi. Hijerarhijska podela je uražena u n 1 koraka. To je takozvana diviziona hijerarhijska metoda koja se, ipak, primenjuje mnogo reže nego aglomerativna. U prvom koraku aglomerativne metode n(n 1) postoji na ina da se formiraju dvo lani klasteri. Kod divizione hijerarhijske metode zasnovane na istom principu imamo 2 n 1 1 na ina da u prvom koraku 2 podelimo grupu na dva neprazna klastera. Ovaj broj je znatno ve i od onog u slu- aju aglomerativne metode. Da bi se izbegli tako veliki prora uni, koriste se slede i koraci prilikom klasterovanja: 1. U prvom koraku formiramo jedan klaster koji sadrºi svih n elemenata koje posmatramo i koje emo dalje analizirati, a takože ra unamo i simetri nu matricu udaljenosti (sli nosti) dimenzije n n. 2. U drugom koraku traºimo par klastera koji imaju najmanje sli nosti. 3. Delimo po etni klaster na dva klastera, na primer, na klastere C i i C j. 4. Kada smo podelili klaster na C i i C j potrebno je da u matricu udaljenosti (sli nosti) dodamo kolone i redove koji odgovaraju klasterima C i i C j. Ove udaljenosti moºemo izra unati primenom jedne od metoda za ra unanje kao ²to su: metoda jednostrukog povezivanja, metoda potpunog povezivanja, metoda prose nog povezivanja, metoda Vard-a... Kod ove metode se polazi od jednog klastera u kom se nalaze svi elementi, i iz njega izdvajamo po jedan element ili grupu. Algoritam ponavljamo od drugog koraka sve dok se ne formira onoliko klastera koliko ima pojedina nih elemenata. Pretpostavimo sada da imamo sve informacije o odnosu izmežu n elemenata skupa A, odnosno, da imamo formiranu matricu udaljenosti D=[d ij ]. Kod aglomerativne metode, na po etku, svaki element x i A formira poseban klaster C i C i = {x i }, x i A, i = 1, 2,, n.

Algoritmi klasterovanja 21 Slika 4.3: Primer dendrograma primenom aglomerativne ili divizione metode Nakon toga odrežuje se najbliºi par klastera, ozna i emo ih sa C p i C q, d(c p, C q ) = min i,j d(c i, C j ), p, q, i, j {1, 2,, n}. Klastere C p i C q spajamo u novi klaster C r, C r = C p C q. Tada su klasteri C p i C q zamenjeni klasterom C r i neophodno je sada odrediti udaljenost izmežu novoformiranog klastera i preostalih klastera. Ovaj postupak ponavljamo sve dok svi klasteri ne budu spojeni. Sli nost izmežu klastera u sukcesivnim koracima se moºe izra unati na vi²e na ina i svaki od njih odrežuje novu metodu hijerarhijskog klasterovanja. Pretpostavimo da u nekom koraku algoritma hijerarhijskog klasterovanja imamo 3 klastera, C i, C j, C k i neka su klasteri C i i C j najbliºi. Tada oni formiraju novi klaster C m = C i C j. Metode za ra unanje sli nosti izmežu novog i postoje eg klastera su: Metoda jednostrukog (prostog) povezivanja (eng. single linkage), poznata i kao metoda najbliºeg suseda. Grupisanje se vr²i pomo u mera udaljenosti ili sli nosti spajanjem najbliºih elemenata, gde termin najbliºi ozna ava najmanju distancu ili najve u sli nost. Prvo pronalazimo najbliºe klastere, u na²em slu aju su to klasteri C i i C j, spajamo ih i oni sada formiraju novi klaster C m. U slede em koraku merimo udaljenost izmežu klastera C m i preostalih klastera pomo u formule: d(c i C j, C k ) = min (d(c i, C k ), d(c j, C k )). Ovde d(c i, C k ) i d(c j, C k ) predstavljaju najmanje rastojanje izmežu elemenata iz klastera i i k i klastera j i k, respektivno. Rezultate ovog klasterovanja moºemo predstaviti i gra ki, pomo u dendrograma na kome su klasteri predstavljeni pomo u grana. Grane se spajaju u vorovima ija je pozicija odrežena pomo u udaljenosti, odnosno, sli nosti klastera. Dakle, klasteri se

Algoritmi klasterovanja 22 spajaju pomo u najkra ih veza i zbog toga ova tehnika ne moºe razlikovati slabo odvojene klastere, odnosno klastere elipti nog oblika, kao ²to je prikazano na slici 4.4 a). Ova metoda naj e² e stavlja elemente u duga ke i uske klastere u obliku lanaca (slika 4.4 b)). Nedostatak ove metode je to ²to ne uzima u obzir strukturu klastera i ima tendenciju da proizvodi duga ke tanke klastere u kojima elementi u okviru jednog klastera imaju male razdaljine, a elementi koji se nalaze u klasterima na suprotnim krajevima lanca mogu biti dosta udaljeniji jedan od drugog u odnosu na elemente iz drugih klastera koji se nalaze izmežu. Ova osobina moºe ponekad da dovede do pogre²ne klasterizacije elemenata. Slika 4.4: Metoda jednostrukog povezivanja Primer 4. (Klasterovanje primenom metode jednostrukog povezivanja) Da bismo ilustrovali metodu jednostrukog povezivanja posmatra emo slede u matricu udaljenosti izmežu 5 elemenata: 1 2 3 4 5 1 0 2 9 0 3 3 7 0 4 6 5 9 0 5 11 10 2 8 0 U prvom koraku, svaki element formira jedan klaster, pa tako imamo 5 klastera, (1), (2), (3), (4), (5). U drugom koraku traºimo dva klastera koji su na najmanjoj udaljenosti jedan od drugog. Analiziraju i matricu udaljenosti uo avamo da su to tre i, (3), i peti, (5), klaster. Dakle, oni sada formiraju novi klaster (35): min (d ij ) = d 53 = 2. ij Sada menjamo matricu udaljenosti tako ²to bri²emo redove i kolone koji odgovaraju klasterima (3) i (5) a dodajemo red i kolonu koji odgovaraju novom klasteru (35),

Algoritmi klasterovanja 23 odnosno njegovoj udaljenosti od preostalih klastera. Pre toga je potrebno izra unati te udaljenosti: d (35)1 = min{d 31, d 51 } = min{3, 11} = 3, d (35)2 = min{d 32, d 52 } = min{7, 10} = 7, d (35)4 = min{d 34, d 54 } = min{9, 8} = 8. Redukovana matrica udaljenosti tada ima slede i oblik: (35) 1 2 4 (35) 0 1 3 0 2 7 9 0 4 8 6 5 0 Posmatraju i sada ovu matricu uo avamo da klasteri (1) i (35) imaju najmanju udaljenost, d (35)1 = 3 i zbog toga sada oni formiraju novi klaster (135). Ponovo ra unamo matricu udaljenosti izmežu novog klastera i preostalih klastera: d (135)2 = min{d (35)2, d 12 } = min{7, 9} = 7, d (135)4 = min{d (35)4, d 14 } = min{8, 6} = 6. Ove vrednosti sada unosimo u matricu udaljenosti: (135) 2 4 (135) 0 2 7 0 4 6 5 0 Najmanju udaljenost sada imaju klasteri (2) i (4), d 42 = 5, i zbog toga oni formiraju novi klaster (24). Udaljenost izmežu klastera (135) i (24) je: d (135)(24) = min{d (135)2, d (135)4 } = min{7, 6} = 6. Krajnja matrica udaljenosti ima oblik: (135) (24) [ ] (135) 0 (24) 6 0

Algoritmi klasterovanja 24 Kona no, klasteri (135) i (24) formiraju jedan klaster koji sadrºi svih 5 elemenata, (12345), pri emu su oni spojeni na udaljenosti 6. Rezultate ovog spajanja moºemo ilustrovati i pomo u dendrograma (slika 4.5). Slika 4.5: Dendrogram rastojanja primenom metode jednostrukog povezivanja 5 elementa Primer 5. (Metoda jednostrukog povezivanja 11 evropskih jezika) Posmatrajmo tabelu 4.1 u kojoj se nalaze vrednosti koje predstavljaju razli itost izmežu brojeva od 1 do 10 na 11 jezika. Ovu matricu smo dobili, koriste i Primer 3, tako ²to smo od broja 10 (ukupan mogu i broj poklapanja prvih slova u pisanju brojeva) oduzeli vrednosti iz tabele 3.3. E 0 E No D H N Fr I P M F No 2 0 D 2 1 0 H 7 5 6 0 N 6 4 5 5 0 Fr 6 6 6 9 7 0 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 M 9 8 8 8 10 10 10 10 10 0 F 9 9 9 9 9 9 9 9 9 8 0 Tabela 4.1: Tablica razli itosti prvih slova u pisanju brojeva

Algoritmi klasterovanja 25 Sada traºimo par elemenata koji imaju najmanju sli nost. To su jezici danski i norve²ki, italijanski i francuski, italijanski i ²panski, ija je udaljenost jednaka 1. Ukoliko numeri²emo jezike redosledom kojim su napisani, tada ovo moºemo zapisati na slede i na in: d 32 = 1, d 86 = 1, d 87 = 1. Iz tabele itamo i da je d 76 = 2. Kako u ovom koraku ne moºemo spojiti sva tri klastera, 6, 7 i 8, odjednom, odlu ujemo se da najpre spojimo klastere 6 i 8 u klaster (68) a zatim mu u slede em koraku dodamo i klaster 7. Takože, u ovom koraku, spajamo i klastere 2 i 3 u klaster (23). Nastavaljaju i postupak sve dok ne spojimo sve klastere u jedan, dobijamo rezultate koje moºemo predstaviti dendrogramom (slika 4.6). Slika 4.6: Dendrogram rastojanja primenom metode jednostrukog povezivanja 11 jezika Metoda potpunog (kompletnog) povezivanja (eng. complete linkage), poznata i kao metoda najdaljeg suseda. Podela elemenata u grupe kod ove metode se vr²i skoro na isti na in kao i kod metode jednostrukog povezivanja pri emu je jedina razlika u tome ²to je u svakoj fazi, rastojanje izmežu klastera, odreženo maksimalnim rastojanjem bilo kog elementa u prvom klasteru i bilo kog elementa u drugom klasteru. Metoda potpunog (kompletnog) povezivanja obezbežuje da svi elementi u okviru klastera budu na nekoj najve oj mogu oj udaljenosti jedan od drugog, odnosno, da imaju najmanje sli nosti. Algoritam ove metode zapo inje, kao i kod prethodnog, pronalaºenjem najbliºih klastera, u na²em slu aju su to klasteri C i i C j. Oni nakon spajanja

Algoritmi klasterovanja 26 formiraju novi klaster C m. U slede em koraku merimo udaljenost izmežu klastera C m i preostalih klastera pomo u formule: d(c i C j, C k ) = max (d(c i, C k ), d(c j, C k )). U ovom slu aju d(c i, C k ) i d(c j, C k ) predstavljaju najve e rastojanje izmežu elemenata iz klastera i i k i klastera j i k, respektivno. Primer 6. (Klasterovanje primenom metode kompletnog povezivanja) Posmatra- emo ponovo matricu udaljenosti kao u Primeru 4: 1 2 3 4 5 1 0 2 9 0 3 3 7 0 4 6 5 9 0 5 11 10 2 8 0 U prvom koraku imamo 5 klastera, jer svaki element formira jedan klaster. U drugom koraku, kao i kod metode jednostrukog povezivanja, traºimo dva elementa koji su na najmanjoj udaljenosti. To su klasteri (3) i (5). Menjamo matricu udaljenosti tako ²to bri²emo redove i kolone koji odgovaraju klasterima (3) i (5) i dodajemo red i kolonu za klaster (35). Nove mere udaljenosti, kod ove metode, ra unamo kao maksimalnu udaljenost izmežu elemenata iz klastera (35) i preostalih klastera: d (35)1 = max{d 31, d 51 } = max{3, 11} = 11, d (35)2 = max{d 32, d 52 } = max{7, 10} = 10, d (35)4 = max{d 34, d 54 } = max{9, 8} = 9. Nova matrica udaljenosti sada izgleda ovako: (35) 1 2 4 (35) 0 1 11 0 2 10 9 0 4 9 6 5 0 Na osnovu ove matrice zaklju ujemo da emo u slede em koraku spojiti klastere (2) i (4) jer je njihovo rastojanje minimalno i iznosi d 24 = 5. Sada ra unamo rastojanja izmežu klastera (24) i (35) kao i rastojanje klastera (24) i (1):

Algoritmi klasterovanja 27 Matrica rastojanja je tada: d (24)(35) = max{d 2(35), d 4(35) } = max{10, 9} = 10, d (24)1 = max{d 21, d 41 } = max{9, 6} = 9. (35) (24) 1 (35) 0 (24) 10 0 1 11 9 0 U ovom koraku vidimo da emo klasteru (24) pridruºiti klaster (1) jer je njihovo rastojanje d (24)1 = 9 i ono je najmanje od svih rastojanja iz ove matrice. Dakle, sada imamo dva klastera, (124) i (35). Ostaje jo² da izra unamo na kom rastojanju emo spojiti i ova dva klastera u jedan: d (124)(35) = max{d 1(35), d (24)(35) } = max{11, 10} = 11. Ovo grupisanje moºemo prikazati i gra ki pomo u dendrograma (slika 4.7). Slika 4.7: Dendrogram rastojanja primenom metode potpunog povezivanja 5 elemenata Kada uporedimo sliku 4.5 i sliku 4.7 vidimo da se dendrogrami razlikuju u tome ²to se element 1 kod jednostrukog povezivanja prvo priklju uje klasteru (35)

Algoritmi klasterovanja 28 a kod metoda potpunog povezivanja prvo ga pridruºujemo klasteru (24). Takože se razlikuju i rastojanja izmežu ovih klastera. Primer 7. (Metoda potpunog povezivanja 11 evropskih jezika) Kao i kod Primera 5 koristimo tabelu razli itosti izmežu prvih cifara brojeva od 1 do 10 pisanih na 11 evropskih jezika: E No D H N Fr I P M F E 0 No 2 0 D 2 1 0 H 7 5 6 0 N 6 4 5 5 0 Fr 6 6 6 9 7 0 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 M 9 8 8 8 10 10 10 10 10 0 F 9 9 9 9 9 9 9 9 9 8 0 Tabela 4.2: Tablica razli itosti prvih slova u pisanju brojeva Na po etku traºimo par elemenata koji ima najmanju sli nost. To su klasteri 2 i 3, 6 i 8, 7 i 8. U prvom koraku dobijamo dva klastera, (23) i (68). Razlika izmežu metode jednostrukog i potpunog povezivanja jeste u tome ²to se matrica udaljenosti sada ra una maksimiziranjem rastojanja izmežu elemenata iz novoformiranih klastera i preostalih klastera. Nastavljamo ovaj algoritam dok ne spojimo sve elemente u jedan klaster. Rezultate ove analize moºemo prikazati i gra ki pomo u dendrograma (slika 4.8). Uporežuju i sliku 4.6 i sliku 4.8 vidimo da i metoda jednostrukog povezivanja kao i metoda potpunog povezivanja spaja engleski, norve²ki i danski u jednu grupu a francuski, italijanski i ²panski u drugu grupu. Takože, i kod jedne i kod druge metode pridruºuje se poljski grupi gde se nalaze francuski, italijanski i ²panski. Pored toga, obe metode pridruºuju mažarski i nski ostalim klasterima tek u pretposlednjoj fazi. Mežutim, postoje i razlike kod ovih metoda kod pridruºivanja nema kog i holandskog ostalim klasterima. Kod metode jednostrukog povezivanja njih povezujemo u jedan klaster a zatim ih u pretposlednjem koraku pridruºujemo ostalim klasterima, dok kod metode potpunog povezivanja nije tako. Ona dodaje nema ki u klaster gde se nalaze engleski, norve²ki i danski, dok holandski formira poseban klaster sve dok ga ne spojimo sa klasterom koji sadrºi engleski, norve²ki,

Algoritmi klasterovanja 29 Slika 4.8: Dendrogram rastojanja primenom metode potpunog povezivanja 11 evropskih jezika danski i nema ki kao i sa klasterom gde se nalaze francuski, italijanski, ²panski i poljski na nekom ve em rastojanju. Takože, na kraju, u jedan veliki klaster kod metode jednostrukog povezivanja spajamo 3 klastera a kod metode potpunog povezivanja spajamo 2 klastera. Klaster metoda prostog povezivanja i klaster metoda kompletnog povezivanja daju iste rezultate u odnosu na monotone transformacije matrica sli nosti i rastojanja. To zna i da je hijerarhijska podela na klastere uvek ista (iako se elementi mogu grupisati u isti klaster na razli itim nivoima sli nosti). Ostale metode nemaju ovu osobinu. Metoda prose nog povezivanja, ili metoda proseka (eng. average linkage). Rastojanje izmežu dva klastera kod metode proseka se ra una kao prose no rastojanje svih parova elemenata, gde jedan lan para pripada jednom klasteru dok drugi lan pripada drugom klasteru. Kao i kod prethodnih metoda, rastojanje izmežu elemenata moºe biti denisano kao udaljenost ili kao sli nost elemenata. Algoritam zapo inje denisanjem matrice udaljenosti ili sli nosti, a zatim pronalazimo najbliºe klastere C i i C j i spajamo ih u novi klaster C m. Udaljenost izmežu novog klastera C m i preostalih klastera ra unamo na slede i na in: d(c i C j, C k ) = 1 (n i + n j ) n k u C i C j v C k d(u, v) (4.1) pri emu su n i, n j i n k brojevi elemenata u klasterima C i, C j i C k, redom.

Algoritmi klasterovanja 30 Metoda prose nog povezivanja moºe da se koristi i za numeri ka obeleºja i za promenljive. Primer 8. (Klasterovanje primenom metode prose nog povezivanja) Posmatramo matricu udaljenosti iz Primera 4: 1 2 3 4 5 1 0 2 9 0 3 3 7 0 4 6 5 9 0 5 11 10 2 8 0 Algoritam zapo injemo pronalaºenjem 2 najbliºa klastera, a zatim ih spajamo u novi klaster. To su klasteri (3) i (5). Novu matricu udaljenosti ra unamo primenom formule 4.1. 1 d (35)1 = (1 + 1) 1 (d 31 + d 51 ) = 1 (3 + 11) = 7 2 1 d (35)2 = (1 + 1) 1 (d 32 + d 52 ) = 1 (7 + 10) = 8, 5 2 1 d (35)4 = (1 + 1) 1 (d 34 + d 54 ) = 1 (9 + 8) = 8, 5. 2 Sada imamo slede u matricu udaljenosti: (35) 1 2 4 (35) 0 1 7 0 2 8, 5 9 0 4 8, 5 6 5 0 Najmanju udaljenost sada imaju klasteri (4) i (2) i zbog toga sada njih spajamo u novi klaster, pri emu formiramo klastere (35), (24) i (1). Ponovo sada ra unamo rastojanje pomo u formule 4.1: 1 d (24)(35) = (1 + 1) 2 (d 2(35) + d 4(35) ) = 1 (8, 5 + 8, 5) = 4, 25 4 1 d (24)1 = (1 + 1) 1 (d 21 + d 41 ) = 1 (9 + 6) = 7, 5 2

Algoritmi klasterovanja 31 Matrica rastojanja je: (35) (24) 1 (35) 0 (24) 4, 25 0 1 7 7, 5 0 Najmanje rastojanje imaju klasteri (24) i (35) i zbog toga oni sada formiraju klaster (2345). Na kraju, ra unamo na kom rastojanju emo povezati klastere (2345) i (1): d (2345)1 = 1 (2 + 2) 1 (d (24)1 + d (35)1 ) = 1 (7, 5 + 7) = 3, 625 4 Klasterovanje ovih elemenata predstavljamo i gra ki, pomo u dendrograma: Slika 4.9: Dendrogram rastojanja sa ukr²tanjem primenom metode prose nog povezivanja 5 elemenata Kada smo primenili metodu prose nog povezivanja na dati skup podataka vidimo da je do²lo do pojave inverzije, odnosno, dobili smo dendrogram sa ukr²tanjem. Takože, dendrogram moºemo prikazati i na druga iji na in, tako ²to emo koristiti skalu koja nije monotona (slika 4.10). Moºemo sada uporediti metodu jednostrukog povezivanja, potpunog povezivanja i metodu prose nog povezivanja koriste i slike 4.5, 4.7 i 4.10. Vidimo da smo kod sve tri metode prvo nastaju klasteri (35) i (24). Na slici 4.10 uo avamo da se ovde prvo spajaju klasteri (24) i (35) a zatim im se pridruºuje i klaster (1).

Algoritmi klasterovanja 32 Slika 4.10: Dendrogram rastojanja sa skalom koja nije monotona primenom metode prose nog povezivanja 5 elemenata Primer 9. (Primena metode prose nog povezivanja za klasterovanje 11 evropskih jezika) Kao i kod Primera 5 i Primera 7 koristimo slede u tabelu razli itosti: E No D H N Fr I P M F E 0 No 2 0 D 2 1 0 H 7 5 6 0 N 6 4 5 5 0 Fr 6 6 6 9 7 0 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 M 9 8 8 8 10 10 10 10 10 0 F 9 9 9 9 9 9 9 9 9 8 0 Tabela 4.3: Tablica razli itosti prvih slova u pisanju brojeva Prvi korak se ne razlikuje od prethodnih metoda, pa zbog toga i ovde prvo spajamo klastere 2 i 3 kao i klastere 6 i 8. Na dalje se algoritam razlikuje u na inu ra unanja matrice sli nosti (primenom formule 4.1).Na kraju, rezultate prikazujemo i gra ki pomo u dendrograma (slika 4.11).

Algoritmi klasterovanja 33 Slika 4.11: Dendrogram rastojanja primenom metode prose nog povezivanja 11 evropskih jezika Kada poredimo sliku 4.6 dendrograma jednostrukog povezivanja, sliku 4.8 dendrograma potpunog povezivanja i sliku 4.11 dendrograma prose nog povezivanja uo avamo da je metoda prose nog povezivanja dosta sli na metodi potpunog povezivanja. Mežutim, kako se rastojanja izmežu klastera ra unaju na razli it na in tada se i klasteri u ovim metodama spajaju na razli itom rastojanju. Metoda Vard-a, poznata i kao metoda minimalne varijanse. Kao i kod ostalih metoda, Vardova metoda po inje sa n klastera, gde svaki sadrºi po jedan element. Ovih n klastera se kombinuju tako da na kraju ine jedan klaster. Glavna razlika izmežu ovog algoritma i procedura povezivanja je u postupku ujedinjenja. Algoritam Varda ne sastavlja grupe sa najmanjom distancom ve u svakom koraku, prilikom formiranja novih klastera, maksimizira homogenost unutar klastera. Vardova metoda je zasnovana na minimiziranju gubitka informacija prilikom pridruºivanja dve grupe i suma kvadrata gre- ²aka se pove ava sa pove anjem gubitka informacija. Dakle, Vardov algoritam je denisan kao algoritam koji spaja grupe koje e prouzrokovati najmanji porast sume kvadrata gre²aka, koju deni²emo na slede i na in: SSE = n (x i x) (x i x), (4.2) i=1 gde je x i vektor elemenata i-tog klastera i x ukupna sredina svih elemenata. Ukupna suma kvadrata gre²aka unutar klastera (SSE, eng. sum of squared errors) se ra una u cilju utvrživanja koje se dve grupe spajaju u svakom koraku algoritma.

Algoritmi klasterovanja 34 Pretpostavimo da pre po etka grupisanja imamo n klastera. Deni²imo SSE kao SSE = SSE 1 +SSE 2 + +SSE n, gde je SSE i, i = 1,..., n suma kvadrata odstupanja svakog elementa unutar i-tog klastera od njegove sredine (centroida). Na svakom koraku tokom analize grupi²emo par klastera ija kombinacija daje najmanji porast sume kvadrata gre²aka, odnosno minimalni gubitak informacija. U po etku, imamo n klastera i svaki sadrºi po ta no jedan element. Tada je SSE i = 0, i = 1,..., n, pa je ukupna suma kvadrata gre²aka takože jednaka 0, SSE = 0. Kada su na kraju svi klasteri grupisani u jednu grupu, sumu kvadrata gre²aka ra unamo po formuli (4.2). Primenjuju i ovo na klastere C i, C j i C k udaljenost moºemo izra unati na slede i na in: d(c i C j, C k ) = (n i + n j ) n k n i + n j + n k d 2 (t ij, t k ), pri emu t ij ozna ava centar klastera C i C j a t k centar klastera C k, odnosno, d 2 (t ij, t k ) je kvadrat udaljenosti izmežu centara klastera. Kao i kod ostalih metoda i kod Vardove metode rezultate moºemo ilustrovati pomo u dendrograma gde su na y-osi obeleºene vrednosti za SSE na kojima se spajaju klasteri. Primer 10. (Primena metode Varda u ispitivanju snage sijalica) Na pet razli itih proizvoža a sijalica ispitana je snaga koju daju. Sijalice su redom od 60W, 75W, 100W i 150W. Na osnovu podataka snage iz tabele 4.12 za navedene sijalice formira- emo hijerarhisku strukturu elemenata kori² enjem metode Varda, a kao razdaljinu izmežu elemenata koristi emo kvadrat Euklidovog rastojanja. U tabeli podataka 4.12 koristimo slede e oznake: y 1 -sijalica od 60W, y 2 -sijalica od 75W, y 3 -sijalica od 100W, y 4 -sijalica od 150W, dok smo sa x 1, x 2, x 3, x 4 i x 5 ozna ili razli ite proizvoža e sijalica. Kod ovog primera se vr²i grupisanje u odnosu na snagu koju daju sijalice. y 1 y 2 y 3 y 4 x 1 59,60 150 11,57 78,66 x 2 59,28 149,30 100,34 71,05 x 3 40,66 152,11 97,30 75,90 x 4 63,91 147,95 95,58 77,14 x 5 64,83 152,97 97,30 78,66 Tabela 4.4: Snaga sijalica razli itih ja ina kod razli itih proizvoža a

Algoritmi klasterovanja 35 Ovaj problem moºemo re²iti pomo u programa SP SS. Nakon unosa podataka, odabira promenljivih na osnovu kojih se vr²i analiza kao i metode za analizu mo- ºemo dobiti rezultate analize. Pomo u ovog programa dobijamo i tabelu u kojoj je prikazana ²ema spajanja elemenata (tabela 4.5) Korak Kombinovanje klastera Koecijent Korak prvog pojavljivanja Slede i Klaster 1 Klaster 2 Klaster 1 Klaster 2 korak 1 4 5 15,658 0 0 2 2 2 4 75,249 0 1 3 3 1 2 232,735 0 2 4 4 1 3 609,528 3 0 0 Tabela 4.5: ema spajanja proizvoža a sijalica na osnovu njihove snage U ovoj tabeli vidimo da se u prvoj fazi povezuju elementi 4 i 5 zato ²to je njihovo rastojanje najmanje. Grupa kreirana njihovim spajanjem se pojavljuje opet u fazi 2 ²to nam govori poslednja kolona tabele. U fazi 2 klaster (45) se spaja sa elementom 2. Ako je broj elemenata posmatranja veliki lak²e je pratiti kolonu koecijenata i traºiti velike skokove, nego pratiti dendrogram (slika 4.12). Na osnovu ovih podataka moºemo odreživati broj grupa. Slika 4.12: Dendrogram rastojanja primenom metoda Varda