PowerPoint Presentation

Слични документи
Mere slicnosti

PowerPoint Presentation

PowerPoint Presentation

Sadržaj 1 Diskretan slučajan vektor Definicija slučajnog vektora Diskretan slučajan vektor

Veeeeeliki brojevi

Microsoft Word - 1.Operacije i zakoni operacija

Programiranje 1 IEEE prikaz brojeva sažetak Saša Singer web.math.pmf.unizg.hr/~singer PMF Matematički odsjek, Zagreb Prog1 2018, IEEE p

Tutoring System for Distance Learning of Java Programming Language

1

Slide 1

Verovatnoća - kolokvijum 17. decembar Profesor daje dva tipa ispita,,,težak ispit i,,lak ispit. Verovatnoća da student dobije težak ispit je

Slide 1

Microsoft Word - 15ms261

Орт колоквијум

Matrice. Algebarske operacije s matricama. - Predavanje I

Прва економска школа Београд РЕПУБЛИЧКО ТАКМИЧЕЊЕ ИЗ СТАТИСТИКЕ март године ОПШТЕ ИНФОРМАЦИЈЕ И УПУТСТВО ЗА РАД Укупан број такмичарских

Model podataka

Slide 1

DR DRAGOŚ CVETKOVIC DR SLOBODAN SIMIC DISKRETNA MATEMATIKA MATEMATIKA ZA KOMPJUTERSKE NAUKĘ DRUGO ISPRAYLJENO I PROSIRENO IZDANJE HMUJ

PROMENLJIVE, TIPOVI PROMENLJIVIH

Microsoft Word - 6ms001

Microsoft Word - ETH2_EM_Amperov i generalisani Amperov zakon - za sajt

My_ST_FTNIspiti_Free

UAAG Osnovne algebarske strukture 5. Vektorski prostori Borka Jadrijević

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

Повезивање са интернетом

Матрична анализа конструкција

Funkcije predavač: Nadežda Jakšić

PowerPoint Presentation

СТРАХИЊА РАДИЋ КЛАСИФИКАЦИJА ИЗОМЕТРИJА И СЛИЧНОСТИ Према књизи [1], свака изометриjа σ се може представити ком позици - jом неке транслациjе за векто

Analiticka geometrija

М А Т Е М А Т И К А Први разред (180) Предмети у простору и односи међу њима (10; 4 + 6) Линија и област (14; 5 + 9) Класификација предмета према свој

1 Polinomi jedne promenljive Neka je K polje. Izraz P (x) = a 0 + a 1 x + + a n x n = n a k x k, x K, naziva se algebarski polinom po x nad poljem K.

Uvod u statistiku

Skripte2013

Test iz Linearne algebre i Linearne algebre A qetvrti tok, U zavisnosti od realnog parametra λ rexiti sistem jednaqina x + y + z = λ x +

Drveta odlucivanja - algoritmi

6-8. ČAS Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: Gde pretpostavljamo da je A celobrojna matrica dimenzije,. Takođe

Microsoft Word - 13pavliskova

Tutoring System for Distance Learning of Java Programming Language

9. : , ( )

LAB PRAKTIKUM OR1 _ETR_

Kombinatorno testiranje

OOP1 - domaci 2 (2004/05)

Microsoft Word - predavanje8

Рачунарска интелигенција

Inženjering informacionih sistema

ЗАДАЦИ ИЗ МАТЕМАТИКЕ ЗА ПРИПРЕМАЊЕ ЗАВРШНОГ ИСПИТА

Programiranje u C-u ili C++-u Pseudo-slučajni brojevi; Dinamička alokacija memorije 1 ZADACI SA ČASA Zadatak 1 Napraviti funkciju koja generišlučajan

EMC doc

Algoritmi i arhitekture DSP I

Slide 1

Studijski primer - Dijagrami toka podataka Softverski inženjering 1

Увод у организацију и архитектуру рачунара 1

Школа Ј. Ј. Змај Свилајнац МЕСЕЧНИ ПЛАН РАДА ЗА СЕПТЕМБАР Школска 2018 /2019. Назив предмета: Информатика и рачунарство Разред: 5. Недељни број часова

Školska 20 /. godina OPERATIVNI PLAN RADA NASTAVNIKA ZA MJESEC SEPTEMBAR Naziv predmeta: MATEMATIKA Razred: II Nedjelјni fond časova: 5 Ocjena ostvare

Slide 1

Microsoft Word - 1. REALNI BROJEVI- formulice

Microsoft Word - 02 Elementi programskog jezika Pascal

Microsoft Word - tumacenje rezultata za sajt - Lektorisan tekst1

P11.3 Analiza zivotnog veka, Graf smetnji

Uvod u obične diferencijalne jednadžbe Metoda separacije varijabli Obične diferencijalne jednadžbe Franka Miriam Brückler

Numeričke metode u fizici 1, Projektni zadataci 2018./ Za sustav običnih diferencijalnih jednadžbi, koje opisuju kretanje populacije dviju vrs

Hej hej bojiš se matematike? Ma nema potrebe! Dobra priprema je pola obavljenog posla, a da bi bio izvrsno pripremljen tu uskačemo mi iz Štreberaja. D

Upitni jezik SQL

1 Konusni preseci (drugim rečima: kružnica, elipsa, hiperbola i parabola) Definicija 0.1 Algebarska kriva drugog reda u ravni jeste skup tačaka opisan

Konacne grupe, dizajni i kodovi

P1.1 Analiza efikasnosti algoritama 1

RASPORED PISMENIH ISPITA ZA ŠK. GODINU 2017./2018. RAZRED: 2.a, 2.c PREDMET IX. X. XI. XII. I. II. III. IV. V. VI. Hrvatski jezik RŠČ Dijelov

Paper Title (use style: paper title)

Р273 Пројектовање база података Примери питања за колоквијум 1. Навести најважније моделе података кроз историју рачунарства до данас. 2. Објаснити ос

ФАКУЛТЕТ ОРГАНИЗАЦИОНИХ НАУКА

PowerPoint Presentation

PowerPoint Presentation

QFD METODA – PRIMER

Microsoft PowerPoint - Programski_Jezik_C_Organizacija_Izvornog_Programa_I_Greske [Compatibility Mode]

PowerPoint Presentation

DUBINSKA ANALIZA PODATAKA

Programski paketi u nastavi matematike, Jelena Milošević Kreiranje dinamičkih konstrukcija Konstrukcije u GeoGebri se sastoje od matematičkih objekata

Microsoft Word - Domacii zadatak Vektori i analiticka geometrija OK.doc

Математика 1. Посматрај слику и одреди елементе скуупова: а) б) в) средњи ниво А={ } B={ } А B={ } А B={ } А B={ } B А={ } А={ } B={ } А B={ } А B={ }

Microsoft Word - Drugi razred mesecno.doc

ТРОУГАО БРЗИНА и математичка неисправност Лоренцове трансформације у специјалној теорији релативности Александар Вукеља www.

MATEMATIKA IZVEDBENI GODIŠNJI NASTAVNI PLAN I PROGRAM MATEMATIKE OSNOVNA ŠKOLA, 2. razred šk. god Planirala: Višnja Špicar, učitelj RN

UNIVERZITET U NOVOM SADU FAKULTET TEHNIČKIH NAUKA NOVI SAD Odsek/smer/usmerenje: Matematika u tehnici DIPLOMSKI - MASTER RAD Kandidat: Ljubo Nedović B

P1.2 Projektovanje asemblera

ALIP1_udzb_2019.indb

NAPOMENA: Studenti na ispit donose kod urađenog zadatka

Microsoft Word - 7. cas za studente.doc

АГЕНЦИЈА ЗА БАНКАРСТВО РЕПУБЛИКЕ СРПСКЕ УПУТСТВО ЗА ЕЛЕКТРОНСКО ДОСТАВЉАЊЕ ПОДАТАКА ИЗ ОБЛАСТИ РЕСТРУКТУРИРАЊА БАНАКА Бања Лука, јули године

РАСПОРЕД ИСПИТА У ИСПИТНОМ РОКУ ЈАНУАР 1 ШКОЛСКЕ 2016/2017. ГОДИНЕ (последња измена ) Прва година: ПРВА ГОДИНА - сви сем информатике Име пр

Microsoft PowerPoint - 03-Slozenost [Compatibility Mode]

PLAN I PROGRAM ZA DOPUNSKU (PRODUŽNU) NASTAVU IZ MATEMATIKE (za 1. razred)

P3.2 Paralelno programiranje 2

12 Stanje

Razvoj programa, Code::Blocks, struktura programa, printf, scanf, konverzioni karakteri predavač: Nadežda Jakšić

Projektovanje informacionih sistema i baze podataka

Metode izbora lokacije

Osnovni pojmovi teorije verovatnoce

Osnovi programiranja Beleške sa vežbi Smer Računarstvo i informatika Matematički fakultet, Beograd Jelena Tomašević i Sana Stojanović November 7, 2005

Транскрипт:

Podaci za Data Mining

Glava _. Sadržaj Skupovi podataka Atributi i tipovi atributa Tipovi skupova podataka Kvalitet podataka Mjerenje sličnosti u skupu podataka Analiza na osnovu veza u podacima

10 Skupovi podataka Skup podataka se sastoji od objekata (entiteta, slogova, tačaka itd.) Svaki objekat se opisuje skupom atributa (promjenljivih, dimenzija, svojstava itd.) Objekti Atributi Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

Atributi Atribut je svojstvo ili karakteristka objekta koje može da ima različite vrijednosti za različite objekte ili trenutke vremena Mjera je funkcija koja atributu dodjeljuje numeričku ili simboličku vrijednost Jednom atributu može biti dodijeljeno više različitih vrijednosti Različiti atributi mogu da imaju vrijednosti iz istog skupa

Tipovi atributa Podjela na osnovu svojstava vrijednosti koje se dodjeljuju atributima Nominalni ili imenički (engl. nominal) boja očiju Redni (engl. ordinal) ocjena na ispitu Intervalni (engl. interval) period vremena Količnički (engl. ratio) dužina

Svojstva vrijednosti atributa Svojstva ili operacije koje određuju podjelu Sličnost =,!= Uređenje<, >, <=, >= Sabiranje i oduzimanje +, - Množenje i dijeljenje *, / Nominalni: sličnost Redni: sličnost i uređenje Intervalni: sličnost i uređenje i sabiranje i oduzimanje Količnički: sličnost i uređenje i sabiranje i oduzimanje i množenje i dijeljenje

Tip atributa Opis Primjeri Nominalni Redni Vrijednosti atributa su različita imena, tj. nominalni atributi obezbjeđuju samo dovoljno informacija za razlikovanje jednog objekta od drugog (=, ) Na osnovu vrijednosti atributa moguće je sortirati objekte. (<, >) Boja očiju, pol, JMBG visina iz skupa {nizak, prosječan, visok}, ocjena, adresa Intervalni Postoji jedinica mjere, razlika između vrijednosti je značajna. (+, - ) Datum, temperatura u stepenima Celzijusove skale Količnički Razlika i odnos između vrijednosti je značajan. (*, /) Dužina, temperatura u stepenima Kelvinove skale

Atributi Transformacija koja ne mijenja značenje atributa (S. Stevens) Komentar Nominalni Svaka 1-1 funkcija Ponovna dodjela brojeva indeksa ne mijenja značenje Redni Primjena monotone funkcije new_value = f(old_value) Skup vrijednosti {1, 2, 3} može sa bude predstavljen skupom {0.5, 1, 10}. Intervalni new_value =a * old_value + b gdje su a i b konstante Prevođenje iz Celzijusove u Farenhajtovu temperaturnu skalu Količnički new_value = a * old_value gdje je a konstanta Mjerenje dužine metrima ili stopama.

Tipovi atributa prema broju vrijednosti Diskretni atributi Konačan ili prebrojiv skup vrijednosti Često se predstavljaju cijelim brojevima Primjer: binarni atribut Obično su to nominalni i redni atributi Kontinualni atributi Vrijednosti su iz skupa realnih brojeva Često se predstavljaju pokretnim zarezom (float tip) Primjer: temperatura, visina, težina Obično su to intervalni i količnički atributi

Asimetrični atrbuti Samo su važne ne nula vrijednosti Binarni asimetrični atributi naročito važni za asocijativnu analizu Mogu da budu i asimetrični diskretni ili asimetrični kontinualni

Tipovi skupova podataka Record data Matrice podataka Document data Transakcione BP Graph-based data Hemijski molekuli WWW Oredred data Temporal (sequential) data Sequence data

Karakteristike skupova podataka Dimenzionalnost Broj atributa koje posjeduju objekti Curse of Dimensionality Rijetkost Npr. manje od 1% ne nula vrijednosti Stepen generalizacije Otkrivanje šablona zavisi od stepena generalizacije na kojem su predstavljeni podaci

10 Record data Skup podataka se sastoji od slogova, a svaki slog od fiksiranog broja polja (atributa) Čuvaju se u običnim datotekama ili relacionim BP Tid Refund Marital Status Taxable Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Cheat 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes

Matrice podataka Svaki objekat se opisuje jednakim skupom numeričkih atributa i posmatra se kao vektor u više-dimenzionalnom prostoru gdje dimenzija predstavlja atribut Skup podataka se predstavlja matricom sa m vrsta i n kolona: jedna vrsta za jedan objekat, jedna kolona za jedan atribut Projection of x Load 10.23 12.65 Projection of y load 5.27 6.25 Distance 15.22 16.22 Load 2.7 2.2 Thickness 1.2 1.1

Rijetke matrice podataka Atributi su istog tipa i asimetrični su season timeout lost wi n game score ball pla y coach team Document 1 3 0 5 0 2 6 0 2 0 2 Document 2 0 7 0 2 1 0 0 3 0 0 Document 3 0 1 0 0 1 2 2 0 3 0

Transakcione BP Slog predstavlja transakciju Svaka transakcija sadrži skup objekata (item-a) market basket data TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk

Graph data Dva tipa Grafom se predstavljaju relacije između objekata Sami objekti su grafovi <a href="papers/papers.html#bbbb"> Data Mining </a> 5 <li> 2 <a href="papers/papers.html#aaaa"> Graph Partitioning </a> 5 <li> <a href="papers/papers.html#aaaa"> Parallel Solution of Sparse Linear System of Equations </a> <li> <a href="papers/papers.html#ffff"> N-Body Computation and Dense Linear System Solvers 2 1

Ordered data Temporal data Vrijeme Kupac Proizvodi T1 C1 A, B T2 C3 A, C T2 C1 C, D T3 C2 A, D T4 C2 E T5 C1 A, E Kupac Vrijeme + Proizvodi C1 (t1 : A, B) (t2 : C, D) (t5 : A, E) C2 (t3 : A, D) (t4 : E) C3 (t2 : A, C)

Ordered data (2) Sequence data Nema vremenske odrednice Položaj u uređenoj sekvenci GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG

Kvalitet podataka Problemi vezani za kvalitet podataka Greške u mjerenju šum u podacima Greške u sakupljanju podataka izuzeci (outliers) nedostajuće i nekonzistentne vrijednosti duplikati Otkrivanje i ispravljanje problema kvaliteta je čišćenje podataka (data cleaning)

Šum u podacima Šum je slučajna greška mjerenja podataka Primjer: ljudski glas preko telefonske žice ili sniježenje slike

Bias i preciznost u skupu podataka Pretpostavka je da je izvršeno više mjerenja jednog objekta i srednja (prosječna) vrijednost se uzima kao stvarna mjera Bias = abs(mean stvarna vrijednost) Preciznost = uzoračka disperzija Primjer: testira se vaga tako što se 5 puta mjeri 1g. Rezultati mjerenja su {1.015, 0.99, 1.013, 1.001, 0.986}, pa je mean = 1.001 bias = 0.001 preciznost = 0.013

Izuzeci Izuzeci su Objekti koji su po karakteristikama jako različiti od ostalih objekata u skupu podataka Vrijednosti atributa koje su neočekivane za taj atribut u skupu podataka

Nedostajuće vrijednosti Razlozi Vrijednosti nijesu unijete Vrijednosti nijesu odgovarajuće za sve objekte Strategije Eliminacija objekata Eliminacija atributa Ignorisanje nedostajućih vrijednosti tokom analize Procjena nedostajućih vrijednosti

Duplikati Skupovi podataka mogu da sadrže duplikate ili skoro duplikate Detekcija duplikata Ako u skupu podataka postoje dva objekta koja u stvari predstavljaju jedan, vrijednosti odgovarajućih atributa mogu da se razlikuju (nekonzistentnost) Slični objekti nijesu uvijek duplikati

Mjerenje sličnosti u skupu podataka Sličnost objekata u skupu podataka je važna za veliki broj algoritama Sličnost Broj koji pokazuje koliko su slična dva objekta, često iz segmenta [0,1] Različitost (ili rastojanje) Broj koji pokazuje koliko su različita dva objekta Minimalna različitost je 0, gornja granica često 1 ili beskonačno Proximity: sličnost ili različitost

Transformacije Transforacijama se mjera sličnosti prevodi u mjeru različitosti proximity mjera prevodi u željeni interval Transformacija različitosti u sličnost ma kojom monotono opadajućom funkcijom s=-d ili s=1/(d+1) ili s=exp(-d) Transformacija u [0,1]: s1=(s-min_s)/(max_smin_s)

Sličnost među objektima sa jednim atributom p i q su vrijednosti atributa za dva objekta

Rastojanje Euklidsko rastojanje dist ( 3 n k1 p k q k 2 ) 2 1 0 p1 p3 p4 p2 0 1 2 3 4 5 6 point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0

Rastojanje (2) Minkowski rastojanje r=1, city block distance. Primjer je Hamingovo rastojanje između binarnih vektora r=2, Euklidsko rastojanje dist r, maksimalno rastojanje između atributa dva objekta City block distance, Euklidovo i maksimalno rastojanje su definisani za sve vrijednosti n n ( k1 p k q k r ) 1 r

Rastojanje (3) point x y p1 0 2 p2 2 0 p3 3 1 p4 5 1 L1 p1 p2 p3 p4 p1 0 4 4 6 p2 4 0 2 4 p3 4 2 0 2 p4 6 4 2 0 L2 p1 p2 p3 p4 p1 0 2.828 3.162 5.099 p2 2.828 0 1.414 3.162 p3 3.162 1.414 0 2 p4 5.099 3.162 2 0 L p1 p2 p3 p4 p1 0 2 3 5 p2 2 0 1 3 p3 3 1 0 2 p4 5 3 2 0

Svojstva rastojanja Rastojanje je mjera različitosti koja zadovoljava uslove (zove se i metrika) 1. d(p, q) 0 za sve p i q 2. d(p, q) = 0 samo ako je p = q 3. d(p, q) = d(q, p) za sve p i q 4. d(p, r) d(p, q) + d(q, r) za sve p, q i r Mjere za različitost koje nijesu metrike Razlika skupova

Sličnost Uobičajena svojstva mjere sličnosti s(x, y) su 1. s(p, q) = 1 (poklapanje) samo ako je p = q 2. s(p, q) = s(q, p) za sve p i q

Sličnost za binarne vektore Objekti x i y imaju n binarnih atributa Sličnost se računa na osnovu M 01 = broj atributa koji su 0 za x a 1 za y M 10 = broj atributa koji su 1 za x a 0 za y M 00 = broj atributa koji su 0 za x i 0 za y M 11 = broj atributa koji su 1 za x i 1 za y Simple matching coefficient (SMC) = (M 11 + M 00 ) / (M 01 + M 10 + M 11 + M 00 ) Jaccard coefficient = (M 11 ) / (M 01 + M 10 + M 11 )

Sličnost za binarne atribute, primjer p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M 01 = 2 (the number of attributes where p was 0 and q was 1) M 10 = 1 (the number of attributes where p was 1 and q was 0) M 00 = 7 (the number of attributes where p was 0 and q was 0) M 11 = 0 (the number of attributes where p was 1 and q was 1) SMC = (M 11 + M 00 )/(M 01 + M 10 + M 11 + M 00 ) = (0+7) / (2+1+0+7) = 0.7 J = (M 11 ) / (M 01 + M 10 + M 11 ) = 0 / (2 + 1 + 0) = 0

Kosinus kao mjera sličnosti Karakteristike Ingnoriše 0-0 sličnost Primjenljiva ne samo za binarne atribute Najčešće se koristi za sličnost dokumenata Ako su x i y dokument predstavljeni vektorima, tada je cos(x,y)=x*y/ x y, gdje je x*y skalarni proizvod a x 2 =x*x

Kosinus kao mjera sličnosti (2) Primjer d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d 1, d 2 ) =.3150

Prošireni Jaccard koeficijent Može da se primijeni na sličnost dokumenata, U slučaju binarnih atributa svodi se na Jaccard koeficijent Naziva se i Tanimoto koeficijent

Korelacija Korelacija između dva objekta je linearna mjera veza između njihovih artributa (binarnih ili kontinualnih) Korelacija je iz [-1,1], ako je 1 (-1) onda je savršena pozitivna (negativna) linearna veza između x i y, ako je 0 nema linearne veze Correlation(x, y) = cov(x, y) / std(x) * std(y)

Računanje sličnosti ako su atributi različitih tipova

Rečunanje sličnosti sa težinama Težina atributa je njegov značaj za određivanje sličnosti Težine su između 0 i 1, a njihova suma je 1

Gustina kao mjera sličnosti Density-based klasterizacija prepoznaje klastere kao regione sa velikom gustinom Euklidska gustina za objekat je broj objekata u krugu zadatog poluprečnika