DUBINSKA ANALIZA PODATAKA

Слични документи
DUBINSKA ANALIZA PODATAKA

Uvod u statistiku

PowerPoint Presentation

Drveta odlucivanja - algoritmi

SVEUČILIŠTE U ZAGREBU

PowerPoint Presentation

Istraživanje kvalitete zraka Slavonski Brod: Izvještaj 3 – usporedba podataka hitnih medicinskih intervencija za godine i

Slide 1

IRL201_STAR_sylab_ 2018_19

Raspodjela i prikaz podataka

PROGRAMIRANJE Program je niz naredbi razumljivih računalu koje rješavaju neki problem. Algoritam je postupak raščlanjivanja problema na jednostavnije

REPUBLIKA HRVATSKA DRŽAVNI URED ZA REVIZIJU Područni ured Varaždin IZVJEŠĆE O OBAVLJENOJ PROVJERI PROVEDBE DANIH PREPORUKA ZA REVIZIJU UČINKOVITOSTI R

Microsoft Word - Korisnički priručnik za liječnika.docx

No Slide Title

VELEUČILIŠTE VELIKA GORICA REZULTATI STUDENTSKE ANKETE PROVEDENE NA VELEUČILIŠTU VELIKA GORICA ZA ZIMSKI SEMESTAR AKADEMSKE 2013/2014 GODINE 1. Uvod E

Microsoft Word - 6. RAZRED INFORMATIKA.doc

Recuva CERT.hr-PUBDOC

Dani psihologije u Zadru, svibnja 2012.

Школа Ј. Ј. Змај Свилајнац МЕСЕЧНИ ПЛАН РАДА ЗА СЕПТЕМБАР Школска 2018 /2019. Назив предмета: Информатика и рачунарство Разред: 5. Недељни број часова

Državna matura iz informatike

35-Kolic.indd

pecur.indd

Tolerancije slobodnih mjera ISO Tolerancije dimenzija prešanih gumenih elemenata (iz kalupa) Tablica 1.1. Dopuštena odstupanja u odnosu na dime

8 2 upiti_izvjesca.indd

UVJETI KORIŠTENJA INTERNETSKE STRANICE Korisnik posjetom web stranicama potvrđuje da je pročitao i da u cijelosti prihvaća o

NAZIV PREDMETA ISTRAŽIVANJE TRŽIŠTA Kod Godina studija 2. Nositelj/i Danijela Perkušić Malkoč Bodovna vrijednost 6 predmeta (ECTS) Suradnici Status pr

48-Blazevic.indd

Рачунарска интелигенција

POVIJEST I GRAĐA RAČUNALA

DNEVNIK RADA STRUČNE PRAKSE -komercijalist- IME I PREZIME: [Type text]

Matematika kroz igru domino

PowerPoint Presentation

REPUBLIKA HRVATSKA DRŽAVNI URED ZA REVIZIJU Područni ured Osijek IZVJEŠĆE O OBAVLJENOJ PROVJERI PROVEDBE DANIH PREPORUKA ZA REVIZIJU UČINKOVITOSTI JAV

NAZIV PREDMETA OBLIKOVANJE WEB STRANICA Kod SIT132 Godina studija 3. Bodovna vrijednost Nositelj/i predmeta Haidi Božiković, predavač 6 (ECTS) Suradni

Predmet: Marketing

Microsoft Word - Prelomljen 30 broj.doc

Korporativna_prezentacija

Matematika 1 - izborna

(Microsoft Word - S1-MTS-Primjena ra\350unala u poslovnoj praksi -Breslauer N)

PROJEKT UNAPRJEĐENJE PISMENOSTI U ZDRAVSTVENOM UČILIŠTU UP Dijana Didak Zlatica Kozjak Mikid IKT U Z

U proračunu Europske unije za Hrvatsku je ukupno namijenjeno 3,568 milijardi Eura za prve dvije godine članstva

Microsoft Word - AIDA2kolokvijumRsmerResenja.doc

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Microsoft Word - III godina - EA - Metodi vjestacke inteligencije

Metode psihologije

PPT

Microsoft Word - 1.Prehrana i zdravlje ORT

Klasifikacija slika kucnih brojeva dubokim konvolucijskim modelima

e-škole pilot DIGKOMP U1 UPUTA: ZADACI ZA ISPITIVANJE DIGITALNIH KOMPETENCIJA UČENIKA Ovim zadacima ispituju se tvoje vještine korištenja digita

Elementarna matematika 1 - Oblici matematickog mišljenja

PowerPoint Presentation

ASAS AS ASAS

SVEUČILIŠTE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE V A R A Ž D I N Vedran Grbavac RUDARENJE PODATAKA KAO METODA UPRAVLJANJA ZNANJEM ZAVRŠNI RAD

Škola: Geodetska škola, Zagreb Razredni odijel: IV. D Datum: 22. studenog Školska godina: 2018./2019. Nastavnik: Katija Špika Mentor: Armando Sl

Programiranje 1 IEEE prikaz brojeva sažetak Saša Singer web.math.pmf.unizg.hr/~singer PMF Matematički odsjek, Zagreb Prog1 2018, IEEE p

Microsoft PowerPoint - DPD Brexit Vodiē_4 kljuēna koraka za kupce_Studeni 2018.pptx

Algoritmi

PowerPoint Presentation

Microsoft PowerPoint - Bazdaric_vrste istrazivanja 2014_ pptx [Read-Only]

PowerPoint Presentation

EUROPSKA KOMISIJA Bruxelles, C(2018) 3697 final ANNEXES 1 to 2 PRILOZI PROVEDBENOJ UREDBI KOMISIJE (EU) /... o izmjeni Uredbe (EU) br. 1301

1, 2, 3, кодирај! Активности циклуса 4 Пројект «Аркадне игре» - Час 6: Програмирање падања новчића (наставак) Доминантна дисциплина Математикa Резиме

Vrjednovanje diplomskih studija od strane studenata koji su tijekom akademske godine 2015./2016. završili studij Grafički fakultet Grafička tehnnologi

Vrjednovanje diplomskih studija od strane studenata koji su tijekom akademske godine 2015./2016. završili studij Hrvatski studiji Psihologija Ured za

Vrjednovanje diplomskih studija od strane studenata koji su tijekom akademske godine 2015./2016. završili studij Fakultet organizacije i informatike I

SVEUČILIŠTE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE V A R A Ž D I N Erna Golubić IZRADA PREDIKTIVNIH MODELA U MARKETINGU DIPLOMSKI RAD Varaždin,

Vrjednovanje diplomskih studija od strane studenata koji su tijekom akademske godine 2015./2016. završili studij Hrvatski studiji Kroatologija Ured za

Classroom Expectations

Instalacija R-project softvera Univerzitet u Novom Sadu April 2018 Contents 1 Uvod 2 2 Instalacija R: Instalacija

22C

don't be evil Dobrica Pavlinušić Kako u nestrukturiranom svijetu naći nestrukturirane informacije? Th

kriteriji ocjenjivanja - informatika 8

Microsoft PowerPoint - Distribucija prostornih podataka u Republici Hrvatskoj - 2. NIPP - Opatija-def [Compatibility Mode]

Postojanost boja

Rano učenje programiranj

Sveučilište u Zagrebu Fakultet prometnih znanosti Zavod za inteligentne transportne sustave Katedra za primijenjeno računarstvo Vježba: #7 Kolegij: Ba

ASAS AS ASAS

Program_digitalna_akademija_2019_F

GTS obrt za savjetovanje, trgovinu i sport, vl. Tihomir Grbac HR Sveta Nedelja, Ferde Livadića 15 Tel/Fax: ,

SAMPLE CONTRACT FOR CONSULTING SERVICES

PowerPoint Presentation

23. siječnja od 13:00 do 14:00 Školsko natjecanje / Osnove informatike Srednje škole RJEŠENJA ZADATAKA S OBJAŠNJENJIMA Sponzori Medijski pokrovi

Opća politika zaštite osobnih podataka u Elektrodi Zagreb d.d Verzija: 1.0

CRNA GORA Komisija za tržište kapitala Na osnovu člana 65 stav 6 Zakona o investicionim fondovima ("Službeni list Crne Gore", br. 54/11, 13/18), Komis

Microsoft Word - Raspored ispita Jun.doc

Teorija skupova - blog.sake.ba

(Microsoft Word - S1 -OR- Osnove ra\350unarstva)

ETШ: "Паја Маргановић“ Панчево

TEMA: Tematska i vrstovna podjela lirskih pjesama KLJUČNI POJMOVI: domoljubna pejsažna i ljubavna pjesma himna haiku OBRAZOVNA POSTIGNUĆA: razlikovati

ПА-4 Машинско учење-алгоритми машинског учења

INDIKATIVNI GODIŠNJI PLAN OBJAVE NATJEČAJA ZA PODUZETNIKE U GODINI IZ OPERATIVNOG PROGRAMA KONKURENTNOST I KOHEZIJA 1. POVEĆANJE RAZVOJA NOVIH P

ZADNJI DATUM AŽURIRANJA:

Izvršavanje pitanja

COBISS3/Nabava

Technology management performance indicators in global country rankings

Vrjednovanje diplomskih studija od strane studenata koji su tijekom akademske godine 2015./2016. završili studij Fakultet organizacije i informatike O

Транскрипт:

DUBINSKA ANALIZA PODATAKA () (ENGL. DATA MINING) Studeni 2018. Mario Somek

CILJ NASTAVNE TEME Upoznati s mogućnostima pronalaženja međuzavisnosti atributa u skupovima podataka. Temeljem međuzavisnosti pokušati doći do novih korisnih spoznaja. Usvojiti spoznaje o stvaranju prediktivnih modela. Ukazati na važnost prikupljanja podataka. 2

BAZE PODATAKA Za analizu potrebni su podaci. Entitet, atribut (značajka ili varijabla), polje, zapis (instanca). Ispravno prikupljanje podataka u IS-evima. Kodeks atributa. Nedostajuće vrijednosti (engl. null values). Vrste/tipovi podataka. Važnost skupova podataka. SAŽETAK 3

BAZE PODATAKA Tablična struktura skladištenja. Veliki uzorci podataka 10000 i > zapisa. PACIJENT ADRESA SPOL DOB MJERENJE1 Ime1 Ulica1 M 25 20,2 Ime2 Ulica2 Ž 35 25,6 Ime3 Ulica3 Ž 45 28,4 Piramida znanja. 4

BAZE PODATAKA Logička hijerarhija podataka, informacija i znanja. Podaci - zabilježene činjenice. Važnost informacije. Informacija - pravilnost, pravilo, uzorak (engl. pattern), skriven u podacima. Snažne pravilnosti - buduća predviđanja, znanje. ZNANJE INFORMACIJA PODATAK 5

BAZE PODATAKA Veličina transakcijskih baza podataka mjeri se u terabajtovima (TB). Jedan terabajt = 1,024 gigabajta (GB). Ako uzmemo u obzir da jedan gigabajt u prosjeku sadrži 64.782 stranica Word dokumenta (LexisNexis, 2004), onda jedan terabajt ima 66.336.768 stranica. http://www.kdnuggets.com/2016/11/pollresults-largest-dataset-analyzed.html SAŽETAK 6

ZANIMLJIVOST Tajna služba investira u izgradnju objekta za superbrza u superkapacitivna računala Osnivanje tvrtki za analizu podataka. Namjena pohrana podataka korisnika cijelog svijeta: e-pošte, Skype razgovora, pretraživanja Google-a, postovi na Facebook-u, bankarski transferi. 7

ZANIMLJIVOST Težnja je da se ljudi i njihovo ponašanje učine predvidljivim. Projekt je usmjeren na predviđanje temeljem podataka. Kada će se dogoditi neki oblik društvenog protesta. Etičnost - mediji - investitor: tehnologija napreduje brže nego što je država ili zakon mogu pratiti. 8

U PROCESU OTKRIVANJA ZNANJA STABLO ODLUČIVANJA SAŽETAK 9

ŠTO JE Otkrivanje novog znanja u skupovima podataka. Temeljem prikupljenih podataka težnja je predvidjeti buduće vrijednosti željenih atributa. Rudarenje podacima pronalaženje zlata u rudniku punom ugljena. Za pronalaženje znanja nekom od metoda primjenjuju se razni algoritmi. SAŽETAK 10

ŠTO JE Uspjeh ovisi o kvaliteti i kvantiteti ulaznih podataka općenito odnos je proporcionalan. Primjer istraživanje tržišta, ankete-veći uzorak-veća pouzdanost/točnost rezultata. Rezultat analize: oblik razumljiv čovjeku, ponekad dvosmislen i ne upotrebljiv. Induktivan način otkrivanja znanja. SAŽETAK 11

ŠTO JE - VRSTE ZAKLJUČIVANJA - TEORIJA ZAKLJUČAK DEDUKTIVNO INDUKTIVNO HIPOTEZA PRAVILNOSTI HIPOTEZA PROMATRANJE PROMATRANJE POTVRDA 12

ŠTO JE - INDUKTIVAN PRISTUP - Induktivan pristup zaključivanje temeljem promatranja pojedinih događaja. Rezultat opći zaključak. Pouzdanost induktivnog zaključivanja ovisi o: kvantitetu činjenica/slučaja, reprezentativnosti/učestalosti određene pojave, stupnju značenja činjenice/slučaja. SAŽETAK 13

ŠTO JE - INDUKTIVAN PRISTUP - Iz baze podataka IS-a pronaći osobine pacijenata koji su obavili UZV. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da Po provedenoj rezultat je pravilo: UZV ako SPOL/muški i ako STAROST/>60. 14

ŠTO JE - INDUKTIVAN PRISTUP - Pouzdanost: 3 zapisa, 2 s ciljnim atributom da. Od 3 zapisa na temelju dva donosimo sud. 3000 zapisa, 2000 s ciljnim atributom. Pouzdanost veća. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da 15

PRIMJER REZULTATA Ako je kod atributa Mjerenje1 vrijednost Vrijednost1 i kod atributa Mjerenje2 vrijednost Vrijednost2 tada ciljni atribut Mjerenje3 ima vrijednost Vrijednost3. Uvjerenost da će atribut Mjerenje1 biti u Rasponu1 te da će istovremeno Mjerenje2 biti u Rasponu2 iznosi 0,875. 16

PREDUVJETI Računalo - HARDWARE Skladište/skup podataka - DATAWARE Znanje potrebno za provođenje - LIFEWARE Programska podrška - SOFTWARE SAŽETAK 17

FAZE U PROVOĐENJU 1. Cilj otkrivanja znanja, što se želi postići. 2. Definirati primjerenu vrstu analize. 3. Priprema podataka. 4. Izabrati metodu ili model analize. 5. Primijeniti odgovarajući algoritam. 6. Rezultat analize-primjena. SAŽETAK 18

FAZE U PROVOĐENJU 1. Cilj Cilj otkrivanja znanja, što se želi postići u nekom području. U području medicine potrebno je npr. naći: povezanost simptoma nekih bolesti s dobi pacijenata, povezanost antropoloških obilježja i dijagnoze pacijenata, povezanosti primjene lijekova i simptoma nuspojave. Zašto? 19

FAZE U PROVOĐENJU 1. Cilj Problem ili cilj treba nastojati definirati kao klasifikacijski. Promatrati ciljni atribut i zavisnost njegovih vrijednosti o ostalim atributima, ali onim koji su korisni za poslovanje u određenom području. Primjereno promatrati atribute simptomi i dijagnoze. Neprimjereno: simptomi i adresa pacijenta. 20

FAZE U PROVOĐENJU 1. Cilj Cilj je u praksi uvjetovan prikupljenim podacima u bazi podataka. Planirati unaprijed. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da 21

FAZE U PROVOĐENJU 2. Vrsta analize Definirati vrstu predikcije/predviđanja: A. Klasifikacija, B. Regresija. Općenito, odabrati vrstu koja daje rezultate u obliku koje korisnik može razumjeti. Jednostavnost primjene rezultata u praksi. Odabrati prema postojećoj praksi već provjerene jednostavnije vrste predikcije. 22

FAZE U PROVOĐENJU 2. Vrsta predikcije Klasifikacija Omogućuje rješavanje većine poslovnih problema. Klasifikacija se izvodi pomoću skupa atributa koji se predviđa tako što se podaci dijele u kategorije prema nekom skupu koji se predviđa. Stablo odlučivanja (engl. Decision tree). Asocijacijska pravila (engl. Association rule). 23

FAZE U PROVOĐENJU 2. Vrsta predikcije Klasifikacija Rezultat analize je pravilo oblika: ako-onda (engl. if-then). Ako TEMP/visoka i TLAK/>140/90 onda BOLEST. Uvjerenost/pouzdanost da će atribut Dob biti u rasponu 40-50 i da će atribut Simptomi poprimiti vrijednost Da iznosi 0,7. 24

FAZE U PROVOĐENJU 2. Vrsta predikcije Regresija Pri provođenju analize postojeće vrijednosti koriste se za predviđanje novih vrijednosti. Zavisni (ciljni) i nezavisni (predviđajući) atributi. Zavisni želimo predvidjeti, a nezavisni služe kao osnova na kojoj temeljimo predviđanje. Npr. predviđamo visinu populacije na temelju više različitih atributa koji se skupljaju kroz neki period. 25

FAZE U PROVOĐENJU 3. Priprema podataka Redukcija podataka - u skladu s ciljem analize promatrati i izdvojiti određene atribute. Nedostajuće vrijednosti - inzistirati na upisu svakog podataka. Transformacija podataka: nominalne svesti na one koji se često pojavljuju, numeričke svesti u kategorije, nominalne u numeričke. 26

FAZE U PROVOĐENJU 3. Priprema podataka Obilježja atributa Vrste: nominalni (tekst) i numerički (broj). Moraju biti u strukturiranom obliku. Nominalni poželjno je unaprijed odrediti vrijednosti i definirati ih popisom, broj različitih vrijednosti do 10. Numerički često u praksi mnogo različitih vrijednosti, potrebno svesti u zanimljive raspone vrijednosti. 27

FAZE U PROVOĐENJU 3. Priprema podataka Redukcija izostavljen atribut jer je nevažan za promatranje obzirom na cilj analize PACIJENT SPOL STAROST TEŽINA UZV Ime1 m? >70 Da Ime2 Ž <60? Ne Ime3 m >60 <70 Da Prazna polja u skupu podataka predstavljaju beskorisne podatke nedostajuće vrijednosti 28

FAZE U PROVOĐENJU 3. Priprema podataka PACIJENT SPOL STAROST TEŽINA UZV Ime1 m 55 75 Da Ime2 Ž 63 80 Ne Ime3 m 66 63 Da PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da Transformacija numeričkih vrijednosti u kategorije/razrede 29

FAZE U PROVOĐENJU 4. Metoda analize Stablo odlučivanja (engl. Decison tree)-rezultat: ako je kod atributa Mjerenje1 vrijednost Vrijednost1 i kod atributa Mjerenje2 vrijednost Vrijednost2 tada tzv. ciljni atribut Mjerenje3 ima vrijednost Vrijednost3. Asocijacijska pravila (engl. Association rule)- rezultat: uvjerenost/pouzdanost da će atribut Mjerenje1 biti u Rasponu1 te da će istovremeno Mjerenje2 biti u Rasponu2 iznosi 0,875. 30

FAZE U PROVOĐENJU 5. Primjena algoritma Uređen, konačan skup pojedinačnih operacija s podacima potrebnim za rješavanje problema. S algoritmom Bez algoritma 31

FAZE U PROVOĐENJU 5. Primjena algoritma Primjena različitih algoritama za istu vrstu zadatka. Rezultat može biti različit i višestruko primjenjiv. Npr. Algoritam stabla odlučivanja može se koristiti osim za predviđanje i za optimizaciju (redukciju) broja stupaca u skupu (bazi) podataka. Algoritam ima mogućnost prepoznati stupce (atribute) koji nemaju utjecaj na konačni rezultat analize. 32

FAZE U PROVOĐENJU 5. Primjena algoritma CART algoritam: Classification and regression trees. Tri koraka: stvaranje cijelog stabla, odabir optimalne veličine stabla, klasifikacija podataka temeljem optimalno stvorenog stabla. Algoritam radi rezanje beskorisnih grana stabla. 33

FAZE U PROVOĐENJU 5. Primjena algoritma Decision tree algoritam, ID3 često se koristi, radi s nominalnim atributima, izgrađuje stablo odlučivanja, omogućuje jednostavno izvođenje pravila. Apriori algoritam. za stvaranje asocijacijskih pravila, dizajniran za rad s bazom podataka u kojoj se evidentiraju transakcije. C 5.0, C4.5 poboljšane verzije ID3. FP-Growth. SAŽETAK 34

FAZE U PROVOĐENJU 6. Rezultat analize Rezultat analize je potrebno: interpretirati, razumjeti, primijeniti. Za razumijevanje rezultata koriste se posebne metode, confusion matrices. Problem: dvosmislenost rezultata, neispunjavanje cilja. Nije svaki rezultat koristan i primjenjiv. SAŽETAK 35

VIZUALIZACIJA REZULTATA Slika vrijedi tisuću riječi. Kod podataka uzorci i odnosi promatranih atributa ponekad se jasnije uočavaju kada brojeve prikažemo u obliku slika. Grafikoni moraju biti jednostavni - uzorci su tada pregledni i prikladniji. Preglednost u grafikonima često ide na štetu točnosti i preciznosti procjene donesene na osnovi takvoga prikaza. SAŽETAK 36

max % VIZUALIZACIJA REZULTATA VJEROJATNOST POJAVE BOLESTI simptom1 Simptom1 i 2 simptom2 min min DOB max 37

VIZUALIZACIJA REZULTATA Likovi simboliziraju neuređene podatke u skupu podataka. Koji su međusobni odnosi (širine i položaja)? Što se može zaključiti na osnovu izgleda? 38

VIZUALIZACIJA REZULTATA Odnose možemo promatrati kroz relacije: Ako je širina > od visine = lik je položen. Ako je širina < od visine = lik je uspravan. Ako je širina > od 20 = lik je položen. Ako je širina < od 20 lik je uspravan. 39

VIZUALIZACIJA REZULTATA STABLO ODLUČIVANJA Grafički prikaz jedne grane stabla 40

VIZUALIZACIJA REZULTATA STABLO ODLUČIVANJA 41

PROGRAMSKA PODRŠKA Komercijalna IBM, SAS, Excel, SQL Besplatna Orange, Weka, Rapid Miner http://www.predictiveanalyticstoday.com http://www.kdnuggets.com/2017/05/pollanalytics-data-science-machine-learning-softwareleaders.html 42

PRIMJENA Zdravstvo: predvidjeti pojavu rizičnih faktora u bolničkom procesu, Predvidjeti uspješnost operacija, medicinskih testova, lijekova, Predvidjeti zagađenost prostora. Financije - predvidjeti kreditne rizike. Marketing - predvidjeti navike kupaca. SAŽETAK 43

ETIKA I PODACI Može/smije li se informacija prikupljena u jednu svrhu koristiti pri analizi podataka za druge svrhe. Europa: općenito ne bez pristanka Amerika: općenito da Trgovačke kuće od kupaca već uobičajeno prikupljaju podatke i koriste u marketinške svrhe. Multiplus Card Sportina klub... Kupci su voljni davati podatke u zamjenu za neke pogodnosti. 44

LITERATURA http://www.lexisnexis.com/applieddiscovery/lawlib rary/whitepapers/adi_fs_pagesinagigabyte.pdf http://www.unece.org/fileadmin/dam/stats/docu ments/writing/mdm_part2_croatian.pdf http://lis.irb.hr/prirucnik/prirucnik-otkrivanjeznanja.pdf 45

SAŽETAK Prikupljanje podataka! Što je? u procesu otkrivanja znanja. Vrste zaključivanja pri izvođenju znanja. Preduvjeti? Faze? Algoritmi u? Vizualizacija podataka/rezultata? Primjena. 46

KRAJ mariosomek@gmail.com 47