DUBINSKA ANALIZA PODATAKA () (ENGL. DATA MINING) Studeni 2018. Mario Somek
CILJ NASTAVNE TEME Upoznati s mogućnostima pronalaženja međuzavisnosti atributa u skupovima podataka. Temeljem međuzavisnosti pokušati doći do novih korisnih spoznaja. Usvojiti spoznaje o stvaranju prediktivnih modela. Ukazati na važnost prikupljanja podataka. 2
BAZE PODATAKA Za analizu potrebni su podaci. Entitet, atribut (značajka ili varijabla), polje, zapis (instanca). Ispravno prikupljanje podataka u IS-evima. Kodeks atributa. Nedostajuće vrijednosti (engl. null values). Vrste/tipovi podataka. Važnost skupova podataka. SAŽETAK 3
BAZE PODATAKA Tablična struktura skladištenja. Veliki uzorci podataka 10000 i > zapisa. PACIJENT ADRESA SPOL DOB MJERENJE1 Ime1 Ulica1 M 25 20,2 Ime2 Ulica2 Ž 35 25,6 Ime3 Ulica3 Ž 45 28,4 Piramida znanja. 4
BAZE PODATAKA Logička hijerarhija podataka, informacija i znanja. Podaci - zabilježene činjenice. Važnost informacije. Informacija - pravilnost, pravilo, uzorak (engl. pattern), skriven u podacima. Snažne pravilnosti - buduća predviđanja, znanje. ZNANJE INFORMACIJA PODATAK 5
BAZE PODATAKA Veličina transakcijskih baza podataka mjeri se u terabajtovima (TB). Jedan terabajt = 1,024 gigabajta (GB). Ako uzmemo u obzir da jedan gigabajt u prosjeku sadrži 64.782 stranica Word dokumenta (LexisNexis, 2004), onda jedan terabajt ima 66.336.768 stranica. http://www.kdnuggets.com/2016/11/pollresults-largest-dataset-analyzed.html SAŽETAK 6
ZANIMLJIVOST Tajna služba investira u izgradnju objekta za superbrza u superkapacitivna računala Osnivanje tvrtki za analizu podataka. Namjena pohrana podataka korisnika cijelog svijeta: e-pošte, Skype razgovora, pretraživanja Google-a, postovi na Facebook-u, bankarski transferi. 7
ZANIMLJIVOST Težnja je da se ljudi i njihovo ponašanje učine predvidljivim. Projekt je usmjeren na predviđanje temeljem podataka. Kada će se dogoditi neki oblik društvenog protesta. Etičnost - mediji - investitor: tehnologija napreduje brže nego što je država ili zakon mogu pratiti. 8
U PROCESU OTKRIVANJA ZNANJA STABLO ODLUČIVANJA SAŽETAK 9
ŠTO JE Otkrivanje novog znanja u skupovima podataka. Temeljem prikupljenih podataka težnja je predvidjeti buduće vrijednosti željenih atributa. Rudarenje podacima pronalaženje zlata u rudniku punom ugljena. Za pronalaženje znanja nekom od metoda primjenjuju se razni algoritmi. SAŽETAK 10
ŠTO JE Uspjeh ovisi o kvaliteti i kvantiteti ulaznih podataka općenito odnos je proporcionalan. Primjer istraživanje tržišta, ankete-veći uzorak-veća pouzdanost/točnost rezultata. Rezultat analize: oblik razumljiv čovjeku, ponekad dvosmislen i ne upotrebljiv. Induktivan način otkrivanja znanja. SAŽETAK 11
ŠTO JE - VRSTE ZAKLJUČIVANJA - TEORIJA ZAKLJUČAK DEDUKTIVNO INDUKTIVNO HIPOTEZA PRAVILNOSTI HIPOTEZA PROMATRANJE PROMATRANJE POTVRDA 12
ŠTO JE - INDUKTIVAN PRISTUP - Induktivan pristup zaključivanje temeljem promatranja pojedinih događaja. Rezultat opći zaključak. Pouzdanost induktivnog zaključivanja ovisi o: kvantitetu činjenica/slučaja, reprezentativnosti/učestalosti određene pojave, stupnju značenja činjenice/slučaja. SAŽETAK 13
ŠTO JE - INDUKTIVAN PRISTUP - Iz baze podataka IS-a pronaći osobine pacijenata koji su obavili UZV. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da Po provedenoj rezultat je pravilo: UZV ako SPOL/muški i ako STAROST/>60. 14
ŠTO JE - INDUKTIVAN PRISTUP - Pouzdanost: 3 zapisa, 2 s ciljnim atributom da. Od 3 zapisa na temelju dva donosimo sud. 3000 zapisa, 2000 s ciljnim atributom. Pouzdanost veća. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da 15
PRIMJER REZULTATA Ako je kod atributa Mjerenje1 vrijednost Vrijednost1 i kod atributa Mjerenje2 vrijednost Vrijednost2 tada ciljni atribut Mjerenje3 ima vrijednost Vrijednost3. Uvjerenost da će atribut Mjerenje1 biti u Rasponu1 te da će istovremeno Mjerenje2 biti u Rasponu2 iznosi 0,875. 16
PREDUVJETI Računalo - HARDWARE Skladište/skup podataka - DATAWARE Znanje potrebno za provođenje - LIFEWARE Programska podrška - SOFTWARE SAŽETAK 17
FAZE U PROVOĐENJU 1. Cilj otkrivanja znanja, što se želi postići. 2. Definirati primjerenu vrstu analize. 3. Priprema podataka. 4. Izabrati metodu ili model analize. 5. Primijeniti odgovarajući algoritam. 6. Rezultat analize-primjena. SAŽETAK 18
FAZE U PROVOĐENJU 1. Cilj Cilj otkrivanja znanja, što se želi postići u nekom području. U području medicine potrebno je npr. naći: povezanost simptoma nekih bolesti s dobi pacijenata, povezanost antropoloških obilježja i dijagnoze pacijenata, povezanosti primjene lijekova i simptoma nuspojave. Zašto? 19
FAZE U PROVOĐENJU 1. Cilj Problem ili cilj treba nastojati definirati kao klasifikacijski. Promatrati ciljni atribut i zavisnost njegovih vrijednosti o ostalim atributima, ali onim koji su korisni za poslovanje u određenom području. Primjereno promatrati atribute simptomi i dijagnoze. Neprimjereno: simptomi i adresa pacijenta. 20
FAZE U PROVOĐENJU 1. Cilj Cilj je u praksi uvjetovan prikupljenim podacima u bazi podataka. Planirati unaprijed. PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da 21
FAZE U PROVOĐENJU 2. Vrsta analize Definirati vrstu predikcije/predviđanja: A. Klasifikacija, B. Regresija. Općenito, odabrati vrstu koja daje rezultate u obliku koje korisnik može razumjeti. Jednostavnost primjene rezultata u praksi. Odabrati prema postojećoj praksi već provjerene jednostavnije vrste predikcije. 22
FAZE U PROVOĐENJU 2. Vrsta predikcije Klasifikacija Omogućuje rješavanje većine poslovnih problema. Klasifikacija se izvodi pomoću skupa atributa koji se predviđa tako što se podaci dijele u kategorije prema nekom skupu koji se predviđa. Stablo odlučivanja (engl. Decision tree). Asocijacijska pravila (engl. Association rule). 23
FAZE U PROVOĐENJU 2. Vrsta predikcije Klasifikacija Rezultat analize je pravilo oblika: ako-onda (engl. if-then). Ako TEMP/visoka i TLAK/>140/90 onda BOLEST. Uvjerenost/pouzdanost da će atribut Dob biti u rasponu 40-50 i da će atribut Simptomi poprimiti vrijednost Da iznosi 0,7. 24
FAZE U PROVOĐENJU 2. Vrsta predikcije Regresija Pri provođenju analize postojeće vrijednosti koriste se za predviđanje novih vrijednosti. Zavisni (ciljni) i nezavisni (predviđajući) atributi. Zavisni želimo predvidjeti, a nezavisni služe kao osnova na kojoj temeljimo predviđanje. Npr. predviđamo visinu populacije na temelju više različitih atributa koji se skupljaju kroz neki period. 25
FAZE U PROVOĐENJU 3. Priprema podataka Redukcija podataka - u skladu s ciljem analize promatrati i izdvojiti određene atribute. Nedostajuće vrijednosti - inzistirati na upisu svakog podataka. Transformacija podataka: nominalne svesti na one koji se često pojavljuju, numeričke svesti u kategorije, nominalne u numeričke. 26
FAZE U PROVOĐENJU 3. Priprema podataka Obilježja atributa Vrste: nominalni (tekst) i numerički (broj). Moraju biti u strukturiranom obliku. Nominalni poželjno je unaprijed odrediti vrijednosti i definirati ih popisom, broj različitih vrijednosti do 10. Numerički često u praksi mnogo različitih vrijednosti, potrebno svesti u zanimljive raspone vrijednosti. 27
FAZE U PROVOĐENJU 3. Priprema podataka Redukcija izostavljen atribut jer je nevažan za promatranje obzirom na cilj analize PACIJENT SPOL STAROST TEŽINA UZV Ime1 m? >70 Da Ime2 Ž <60? Ne Ime3 m >60 <70 Da Prazna polja u skupu podataka predstavljaju beskorisne podatke nedostajuće vrijednosti 28
FAZE U PROVOĐENJU 3. Priprema podataka PACIJENT SPOL STAROST TEŽINA UZV Ime1 m 55 75 Da Ime2 Ž 63 80 Ne Ime3 m 66 63 Da PACIJENT SPOL STAROST TEŽINA UZV Ime1 m >60 >70 Da Ime2 Ž <60 >70 Ne Ime3 m >60 <70 Da Transformacija numeričkih vrijednosti u kategorije/razrede 29
FAZE U PROVOĐENJU 4. Metoda analize Stablo odlučivanja (engl. Decison tree)-rezultat: ako je kod atributa Mjerenje1 vrijednost Vrijednost1 i kod atributa Mjerenje2 vrijednost Vrijednost2 tada tzv. ciljni atribut Mjerenje3 ima vrijednost Vrijednost3. Asocijacijska pravila (engl. Association rule)- rezultat: uvjerenost/pouzdanost da će atribut Mjerenje1 biti u Rasponu1 te da će istovremeno Mjerenje2 biti u Rasponu2 iznosi 0,875. 30
FAZE U PROVOĐENJU 5. Primjena algoritma Uređen, konačan skup pojedinačnih operacija s podacima potrebnim za rješavanje problema. S algoritmom Bez algoritma 31
FAZE U PROVOĐENJU 5. Primjena algoritma Primjena različitih algoritama za istu vrstu zadatka. Rezultat može biti različit i višestruko primjenjiv. Npr. Algoritam stabla odlučivanja može se koristiti osim za predviđanje i za optimizaciju (redukciju) broja stupaca u skupu (bazi) podataka. Algoritam ima mogućnost prepoznati stupce (atribute) koji nemaju utjecaj na konačni rezultat analize. 32
FAZE U PROVOĐENJU 5. Primjena algoritma CART algoritam: Classification and regression trees. Tri koraka: stvaranje cijelog stabla, odabir optimalne veličine stabla, klasifikacija podataka temeljem optimalno stvorenog stabla. Algoritam radi rezanje beskorisnih grana stabla. 33
FAZE U PROVOĐENJU 5. Primjena algoritma Decision tree algoritam, ID3 često se koristi, radi s nominalnim atributima, izgrađuje stablo odlučivanja, omogućuje jednostavno izvođenje pravila. Apriori algoritam. za stvaranje asocijacijskih pravila, dizajniran za rad s bazom podataka u kojoj se evidentiraju transakcije. C 5.0, C4.5 poboljšane verzije ID3. FP-Growth. SAŽETAK 34
FAZE U PROVOĐENJU 6. Rezultat analize Rezultat analize je potrebno: interpretirati, razumjeti, primijeniti. Za razumijevanje rezultata koriste se posebne metode, confusion matrices. Problem: dvosmislenost rezultata, neispunjavanje cilja. Nije svaki rezultat koristan i primjenjiv. SAŽETAK 35
VIZUALIZACIJA REZULTATA Slika vrijedi tisuću riječi. Kod podataka uzorci i odnosi promatranih atributa ponekad se jasnije uočavaju kada brojeve prikažemo u obliku slika. Grafikoni moraju biti jednostavni - uzorci su tada pregledni i prikladniji. Preglednost u grafikonima često ide na štetu točnosti i preciznosti procjene donesene na osnovi takvoga prikaza. SAŽETAK 36
max % VIZUALIZACIJA REZULTATA VJEROJATNOST POJAVE BOLESTI simptom1 Simptom1 i 2 simptom2 min min DOB max 37
VIZUALIZACIJA REZULTATA Likovi simboliziraju neuređene podatke u skupu podataka. Koji su međusobni odnosi (širine i položaja)? Što se može zaključiti na osnovu izgleda? 38
VIZUALIZACIJA REZULTATA Odnose možemo promatrati kroz relacije: Ako je širina > od visine = lik je položen. Ako je širina < od visine = lik je uspravan. Ako je širina > od 20 = lik je položen. Ako je širina < od 20 lik je uspravan. 39
VIZUALIZACIJA REZULTATA STABLO ODLUČIVANJA Grafički prikaz jedne grane stabla 40
VIZUALIZACIJA REZULTATA STABLO ODLUČIVANJA 41
PROGRAMSKA PODRŠKA Komercijalna IBM, SAS, Excel, SQL Besplatna Orange, Weka, Rapid Miner http://www.predictiveanalyticstoday.com http://www.kdnuggets.com/2017/05/pollanalytics-data-science-machine-learning-softwareleaders.html 42
PRIMJENA Zdravstvo: predvidjeti pojavu rizičnih faktora u bolničkom procesu, Predvidjeti uspješnost operacija, medicinskih testova, lijekova, Predvidjeti zagađenost prostora. Financije - predvidjeti kreditne rizike. Marketing - predvidjeti navike kupaca. SAŽETAK 43
ETIKA I PODACI Može/smije li se informacija prikupljena u jednu svrhu koristiti pri analizi podataka za druge svrhe. Europa: općenito ne bez pristanka Amerika: općenito da Trgovačke kuće od kupaca već uobičajeno prikupljaju podatke i koriste u marketinške svrhe. Multiplus Card Sportina klub... Kupci su voljni davati podatke u zamjenu za neke pogodnosti. 44
LITERATURA http://www.lexisnexis.com/applieddiscovery/lawlib rary/whitepapers/adi_fs_pagesinagigabyte.pdf http://www.unece.org/fileadmin/dam/stats/docu ments/writing/mdm_part2_croatian.pdf http://lis.irb.hr/prirucnik/prirucnik-otkrivanjeznanja.pdf 45
SAŽETAK Prikupljanje podataka! Što je? u procesu otkrivanja znanja. Vrste zaključivanja pri izvođenju znanja. Preduvjeti? Faze? Algoritmi u? Vizualizacija podataka/rezultata? Primjena. 46
KRAJ mariosomek@gmail.com 47