Slide 1

Слични документи
Instalacija R-project softvera Univerzitet u Novom Sadu April 2018 Contents 1 Uvod 2 2 Instalacija R: Instalacija

PowerPoint Presentation

DUBINSKA ANALIZA PODATAKA

DUBINSKA ANALIZA PODATAKA

PROGRAMIRANJE Program je niz naredbi razumljivih računalu koje rješavaju neki problem. Algoritam je postupak raščlanjivanja problema na jednostavnije

Slide 1

Microsoft PowerPoint Aplikacijski moduli ISMO [Compatibility Mode]

CRNA GORA ZAVOD ZA STATISTIKU S A O P Š T E NJ E Broj: 282 Podgorica, 1 novembar god. Prilikom korišćenja ovih podataka navesti izvor Upotreba i

QlikView Training

PowerPoint Presentation

Test ispravio: (1) (2) Ukupan broj bodova: 21. veljače od 13:00 do 14:00 Županijsko natjecanje / Osnove informatike Osnovne škole Ime i prezime

CRNA GORA ZAVOD ZA STATISTIKU S A O P Š T E NJ E Broj: 281 Podgorica, 31. oktobar god. Prilikom korišćenja ovih podataka navesti izvor Upotreba

Logičke izjave i logičke funkcije

Sustav za informatizaciju poslovanja ustanove (SIPU)

SVEUČILIŠTE U ZAGREBU FAKULTET ORGANIZACIJE I INFORMATIKE V A R A Ž D I N Erna Golubić IZRADA PREDIKTIVNIH MODELA U MARKETINGU DIPLOMSKI RAD Varaždin,

Slide 1

Prezentator: Nataša Dvoršak Umag, 20.listopad 2006

Projektovanje informacionih sistema i baze podataka

VMC_upute_MacOS

SPO

Europass CV

PowerPoint Presentation

Kick-off meeting VIK

PowerPoint Presentation

(Microsoft PowerPoint - 412_Buni\346 HTV.ppt [Compatibility Mode])

Uvod u statistiku

CRNA GORA ZAVOD ZA STATISTIKU S A O P Š T E NJ E Broj: 229 Podgorica, 30. oktobar god. Prilikom korišćenja ovih podataka navesti izvor Upotreba

Naziv naručitelja: RIJEKA plus d.o.o. Godina: 2019 Rbr Evidencijski broj Predmet nabave Brojčana oznaka nabave premeta nabave iz CPV-a Procijenjena vr

PowerPoint Presentation

POSLOVNA INTELIGENCIJA I ANALITIKA ZA PRAVE POSLOVNE ODLUKE

PowerPoint Presentation

About the Professional Job Task Analysis Process

METOD ZA PROCENU SISTEMA POSLOVNE INTELIGENCIJE KOJI PODRŽAVAJU DATA MINING EVALUATION METHOD OF BUSINESS INTELLIGENCE SYSTEMS WHICH SUPPORT DATA MINI

Državno natjecanje / Osnove informatike Srednje škole Zadaci U sljedećim pitanjima na odgovore odgovaraš upisivanjem slova koji se nalazi ispred

Slide 1

Microsoft Word - IP_Tables_programski_alat.doc

OpenVPN GUI CERT.hr-PUBDOC

Microsoft PowerPoint - Topic02 - Serbian.ppt

Uputstvo za podešavanje za pristup eduroam servisu za Mac OS X Snow Leopard Copyright AMRES

Slide 1

MAZALICA DUŠKA.pdf

Slide 1

PowerPoint-Präsentation

EDITEL_Adria_Brochure_HR.indd

Microsoft Word - 6. RAZRED INFORMATIKA.doc

Microsoft Word - Smerovi 1996

ML intro

Microsoft PowerPoint - LB7-2_WCCF_2012.ppt

RAČUNALO

Microsoft Word - Akreditacija 2013

Microsoft Word - Akreditacija 2013

Microsoft Word - Akreditacija 2013

PRIS 00 Projektovanje informacionih sistema

Microsoft Word - Akreditacija 2013

P11.3 Analiza zivotnog veka, Graf smetnji

Prilog sistemu za razvoj IKT u sektoru obrazovanja podaci o korisnicima Mara Bukvić 7th WeB & Serbian Moodle Moot 28. Oktobar 2015.

Microsoft Word - Strateski plan Drzavnog zavoda za statistiku za razdoblje docx

Slide 1

Data Lake Premium dokument May 2019

Microsoft Word - KORISNIČKA UPUTA za pripremu računala za rad s Fina potpisnim modulom_RSV_ doc

Satnica.xlsx

Upute za instaliranje WordPressa 1.KORAK Da biste instalirali Wordpress, najprije morate preuzeti najnoviju verziju programa s web stranice WordPressa

ТЕОРИЈА УЗОРАКА 2

Numeričke metode u fizici 1, Projektni zadataci 2018./ Za sustav običnih diferencijalnih jednadžbi, koje opisuju kretanje populacije dviju vrs

eUputnica za bolničke ustanove

Microsoft PowerPoint - UIS ppt [Compatibility Mode]

Slide 1

Državna matura iz informatike

Gajo Vučinić

PowerPoint Presentation

SigKoncBazeDrazen.PPT

Perspektive BI

GTM plan MS&HT coop

(Microsoft PowerPoint - 903_\216nidari\346_Java Persistence.pptx)

23. siječnja od 13:00 do 14:00 Školsko natjecanje / Osnove informatike Srednje škole RJEŠENJA ZADATAKA S OBJAŠNJENJIMA Sponzori Medijski pokrovi

ASAS AS ASAS

Satnica.xlsx

УНИВЕРЗИТЕТ У НОВОМ САДУ ОБРАЗАЦ 6

FAKULTET INFORMACIONIH TEHNOLOGIJA R A S P O R E D Studijska grupa: POSLOVNA INFORMATIKA Školska godina: REDOVNI STUDIJ I godina II semesta

Auto Salon 2 Korisničke upute za rad s programom Auto Salon AUTOSALON - DOKUMENTI Podaci o vozilu se upisuju do daljnjega kao i do sad na rad s vozilo

PowerPoint Presentation

Microsoft PowerPoint - Topic02 - Serbian.ppt

RIJEKA plus d.o.o. Godina: 2019 Rbr Evidencijski broj Predmet nabave Brojčana oznaka nabave premeta nabave iz CPV-a Procijenjena vrijednost nabave (u

PowerPoint Presentation

Rano učenje programiranj

PowerPoint Presentation

CRNA GORA ZAVOD ZA STATISTIKU S A O P Š T E NJ E Broj: 295 Podgorica, 31. oktobar godine Prilikom korišćenja ovih podataka navesti izvor Upotreb

ASAS AS ASAS

PowerPoint Presentation

PowerPoint Presentation

Slide 1

Microsoft PowerPoint - LB7-2_WCCF_2010.ppt

Raspored naslova

FAKULTET ORGANIZACIONIH NAUKA

7 TABAK.cdr

PowerPoint Presentation

ASAS AS ASAS

Informacioni sistemi u zaštiti životne sredine

Microsoft Word - Raspored ispita Jun.doc

Транскрипт:

Poluautomatizirana selekcija varijabli u prediktivnoj analizi

Multicom Glavna područja ekspertize: Data Mining Obračun i naplata (Billing) Upravljanje matičnim podacima (MDM) Skladišta podataka (DWH) i Poslovna Inteligencija (BI) B2B Upravljanje korisničkim procesima (CRM) First place in 2009. category "Rising Stars

Prediktivna analiza predviđanje budućnosti? Cross-sell / up-sell Otkrivanje prijevara Churn Poznatiji alati: Mathematica Mathlab Oracle Advanced Analytics Orange R RapidMiner SAP SAS

Prediktivna analiza pomoću R-a R je Open Source jezik i okolina za statističke proračune i grafiku Stvoren 1994 kao alternativa SAS-u i SPSS-u Preko 2 milijuna R korisnika u svijetu Tisuće open source paketa na CRAN mreži CRAN Comprehensive R Archive Network Statistika Grafika Data mining R Enterprise

Prediktivna analiza pomoću ODM-a Skalabilna unutar baze prediktivna analiza Jednostavno za korištenje Brzi i pouzdani rezultati

Oracle R Enterprise (SAVRŠENI SPOJ?) Integrira open source programski jezik R unutar Oracle baze podataka R Engine Other R packages SQL Oracle Database User tables R R Engine Other R packages Oracle R Enterprise packages Results Results Oracle R Enterprise packages R na desktop računalu Sustav izračuna unutar baze R sustav prilagođen od strane Oracle-a

Koristljivi algoritmi GLM general linear model

Decision tree Support vector machine

Naive Bayes Random forest?

m.builder rješenje Sampliranje (random, stratified) Attribute importnace Iterativni odabir varijabli izbor algoritma Oracle R Enterprise pouzdano i brzo rješenje

Ulazne vrijednosti R> results <- ore.doeval(fun.name = "m.varselect", model = "GLM", build = "TABLE", attribute_importance=true, tgt = "TGT", columns_to_skip=c("user_id","serial_number"), sample_type="st", c_per=0.3, ore.connect=true ) build model tgt cross_valid attribute_importance columns_to_skip c_per sample_type Set na kojem se gradi model za testiranje korisnosti varijabli Izbor vrste modelal: GLM (general linear model), DT (decision tree), NB (Naive Bayes) or SVM (support vector machine) Ime stupca koji označava ciljnu varijablu Ime seta za krosvalidaciju Izbor dali da se uzimaju u obzir samo varijable koji imaju attribute importance veći od nule (TRUE/FALSE) Koje varijable bi se trebale preskočiti u procesu odabiranja Koliko veliki dio BUILD seta treba uzeti za krosvalidaciju, ukoliko set za krosvalidaciju nije dezigniran (0<=c_per<=1). Koja vrsta sempliranja bi se trebala koristiti pri uzimanj krosvalidacijskog seta iz build seta: ST (stratified) or R (random sampling).

Izlazne vrijednosti sample_size var_number Velićina BUILD seta Broj varijable po redu koja je automatski predviđena da če biti korisna u prediktivnom modelu (ΔAUC >0, attribute importance >0) var_number_full Broj varijable po redu koja je testirana (attribute importance >0) added_variable Ime varijable pridodane za zadnju iteraciju prediktivnog modela (ΔAUC >0, attribute importance >0) added_variable_full Ime varijable pridodane za zadnju iteraciju prediktivnog modela (AUC >0) R2_build R na kvadrat modela na BUILD setu R2_test R na kvadrat modela na krosvalidacijskom setu auc_build Površina ispod ROC krivulje za trenutni prediktivni model na BUILD setu (ΔAUC >0, attribute importance >0) auc_build_full auc_test m_start Površina ispod ROC krivulje za trenutni prediktivni model na BUILD setu sa restrikcijom za attribute importance >0. Površina ispod ROC krivulje za trenutni prediktivni model na krosvalidacijskom setu Vrijeme pokretanja gradnje zadnjeg prediktivnog modela

Rezultati Značajna ušteda vremena Pojednostavljivanje prediktivnog modela Lakša interpretacija modela Smanjena mogućnost overfittinga

...Hvala! Pitanja? Ivan.osman@multicom.hr