ML intro

Слични документи
ПА-4 Машинско учење-алгоритми машинског учења

PowerPoint Presentation

Projektovanje informacionih sistema i baze podataka

Microsoft PowerPoint - Ispitivanje povezanosti Regresija redovni decembar 2007 [Compatibility Mode]

ПРАВИЛНИК О ВРЕДНОВАЊУ КВАЛИТЕТА РАДА УСТАНОВЕ ( Службени гласник РС, бр. 72/09 и 52/11)

Model podataka

Classroom Expectations

Рачунарска интелигенција

MENADŽMENT LJUDSKIH RESURSA

Mere slicnosti

Slide 1

Microsoft PowerPoint - vezbe 4. Merenja u telekomunikacionim mrežama

DUBINSKA ANALIZA PODATAKA

Универзитет у Београду Факултет организационих наука Распоред испита за предмете мастер академских студија Испитни рок: Јун Предмет Датум Време

Microsoft Word - III godina - EA - Metodi vjestacke inteligencije

PowerPoint Presentation

DUBINSKA ANALIZA PODATAKA

УНИВЕРЗИТЕТ У БЕОГРАДУ МАШИНСКИ ФАКУЛТЕТ Предмет: КОМПЈУТЕРСКА СИМУЛАЦИЈА И ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА Задатак број: Лист/листова: 1/1 Задатак 5.1 Pостоје

Универзитет у Београду Факултет организационих наука Коначан распоред испита за предмете Мастер академских студија Испитни рок: ОКТОБАР Предмет

PowerPoint Presentation

Postojanost boja

TEORIJA SIGNALA I INFORMACIJA

Техничко решење: Метода мерења реактивне снаге у сложенопериодичном режиму Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић Аут

Inženjering informacionih sistema

PowerPoint Presentation

Microsoft PowerPoint - Topic02 - Serbian.ppt

PowerPoint Presentation

PowerPoint Presentation

About the Professional Job Task Analysis Process

NAZIV PREDMETA ISTRAŽIVANJE TRŽIŠTA Kod Godina studija 2. Nositelj/i Danijela Perkušić Malkoč Bodovna vrijednost 6 predmeta (ECTS) Suradnici Status pr

Uvod u statistiku

Активности инкубаторских станица Референтни метаподаци према Euro SDMX структури метаподатака (ESMS) Републички завод за статистику Републике Српске 1

Klasifikacija slika kucnih brojeva dubokim konvolucijskim modelima

PowerPoint Presentation

Структура инкубаторских станица Референтни метаподаци према Euro SDMX структури метаподатака (ESMS) Републички завод за статистику Републике Српске 1.

P1.1 Analiza efikasnosti algoritama 1

PowerPoint Presentation

Microsoft PowerPoint - Topic02 - Serbian.ppt

1

Rani znaci upozorenja (EWS) u cilju prevencije nastanka rizičnih plasmana POZIV NA OTVORENI SPECIJALISTIČKI SEMINAR Rani znaci upozorenja (EWS) u cilj

АНКЕТА О ИЗБОРУ СТУДИЈСКИХ ГРУПА И МОДУЛА СТУДИЈСКИ ПРОГРАМИ МАСТЕР АКАДЕМСКИХ СТУДИЈА (МАС): А) РАЧУНАРСТВО И АУТОМАТИКА (РиА) и Б) СОФТВЕРСКО ИНЖЕЊЕ

P11.3 Analiza zivotnog veka, Graf smetnji

d'.;,.. INTELIGENTAN MARKETING SISTEM ZA PRIKAZ REKLAMA NA TELEFONU ILI TABLETU PUTNIKA

QFD METODA – PRIMER

Slide 1

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Program_digitalna_akademija_2019_F

Microsoft Word - MODULI AGENDA.docx

Principi softverskog inženjerstva O predmetu

Istraživanje turističkog tržišta

Slide 1

Интернет у служби знања

Slide 1

Pravilnik o mjerama za povećanje vidljivosti i prisutnosti Univerziteta u Banjoj Luci i njegovih organizacionih jedinica na Intermetu

Menadzment ljudskih resursa Selekcija

08 RSA1

BUS d'.;,.. INTELIGENTAN MARKETING SISTEM ZA PRIKAZ REKLAMA NA TELEFONU ILI TABLETU PUTNIKA

1, 2, 3, кодирај! Активности циклуса 4 Пројект «Аркадне игре» - Час 6: Програмирање падања новчића (наставак) Доминантна дисциплина Математикa Резиме

ASAS AS ASAS

I година Назив предмета I термин Вријеме II термин Вријеме Сала Математика : :00 све Основи електротехнике

I година Назив предмета I термин Вријеме II термин Вријеме Сала Математика : :00 све Основи електротехнике

I година Назив предмета I термин Вријеме II термин Вријеме Сала Математика : :00 све Основи електротехнике

Microsoft Word - R Predmet 14-Strategijski menadzment

Microsoft Word - Master 2013

Повезивање са интернетом

ZA MEDICINSKE USTANOVE INTELIGENTAN WI-FI d'.;,.. SISTEM ZA ZADOVOLJNE PACIJENTE I POSETIOCE

NAPOMENA: Studenti na ispit donose kod urađenog zadatka

I година Назив предмета I термин Вријеме Сала Математика :00 све Основи електротехнике :00 све Програмирање

Microsoft PowerPoint - IS_G_predavanja_ [Compatibility Mode]

Орт колоквијум

Može li učenje tablice množenja biti zabavno?

P9.1 Dodela resursa, Bojenje grafa

Републички педагошки завод Бања Лука Стручни савјетник за машинску групу предмета и практичну наставу Датум: године Тема: Елементи и начин

PowerPoint Presentation

Drveta odlucivanja - algoritmi

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

Microsoft Word - CAD sistemi

Ovaj fajl ima 5 stranica. Prvi i drugi domaći zadatak iz Internet tehnologija, Svi css fajlovi su u folderu css a sve slike su u folderu i

Tehnički katalog Regulator protoka sa integrisanim regulacionim ventilom (PN 16, 25, 40*) AFQM, AFQM 6 - ugradnja u potis ili povrat Opis AFQM 6 DN 40

MP_Ocena hleba bodovanjem

Microsoft Word - Master 2013

РЕШЕЊА 1. (2) Обележја статистичких јединица посматрања су: а) особине које су заједничке за јединице посматрања б) особине које се проучавају, а подр

06 Poverljivost simetricnih algoritama1

ASAS AS ASAS

Microsoft PowerPoint - 6. CMS [Compatibility Mode]

Kolaborativno-na-Moodle

ASAS AS ASAS

WordPress & CSP Polisa Sigurnosti Sadržaja za WordPress Milan Petrović WordCamp Niš

Microsoft PowerPoint - jkoren10.ppt

Projektna dokumentacija Boostowski - mobile

R u z v e l t o v a 5 5, B e o g r a d, t e l : ( ) , m a i l : c o n t a c p s i t. r s, w w w. p s i t. r s

ASAS AS ASAS

ASAS AS ASAS

Информатика у здравству ПЛАН И ПРОГРАМ ПРЕДМЕТА УНИВЕРЗИТЕТ У КРАГУЈЕВЦУ МЕДИЦИНСКИ ФАКУЛТЕТ UNIVERSITY OF KRAGUJEVAC MEDICAL FACULTY ПЛАН И ПРОГРАМ З

GENETSKI TREND PRINOSA MLEKA I MLEČNE MASTI U PROGENOM TESTU BIKOVA ZA VEŠTAČKO OSEMENJAVANJE

DOKTORSKE STUDIJE IZ JAVNOG ZDRAVLJA 2009/2010

Davanje i prihvatanje kritike

Škola: Geodetska škola, Zagreb Razredni odijel: IV. D Datum: 22. studenog Školska godina: 2018./2019. Nastavnik: Katija Špika Mentor: Armando Sl

Транскрипт:

MAŠINSKO UČENJE JELENA JOVANOVIĆ Email: jeljov@gmail.com Web: http://jelenajovanovic.net

PREGLED PREDAVANJA Šta je mašinsko učenje? Zašto (je potrebno/bitno) m. učenje? Oblasti primene m. učenja Oblici m. učenja Osnovni koraci i elementi procesa m. učenja Bias (under-fitting) vs. Variance (over-fitting)

ŠTA JE MAŠINSKO UČENJE? Mašinsko učenje se odnosi na sposobnost softverskog sistema da: generalizuje na osnovu prethodnog iskustva, iskustvo = skup podataka o pojavama/entitetima koji su predmet učenja da koristi kreirane generalizacije kako bi pružio odgovore na pitanja koja se tiču entiteta/pojava koje pre nije sretao

ŠTA JE MAŠINSKO UČENJE? Za kompjuterski program se kaže da uči iz iskustva E (experience), vezanog za zadatak T (task), i meru performansi P (performance), ukoliko se njegove performanse na zadatku T, merene metrikama P, unapređuju sa iskustvom E Tom Mitchell (1997)

ŠTA JE MAŠINSKO UČENJE? Primer: program koji označava poruke kao spam i not-spam Zadatak (T): klasifikacija email poruka na spam i not-spam Iskustvo (E): skup email poruka označenih kao spam i notspam; posmatranje korisnika dok označava email poruke Performanse (P): procenat email poruka korektno klasifikovanih kao spam/not-spam

ZAŠTO MAŠINSKO UČENJE? 1) Neke vrste zadataka ljudi rešavaju vrlo lako, a pri tome nisu u mogućnosti da precizno (algoritamski) opišu kako to rade Primeri: prepoznavanje slika, zvuka, govora 2) Za neke vrste zadataka mogu se definisati algoritmi za rešavanje, ali su ti algoritmi vrlo složeni i/ili zahtevaju velike baze znanja Primeri: automatsko prevođenje

ZAŠTO MAŠINSKO UČENJE? 3) U mnogim oblastima se kontinuirano prikupljaju podaci sa ciljem da se iz njih nešto sazna ; npr.: u medicini: podaci o pacijentima i korišćenim terapijama u sportu: o odigranim utakmicama i igri pojedinih igrača u marketingu: o korisnicima/kupcima i tome šta su kupili, za šta su se interesovali, kako su proizvode ocenili, Analiza podataka ovog tipa zahteva pristupe koji će omogućiti da se otkriju pravilnosti, zakonitosti u podacima koje nisu ni poznate, ni očigledne, a mogu biti korisne

GDE SE PRIMENJUJE MAŠINSKO UČENJE? Brojne oblasti primene Kategorizacija teksta prema temi, iskazanim osećanjima i/ili stavovima i sl. Mašinsko prevođenje teksta Razumevanje govornog jezika Prepoznavanje lica na slikama Segmentacija tržišta Uočavanje paterna u korišćenju različitih aplikacija Autonomna vozila (self-driving cars)...

OBLICI MAŠINSKOG UČENJA Osnovni oblici mašinskog učenja: Nadgledano učenje (supervised learning) Nenadgledano učenje (unsupervised learning) Učenje uz podsticaje (reinforced learning)

NADGLEDANO UČENJE Obuhvata skup problema i tehnika za njihovo rešavanje u kojima program koji uči dobija: skup ulaznih podataka (x 1, x 2,, x n ) i skup željenih/tačnih vrednosti, tako da za svaki ulazni podatak x i, imamo željeni/tačan izlaz y i Zadatak programa je da nauči kako da novom, neobeleženom ulaznom podatku dodeli tačnu izlaznu vrednost Izlazna vrednost može biti: labela (tj. nominalna vrednost) reč je o klasifikaciji realan broj reč je o regresiji

NADGLEDANO UČENJE Primer linearne regresije: predikcija cena nekretnina na osnovu njihove površine Podaci za učenje: površine (x) i cene (y) nekretnina u nekom gradu Cena (u 1000$) Površina (feet 2 ) Izvor: https://www.coursera.org/learn/machine-learning

NADGLEDANO UČENJE Primer linearne regresije (nastavak) Funkcija koju treba naučiti u ovom slučaju (samo jedan atribut) je: h(x) = a + bx a i b su koeficijenti koje program u procesu učenja treba da proceni na osnovu datih podataka Cena (u 1000$) Površina (feet 2 )

NENADGLEDANO UČENJE Kod nenadgledanog učenja nemamo informacija o željenoj izlaznoj vrednosti program dobija samo skup ulaznih podataka (x 1, x 2,, x n ) Zadatak programa je da otkrije paterne tj. skrivene strukture/zakonitosti u podacima

NENADGLEDANO UČENJE Primer: određivanje konfekcijskih veličina na osnovu visine i težine ljudi Izvor: https://www.coursera.org/learn/machine-learning

UČENJE UZ PODSTICAJE Ovaj oblik učenja podrazumeva da program (agent) deluje na okruženje izvršavanjem niza akcija Ove akcije utiču na stanje okruženja, koje povratno utiče na agenta pružajući mu povratne informacije koje mogu biti nagrade ili kazne Cilj agenta je da nauči kako da deluje u datom okruženju tako da vremenom max. nagrade (ili min. kazne) Primer: kompjuterske igre, autonomna vozila

ILUSTRACIJA AGENTA KOJI UČI UZ PODSTICAJE Agent Pravila Stanje Opšte znanje o promenama u okruženju Efekti akcija Senzori Interpretacija Odluka o akciji Okruženje Aktuatori

OSNOVNI KORACI I ELEMENTI PROCESA M. UČENJA

OSNOVNI KORACI PROCESA M. UČENJA 1) Prikupljanje podataka potrebnih za formiranje datasets za obuku, (validaciju) i testiranje modela m. učenja 2) Priprema podataka, što tipično podrazumeva čišćenje i transformaciju podataka 3) Analiza rezultujućih datasets, i njihovo, eventualno, dalje unapređenje kroz selekciju/transformaciju atributa 4) Izbor 1 ili više metoda m. učenja 5) Obuka, konfiguracija i evaluacija kreiranih modela 6) Izbor modela koji će se koristiti (na osnovu rezultata koraka 5) i njegovo testiranje

PODACI Podaci su potrebni za trening, validaciju i testiranje modela Tipična podela podataka kojima raspolažemo je 60% za trening, 20% za validaciju i 20% za testiranje Izbor uzoraka za trening, validaciju i testiranje treba da se uradi na slučajan način (random selection) Za nadgledano učenje, moramo imati obeležene podatke Npr. obeležiti slike koje sadrže lice, elektronsku poštu koja je nepoželjna, e-mail adrese koje su lažne, i sl.

PODACI Izvori podataka: Javno dostupne kolekcije podataka; sve više tzv. otvorenih podataka (open data) Pogledati npr. https://github.com/caesar0301/awesome-publicdatasets Podaci dostupni posredstvom Web API-a Pogledati npr. http://www.programmableweb.com/ Sve veće tržište gde je moguće kupiti podatke Pogledati npr. http://www.qlik.com/us/products/qlik-data-market

PODACI Preporuka: predavanje Peter Norvig*-a na temu značaja podataka za mašinsko učenje: The Unreasonable Effectiveness of Data URL: http://www.youtube.com/watch?v=yvdczhbjyws *Peter Norvig je autor jedne od najpoznatijih knjiga u domenu Veštačke inteligencije i trenutno na poziciji Director of Research u Google-u

ATRIBUTI (FEATURES) Osnovna ideja: pojave/entitete prepoznajemo uočavajući njihove osobine (ili izostanak nekih osobina) i uviđajući odnose između različitih osobina omogućiti programu da koristi osobine pojava/entiteta za potrebe njihove identifikacije/grupisanja Izazov: odabrati atribute koji najbolje opisuju neki entitet/pojavu, tj. omogućuju distinkciju entiteta/pojava različitog tipa

ATRIBUTI (FEATURES) Primeri: Za eletronsku poštu: naslov (tj. polje subject), reči napisane velikim slovom, dužina email-a, prva reč i sl. Za stan: površina, lokacija, broj soba, tip grejanja i sl. Za tweet poruke: prisustvo linkova, prisustvo hashtagova, vreme slanja, mrežna pozicija pošiljaoca,

ODABIR METODE M. UČENJA Generalno, zavisi od: vrste problema koji rešavamo karakteristika skupa atributa (features) tip atributa stepen homogenosti tipova i opsega vrednosti atributa stepen međuzavisnosti (korelisanosti) atributa obima podataka koji su nam na raspolaganju

ODABIR METODE M. UČENJA Primer: pokušaj aproksimacije četiri različita skupa podataka primenom iste linearne funkcije (tj. linearne regresije) Očigledno razičiti podacitraže različite funkcije tj algoritme učenja Izvor: http://goo.gl/yjm0el

TESTIRANJE Za procenu uspešnosti modela, potrebni su podaci koje model nije imao prilike da vidi u fazi učenja Reč je o podacima za testiranje, za koje se obično izdvaja 20-30% ukupnih podataka Uspešnost modela se utvrđuje različitim metrikama: tačnost, preciznost, odziv,

TRAIN/VALIDATE/TEST Pored treniranja i testiranja modela, najčešće se radi i validacija modela kako bi se: a) izabrao najbolji model između više kandidata b) odredila optimalna konfiguracija parametara modela c) izbegli problemi over/under-fitting-a (ovi problemi su objašnjenina slajdovima 33-41)

TRAIN/VALIDATE/TEST Kad se radi validacija, ukupan dataset se obično deli u odnosu 60/20/20 na podatake za trening, validaciju i testiranje Podaci za validaciju koriste se za poređenje performansi različitih modela izabranog modela sa različitim vrednostima parametara sve u cilju izbora optimalnog modela za dati problem

CROSS-VALIDATION Čest pristup za efikasno korišćenje raspoloživih podataka Kako funkcioniše: raspoloživi skup podataka za trening se podeli na K delova ili podskupova (folds) najčešće se uzima 10 podskupova (10 fold cross validation) zatim se obavlja K iteracija treninga + validacije modela ; u svakoj iteraciji: uzima se 1 deo (fold) podataka za potrebe validacije, a ostatak (K-1 deo) se koristi za učenje bira se uvek različiti podskup koji će se koristiti za validaciju

CROSS VALIDATION Izvor: http://goo.gl/blikrv

CROSS VALIDATION Pri svakoj iteraciji računaju se performanse modela Na kraju se računa prosečna uspešnost na nivou svih K iteracija tako izračunate mere uspešnosti daju bolju / pouzdaniju sliku o performansama modela Ukoliko su rezultati u svih K iteracija vrlo slični, smatra se da je procena uspešnosti modela pouzdana

ANALIZA GREŠKE Podrazumeva ručno pregledanje primera na kojima je model pravio greške i uočavanje paterna u tim primerima Pomaže da se stekne osećaj zbog čega model greši, i šta bi se moglo uraditi da se greške otklone; Npr. identifikovati suvišne atribute identifikovati atribute koji nedostaju drugačije podesiti parametre modela

OVER-FITTING (VARIANCE) VS. UNDER-FITTING (BIAS)

BIAS / VARIANCE TRADE-OFF Bias (under-fitting) i variance (over-fitting) su dve bitne pojave koje je potrebno razmotriti pri kreiranju modela mašinskog učenja

PROBLEM PREVELIKOG PODUDARANJA (OVER-FITTING) Odnosi na situaciju u kojoj model savršeno nauči da vrši predikciju za instance iz trening seta, ali ima veoma slabu sposobnost predikcije za instance koje se i malo razlikuju od naučenih over fitting poželjno rešenje Izvor: https://www.coursera.org/learn/machine-learning

PROBLEM PREVELIKOG PODUDARANJA (OVER-FITTING) Problem over-fitting-a je usko povezan sa visokom varijansom (variance) korišćene metode m. učenja

VARIJANSA METODA M. UČENJA Varijansa (variance) ukazuje na to u kojoj meri bi se kreirani model m. učenja promenio ukoliko bi došlo do promene podataka u korišćenom skupu za trening Generalno, što je metoda m. učenja složenija / fleksibilnija, to će njena varijansa biti veća visoka varijansa mala varijansa Izvor: http://www.alsharif.info/#!iom530/c21o7

PROBLEM NEDOVOLJNOG PODUDARANJA (UNDER-FITTING) Under-fitting se odnosi na slučaj kad model ne uspeva da aproksimira podatke za trening, tako da ima slabe performanse čak i na trening setu under fitting poželjno rešenje Izvor: https://www.coursera.org/learn/machine-learning

PROBLEM NEDOVOLJNOG PODUDARANJA (UNDER-FITTING) Under-fitting problem je usko povezan sa visokim bias-om korišćene metode m. učenja

BIAS METODA M. UČENJA Bias se odnosi na grešku koja se javlja u slučaju korišćenja vrlo jednostavnog modela za potrebe rešavanja složenog realnog problema Na primer, linearna regresija podrazumeva postojanje lin. relacije između zavisne i nezavine varijable; međutim, u realnosti, relacije su vrlo retko linearne; usled toga, modele zasnovane na lin. reg. često karakteriše visok bias Generalno, što je metoda m. učenja složenija / fleksibilnija, to će bias biti manji

BIAS / VARIANCE: PRIMER Bias/variance regresionog modela za predviđanje cenekuće (zavisna promenljiva) na osnovu njene veličine (prediktor) d je stepen polinoma primenjene regresione metode Izvor: http://www.astroml.org/sklearn_tutorial/practical.html

OVER-FITTING VS. UNDER-FITTING UNDER - FITTING OVER - FITTING Izvor: http://www.astroml.org/sklearn_tutorial/practical.html

BIAS - VARIANCE DILEMMA / TRADE-OFF Izvor: http://www.springer.com/us/book/9780387307688

ZAHVALNICE I PREPORUKE

Coursera: https://www.coursera.org/learn/machine-learning Stanford YouTube channel: http://www.youtube.com/view_play_list?p=a89dcfa6adace599

http://www.cs.waikato.ac.nz/ml/weka/book.html

http://www-bcf.usc.edu/~gareth/isl/index.html

Predavanja Nando de Freitas-a na UBC-u http://www.youtube.com/watch?v=w2otwl5t1ow

PREPORUČENI TEKSTOVI [blog post] Designing ML models (link) jednostavan i lep primer postupka kreiranja i evaluacije ML modela [blog post] Preparing data for analysis (link) sažeto objašnjeno zašto je (jako) bitno da se adekvatno uradipriprema podataka ( čišćenje i transformacija) [article] A Tour of Machine Learning Algorithms (link) lep i sažet pregled velikog broja popularnih ML algoritama [post] Machine Learning Algorithm Cheat Sheet (link) pros & cons nekoliko popularnih algoritama (DT, Lin. Regression, NN, SVM, knn); vrlo praktično i korisno [article] Essentials of Machine Learning Algorithms (with Python and R Codes) (link)

NEKI (POTENCIJALNO) INTERESANTNI PRIMERI PRIMENE MAŠINSKOG UČENJA NELL - Never Ending Language Learner (website) (NYT article) (video lecture) Relationship mining on Twitter What Facebook Knows (data analysis at Facebook) Using Location Data to Predict the Events You Will Want to Attend Smart Autofill - Harnessing the Predictive Power of Machine Learning in Google Sheets Deep Learning (what it is about) Learning Analytics and MOOCs (TED talk) (research paper on the use of ML to predict dropouts in MOOCs)

(Anonimni) upitnik za vaše komentare, predloge, kritike: http://goo.gl/cqdp3i