Primijenjena statistika

Величина: px
Почињати приказ од странице:

Download "Primijenjena statistika"

Транскрипт

1 Sveučilište Jurja Dobrile u Puli Fakultet informatike Diplomski studij Informatike: 1. godina Primijenjena statistika Sažetak prezentiranih završnih projekata 2017./2018. Ak.g /2018.

2 01-preporučitelj poslovnih lokacija Preporučitelj lokacija za nove poslovne sadržaje u gradu Puli AUTORI: Robert Šajina Romeo Šajina DROPBOX: goo.gl/s1lwfu

3 Preporučitelj lokacija za nove poslovne sadržaje u gradu Puli Autor: Robert i Romeo Šajina Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Ustanove kao što su restorani, kafići, barovi, knjižnice, smatraju se ključnim svojstvima grada. Unatoč želji za bogatom ponudom ustanova, malo je poznato o empirijskim zakonima i korelacijama između ustanova u nekoj četvrti. 2. Opis problema Cilj ovog zadatka je razumijevanje prirodnost pojavljivanja ustanova u nekoj četvrti, korištenjem seta podataka koji sadržavaju precizne lokacije tisuća ustanova. Podaci su prikupljeni korištenjem Google Places-a, i to za grad Pulu. 3. Metoda Podaci su prikupljeni korištenjem Google Places API-a. Maksimalan broj dohvaćenih mjesta po zahtjevu je 60, pa je stoga područje grada Pule bilo potrebno podijeliti na više manjih cjelina. Nakon prikupljanja podataka, bilo je potrebno izbrisati duplikate i popraviti tipove ustanove jer, u preuzetim podacima, jedna ustanova može imati dodijeljeno više tipova, čime bi zapravo isti tip ustanove mogao biti klasificiran kao drugačiji tip. Također, ulice i ceste su izbačene iz seta podataka. Nakon toga je za svaku ustanovu izračunata ENOA (Effective number of amenities), odnosno suma doprinosa obližnjih ustanova gdje se doprinos ustanova smanjuje pri većoj udaljenosti, te je nakon 500 metara gotovo zanemariv. Formula za izračunavanje ENOA-e ustanove je: = + gdje je udaljenost između ustanova i. Postavili smo = 16, što znači da će se doprinos ENOA-e ustanove otprilike upola smanjiti svakih 62.5 metara. Postavili smo = 2000 što je dovoljan broj ustanova kako bi ENOA konvergirala prije sumiranja -og elementa. Sljedeći korak je izračunavanje centara susjedstava, na način da centrom može postati ustanova čija je ENOA veća od ENOA N obližnjih ustanova, gdje je N = 3*ENOA Nadalje, svaka ustanova se dodjeljuje najbližem centru susjedstva. Na posljetku su rezultati prikazani grafički. 4. Rezultati Prikaz grupiranih susjedstava pojedinom centru 5. Zaključak Prikaz ustanova po tipovima na karti. Srednji sloj prikazana je ENOA za sve ustanove. U ovom radu su prikupljeni, obrađeni i klasterirani podaci o pozicijama ustanova u gradu Puli. Prema podacima, ustanove koje prevladavaju su barovi, kafići i restorani, te su ekstremno grupirani na području okolice Arene. Sljedeći korak je predviđanje mogućih tipova ustanova, kojih za određeno susjedstvo nedostaju. Takvo predviđanje bi se moglo ostvariti modelom koji je izgrađen na temelju korelacija tipova ustanova u pojedinim susjedstvima. Naravno, u model nije uključena naseljenost susjedstva što utječe na broj ustanova, ali bi pružio uvid u nedostajuće tipove ustanova u određenom susjedstvu. Dijagram kojim se ilustriraju koraci u obradi podataka Primijenjena statistika, ak. god. 2017/2018

4 02-paket za hrv. ekon. podatke R paket za sakupljanje svih javno dostupnih hrvatskih (makro)ekonomskih podataka AUTORI: Petra Buršić Mateo Bošnjak DROPBOX: goo.gl/s1lwfu

5 Paket za učitavanje i vizualizaciju hrvatskih makroekonomskih podataka Autori: Mateo Bošnjak i Petra Buršić Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Poster prikazuje kreiranje vlastitog R paketa pod nazivom hrvmakeko. Radi se o paketu koji omogućuje učitavanje i vizualizaciju hrvatskih makroekonomskih podataka poput EUROSTAT R paketa. Cilj je učiniti dostupnima većinu makroekonomskih podataka na jednome mjestu. 2. Opis problema EUROSTAT Open Data omogućuje pristup EUROSTAT bazi podataka sa podacima i dokumentacijom koja je također dostupna na mreži. hrvmakeko paket pristupa podacima Državnog zavoda za statistiku i podaci Hrvatske narodne banke klasificirani prema institucionalnim sektorima i financijskim strumentima. Paket dolazi sa skupom podataka vezana uz bdp, kamatnim stopama, inflaciji, ponudi novca, platnoj bilanci,itd. 3. Metoda Za kreiranje vlastitog paketa potrebno je instalirati alate poput devtools za kompajliranje paketa te roxygen2 koji služi za stvaranje dokumentacije koja sadrži opis paketa te Help pages ili pomoćne stranice koje sadrže opis naredbi te na koji se način iste pozivaju i koji su podaci sadržani u istoj. Izvor DZS-a daje podatke o BDP-u godišnje i po kvartalima što je moguće dohvatiti naredbama BDPg i BDPk. U prikazanom primjeru uzimamo u obzir naredbu BDPk koja preuzima datoteku sa stranica Državnog zavoda za statistiku i vraća tablicu bruto domaćeg proizvoda prikazanog po kvartalima. 4. Rezultati Paket sadrži 48 različitih tablica sa makroekonomskim indikatorima vezani uz hrvatsku ekonomiju čije se datoteke preuzimaju iz ažuriranih izvora i prikazuju u obliku tablice. Funkcijama paketa moguće je i vizualizirati odgovarajuće tablice pozivom naredbe plotbdpg (godisnja vizualizacija) ili plotbdpk (kvartalna vizualizacija). Obe funkcije kao argument primaju stupac kojeg korisnik želi vizualizirati te naziv stupca. Pomoćna stranica sa opisom naredbe Pomoćna dokumentacija paketa Interesantno! Nekonzistentnost podataka koje uređuje Hrvatska narodna banka. 5. Zaključak Hrvmakeko R paket predstavlja način za importiranje i vizualizaciju specifičnih podataka te pretraživanje istih kroz uređene tablice. Paket grupira podatke te pruža jednostavan pristup čime olakšava analizu podataka svojim korisnicima. Primijenjena statistika, ak. god. 2017/2018

6 03-analiza ponude IKT poslova Analiza ponude IKT poslova i traženih vještina rudarenjem teksta oglasa AUTORI: Leopold Juraga Aljoša Kancijanić DROPBOX: goo.gl/s1lwfu

7 1. Uvod Analiza ponude IKT poslova i traženih vještina rudarenjem teksta oglasa Autori: Leopold Juraga i Aljoša Kancijanić Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli Pomoću napravljene analize prikazati ponude zanimanja s područja IKT-a koristeći se tekstom iz oglasa. Obrađeni podaci su sakupljeni iz 498 različitih oglasa sa stranice Analiza se temelji na grupiranju riječi po učestalosti pojavljivanja kako bi se dobile najčešće tražene vještine. 2. Opis problema Sakupiti podatke dinamički s web-stranica koristeći vještine rudarenja teksta, te podatke dodatno filtrirati i grafički prikazati pomoću potrebnih alata. Za prikupljanje podataka odabran je jednostavniji alat Web-Scraper ekstenzija za Chrome, zbog lakoće konfiguriranje pošto napredniji alati nisu bili potrebni u izradi projekta. 3. Metoda Prikupljanje podataka izvršeno je pomoću ekstenzije za Chrome Web-Scraper, njegovom konfiguracijom bilo je moguće pregledati sve trenutno objavljene oglase i uzeti određene elemente oglasa potrebne za analizu. Prikupljene podatke bilo je potrebno prilagoditi za analizu, standardizacija riječi, izbacivanje veznika i interpunkcijskih znakova, te pretvorba u potrebni format. Primjenom metoda za analizu riječi dobivene su najučestalije riječi koje se pojavljuju u oglasima koje su prikazane pomoću Word Cloud-a. Nakon toga dodatno su analizirane veze između riječi u oglasima kako bi utvrdili vještine koje su najtraženije po prikupljenim podacima, pomoću te analize stvoren je graf traženih vještina. 4. Rezultati Prikaz riječi s obzirom na broj ponavljana u oglasima Na temelju izvršenih analiza teksta oglasa ustanovili smo da su najpotrebniji programeri koji imaju Senior status, a najtraženije vještine Java,.Net i poznavanje web aplikacija. Najviše korištena riječ u svim prikupljenim oglasima je Developer. Dijagram obrade podataka prije vizualizacije Interesantno! Riječ Developer se pojavljuje u 37.5% svih obrađenih oglasa. 5. Zaključak Primijenjena statistika, ak. god. 2017/2018 Nakon provedene analize riječi oglasa možemo zaključiti da se najviše traže developeri, inženjeri i administratori. Najtraženiji poslovi za koje se traže radnici su softver, sistem, java,.net i web. Također najtraženiji su zaposlenici koji su eksperti u svojem području, a oni bez iskustva su duplo manje traženi. Developeri su najtraženiji kao eksperti i u manjem broju bez iskustva. Inženjeri su najtraženiji kao eksperti i za poslove vezane uz softver. Administratori su najviše traženi za poslove vezane uz sistem.

8 04-model cijene automobila Statistički model tražene cijene (rabljenih) automobila u RH AUTORI: Antonio Vuk Sebastian Sinožić DROPBOX: goo.gl/s1lwfu

9 Statistički model tražene cijene automobila u RH Autor: Antonio Vuk i Sebastian Sinožić Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Tema ovog rada je Statistički model tražene cijene automobila u RH. Korišteni podaci preuzeti su s web stranice Za izradu projekta korišten je programski jezik R s odgovarajućim softverom pod nazivom R studio. Glavna zamisao ovog projekta bila je usporediti cijenu vozila u odnosu na ostale varijable koje smo prikupili i vidjeti njihove međuodnose. Podatke smo prikupljali s weba pomoću R Selenium softwera. Ukupno smo prikupili 4120 opservacija s 20 varijabli, a prikupljene podatke spremili smo u Microsoft Excel. 2. Opis problema Prikupljanjem što većeg broja nama dostupnih podataka te njihovom zajedničkom obradom pokušali smo odrediti koji faktor u najvećoj mjeri utječe na cijenu vozila. Kao najvažnije faktore koji utječu na cijenu vozila treba spomenuti: godinu proizvodnje automobila te ekološku kategoriju vozila, a u nešto manjoj ali značajnoj mjeri spomenuli bi garanciju i snagu motora (u kw). 3. Metoda Metoda koja je korištena je višestruka linearna regresija. Koristili smo tu metodu zato što smo imali više od jedne prediktorske varijable. Zavisna varijabla bila nam je cijena vozila dok su prediktorske varijable bile sve ostale varijable. Prikaz ovisnosti cijene i godine proizvodnje vozila Interesantno! Ekološka kategorija vozila znatno utječe na cijenu samog vozila što nismo očekivali na početku izrade projekta. 4. Rezultati Nakon što smo odabrali najbolji model, iz ovog primjera vidimo da je predikcija zadovoljava naša očekivanja te u donjoj prikazanoj figuri prikazali smo top 3 vozila. Najbolji model te prediktori koje taj model uključuje Reducirani model s 7 varijabli objašnjava 69% varijance zavisne varijable Vizualizacija korelacijske matrice s 16 varijabli Primijenjena statistika, ak. god. 2017/ Zaključak Izbor top 3 modela vozila prema predikciji Model se ispostavio prilično točnim te su predikcije prilično dobre, postoji mogućnost unosa novih podataka prema kojima je vidljivo u kojoj je mjeri nova vozila podcijenjena odnosno precijenjena. Potencijalni problem ovog modela su korišteni podaci iz razloga što oglasi subjektivnog karaktera te podložni greškama oglasivača. Za buduće istraživanje bilo bi poželjno podatke dohvatiti s većeg broja servisa te u konačnici objediniti rezultate.

10 05-model rangiranja restorana Statistički model rangiranja istarskih restorana prema TripAdvisor-u AUTORI: Kristijan Babić Mateo Višković DROPBOX: goo.gl/s1lwfu

11 Statistički model rangiranja istarskih restorana prema TripAdvisor-u Autori: Kristijan Babić, Mateo Višković Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Ovim statističkim modelom analizirani su restorani na području Istarske županije. Analiza je provedena nad više od 140 različitih restorana koji sadržavaju 16 atributa. Ocjena je glavni aspekt razmatranja provedene analize, odnosno ponašanje ocjene s obzirom na različite promjenjive atribute. 2. Opis problema Obradom prikupljenih podataka utvrditi zavisne varijable između 16 atributa, te pronaći utjecaj istih na zavisnu varijablu. Završetkom analize podataka ispostavilo se da zavisna varijabla ocjena, te smo nad istom izvršili odgovarajuće statističke metode. Graf nam prikazuje da se najveći broj restorana u Istri nalazi u Rovinju, Puli i Poreču 3. Metoda Nad podacima prikupljenim sa internetskog turističkog portala TripAdvisor provedeno je razvrstavanje podataka po odgovarajućim atributima. Završetkom prikupljanja podataka isti su uvezeni u R-Studio u kojem smo analizom podataka utvrdili nedostajuće vrijednosti te ih zamijenili sa odgovarajućom metodom. Kroz daljnju obradu podataka grafički je prikazan odnos broja restorana po pojedinim lokacijama, kao i odnos broja recenzija s ocjenama i lokacijom. Naposljetku je utvrđen najznačajniji statističkih model, nad kojim je proveden niz statističkih testova. Na temelju najznačajnijeg statističkog modela također je izvršena predikcija kao i prikaz precijenjenih i podcijenjenih restorana. Interesantno! Gradovi s većim brojem restorana s istim atributima imaju nižu prosječnu ocjenu u odnosu na gradove s manjim brojem restorana. 4. Rezultati Na temelju izvršenih statističkih testiranja dolazimo do saznanja da Rating Value, Rating Food, Rating Service i Rating Atmosphere imaju 79% varijance zavisne varijable. Predikcija 1: Predikcija 2: Rating_Food= 5 Rating_Food= 3 Rating_Value=4.5 Rating_Value=3.5 Rating_Service=4.5 Rating_Service= ZaključakRating_Atmosphere=5 Na temelju provedenih statističkih Rating_Atmosphere=3.5 testova zaključujemo da najveći utjecaj na ocjenu imaju varijable Rating Value, Rating Food, Rating Service i Rating Atmosphere. Također dolazimo do zaključka daocjena: lokacija objekta kao i njegovo radno vrijeme nemaju statistički značajan utjecaj na ukupnu ocjenu 4.63restorana. Ocjena: 2.81 Primijenjena statistika, ak. god. 2017/2018 Prikaz ocjena restorana na temelju broja recenzija Te da je najpodcenjeniji restoran između prikupljenih podataka Popaj, a najprecjenjeniji Santa Barbara.

12 06-testiranje razlike cijena Statističko testiranje razlike cijena više identičnih proizvoda lanca Lidl u više država EU AUTORI: Karlo Skok Alen Lesar DROPBOX: goo.gl/s1lwfu

13 Statističko testiranje razlike cijena više identičnih proizvoda lanca Lidl u više država EU Autori: Karlo Skok, Alen Lesar Mentor: Doc. dr. sc. Siniša Sovilj Odjel za informacijsko-komunikacijske tehnologije, Sveučilište Jurja Dobrile u Puli 1. Uvod U ovom statističkom modelu analizirali smo cijene proizvoda lanca Lidl u više zemalja Europske unije. Ukupno smo prikupili 29 različitih opservacija i 14 varijabli. 2. Opis problema Cij projektnog zadatka je bio prikupiti podatke o cijenama proizvoda trgovačkog lanca Lidl te napraviti statističke testove nad tim podacima i utvrditi jesu li cijene statistički značajno različite i koliko. 3. Metoda Podatke smo prikupili s web stranica Lidla te ih ručno unijeli u Excel tablicu i nakon toga učitali u R studio kao podatkovni okvir. Pripremili smo podatke na način da smo izbacili nedostajuće vrijednosti i selektirali samo podatke od interesa. Napravili smo model multipla regresije kojim smo htjeli objasniti kolika će biti ovisna cijena proizvoda u Hrvatskoj o cijenama proizvoda u ostalim državama. Statistički smo pokazali koja država ima najjeftinije proizvode, odnosno najskuplje po pojedinim artiklima. 4. Rezultati Statističkom analizom najpovoljnija država je Njemačka, a najskuplja država je Hrvatska. Predviđene i stvarne cijena proizvoda za Hrvatsku se vrlo malo razlikuju. Prikaz skupoće država od najjeftinije do najskuplje Najjeftiniji proizvodi su u Njemačkoj gdje je i sam nastao trgovački lanac Lidl Odnos predikcije i stvarne cijene proizvoda u RH Prikaz cijena proizvoda po državama 5. Zaključak Primijenjena statistika, ak. god. 2017/2018 Izradom statističkog modela došli smo do zaključka da su cijene proizvoda najmanje u Njemačkoj. Iz svih provedenih statističkih analiza i na temelju dobivenih rezultata na kraju zaključujemo da su cijene proizvoda u pojedinim državama značajnije različite kao na primjer cijene u Njemačkoj i Hrvatskoj dok u nekima kao na primjer, Francuskoj i Švicarskoj gotovo da nema razlike.

14 07-model cijena telekom paketa Statistički model usporedbe paketa telekom operatora u RH AUTORI: Karlo Tvrdinić Goran Vinković DROPBOX: goo.gl/s1lwfu

15 1. Uvod Statistički model usporedbe paketa telekom operatora u RH Autori: Karlo Tvrdinić, Goran Vinković Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli Tema projekta je Statistički model usporedbe paketa telekom operatera u RH. Podatci koji su korišteni preuzeti su sa stranice Operateri koje smo uspoređivali su T-com, B.net, Iskon, Vip, H1 telekom, Optima telekom, amis i Terrakom. Prikupljeno je 49 opservacija i 9 varijabli. 2. Opis problema Cilj projekta je prikazati i opisati utjecaj prediktora na cijenu paketa, te time utvrditi koji su paketi precijenjeni, a koji su podcijenjeni. Korištene varijable su; Telekom, NazivPaketa, Paket, BesplatneMinute, TVProgrami, UplBrzina, DlBrzina, NaknadaZaUkljucenje i Ukupna cijena. Ovo je graf koji prikazuje utjecaj broja TV Programa na ukupnu cijenu u paketima koji nude Internet + TV + Telefon. Broj TV Programa ima veliki utjecaj na cijenu 3. Metoda Metoda koja je korištena je multipla linearna regresija iz razloga što se koristi više od jedne prediktorske varijable. Zavisna varijabla je ukupna cijena paketa dok su prediktorske varijable BesplatneMinute, TVProgrami, Upload brzina, Download brzina i naknada za uključenje. Iteracijom više modela došlo se do najboljeg modela koji uzima u obzir sljedeće prediktore: DlBrzina.num, BesplatneMinute.num i TVProgrami.num. Zatim se nad najboljim modelom (fit1) vrši dijagnostika i predikcija kako bi se dobili potrebni rezultati. Ovisnosti su također vizualizirane uz pomoć ggplot2 grafova. 4. Rezultati Na temelju dobivenog modela (fit1) radi se predikcija te se dobivaju rezultati na kojima se vidi utjecaj broja TV programa na ukupnu cijenu: test1 <- data.frame(dlbrzina.num = 35, BesplatneMinute.num = 5000, TVProgrami.num = 40) predict(fit1, newdata = test1) Predikcija je kn test2 <- data.frame(dlbrzina.num = 4, BesplatneMinute.num = 55, TVProgrami.num = 70) predict(fit1, newdata = test2) Predikcija je kn Na temelju modela i residuala također je izrađena lista podcijenjenih i precijenjenih paketa. Zanimljivost! Zanimljivo je da na ukupnu cijenu pojedinog paketa utječe najviše prediktor TV programa. 5. Zaključak U našem modelu nije bilo stršećih vrijednosti što je olakšalo sami proces izrade statističkog modela. Tijekom izrade statističkog modela došli smo do zaključka da u modelu postoji jaka korelacija, a ta korelacija je između dvije varijable UplBrzina (eng. Upload Speed) i DlBrzina (eng. Download speed). Za predviđanje dobrog modela koristi se zavisna varijabla Ukupno, te prediktorske varijable DlBrzina, BesplatneMinute i TVProgrami. U modelu smo zaključili da najveći utjecaj na ukupnu cijenu telekom paketa ima utjecaj TV programi. Ovo je graf koji prikazuje utjecaj Download brzine na ukupnu cijenu u paketima koji nude Internet +TV + Telefon. Primijenjena statistika, ak. god. 2017/2018

16 08-model broja dolazaka i noćenja Statistički model broja dolazaka i noćenja turista u RH AUTORI: Tomislav Zelembrz Andrej Sabol DROPBOX: goo.gl/s1lwfu

17 Statistički model broja dolazaka i noćenja turista u RH Autori: Tomislav Zelembrz, Andrej Sabol Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod 4. Rezultati Najveći broj posjetitelja i broj noćenja u i godinu bilo je zabilježeno u kolovozu. 2. Opis problema Cilj istraživanja bio je prikazati statistički model broja dolazaka i noćenja stranih i domaćih turista u RH. Vremenski uvjeti imaju najveći utjecaj na broj dolazaka turista. Prikaz broja dolazaka turista od 2010.godine do 2016.godine kroz sve mjesece u godini. 3. Metoda Za rad na projektu korišten je programski jezik R. Podaci su bili pronađeni na stranicama Državnog zavoda za statistiku. Nakon pripreme podataka na redu je bilo testiranje i utvrđivanje povezanosti podataka. Za te svrhe korištene su metode unutar R programa kao što su korelacija i regresija. Korelacija nam prikazuje da li postoji povezanost između varijabli koje bi mogle utjecati na broj dolazaka domaćih ili stranih gostiju, a regresija nam je trebala pokazati da li postoji veza između zavisnih i nezavisnih varijabli. 5. Zaključak Nakon izrade statističkog modela došli smo do zaključka sve varijable koje smo proučavali imaju jaku povezanost, jaku korelacija. Nadalje razlike između broja posjetitelja u godini i godini su veoma male, odnosno grafovi prikaza broja noćenja i broja posjetitelja su veoma slični. Smatramo da treba uzeti u obzir da statistički model koji smo napravili ne uzima sve moguće elemente koji mogu utjecati na broj posjetitelja kao što je to utjecaj vremena, događaji i slično.

18 09-model cijena mobilnih uređaja Statistički model usporedbe cijena mobilnih uređaja u RH AUTORI: Katarina Đaić Tomislav Đuranović DROPBOX: goo.gl/s1lwfu

19 Statistički model usporedbe cijena mobilnih uređaja u RH Autori: Đaić Katarina, Đuranović Tomislav Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Ovim statističkim modelom analizirani su polovni mobiteli. Analiza je provedena nad 399 mobilnih uređaja (Samsung, Apple, LG i Sony) koji sadržavaju 6 atributa. Modeli analiziranih uređaja su: Samsung Galaxy s4, s5, s6, s7 i s8, Apple Iphone 4s, 5s, 6s, 7, 8 i X, LG G2, G3, G4, G5 i G6 te Sony Xperia Z1, Z2, Z3 i Z5. Cijena je glavno područje koje razmatramo u ovoj analizi, odnosno ponašanje cijene obzirom na ostale prediktore. 2. Opis problema Prikupljanjem što većeg broja podataka i obradom istih cilj je bio utvrditi koji od prethodno navedenih polovnih uređaja je najpovoljniji te najskuplji. Također, ispitani su različiti prediktori, a to su: marka, model, memorija, veličina ekrana te kvaliteta kamere. 3. Metoda Podaci koje smo prikupili su s internetske stranice Potom smo ih stavili u excel tablicu te u R studio koji smo koristili pri izradi projekta. U odabranom modelu zavisna varijabla predstavlja cijenu dok su nezavisne varijable (prediktori) bili: marka, memorija, veličina ekrana i kvaliteta kamere. Taj je model objasnio 87.67% varijance zavisne varijable. Interesantno! Kako smo radili višestruku regresiju, gledajući posebno svaki model mobitela, ustanovljeno je da kako dodajemo prediktore tako nam se točnost modela smanjuje, osim za Sony, dok je kada smo gledali sve mobitele zajedno ona povećala kako smo dodavali prediktore. Interesantno! Kamera bitno ne utječe na cijenu Samsunga i Iphone-a, dok je za Sony modele važna u odnosu na cijenu. Kod LG je bila neznatna promjena kada smo dodali kameru. Dijagram koji prikazuje model koji je objasnio 87.67% varijance zavisne varijable Primijenjena statistika, ak. god. 2017/ Rezultati Dijagram prikazuje cijenu svih uređaja po marki Memorija najvište utječe na cijenu mobitela pojedinačih modela Dodavanjm prediktora veličina ekrana (nakon marke i memorije) točnost zavisne varijable se povećala s 45% na 87%, za sve mobitele zajedno. Kod Samsung, Iphone, i LG mobitela kvaliteta kamere ne utječe puno na cijenu, dok kod Sony mobitela najviše utječe (5.71% -> 58.85%) 5. Zaključak Na temelju dobivenih rezultata možemo zaključiti kako je prosječna cijena svih mobilnih uređaja kn. Isto tako može se reći da je Samsung galaxy s8 najskuplji mobilni uređaj koji je izosio kn (gledajući Samsung modele). Gledajući Iphone najskuplji je bio Iphone x koji je iznosio kn, dok je najskuplji LG model bio LG g6 ( kn). Posljednji naskuplji model je bio (gledajući Sony modele) Sony xperia z5 (iznosio je kn). Što se tiče najjeftinijih mobitela, su bili sljedeći uređaji: Sony xperia z1 ( kn), LG g2 ( kn), Iphone 4s ( kn) te Samsung galaxy s4 (702.9 kn).

20 10-model cijene najma apartmana Statistički model cijene turističkog najma apartmana u Istarskoj županiji AUTORI: David Juran Mikaela Radin-Mačukat DROPBOX: goo.gl/s1lwfu

21 Statistički model cijene najma apartmana u Istarskoj županiji Autori: Mikaela Radin-Mačukat, David Juran Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod Prikupljeni su podaci o cijenama najma apartmana u Istarskoj županiji. Podaci uključuju 100 unosa te 12 varijabli. Podaci su prikupljeni sa web stranice Booking.com. Podaci su obrađeni kako bi se nad njima mogla provesti statistička analiza te odredile veze između varijabli, uključujući i njihovu važnost. 2. Opis problema Pomoću prikupljenih podataka trebalo je doći do zaključaka o tome koji su apartmani najjeftiniji, koliko bi u prosjeku za neki apartman trebalo izdvojiti, koji sadržaji i ponude za apartmane uvećavaju cijenu najma te koje varijable ne utječu na cijenu. Broj objekata za najam u Istri; Pula je na prvom mjestu, a slijedi je Rovinj Cijena najma objekta prema njegovom tipu; Sobe su najjeftinije 3. Metoda Podaci su uneseni u tablicu koja je uvezena u R studio. Nakon obrade prikupljenih podataka kako bi bili prikladni za rad, započeto je njihovo vizualiziranje. Vizualizacijom podataka dolazi se do nekoliko osnovnih zaključaka, koje je moguće vidjeti na grafovima. Među ostalim, najveću ponudu smještaja ima Pula te zatim Rovinj. Nakon vizualizacije podataka izveden je test korelacije kako bi se utvrdile povezanosti između varijabli. Izrađen je korelogram kako bi se korelacije mogle lakše uočiti. Na temelju modela izrađene su predikcije cijene ovisno o nekoliko varijabli. Najznačajnije varijable za cijenu su tip objekta, broj ležaja te kategorizacija. 4. Rezultati Primijenjena statistika, ak. god. 2017/2018 Cijena prikazana po kategorizaciji Korelogram sa određenim varijablama Korištenjem modela za predikciju možemo pokušati odrediti cijenu određenih objekata za najam. Istaknute cijene su za dvije i četiri osobe za apartman i kuću. Dvije osobe Četiri osobe Apartman Kuća Apartman Kuća Cijena za 3 zvjezdice Cijena za 4 zvjezdice Interesantno! Objekti za najam koji imaju vlastiti parking obično imaju i terasu. 5. Zaključak Obradom i radom s podacima dolazi se do zaključka da su za cijenu najma najviše bitne varijable broj ležaja, tip objekta te kategorizacija. Za korištene podatke predikcije nisu u potpunosti točne za sve tipove objekata, pa ovaj model nije pouzdan kako bi se mogle predviđati cijene najma u Istarskoj županiji. Za daljnje istraživanje bilo bi dobro podatke dohvatiti s neke profesionalnije stranice na tom području.

22 11-model cijene najma plovila Statistički model cijene najma plovila za Jadran AUTORI: Tomislav Anđić Nikola Blažević DROPBOX: goo.gl/s1lwfu

23

24 12-usporedba konfiguracija laptopa Statistički model cijena konfiguracija laptopa u RH AUTORI: Nikolina Obadić Josipa Banjavčić DROPBOX: goo.gl/s1lwfu

25 Statistički model cijena konfiguracija laptopa u RH Autor: Josipa Banjavčić i Nikolina Obadić Mentor: doc. dr. sc. Siniša Sovilj Fakultet informatike, Sveučilište Jurja Dobrile u Puli 1. Uvod U statističkom modelu analiziraju se različite konfiguracije laptopa koji su prikupljeni na web stranicama : i Ukupno smo prikupile 98 različitih modela laptopa. Zavisna varijabla ovog modela bila je cijena. 2. Opis problema Cilj je prikazati kako komponente računala utječu na cijenu samog proizvoda. 3. Metoda Podaci su prikupljeni sa dviju internetskih stranica : hgspot i links. Nakon prikupljanja, koristile smo Rstudio za obradu podataka i kreiranje modela. Korelacijska analiza, regresijska analiza i predikcijski model. 4. Rezultati Interesantno! Najskuplji laptop nije ujedno i najprecjenjeniji. Predikcijski model: RAM=8 GB HDD=1TB SDD=126GB GPU=nVidia Ekran=15.6 Težina=1.8 gb Najbolja cijena prema modelu =7142 kn 5. Zaključak Prosječna cijena na temelju prikupljenih podataka je 5766,86 kn. Najpodcjenjenije računalo je Lenovo, a najprecjenjenije Apple Prema našem modelu najviše na cijenu laptopa utječe veličina RAM-a, vrsta grafičke, te ima li SSD pohranu. Primijenjena statistika, ak. god /2018.

26 ORGANIZACIJA: Sveučilište Jurja Dobrile u Puli Fakultet informatike Diplomski studij Informatike, 1. godina Primijenjena statistika, Ak.g /2018. Voditelji: doc.dr.sc. Siniša Sovilj i Ingrid Hrga mag.oec.