Sadrºaj 1 Uvod 2 2 Prikupljanje i organizacija podataka 5 2.1 Populacija i uzorak............................. 5 2.2 Izvori podataka............................... 6 2.3 Tipovi varijabli............................... 7 3 Deskriptivna statistika 12 3.1 Metode opisivanja kvalitativnih podataka................. 12 3.1.1 Tabli ni prikaz frekvencija i relativnih frekvencija........ 13 3.1.2 Gra ki prikazi........................... 13 3.2 Metode opisivanja numeri kih podataka.................. 15 3.3 Doma a zada a 1.............................. 22 4 Slu ajna varijabla 23 4.1 Vjerojatnost................................. 24 4.2 Diskretna slu ajna varijabla........................ 29 4.3 Empirijska distribucija diskretne slu ajne varijable............ 32 4.4 Kontinuirana (neprekidna) slu ajna varijabla............... 34 4.5 Mjere centralne tendencije i raspr²enosti slu ajne varijable....... 36 4.6 Bernoullijeva slu ajna varijabala...................... 37 4.7 Normalna slu ajna varijabala....................... 38 4.8 Empirijska distribucija slu ajne varijable................. 40 1
Poglavlje 1 Uvod Kori²tenje rije i statistika u svakodnevnom ºivotu naj e² e je povezano s broj anim vrijednostima kojima poku²avamo opisati bitne karakteristike nekog skupa podataka. Na sluºbenim web stranicama Drºavnog zavod za statistiku Republike Hrvatske moºemo pro itati (http://www.dzs.hr/ dana 6.6.2009): Prosje na mjese na ispla ena neto pla a po zaposlenome u pravnim osobama Republike Hrvatske za srpanj 2009. iznosila je 5 308 kuna. Minimalna pla a za razdoblje od 1. lipnja 2009. do 31. svibnja 2010. u Republici Hrvatskoj iznosi 2 814,00 kuna. Stopa registrirane nezaposlenosti za kolovoz 2009. iznosila je 14,2%. Udio aktivnog stanovni²tva u radno sposobnom (stopa aktivnosti) iznosi 48%, istovremeno 43,7% radno sposobnih osoba je zaposleno (stopa zaposlenosti), a 8,9% radne snage je nezaposleno (stopa nezaposlenosti). Temelj statistike, kao znanstvene discipline, i istraºivanja koje se koristi statisti kim metodama takožer ine skupovi podataka. Statistika, kao znanstvena disciplina, bavi se razvojem metoda prikupljanja, opisivanja i analiziranja podataka te primjenom tih metoda u procesu dono²enja zaklju aka na temelju prikupljenih podataka. Statisti ko istraºivanje fokusirano je na skup objekata (ljudi, ºivotinja, biljaka, stvari, drºava, gradova, poduze a, itd.) i skup odabranih veli ina koje se na njima promatraju. Elemente skupa u statisti kom istraºivanju zovemo objektima ili jedinkama, a veli ine koje se na jednikama promatraju zovemo varijablama. Sve jedinke koje se ºele obuhvatiti istraºivanjem, tj. o kojima se ºeli zaklju ivati, ine populaciju. Primjer 1.1 Bavimo se istraºivanjem uspjeha iz kolegija statistika na U iteljskom fakultetu u Osijeku, u generaciji 2009./2010. 2
Uvod 3 jedinke: varijabla: osobe, imenom i prezimenom ili nekom ²ifrom ocjena iz statistike U ovom primjeru navedena je samo jedna varijabla koja se analizira na jedinkama populacije, tj. uspjeh iz statistike. Mežutim, esto nas zanima nekoliko varijabli i/ili veze mežu njima. Npr. ºelimo li ispitati ovisi li uspjeh iz statistike u prethodnom primjeru o spolu, potrebno je u istraºivanju populacije za svaku jedinku zabiljeºiti i vrijednost varijable spol (M ili š); ºelimo li ispitati ovisi li uspjeh iz statistike o grupi vjeºbi, potrebno je za svaku jedinku zabiljeºiti koju grupu vjeºbi je pohažala. Zbog preglednosti, prikupljene podatke prikazujemo tabli no tako da jedan redak odgovara odreženoj jedinki, a stupac jednoj varijabli. Primjer 1.2 Bavimo se istraºivanjem uspjeha iz kolegija statistika na U iteljskom fakultetu u Osijeku, u generaciji 2009./2010. u ovisnosti o spolu ispitanika i grupi vjeºbi koju su pohažali. Tablicu za biljeºenje prikupljenih podataka treba organizirati na sljede i na in: mati ni broj studenta ocjena iz statistike spol grupa vjeºbi 1206 5 š A 1326 2 š B 942 4 š C............ U prethodnim primjerima nije problem istraºiti cijelu populaciju obzirom da na U iteljskom fakultetu u Osijeku, u generaciji 2009./2010. ima 81 upisan student. Mežutim, istraºujemo li, prije izbora za predsjednika neke drºave, preferencije gražana prema nekom od kandidata, ne moºemo ispitati sve osobe populacije (tj. sve drºavljane koji imaju pravo glasa) jer bi to bilo ekvivalentno provoženju izbora. Kada nije mogu e istraºiti veli ine koje nas zanimaju na svim jedinkama populacije potrebno je iz populacije izdvojiti uzorak na kojemu e biti prikupljeni podaci. Obzirom da se o cijeloj populaciji ºeli zaklju ivati na temelju podataka prikupljenih na uzorku, za istraºivanje je vrlo vaºno znati kako kreirati kvalitetan uzorak. Primjena statistike u istraºivanju podrazumijeva da se u pripremi istraºivanja izabranog problema po²tuju sljede a pravila: Populaciju koja je predmet istraºivanja potrebno je detaljno prou iti, zabiljeºiti njene osnovne karakteristike i ciljeve istraºivanja, kreirati kvalitetan uzorak i odabrati metodu za prikupljanje podataka. Izabrati prikladne metode za opis skupa prikupljenih podataka (deskriptivna statistika).
Uvod 4 Izabrati prikladne statisti ke metode za zaklju ivanje o populaciji na temalju prikupljenih podataka na uzorku. Sukladno ovim razmatranjima, u ovom kolegiju emo se baviti nekim metodama prikupljanja podataka i kreiranja uzorka, metodama deskriptivne statistike i metodama statisti kog zaklju ivanja. Obzirom da se metode kojima se kreira uzorak i metode statisti kog zaklju ivanja temelje na poznavanju osnovnih pojmova teorije vjerojatnosti, u kolegiju emo takožer navesti temeljne pojmove i zakone teorije vjerojatnosti potrebne za razumijevanje osnovnog statisti kog aparata.
Poglavlje 2 Prikupljanje i organizacija podataka 2.1 Populacija i uzorak Populaciju ine sve jedinke koje su predmet istraºivanja Primjer 2.1 Istraºujemo prehrambene navike i razlike u prehrambenim navikama izmežu stanovnika Slavonije i Baranje i stanovnika Dalmacije. Populaciju ine svi stanovnici Slavonije, Baranje i Dalmacije. Mežutim, ako nas zanimaju samo prehrambene navike studenata iz tih podru ja, onda populaciju ine samo studenti iz Slavonije, Baranje i Dalmacije. Uzorak je podskup jedinki iz populacije Da bi zaklju ci prilikom istraºivanja o populaciji, na temelju podataka iz uzorka, bili ispravni, nuºno je da uzorak bude REPREZENTATIVAN, tj. u njemu moraju biti zastupljne sve tipi ne karakteristike populacije bitne za istraºivanje. Primjer 2.2 U prethodnom primjeru, ako populaciju ine svi stanovnici Slavonije, Baranje i Dalmacije, onda ne moºemo istraºivanje provesti samo na uzorku djece koja pohažaju srednju ²kolu. To bi nam moºda bilo prakti no, ali takav uzorak nije reprezentativan za zaklju ivanje o cijeloj populaciji. Jedan od na ina izbora jedinki iz populacije u uzorak je temeljen na formiranju takozvanog slu ajnog uzorka. Slu ajan uzorak iz populacije formira se tako da svaka jedinka populacije ima jednaku vjerojatnost (²ansu) da uže u uzorak. Obzirom da se u gornjoj deniciji pojavljuje pojam vjerojatnost, metodu formiranja slu ajnog uzorka ostavljamo za sljede a poglavlja, nakon ²to pojasnimo pojam vjerojatnosti. 5
Prikupljanje i organizacija podataka 6 2.2 Izvori podataka Podaci iz javnih izvora (knjige, asopisi, novine, web). Podaci iz dizajniranog eksperimenta (Istraºiva rasporežuje eksperimentalne jedinke u skupine nad kojima vr²i eksperimente te biljeºi podatke za varijable koje ga zanimaju). Primjer 2.3 Jedno medicinsko istraºivanje prou ava snagu nekog lijeka u prevenciji moºdanog udara. Skupinu ljudi s kojima e se vr²iti istraºivanje istraºiva dijeli na dvije skupine: tretiranu i kontrolnu. Ljudima u tretiranoj skupini daje se lijek, dok se ljudima u kontrolnoj skupini daje nadomjestak koji izgleda isto kao lijek ali zapravo nije ni²ta ²to moºe imati bilo kakav utjecaj na organizam. Podaci iz ankete. Istraºiva sastavlja anketni upitnik, izabire skupinu ljudi koju anketira i na osnovu njihovih odgovora prikuplja podatke. Podaci prikupljeni promatranjem. Istraºiva promatra eksperimentalne jedinke u njihovom prirodnom okruºenju i biljeºi podatke za varijable od interesa. Primjer 2.4 (stanovnistvo.xls; stanovnistvo.sta) Pretpostavimo da ºelite saznati starosnu strukturu (prema godinama starosti) stanovni²tva u svom gradu/selu te da ste u svrhu tog problema po eli s prikupljanjem podataka (u ovom konkretnom primjeru podatke prikupljate usmenom anketom). Doivene podatke organiziramo u bazu koja sadrºi etiri varijable: osnovna ²kola - varijabla koja sadrºi podatke o godinama starosti za pedeset slu ajno odabranih u enika vama najbliºe osnovne ²kole u gradu, fakultet - varijabla koja sadrºi podatke o godinama starosti za pedeset slu ajno odabranih studenata fakulteta na kojem i sami studirate, gradska knjiºnica - varijabla koja sadrºi podatke o godinama starosti za pedeset slu ajno odabranih posjetitelja gradske knjiºnice, telefonska anketa - varijabla koja sadrºi podatke o godinama starosti za pedeset osoba iji smo telefonski broj slu ajno odabrali u imeniku. Zadatak 2.1 Nakon kratke analize baze podataka stanovnistvo.sta, s obzirom na na in njihovog prikupljanja i kategoriju anketiranih ispitanika, komentirajte reprezentativnost ovih podataka te poku²ajte konstruirati na in prikupljanja podataka koji bi obuhvatio reprezentativan uzorak (za starosnu strukturu) iz populacije stanovnika va²eg grada/sela.
Prikupljanje i organizacija podataka 7 2.3 Tipovi varijabli Kvalitativne varijable Vrijednosti varijable svrstavamo u kategorije. Primjer 2.5 Sljede e varijable su kvalitativnog tipa. Radna mjesta u ²koli (sprema ica, domar, tajnik, nastavnik, pedagog, ravnatelj). Opisne ocjene: ni²ta, malo, srednje, puno. Numeri ke varijable Vrijednosti numeri ke varijable su elementi skupa realnih brojeva. Primjer 2.6 Sljede e varijable su numeri kog tipa. Broj ulovljenih komaraca u klopku. Postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine. Temperatura mora. Broj bodova na drºavnoj maturi iz matematike u jednoj generaciji. Mežu numeri kim varijablama razlikujemo diskretne i kontinuirane varijable. Diskretne varijable mogu poprimiti samo kona no ili prebrojivo mnogo vrijednosti Primjer 2.7 Sljede e varijable su diskretne. Broj ulovljenih komaraca u klopku. Broj dana u godini s temperaturom zraka ve om od 35 o C. Skup vrijednosti kontinuiranih varijabli je cijeli skup realnih brojeva ili neki interval. Primjer 2.8 Sljede e varijable su kontinuirane. Postotak prolaznosti na pojedinim ispitima u toku jedne akademske godine. Temperatura mora.
Prikupljanje i organizacija podataka 8 Primjer 2.9 (auti.sta) Baza podataka sastoji se od dvije varijable: auti - diskretna numeri ka varijabla koja sadrºi podatke o broju prodanih automobila po danu za sto promatranih dana, uspje²nost dana - kvalitativna varijabla koja podatke iz varijable auti klasicira u pet kategorija (svaka kategorija je jedan kona an skup) na sljede i na in: Broj prodanih automobila Pridruºena kategorija 0-4 1 5-8 2 9-12 3 13-16 4 vi²e od 17 5 Primjer 2.10 (glukoza.sta) Baza podataka sastoji se od tri varijable: dob osobe - diskretna numeri ka varijabla koja sadrºi podatke o godinama starosti za sto promatranih osoba, koncentracija glukoze - kontinuirana numeri ka varijabla koja sadrºi podatke o koncentraciji glukoze u krvi za svaku od sto promatranih osoba, kategorija - kvalitativna varijabla koja podatke iz varijable koncentracija glukoze klasicira u dvije kategorije (svaka kategorija je jedan interval pozitivnih realnih brojeva) na sljede i na in: Interval koncentracije glukoze koncentracija < 6 mmol/l koncentracija 6 mmol/l Pridruºena kategorija N - normalna koncentracija P - povi²ena koncenracija Primjer 2.11 (kolegij.sta) Baza podataka sastoji se od sedam varijabli: godina upisa - kvalitativna varijabla koja sadrºi podatke o akademskoj godini upisa na studij za sto promatranih studenata, kategorija - kvalitativna varijabla koja podatke iz varijable godina upisa klasicira u tri kategorije (svaka kategorija je jedan kona an skup) na sljede i na in: Akademska godina upisa Pridruºena kategorija student upisan prije 1990. godine 1 student upisan 1990., 1991. ili 1992. godine 2 student upisan 1993. ili 1994. godine 3
Prikupljanje i organizacija podataka 9 op a kemija, organska kemija, anorganska kemija, mikrobiologija - etiri diskretne numeri ke varijable koje sadrºe podatke o postignutim ocjenama na ispitima iz spomenutih kolegija za svakog od sto promatranih studenata, prosjek - kontinuirana numeri ka varijabla koja sadrºi prosje ne ocjene iz etiri spomenuta kolegija za svakog od sto promtranih studenata. Primjer 2.12 (student.sta, student-grupe.sta) Baza podataka student.sta sastoji se od dvije varijabli: klasi no studiranje - diskretna numeri ka varijabla koja sadrºi podatke o godinama starosti za grupu promatranih studenata koji studiraju na klasi an na in (stanuju u gradu u kojem studiraju ili putuju na predavanja), e-learning - diskretna numeri ka varijabla koja sadrºi podatke o godinama starosti za grupu promatranih studenata koji studiraju putem Interneta (tzv. e-learning). Baza podataka student-grupe.sta sastoji se od dvije varijabli: dob studenta - diskretna numeri ka varijabla koja sadrºi podatke o godinama starosti za sto promatranih studenata koji studiraju ili na klasi an na in ili putem Interneta, na in studiranja - kvalitativna varijabla koja podatke iz varijable dob studenta klasicira u dvije kategorije prema sljede em kriteriju (bez obzira na podatke sadrºane u varijabli dob studenta): Kriterij klasikacije Pridruºena kategorija student studira na klasi an na in 1 student studira putem Interneta 0 Primjer 2.13 (anketa.sta) Baza podataka sastoji se od ²est varijabli: prosjek - kontinuirana numeri ka varijabla koja sadrºi podatke o prosje noj ocjeni studiranja za 49 promatranih studenata, poloºeno - kvalitativna varijabla koja promatrane studente klasicira u dvije kategorije s obzirom na to jesu li poloºili ispit iz promatranog kolegija prema sljede em kriteriju: Status ispita Pridruºena kategorija student je poloºio ispit 1 student nije poloºio ispit 0
Prikupljanje i organizacija podataka 10 prisutnost p, prisutnost v - dvije kvalitativne varijable koje prisutnost studenata na predavanjima/vjeºbama klasiciraju u tri kategorije na sljede i na in: Prisutnost studenta na p/v Pridruºena kategorija student sa p/v nije nikada izostao 1 student je sa p/v izostao samo jednom 2 student je sa p/v izostao barem dva puta 3 teºina kolegija, dostatnost materijala - dvije diskretne numeri ke varijable koja sadrºe subjektivne ocjene (u standardnoj skali od 1 do 5) promatranih studenata za teºinu kolegija i dostatnost dostupnih materijala za pripremanje ispita iz promatranog kolegija. Zadatak 2.2 Na sli an na in proanalizirajte sljede e baze podataka: a) baza podataka TV-program.sta sastoji se od sljede ih varijabli: varijabla spol sadrºi informaciju o spolu ispitanika, varijable HRT1, HRT2, NovaTV i RTL sadrºe subjektivne ocjene kvalitete ljetne programske sheme navedenih televizijskih programa, varijabla prosjek sadrºi prosje nu ocjenu kvalitete ljetne programske sheme navedenih televizijskih programa. b) Baza podataka zdravlje.sta sadrºi neke zdravstvene podatke anketiranih ispitanika: varijable godine i spol sadrºe podatke o starosti u godinama i spolu ispitanika; vrijednosti varijable zdravlje su subjektivne ocjene vlastitog zdravstvenog stanja ispitanika; varijabla broj-pregleda sadrºi informacije o ukupnom broju zdravstvenih pregleda svakog ispitanika u teku oj kalendarskoj godini; varijabla dodatno-zdravstveno sadrºi podatke o dodatnom zdravstvenom osiguranju svakog ispitanika (1 - ispitanik je dodatno osiguran; 0 - ispitanik nije dodatno osiguran); varijabla cijena sadrºi cijenu u kunama najskupljeg zdravstvenog pregleda svakog ispitanika (u teku oj kalendarskoj godini). Zadatak 2.3 U bazi podataka navike.sta nalaze se rezultati pra enja ºivotnih navika svakog pojedinca iz uzorka u vremenskom periodu od 300 dana. Biljeºeni su podaci o broju razli itih dnevnih novina koje je prelistao (varijabla Dnevne_novine), broju televizijskih vijesti koje je gledao na rali itim TV kanalima (varijabla TV_vijesti) te broju kava koje je popio (varijabla Kava), a sve to na bazi jednog dana. U varijabli Vrijeme nalaze se podaci o vremenskim prilikama svakog od promatranih dana. Odredite tipove varijabli.
Prikupljanje i organizacija podataka 11 Zadatak 2.4 U bazi podataka gorivo.sta nalaze se podaci o udaljenosti od radnog mjesta (varijabla Udaljenost_posao) i mjese nim tro²kovima za gorivo (varijabla Troskovi_gorivo) za 100 slu ajno odabranih zaposlenih ljudi. Odredite tipove varijabli.
Poglavlje 3 Deskriptivna statistika 3.1 Metode opisivanja kvalitativnih podataka Kvalitativne varijable primaju vrijednosti koje su razvrstane u kategorije. Osnovna mjera kojom opisujemo zastupljenost jedne kategorije u uzorku je frekvencija kategorije. Neka varijabla, koju emo ozna iti X, ima k kategorija (recimo k = 5 zna i da varijabla ima 5 kategorija) Ozna imo pojedine kategorije kao x 1, x 2,..., x k, odnosno, u drugom zapisu: {x i : i = 1,..., k}. Frekvencija kategorije x i je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji x i, i = 1,..., k. Frekvenciju kategorije x i ozna avamo f i. Frekvencija pojedine kategorije ovisi o broju izvr²enih mjeranja, tj. dimenziji uzorka. Da bismo lak²e usporedili i tuma ili rezultate raznih istraºivanja, u opisu zastupljenosti jedne kategorije u uzorku esto koristimo i relativnu frekvenciju kategorije. Relativna frekvencija kategorije x i je broj izmjerenih vrijednosti varijable koje pripadaju kategoriji x i podijeljen s ukupnim brojem izmjerenih vrijednosti za ispitivanu varijablu, i = 1,..., k. Ako je n dimenzija uzorka, tj. broj svih izmjerenih vrijednosti ispitivane varijable, relativnu frekvenciju kategorije x i ra unamo kao f i n. Frekvencije i relativne frekvencije pojedinih kategorija prikazujemo tabli no ili gra ki. 12
Deskriptivna statistika 13 3.1.1 Tabli ni prikaz frekvencija i relativnih frekvencija U tabli nom prikazu frekvencija i relativnih frekvencija trebaju biti zastupljene sve kategorije pojedine varijable. Relativne frekvencije naj e² e izraºavamo u obliku postotka. Primjer 3.1 Pogledati dokument tablica i graf.xls Zadatak 3.1 (hormon.sta, nalaz.sta) U bazama podataka hormon.sta i nalaz.sta pomo u programskog paketa Statistica odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rje²enje: Statistics Basic Statistics/Tables Frequency Tables Choose variables Summary 3.1.2 Gra ki prikazi Gra ki na in prikazivanja frekvencija i relativnih frekvencija kategorija kvalitativnih varijabli je pomo u histograma frekvencija odnosno histograma relativnih frekvencija. Moºemo takožer koristiti i "pite" Primjer 3.2 Pogledati dokument tablica i graf.xls Zadatak 3.2 (hormon.sta) Za podatke iz baze hormon.sta odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaºite tabli no i gra ki (koriste i Statisticu i Excel). Rje²enje: - Statistica - histogram frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms; - Statistica - histogram relativnih frekvencija: Graphs Histograms Choose variables Advanced Pod "Y axis" uklju iti "%" OK; - Statistica - kruºni dijagram (pita): Graphs 2D Graphs Pie Charts (opcija Pie Chart - Counts) Choose variables Advanced Pie Legend - Text and Percent OK. Primjer 3.3 (bebe.sta) U bazi podataka bebe.sta nalazi se dio podataka o nekim ocjenama tek rožene bebe, na inu poroda i majci iz istraºivanja koje je provedeno u jednoj bolnici. Odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaºite tabli no i gra ki (koriste i Statisticu i Excel).
Deskriptivna statistika 14 Primjer 3.4 (navike.sta) U bazi podataka navike.sta odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaºite tabli no i gra ki (koriste i Statisticu i Excel). Zadatak 3.3 (nalaz.sta) Za podatke iz baze nalaz.sta odredite frekvencije i relativne frekvencije svih kategorija za varijable koje smatrate kvalitativnima. Rezultate prikaºite tabli no i gra ki (koriste i Statisticu i Excel). Zadatak 3.4 (zdravlje.sta) Za podatke kvalitativnog tipa sadrºane u bazi podataka zdravlje.sta napravite sljede e tabli ne i gra ke prikaze: a) napravite tablice i nacrtajte histograme frekvencija i relativnih frekvencija za podatke sadrºane u varijablama spol i zdravlje, b) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadrºane u varijabli zdravlje posebno za kategoriju ispitanika ºenskog spola, a posebno za kategoriju ispitanika mu²kog spola, c) nacrtajte zajedni ki histogram frekvencija i relativnih frekvencija svih podataka sadrºanih u varijabli zdravlje kategoriziran prema spolu ispitanika, d) napravite tablice i nacrtajte kruºni dijagram relativnih frekvencija za podatke sadrºane u varijablama spol i zdravlje, e) napravite tablice i nacrtajte kruºni dijagram relativnih frekvencija za podatke sadrºane u varijabli zdravlje posebno za kategoriju ispitanika ºenskog spola, a posebno za kategoriju ispitanika mu²kog spola, f) nacrtajte zajedni ki kruºni dijagram frekvencija i relativnih frekvencija svih podataka sadrºanih u varijabli zdravlje kategoriziran prema spolu ispitanika. Zadatak 3.5 (TV-program.sta) Za podatke kvalitativnog tipa sadrºane u bazi podataka TV-program.sta napravite sljede e tabli ne i gra ke prikaze: a) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadrºane u varijablama spol i HRT1, b) napravite tablice i nacrtajte histogram frekvencija i relativnih frekvencija za podatke sadrºane u varijabli HRT1 posebno za kategoriju ispitanika ºenskog spola, a posebno za kategoriju ispitanika mu²kog spola,
Deskriptivna statistika 15 c) nacrtajte zajedni ki histogram frekvencija i relativnih frekvencija svih podataka sadrºanih u varijabli HRT1 kategoriziran prema spolu ispitanika, d) napravite tablice i nacrtajte kruºni dijagram relativnih frekvencija za podatke sadrºane u varijablama spol i NovaTV, e) napravite tablice i nacrtajte kruºni dijagram relativnih frekvencija za podatke sadrºane u varijabli NovaTV posebno za kategoriju ispitanika ºenskog spola, a posebno za kategoriju ispitanika mu²kog spola, f) nacrtajte zajedni ki kruºni dijagram frekvencija i relativnih frekvencija svih podataka sadrºanih u varijabli NovaTV kategoriziran prema spolu ispitanika. 3.2 Metode opisivanja numeri kih podataka Numeri ki podaci mogu biti diskretni i kontinuirani. Primjer 3.5 (hormon.sta, anketa.sta) Prou ite numeri ke podatke u bazama hormon.sta i anketa.sta. varijable diskretne a koje neprekidne? Koje su numeri ke Rje²enje: - hormon.sta - niti jedna numeri ka varijabla nije diskretna - anketa.sta - diskretne numeri ke varijable su: Br-kol, Poloºeno, Prisutnost-P, Prisutnost-V, Redovitost-P, Redovitost-V. Primjer 3.6 Prou ite numeri ke podatke u bazama cijena.sta i komarci.sta. Koje su numeri ke varijable diskretne a koje neprekidne? Ako su numeri ke vaijable diskretne, moºemo u opisu mjerenih vrijednosti za te varijable ponovo primijeniti frekvencije (odnosno relativne frekvencije) pojedine kategorije odnosno gra ki prikazati podatke histogramima ili strukturiranim krugovima. Primjer 3.7 (anketa.sta) Za jednu diskretnu numeri ku varijablu iz baze anketa.sta odredite frekvencije i relativne frekvencije svih kategorija. Rezultate prikaºite tabli no i gra ki (koriste i Statisticu i Excel). Rje²enje: - Statistica - tablica frekvencija i relativnih frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Summary;
Deskriptivna statistika 16 - Statistica - histogram frekvencija: Statistics Basic Statistics/Tables Frequency Tables Choose variables Histograms; - Statistica - histogram relativnih frekvencija: Graphs Histograms Choose variables Advanced Pod "Y axis" uklju iti "%" OK. Primjer 3.8 Odredite tablicu frekvencija i histogram za jednu od varijabli iz baze komarci.sta po izboru. Uo ite da je strukturirani krug vrlo neprakti an za prikazivanje varijabli s velikim brojem kategorija. Ako numeri ke varijable nisu dane kategorijalno, za prikazivanje skupa izmjerenih vrijednosti ne e nam puno pomo i frekvencije i histogrami napravljeni na osnovu svake pojedine izmjerene vrijednosti. Primjer 3.9 Za²to? Otvorite bazu podataka komarci.sta i odredite tablicu frekvencija i histogram tako da za kategorije uzmete sve mežusobno razli ite izmjerene vrijednosti varijable broj. Postupak razvrstavanja numeri kih podataka u kategorije Naj e² e skup svih mjerenih vrijednosti (ili ne²to ve i skup koji sadrºi skup svih mjerenih vrijednosti ali je jednostavniji za podijeliti na jednake dijelove) podijelimo na disjunktne intervale jednake duljine. Nije nuºno da su intervali jednake duljine. Nema to no danog pravila po kojemu bi trebalo denirati duljine intervala niti nihov broj, ali je jasno da ih ne smije biti niti previ²e niti premalo da bi cijeli postupak imao smisla i sluºio svrsi (a to je u ovom asu prikazivanje skupa mjerenih vrijednosti). Primjer 3.10 (komarci.sta) Iskoristite podatke iz baze komarci.sta. Mijenjajte broj intervala na koji dijelite skup vrijednosti. Prou avajte ²to se dogaža i pribiljeºite va² zaklju ak. Primjer 3.11 (hormon.sta) a) Odredite tablicu frekvencija i histogram neke od kvantitativnih varijabli iz baze podataka hormon.sta tako da za kategorije uzmete sve mežusobno razli ite izmjerene vrijednosti. b) Iskoristite podatke iz baze hormon.sta. Mijenjajte broj intervala na koji dijelite skup vrijednosti. Prou avajte ²to se dogaža i pribiljeºite va² zaklju ak. Rje²enje: a) Zbog prevelikog broja razli itih izmjerenih vrijednosti broj kategorija je prevelik i rezultat analize naj e² e ne daje ºeljene informacije. Zato pribjegavamo drugim metodama kategoriziranja kvantitativnih varijabli.
Deskriptivna statistika 17 b) Ako veliki skup podataka kategoriziramo (podijelimo) u nekoliko disjunktnih intervala po kriteriju za koji smatramo da e nam dati ºeljene rezultate, tabli ni i gra ki prikazi frekvencija i relativnih frekvencija postaju pregledniji i informativniji. Mjere centralne tendencije i raspr²enosti podataka Karakteristika kvantitativnih podataka je da mežu njima postoji urežaj. Na osnovu te injenice moºemo denirati numeri ke karakteristike koje imaju logi nu interpretaciju i mogu se iskoristiti u cilju prikazivanja skupa mjerenih vrijednosti. Aritmeti ka sredina Aritmeti ka sredina niza izmjerenih vrijednosti x 1, x 2,..., x n za varijablu X definirana je izrazom: x = 1 n n i=1 x i Aritmeti ka sredina je numeri ka karakteristika koja spada u mjere centralne tendencije, tj. mjeri "srednju vrijednost" podataka. Median Da bismo razumjeli i odredili median potrebno je prvo poredati izmjerene vrijednosti varijable X: x 1, x 2,..., x n po veli ini. Median je takožer jedna mjera centralne tendencije kao i aritmeti ka sredina, a ima zna enje izmjerene vrijednosti koja se nalazi na sredini niza podataka kada je on urežen po veli ini, tj. baram pola podataka je manje ili jednako medianu, a istovremeno je barem pola podataka ve e ili jednako od mediana. Na in njegovog izra una ovisi o tome da li imamo paran ili neparan broj izmjerenih vrijednosti za varijablu. Ukoliko imamo neparan broj izmjerenih vrijednosti, onda postoji vrijednost koja je na srednjoj poziciji u ureženom skupu, pa nju deniramo kao median. Primjer 3.12 Neka su izmjerene vrijednosti jedne varijable sljede e: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3. Prvo ove vrijednosti poredamo po veli ini: 1, 1, 2, 2, 2, 2, 3, 5, 5, 6, 7. Obzirom da ih ima sve skupa 11, vrijednost mediana je vrijednost koja je na 6. poziciji u tako dobivenom nizu, tj. broj 2.
Deskriptivna statistika 18 Ukoliko imamo paran broj izmjerenih vrijednosti onda ne postoji podatak koji je na srednjoj poziciji jer srednje pozicije "zauzimaju" dva podatka. Median se tada denira kao polovina izmežu ta dva podatka. Primjer 3.13 Neka su izmjerene vrijednosti jedne varijable sljede e: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3. Prvo ove vrijednosti poredamo po veli ini: 1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7. Obzirom da ima 12 podataka, "sredinu" ine 6. i 7. podatak, tj. vrijednosti 2 i 3. Median ovog skupa podataka je sredina ta dva broja, tj. median je (2+3)/2 = 2.5. Postotna vrijednost, donji i gornji kvatil Medijan odgovara pedeset postotnoj vrijednosti obzirom da je barem 50% podataka manje od medijana i barem 50% podataka ve e od medijana. Postotna vrijednost za neki izabrani broj p (0, 100), ozna imo je x p, denira se po²tuju i zahtjev da je p% izmjerenih vrijednosti manje ili jednako x p, dok je (100 p)% vrijednosti ve e ili jednako x p. Dvadesetpet postotna vrijednost zove se donji kvartil, a sedamdesetpet postotna vrijednost zove se gornji kvartil. Analogno kao i kod ra unanja medijana, ako se na traºenoj poziciji za ra unaje postotne vrijednosti nalaze dva podatka u ureženom skupu izmjerenih vrijednosti, postotnu vrijednost odrežujemo kao njihovu sredinu. Donji i gornji kvartil su mjere koje spadaju u grupu mjera raspr²enosti podataka. Primjer 3.14 Neka su izmjerene vrijednosti jedne varijable sljede e: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3. Prvo ove vrijednosti poredamo po veli ini: 1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 7. šelimo li odrediti donji kvartil, potrebno je prvo odrediti etvrtinu podataka (25%). Obzirom da imamo 12 podataka, etvrtinu (25%) ine tri podatka. Tre i podatak u gornjem nizu je broj 2 pa je to ujedno donji kvartil. Sli no, 75% ovog skupa podataka ini 9 podataka. Deveti broj u gornjem nizu je broj 5, pa je to ujedno gornji kvartil.
Deskriptivna statistika 19 Najmanja i najve a vrijednost, raspon podataka Raspon podataka je mjera koja pokazuje koliko su podaci raspr²eni, tj. to je jedna od mjera raspr²enosti podataka. Deniran je kao razlika izmežu najve e i najmanje vrijednosti u skupu mjerenih vrijednosti varijable. Primjer 3.15 Neka su izmjerene vrijednosti jedne varijable sljede e: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3. Vidimo da je vrijednost 1 najmanja izmjerena vrijednost, a 7 najve a. Raspon je 7 1 = 6. Varijanca i standardna devijacija Varijanca i standardna devijacija takožer spadaju u grupu mjera raspr²enosti podataka. One karakteriziraju raspr²enost podataka oko aritmeti ke sredine. Varijanca niza izmjerenih vrijednosti x 1, x 2,..., x n varijable X denirana je izrazom: s 2 = 1 n n (x i x) 2, a standardna devijacija je kvadratni korijen varijance, tj. s = s 2 = 1 n (x i x) n 2. Mod i=1 Mod je vrijednost iz niza izmjerenih vrijednosti kojoj pripada najve a frekvencija, tj. izmjerena je najvi²e puta. Mod ne mora biti jedinstven. Primjer 3.16 Neka su izmjerene vrijednosti jedne varijable sljede e: 1, 2, 5, 6, 5, 1, 2, 7, 2, 2, 3, 3. Vidimo da je vrijednost 2 izmjerena najvi²e puta (4 puta) pa je 2 mod ovog skupa podataka. i=1 Kori²tenjem numeri kih karakteristika kvantitativnih varijabli moºe se skup mjerenih vrijednosti prikazati gra ki pomo u kutijastog dijagrama (engleski: box plot ili boxplot ili box-and-whisker plot). Kutijastm dijagramom prikazujemo odnos 5 numeri kih karakteristika skupa izmjerenih vrijednosti: minimalnu vrijednost, donji kvartil, medijan, gornji kvartil, i maksimalnu vrijednost. Na kutijastom dijagramu se takožer ozna avaju takozvane str²e e vrijednosti ako postoje.
Deskriptivna statistika 20 Zadatak 3.6 U razredu koji broji 25 u enika zaklju ne ocjene iz matematike na kraju ²kolske godine raspodjenjene su na sljede i na in: tri u enika ima peticu, sedam u enika etvorku, osam u enika trojku, pet u enika dvojku, a dva u enika moraju pristupiti popravnom ispitu (imaju jedinicu). a) Sastavite tablicu frekvencija i relativnih frekvencija za kategoriju Ocjena. b) Koriste i Statisticu i Excel gra ki prikaºite frekvencije i relativne frekvencije (histogramima i kruºnim dijagramima). c) Izra unajte aritmeti ku sredinu, mod, raspon te varijancu i standardnu devijaciju ovog skupa podataka. d) Izra unajte numeri ke karakteristike ovog skupa podataka koje su vam potrebne da biste skicirali kutijasti dijagram te ga skicirajte. e) Koriste i Statisticu i Excel kreirajte bazu podataka, izra unajte sve spomenute numeri ke karakteristike ovog skupa podataka te nacrtajte pripadni kutijasti dijagram na bazi mediana. Zadatak 3.7 Paºljivim prou avanjem kretanja cijena prehrambenih proizvoda analiti ar trºi²ta uo io je da isti proizvodi nemaju jednaku cijenu u razli itim trgova kim centrima. Promatraju i deset trgova kih centara, zabiljeºio je cijene proizvoda kod kojeg su razlike bile najizraºenije: Trgova ki centar 1 2 3 4 5 6 7 8 9 10 Cijena proizvoda 45.52 44.64 39.99 48.95 51.59 46.89 52.02 56.89 50.21 49.99 a) Izra unajte aritmeti ku sredinu, mod, raspon te varijancu i standardnu devijaciju ovog skupa podataka. b) Izra unajte numeri ke karakteristike ovog skupa podataka koje su vam potrebne da biste skicirali kutijasti dijagram te ga skicirajte. c) Koriste i Statisticu i Excel kreirajte bazu podataka, izra unajte sve spomenute numeri ke karakteristike ovog skupa podataka te nacrtajte pripadni kutijasti dijagram na bazi mediana.
Deskriptivna statistika 21 Zadatak 3.8 (ocjena.sta) Iskoristite bazu podataka ocjena.sta i odredite numeri ke karakteristike nekoliko varijabli po va²em izboru. Takožer prikaºite te vrijednosti kutijastim dijagramom. Rje²enje: Deskriptivna statistika: Statistics Basic Statistics/Tables Descriptive Statistics Choose variables Advanced (uklju iti ºeljene numeri ke karakteristike) Summary. Kutijasti dijagram: Statistics Basic Statistics/Tables Descriptive Statistics Choose variables Box & whisker Plot for all variables. Zadatak 3.9 (anketa.sta) Iskoristite bazu podataka anketa.sta i odredite numeri ke karakteristike nekoliko varijabli po va²em izboru. Takožer prikaºite te vrijednosti kutijastim dijagramom. Detekcija str²e ih vrijednosti 1 Podatak koji je zna ajno ve i ili manji u odnosu na druge podatke vezane uz isto slu ajno obiljeºje (u kontekstu baze podataka govorimo o podatku koji je zna ajno ve i ili manji od ostalih podataka u varijabli koja predstavlja slu ajno obiljeºje) nazivamo str²e i podatak ili outlier. Pojavljivanje str²e ih podataka naj e² e je vezano uz jedan od sljede ih razloga: podatak je ili neto no izmjeren ili krivo unesen u bazu podataka, podatak dolazi iz druge populacije (ne iz populacije koju promatramo u kontekstu problema kojeg prou avamo), podatak je to no izmjeren i unesen u bazu, ali predstavlja rijetku pojavu u populaciji. Vrlo korisna gra ka metoda za detekciju str²e ih podataka je kutijasti dijagram na bazi mediana - u programskom paketu Statistica kutijasti dijagrami osjetljivi na str²e e vrijednosti crtaju se odabirom opcije Means with Error Plots iz izbornika Graphs. Zadatak 3.10 (zdravlje.sta, zdravlje-sv.sta) a) Nacrtajte i proanalizirajte kutijasti dijagram na bazi mediana za podatke sadrºane u varijabli godine u bazi podataka zdravlje.sta.
Deskriptivna statistika 22 b) Mežu podacima u varijabli godine u bazi podataka zdravlje.sta nalazi se jedna str²e a vrijednost. Poku²ajte ju identicirati crtanjem kutijastog dijagrama osjetljivog i neosjetljivog na str²e e vrijednosti. to se dogaža s numeri kim karakteristikama podataka u varijabli godine nakon zanemarivanja identicirane str²e e vrijednosti. Zadatak 3.11 (glukoza-sv.sta) a) Napravite deskriptivnu statistiku podataka sadrºanih u varijabli koncentracija glukoze. Gra kom metodom odredite str²e u vrijednost u ovom skupu podataka. Moºete li se sloºiti s tvrdnjom da je identicirani podatak zaista str²e a vrijednost ili ipak sumnjate u dobiveni rezultat? Obrazloºite svoj odgovor. b) Gra kom metodom identicirajte str²e e vrijednosti mežu podacima u varijabli dob osobe. to se dogaža s numeri kim karakteristikama podataka nakon zanemarivanja identicirane str²e e vrijednosti. 3.3 Doma a zada a 1 Koriste i javne izvore podataka ili podatke koje ste prikupljali u drugim kolegijima u eksperimentalnim uvjetima formirajte jednu bazu podataka koja e sadrºavati najmanje dvije kvalitativne varijable, najmanje jednu diskretnu numeri ku varijablu i jednu kontinuiranu numeri ku varijablu. Opi²ite o kakvom se istraºivanju radi i za²to se mjere vrijednosti navedenih varijabli. Vodite ra una da baza sadrºi ²to vi²e jedinki. Navedite to an izvor podataka. Iskoristite prethodno opisane postupke i pojmove te prikaºite va²u bazu podataka. Doma u zada u treba predati za 14 dana u printanom obliku. Bazu podataka ne printati u potpunosti nego samo tabelirani izvadak iz baze koji sadrºi 5 jedinki i njihove vrijednosti za sve varijable.
Poglavlje 4 Slu ajna varijabla U prethodnom poglavlju nau ili smo da su predmet istraºivanja, u kojemu ºelimo napraviti statisti ku analizu, varijable ije vrijednosti mjerimo na jedinkama. Da bismo napravili model na osnovu kojega moºemo raditi statisti ko zaklju ivanje, varijable emo modelirati kao slu ajne varijable. Za²to ove varijable treba nazvati slu ajnima? Razlog je taj ²to one mogu primiti mnogo razli itih vrijednosti, a mi u trenutku njihovog prou avanja, ne moºemo sa sigurno² u sagledati uvjete pod kojima e primiti neku od tih vrijednosti. Zapravo, mjerenje varijable provodimo, izmežu ostalog, zato da ocijenimo stupanj izvjesnosti da varijabla, u odreženim uvjetima, primi neke vrijednosti. Slu jna varijabla i na in kako je opisujemo predmet su ovog poglavalja. Slu ajna varijabla je veli ina ije realizacije su realni brojevi, ali njene realizacije nisu jednozna no odrežene uvjetima koje moºemo sagledati prilikom istraºivanja. Osnovni objekt koji sluºi za modeliranje slu ajne varijable ini skup svih mogu ih realizacija slu ajne varijable. Slu ajne varijable ozna avat emo velikim slovima, recimo X, Y, Z. 1 R(X). Skup svih mogu ih realizacija slu ajne varijable X ozna it emo Primjer 4.1 Bacamo igra u kocku. Broj koji se okrene prilikom jednog bacanja na gornjoj strani kocke je jedna slu ajna varijabla. Prirodno, skup svih mogu ih realizacija te slu ajne varijable, recimo X, je R(X) = {1, 2, 3, 4, 5, 6}. Primjer 4.2 Bacamo nov i i smatramo uspjehom ako je palo pismo. Realizacije ovog pokusa takožer moºemo modelirati slu ajnom varijablom. Recimo, kaºemo da slu ajna varijabla X primi vrijdnost 1 ako je palo pismo, a 0 ako nije palo pismo. Na taj na in, na²a varijabla ima skup vrijednosti R(X) = {0, 1} R. 1 U matematici se varijable obi no ozna avaju malim slovima x, y, z. 23
Slu ajna varijabla 24 Primjer 4.3 Broj ulovljenih komaraca u jednu klopku u Osijeku, u jednom danu lipnja 2009. godine, moºemo modelirati kao slu ajnu varijablu. Naime, jedan dan u klopku smo uhvatili, npr. 20 komaraca, drugi dan 25, tre i dan 45, etvrti dan opet 20. Koliko emo ih uhvatiti sutra, prekosutra? Ne znamo kako e se ta varijabla realizirati sutra i prekosutra, ali znamo da e to svakako biti neki prirodan broj. Osim toga, ako smo postavili dvije identi ne klopke jednu pored druge, moºe se dogoditi da je u istom danu na jednu klopku uhva eno 20 komaraca, a na drugu 23. Dakle, prirodno je smatrati tu varijablu slu ajnom varijablom jer, u uvjetima koje mi moºemo sagledati, ne moºemo sa sigurno² u znati kako e se realizirati. Skup svih mogu ih realizacija ove slu ajne varijable je skup prirodnih brojeva. Primjer 4.4 Ako imamo jako preciznu vagu i mjerimo neto teºinu ²e era koji je pakovan u pakovanja od 1kg, da li emo dobiti to no 1kg? Ako uzmemo drugo pakovanje istog tipa, koliko vam se ini izvjesno da e neto teºina biti ista kao u prethodno vaganom paketu? O ekujete li velika odstupanja? Ako neto teºinu ²e era u toj seriji pakovanja modeliramo slu ajnom varijablom X, koji skup svih mogu ih realizacija biste Vi denirali za tu slu ajnu varijablu? Primjer 4.5 Bacanje igra e kockice dva puta. X: suma brojeva na obje kockice; R(X) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. 4.1 Vjerojatnost Promatraju i skup vrijednosti koji moºe primiti slu ajna varijabla X jasno nam je da se neki podskupovi od R(X) mogu realizirati s ve om, a neki s manjom ²ansom. Primjer 4.6 U primjeru bacanja igra e kocke razmislite i odgovorite na sljede a pitanja: Kolika je ²ansa da se realizira skup {3}? Da li o kujete da se ²ansa realizacije skupa {3} razlikuje od ²anse za realizaciju skupa {5} u slu aju pravilno izražene igra e kocke? Kolika je ²ansa da se na kocki okrene paran broj? Mjeru koja modelira stupanj vjerovanja da e se realizirati neki podskup od R(X) zvat emo vjerojatnost. U ovom poglavlju navodimo deniciju vjerojatnosti, na ine kako u konkretnim primjerima moºemo modelirati vjerojatnost te neka osnovna svojstva vjerojatnosti. Neka je R(X) familija svih mogu ih realizacija za danu slu ajnu varijablu te neka familija skupova F sadrºi sve podskupove od R(X). Vjerojatnost (P ) je funkcija koja svakom skupu A F pridruºuje broj iz intervala [0,1] tako da vrijede sljede i zahtjevi:
Slu ajna varijabla 25 1. P (R(X)) = 1 2. A 1, A 2 F i A 1 A2 = P (A 1 A2 ) = P (A 1 ) + P (A 2 ). Podskupove od R(X), tj. elemente familije F, zovemo dogažajima. Deniranje vjerojatnosti za pojedine primjere temelji se na dosada²njem iskustvu u istraºivanju dane slu ajne varijable i moºe biti sloºen postupak. Mežutim, u velikom broju primjera, za deniranje vjerojatnosti se moºe koristiti jedna od dvije metode za modeliranje vjerojatnosti opisane u nastavku poglavlja: klasi na metoda i statisti ka metoda. Klasi na metoda modeliranja vjerojatnosti Pod uvjetom da svih mogu ih realizacija slu ajne varijable X ima kona no mnogo i da su sve jednako mogu e, vjerojatnost skupa A R(X) deniramo kao: P (A) = broj elemenata od A broj elemenata od R(X). Primjer 4.7 Iz ²pila karata (mažarice) izvla imo jednu kartu. Kolika je vjerojatnost da je izvu ena karta as (kodiramo "as" brojem 1, "kralj" brojem 2, itd.)? Kolika je vjerojatnost da izvu ena karta nije as? Kolika je vjerojatnost da je izvu ena karta as ili kralj? Rje²enje: Karte "mažarice" moºemo podijeliti u 8 skupina od po 4 karte: sedmica (4), osmica (4),..., kralj (4), as (4). Kodiraju i kao ²to je navedeno, vidimo da se izvla enjem jedne karte mogu realizirati borjevi: 1, 2, 3,..., 8. Dakle, skup svih mogu ih realizacija ima 8 elemenata i svi su jednako mogu i. Vjerojatnost da izvu emo asa iznosi 1/8. Klasi na metoda deniranja vjerojatnosti temelji se na ideji da vjerojatnost predstavlja mjeru dijela u donosu na cjelinu. Na taj na in moºemo denirati vjerojatnost na skupovima dogažaja i ne razmi²ljaju i o pojmu slu ajne varijable. Naime, neka je Ω = {ω 1,..., ω n } proizvoljan neprazan skup koji predstavlja mogu e realizacije nekog slu ajnog pokusa, npr. bacanje dvije igra e kockice, izvla enje jedne kuglice iz kutije koja sadrºi bijele i plave kuglice, itd. Pretpostavimo da je pokus takav da svaki pojedini element iz Ω ima jednaku mogu nost pojavljivanja. Nadalje, neka je B Ω. Moºemo denirati vjerojatnost realizacije skupa B kao P (B) = broj elemenata od B broj elemenata od Ω. Na ovaj na in denirana je vjerojatnost na familiji svih podskupova od Ω te ispunjava zahtjeve 1 i 2 na vjerojatnost ako R(X) zamijenimo s Ω.
Slu ajna varijabla 26 Primjer 4.8 Bacamo jednom dvije simetri ne igra e kocke. Kolika je vjerojatnost da je suma brojeva koji su pali na obje kocke jednaka 6? Kolika je vjerojatnost da je suma brojeva s obje kocke manja od 6? Iz ²pila karata (mažarice) izvla imo dvije karte za redom. Kolika je vjerojatnost da su obje izvu ene karte asovi? Ako ispunite listi s 12 kombinacija u igri LOTO 6 od 45, kolika je vjerojatnost da osvojite dobitak na pogoženih svih 6 brojeva, a kolika je vjerojatnost da osvojite dobitak na 5 pogoženih brojeva? Zadatak 4.1 Slu ajan pokus sastoji se od bacanja simetri ne igra e kockice. Ako se na kockici okrene paran broj zaradit emo jednu kunu, a ako se okrene neparan broj izgubit emo jednu kunu. vjerojatnost zarade. Primjenom klasi ne denicije vjerojatnosti odredite Zadatak 4.2 Simetri na igra a kockica baca se dva puta. Zanima nas vjerojatnost pojavljivanja sljede ih dogažaja: a) A = {pali su jednaki brojevi}, b) B = {suma brojeva koji su pali je 8}, c) C = {produkt brojeva koji su pali je 8}, Zadatak 4.3 Na raspolaganju nam je kutija u kojoj se nalazi 100 papiri a numeriranih brojevima 1, 2,..., 100. Realizacija slu ajne varijable je broj na jednom slu ajno izvu enom papiri u. Odredite vjerojatnosti sljede ih dogažaja: a) A = {izvu eni broj je jednoznamenkast}, b) B = {izvu eni broj je dvoznamenkast}, c) C = {izvu eni broj je manji ili jednak od 57}, d) D = {izvu eni broj je strogo ve i od 57}, Statisti ka metoda modeliranja vjerojatnosti Izvedite sljede i pokus. Pokus Bacite nov i 40 puta. U excel tablicu biljeºite da li se realiziralo pismo (1) ili glava (0) kao ²to je to prikazano u sljede oj tablici.
Slu ajna varijabla 27 redni broj bacanja realizacija 1 0 2 1 3 0 4 0...... Izra unajte relativne frekvencije pojavljivanja pisma u prvih n bacanja i to za sve n = 1,..., 40. Tako dobiven niz relativnih frekvencija prikaºite gra ki (Vidi primjer u excel dokumentu novcic.xls). Ako je pokus takav da ga moºemo nezavisno ponavljati mnogo puta, relativna frekvencija pojavljivanja dogažaja A e se, s pove anjem broja ponavljanja, pokusa stabilizirati oko nekog broja koji predstavlja statisti ki definiranu vjerojatnost pojavljivanja dogažaja A. Primjer 4.9 Iskoristite va²e podatke dobivene bacanjem nov i a i procijenite vjerojatnost da se bacanjem okrene pismo za nov i koji ste bacali. Usporedite rezultate s kolegama u grupi. Primjer 4.10 Baza podataka kolegij.sta sadrºi informacije o spolu, ocjenama iz sedam poloºenih kolegija (varijable org-kemija, anorg-kemija, op a-kemija, biokemija, praktikum- 1, praktikum-2, praktikum-3) i prosje nu ocjenu studenta na osnovu ocjene svih sedam kolegija (varijabla prosjek) za 100 slu ajno odabranih studenata nekog fakulteta. 1. Procijenite vjerojatnost da slu ajnim odabirom studenta tog fakulteta izabiremo studenta koji je organsku kemiju poloºio ocjenom 5. 2. Procijenite vjerojatnost da slu ajnim odabirom studenta tog fakulteta izabiremo studenta koji je organsku kemiju poloºio ocjenom barem 4. 3. Procijenite vjerojatnost da slu ajnim odabirom studenta tog fakulteta izabiremo studenta koji je anorgansku kemiju poloºio ocjenom 2 4. Procijenite vjerojatnost da slu ajnim odabirom studenta tog fakulteta izabiremo studenta koji je organsku kemiju poloºio ocjenom 2 ili 3. Neka svojstva vjerojatnosti Da bismo lak²e ra unali vjerojatnosti dogažaja za razne podskupove realizacija iste slu ajne varijable, u ovom poglavlju emo navesti osnovna svojstva vjerojatnosti. Da bismo lak²e ra unali vjerojatnosti dogažaja za razne podskupove realizacija iste slu ajne varijable, u ovom poglavlju emo navesti osnovna svojstva vjerojatnosti.
Slu ajna varijabla 28 Vjerojatnost suprotnog dogažaja: Ako je A F, tada je P (A c ) = 1 P (A), gdje je A c komplement od A. Dokaz. P (R(X)) = 1, A A c = R(X), A A c =, P (R(X)) = P (A) + P (A c ), P (A c ) = 1 P (A). Vjerojatnost nemogu eg dogažaja: P ( ) = 0. Monotonost vjerojatnosti: Neka su A i B skupovi iz F takvi da je A B. Tada je P (A) P (B). Osim toga vrijedi: P (B \ A) = P (B) P (A). (Dokaz!) Vjerojatnost unije: Neka su A, B F proizvoljni dogažaji (ne moraju biti disjunktni). Tada vrijedi: P (A B) = P (A) + P (B) P (A B). (Dokaz!) Primjer 4.11 Ra unalo slu ajno generira posljednju znamenku telefonskog broja. Odredite vjerojatnost da je ta znamenka: jednaka 8 8 ili 9 neparna ili 2 parna ili 2. neparna, ali nije 3 Primjer 4.12 Izmežu 100 istovrsnih objekata ozna enih razli itim brojevima od 1 do 100, na slu ajan na in izabiremo jedan objekt. Odredite sljede e vjerojatnosti: izabran je objekt s oznakom ve om ili jednakom 30, izabran je objekt s oznakom ve om od 30 ili manjom od 10,
Slu ajna varijabla 29 izabran je objekt s parnom oznakom, izabran je objekt s parnom oznakom ili s oznakom ve om od 30, izabran je objekt s oznakom kojoj je zadnja znamenka 8, izabran je objekt kojemu zadnja znamenka nije 8, izabran je objekt s parnom oznakom kojoj zadnja znamenka nije 8. Uobi ajene oznake i nazivi Neka je R(X) skup svih mogu ih realizacija slu ajne varijable X i F familija podskupova od R(X) na kojoj je denirana vjerojatnost P. Familiju F obi no zovemo familija dogažaja. Zbog lak²eg razumijevanja i opisivanja dogažaja koje razmatramo, tj. podskupova od R(X) (odnosno elemenata od F) skup C F ozna avat emo oznakom {X C}. Naime, dogodit e se skup C ako slu ajna varijabla X primi vrijednosti iz skupa C. Na taj na in lak²e povezujemo dogažaje sa slu ajnom varijablom na koju se odnose. Primjer 4.13 Skup {X [2, 3]} denira dogažaj kod kojeg se slu ajna varijabla X realizira nekom vrijedno² u iz intervala [2, 3]. Uo imo da isti dogažaj moºemo zapisati i na sljede i na in: {2 X 3}. Skup {4 < X 7} denira dogažaj koji se dogodi ako slu ajna se slu ajna varijabla realizira brojem koji je ve i od 4, ali manji od ili jednak 7. Slu ajnu varijablu X smo denirali ako smo denirali R(X) i vjerojatnost P na familiji podskupova F. Tada kaºemo da smo zadali razdiobu (distribuciju) slu ajne varijable X. 4.2 Diskretna slu ajna varijabla Kao ²to smo opisali u poglavlju o tipovima varijabli koje su predmet statisti kog opisivanja i istraºivanja, bitna je razlika u opisu numeri kih varijabli koje su diskretnog tipa od onih koje su kontinuiranog tipa. Te razlike vidljive su i u na inu koji koristimo kada opisujemo vjerojatnosna svojstva slu ajnih varijabli kojima modeliramo varijable u istraºivanju. Mi emo razlikovati dva tipa slu ajnih varijabli: diskretne slu ajne varijable i neprekidne slu ajne varijable
Slu ajna varijabla 30 Ukoliko je R(X) kona an ili prebrojiv skup kaºemo da je slu ajna varijabla X diskretna. U tom slu aju skup svih mogu ih realizacija ozna it emo R(X) = {x 1, x 2, x 3,..., x n } ako je on kona an, odnosno, R(X) = {x 1, x 2, x 3,...} ako je beskona an. Vjerojatnosti dogažaja vezanog uz realizaciju diskretne slu ajne varijable moºemo najjednostavnije ra unati koriste i vjerojatnosti da se dogode pojedina ne realizacije. Zato, uz skup svih mogu ih realizacija diskretne slu ajne varijable X, u njezinom opisu klju nu ulogu ima i pridruºeni niz pozitivnih realnih brojeva (p 1, p 2, p 3,..., p n ) (odnosno (p i, i N), ako je R(X) beskona an) kojim su zadane vjerojatnosti da se dogode pojedina ne realizacije iz R(X). Preciznije to moºemo iskazati na sljede i na in. Neka je X diskretna slu ajna varijabla sa skupom svih mogu ih realizacija R(X) = {x 1, x 2, x 3,..., x n }, odnosno, R(X) = {x 1, x 2, x 3,...} ako je beskona an. Za svaku pojedinu realizaciju x i definiramo realan broj p i = P {X = x i }. Diskretna slu ajna varijabla X je u potpunosti zadana skupom R(X) i pripadnim nizom (p i, i = 1,..., n), odnosno (p i, i N). Uo imo da za ovako deniran niz realnih brojeva (p i, i = 1,..., n) odnosno (p i, i N) moraju vrijediti sljede a dva bitna svojstva: 1. p i 0 za sve pripadne x i R(X), 2. p i = 1. svim x i Takožer, kori²tenjem svojstava vjerojatnosti lako se odredi na in ra unanja vjerojatnosti da slu ajna varijabla primi vrijednosti iz nekog skupa A R(X). Naime, vrijedi: P {X A} = p i. x i A Dokaºite ovu injenicu! Kori²tenjem ovih rezultata, diskretna slu ajna varijabla se esto prikazuje pomo u ta dva bitna niza na sljede i na in: ( ) ( ) x 1 x 2... x n x 1 x 2 x 3... X = odnosno X =. p 1 p 2... p n p 1 p 2 p 3... Ovakvu tablicu zovemo tablica distribucije diskretne slu ajne vaijable i, ako je ona poznata, kaºemo da je poznata razdioba ili distribucija diskretne slu ajne varijable. Tablice distribucije moºemo prikazivati i u klasi nom tabli nom obliku: