Podatci i uzorak Sažetak Podatci i uzorak Tvrtko Tadić 1 Ovo je prvi od niza članaka u kojemu pokušavamo ilustrirati neke pojmove i ideje iz statistik

Слични документи
8 2 upiti_izvjesca.indd

Uvod u statistiku

Slide 1

Microsoft Word - 6. RAZRED INFORMATIKA.doc

PROGRAMIRANJE Program je niz naredbi razumljivih računalu koje rješavaju neki problem. Algoritam je postupak raščlanjivanja problema na jednostavnije

Rano učenje programiranj

4

No Slide Title

Postojanost boja

XIII. Hrvatski simpozij o nastavi fizike Istraživački usmjerena nastava fizike na Bungee jumping primjeru temeljena na analizi video snimke Berti Erja

MOODLE KAO PODRŠKA CJELOVITOJ KURIKULARNOJ REFORMI Lidija Kralj, prof. Darija Dasović Rakijašić, dipl. inf.

Recuva CERT.hr-PUBDOC

Škola: Geodetska škola, Zagreb Razredni odijel: IV. D Datum: 22. studenog Školska godina: 2018./2019. Nastavnik: Katija Špika Mentor: Armando Sl

Numerička matematika 11. predavanje dodatak Saša Singer web.math.pmf.unizg.hr/~singer PMF Matematički odsjek, Zagreb NumMat 2019, 11. p

PRAVAC

GLAZBENA UČILICA Marko Beus Filozofski fakultet u Zagrebu 098/ Sažetak Glazbena učilica je projekt osmišljen kao nadopuna

ŽUPANIJSKO NATJECANJE IZ MATEMATIKE 28. veljače razred - rješenja OVDJE SU DANI NEKI NAČINI RJEŠAVANJA ZADATAKA. UKOLIKO UČENIK IMA DRUGAČIJI

3 DNEVNI SEMINAR INTERNET POSLOVANJE TEME: 1. INTERNET POSLOVANJE 2. INTERNET MARKETING, INTERNET PR I ANALITIKA 3. UPRAVLJANJE SADRŽAJEM, DOMENE, HOS

Državna matura iz informatike

Otvoreni kôd u ucionicama

CARNET Helpdesk - Podrška obrazovnom sustavu e-dnevnik upute za nadzor razrednih knjiga tel: fax: mail:

Програмирај!

kriteriji ocjenjivanja - informatika 8

PuTTY CERT.hr-PUBDOC

Zadatak 1 U tablici se nalaze podaci dobiveni odredivanjem bilirubina u 24 uzoraka seruma (µmol/l):

Извештај о резултатима завршног испита на крају основног образовања и васпитања у школској 2013/2014. години

(Microsoft Word - Dr\236avna matura - studeni osnovna razina - rje\232enja)

atka 26 (2017./2018.) br. 102 NEKE VRSTE DOKAZA U ČAROBMATICI Jadranka Delač-Klepac, Zagreb jednoj smo priči spomenuli kako je važno znati postavljati

ALIP1_udzb_2019.indb

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Programski jezik QBasic Kriteriji ocjenjivanja programiranje(b) - QBasic razred 42

Slide 1

Matematika kroz igru domino

SVEUČILIŠTE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RAČUNARSTVA Seminarski rad u okviru predmeta Računalna forenzika BETTER PORTABLE GRAPHICS FORMAT Matej

Sveučilište u Zagrebu

Osnovni pojmovi teorije verovatnoce

(Microsoft PowerPoint - 608_Futivi\346.pptx)

PowerPoint Presentation

Može li učenje tablice množenja biti zabavno?

Teorija skupova - blog.sake.ba

Matematika 1 - izborna

Državno natjecanje / Osnove informatike Srednje škole Zadaci U sljedećim pitanjima na odgovore odgovaraš upisivanjem slova koji se nalazi ispred

Bojenje karti iliti poučak o četiri boje Petar Mladinić, Zagreb Moj djed volio je igrati šah. Uvijek mi je znao zadati neki zanimljiv zadatak povezan

Vol 5, Broj 17, 7. siječnja Zdravlje u Virovitičko podravskoj županiji Trendovi konzumiranja droga među mladima Virovitičko podravske županije (

Razred: sedmi

Metode psihologije

Microsoft Word - 6ms001

ПРИЛОГ 5 СЛОЖЕН ПОСЛОВНИ ПЛАН ЗА МЕРУ 3 1

Microsoft Word - mat_szerb_kz_1flap.doc

(Microsoft Word - Dr\236avna matura - svibanj osnovna razina - rje\232enja)

Sveučilište J.J. Strossmayera Fizika 2 FERIT Predložak za laboratorijske vježbe Lom i refleksija svjetlosti Cilj vježbe Primjena zakona geometrijske o

I

SVEUČILIŠTE U ZAGREBU PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK Ivana Šore REKURZIVNOST REALNIH FUNKCIJA Diplomski rad Voditelj rada: doc.

Toplinska i električna vodljivost metala

Чича Глиша Аутор: Зора Гојковић и Валентина Рутовић ПРИПРЕМА ЧАСА И УПУТСТВО ЗА КОРИШЋЕЊЕ ПРЕЗЕНТАЦИЈЕ ЧИЧА ГЛИША За ове часове ликовне културе смо ис

Natjecanje 2016.

I

Microsoft Office Sway

Slide 1

OBRAZAC 1. Vrednovanje sveucilišnih studijskih programa preddiplomskih, diplomskih i integriranih preddiplomskih i diplomskih studija te strucnih stud

OBAVIJEST PZZ KORISNICIMA Poštovani korisnici programskog rješenja Last2000. Za Vas smo pripremili sljedeće novosti u programu: NOVOSTI

PROCES KUPNJE ULAZNICE NA PORTALU ULAZNICE.HR Početak kupovine... 2 Plaćanje Mastercard karticom... 5 Plaćanje Maestro karticom... 8 Plaćanje American

U proračunu Europske unije za Hrvatsku je ukupno namijenjeno 3,568 milijardi Eura za prve dvije godine članstva

Obrazac Metodičkih preporuka za ostvarivanje odgojno-obrazovnih ishoda predmetnih kurikuluma i međupredmetnih tema za osnovnu i srednju školu OSNOVNI

Smjernice za korištenje sustava online prijava Ukoliko imate pristupno korisničko ime i lozinku ili ste navedeno dobili nakon zahtjeva za otvaranje no

Programiranje 2 0. predavanje Saša Singer web.math.pmf.unizg.hr/~singer PMF Matematički odsjek, Zagreb Prog2 2019, 0. predavanje p. 1/4

UVJETI KORIŠTENJA INTERNETSKE STRANICE Korisnik posjetom web stranicama potvrđuje da je pročitao i da u cijelosti prihvaća o

Poslovni uzlet grada Gospića

Programiranje 2 popravni kolokvij, 15. lipnja Ime i prezime: JMBAG: Upute: Na kolokviju je dozvoljeno koristiti samo pribor za pisanje i brisanj

Microsoft Word - tumacenje rezultata za sajt - Lektorisan tekst1

35-Kolic.indd

(Microsoft Word - Dr\236avna matura - kolovoz ni\236a razina - rje\232enja)

VELEUČILIŠTE VELIKA GORICA REZULTATI STUDENTSKE ANKETE PROVEDENE NA VELEUČILIŠTU VELIKA GORICA ZA ZIMSKI SEMESTAR AKADEMSKE 2013/2014 GODINE 1. Uvod E

I

Microsoft Word - 15ms261

Pripreme 2016 Indukcija Grgur Valentić lipanj Zadaci su skupljeni s dva predavanja na istu temu, za učenike od prvog do trećeg razreda i za MEMO

07jeli.DVI

e-škole pilot DIGKOMP U1 UPUTA: ZADACI ZA ISPITIVANJE DIGITALNIH KOMPETENCIJA UČENIKA Ovim zadacima ispituju se tvoje vještine korištenja digita

1, 2, 3, кодирај! Активности циклуса 4 Пројект «Аркадне игре» - Час 6: Програмирање падања новчића (наставак) Доминантна дисциплина Математикa Резиме

Microsoft Word - predavanje8

(Microsoft Word - S1-MTS-Primjena ra\350unala u poslovnoj praksi -Breslauer N)

POSLOVNA INTELIGENCIJA I ANALITIKA ZA PRAVE POSLOVNE ODLUKE

23. siječnja od 13:00 do 14:00 Školsko natjecanje / Osnove informatike Srednje škole RJEŠENJA ZADATAKA S OBJAŠNJENJIMA Sponzori Medijski pokrovi

МОГУЋНОСТИ УНАПРЕЂИВАЊЕ ПРИПРЕМАЊА И КАЛИТЕТА НАСТАВЕ ПРИМЈЕНОМ МУЛТИМЕДИЈАЛНЕ СКИЦЕ ЧАСА У ВИДУ МАПЕ УМА

MAT-KOL (Banja Luka) XXV (2)(2019), DOI: /МК A ISSN (p) ISSN (o) PET RAZNI

KATALOG ZNANJA IZ INFORMATIKE

PROJEKTOVANJE I PRIMENA WEB PORTALA Snežana Laketa Osnovna škola Vuk Karadžić, Vlasenica kontakt telefon:

(Microsoft Word - S1 -OR- Osnove ra\350unarstva)

Sadržaj 1 Diskretan slučajan vektor Definicija slučajnog vektora Diskretan slučajan vektor

PLAN I PROGRAM ZA DOPUNSKU (PRODUŽNU) NASTAVU IZ MATEMATIKE (za 1. razred)

Uvod u obične diferencijalne jednadžbe Metoda separacije varijabli Obične diferencijalne jednadžbe Franka Miriam Brückler

Agencija za odgoj i obrazovanje Hrvatska zajednica tehničke kulture 57. ŽUPANIJSKO/KLUPSKO NATJECANJE MLADIH TEHNIČARA PISANA PROVJERA ZNANJA 5.

Kriteriji ocjenjivanja 6razred

ТЕОРИЈА УЗОРАКА 2

Microsoft Word - Lekcija 11.doc

Ime i prezime učenika

Suradnja knjižničara i nastavnika u informacijskom opismenjavanju: primjer Knjižnice Filozofskog fakulteta u Osijeku Gordana Gašo, Knjižnica,

I

OpenVPN GUI CERT.hr-PUBDOC

Транскрипт:

Sažetak Tvrtko Tadić 1 Ovo je prvi od niza članaka u kojemu pokušavamo ilustrirati neke pojmove i ideje iz statistike na primjerima stvarnih podataka. U ovom članku objašnjavamo važnost podataka u današnjem svijetu i na primjeru ilustriramo potrebu da informacije sažmemo u formi tablice i histograma. U drugom dijelu članka objašnjavamo što je to uzorak i simulacijama tumačimo zašto zaključke često donosimo upravo na temelju uzorka. Učenici sve mogu samostalno provjeriti koristeći Excel i programski jezik Python. Uvod važnost podataka danas U umreženom i digitaliziranom svijetu akumulirale su se ogromne količine podataka. Brojne tvrtke znaju puno o svojim korisnicima i koriste te podatke kako bi poboljšale usluge koje pružaju. Evo nekih primjera: Amazon, najveća svjetska online trgovina, skuplja podatke o tome što njegovi korisnici širom svijeta naručuju kako bi na skladištu imao potrebne proizvode. Također rade na tome da smanje troškove i vrijeme isporuke. Tražilice Google i Bing skupljaju podatke o napravljenim pretragama kako bi bolje ocijenili koje bi stranice na internetu mogle biti zanimljive njihovim korisnicima. Banke skupljaju podatke o svojim korisnicima u svrhu pouzdanijeg donošenja odluka o davanju kredita. U mnogim zemljama postoje specijalizirani kreditni uredi koji skupljaju podatke za banke i tvrtke za kreditno bodovanje koje procjenjuju rizike. Osiguravajuća društva također prikupljaju podatke s ciljem boljeg upravljanja povjerenog im novca. Prijevoznici, primjerice velike zrakoplovne tvrtke, prate broj putnika na svojim linijama kako bi bolje planirale broj potrebnih mjesta, upotrebu voznog parka i cijenu karata. 1 Tvrtko Tadić, PMF-MO, Zagreb / Microsoft Corporation, Redmond / University of Washington, Seattle 17 Poucak 67.indd 17 19.10.2016. 13:21:21

Poučak 67 Investicijske kompanije prikupljaju razne podatke kako bi osigurale što bolje upravljanje svojom imovinom i napravile bolja ulaganja. Danas postoji cijeli niz kompanija koje imaju potpuno automatiziran sustav ulaganja i gdje odluke, primjerice o prodaji dionica, donose računala.... Sve ovo stavilo je svijet pred niz novih izazova: gdje držati sve te podatke; kako ih iskoristiti. Razvijen je čitav niz novih tehnoloških rješenja, kao i posve nova područja znanstvenog interesa. Poučavanje statistike Statistika je izrasla u važnu disciplinu čije je poznavanje postalo iznimno bitno za donošenje pravih odluka. Odmah na početku treba istaknuti jednu stvar: statistika je iznimno bliska matematici, no ona se ne smatra dijelom matematike nego zasebnom matematičkom znanošću. Statistika ima svoju primjenu (u brojnim društvenim, prirodnim i tehničkim znanostima), izazove računalne implementacije, kao i svoju (matematičku) teoriju. Poučavanje statistike predstavlja velik izazov iz više razloga: statistiku treba širok niz stručnjaka raznih profila, potrebno je dosta znanja matematike da bi se ona razumjela, teorija je iznimno zahtjevna, u različitim područjima primjene metode se mogu bitno razlikovati. To je vrlo često uzrokovano manjom ili većom dostupnošću podataka. Primjerice, u medicini ćemo za neku rijetku bolest imati bitno manje podataka nego o kreditima u banci koja ima milijune klijenata. U Hrvatskoj se već dulji niz godina pokušavaju uvesti elementi statistike u osnovne i srednje škole. Imajući u vidu navedeno, smatramo da za dobro razumijevanje statistike to nije moguće napraviti samo kroz nastavu matematike, te da bi bilo dobro da se dio toga tereta preraspodijeli i na druge predmete (poput informatike ili, primjerice, zemljopisa/geografije). Kako bi pojasnili svoje tvrdnje u ovom i idućih nekoliko članaka, iznijet ćemo neke metodičke primjere iz statistike koji bi trebali omogućiti nastavnicima da lakše prenesu učenicima što je to statistika. U svrhu obrade podataka koristit ćemo Microsoft Excel i programski jezik Python. 18 Poucak 67.indd 18 19.10.2016. 13:21:21

Statistika Što je statistika? Počet ćemo s klasičnom definicijom pojma statistika. Statistika je disciplina koja se bavi prikupljanjem, analizom, tumačenjem i prikazivanjem podataka. Vidimo da je definicija iznimno općenita te da praktično svatko tko prati neke podatke može biti statističar. Tijekom stoljeća ljudi su skupljali podatke i susretali se s raznim izazovima: Kako sažeti informacije o prikupljenim podacima? Kako protumačiti podatke? Mogu li se napraviti predviđanja na temelju prikupljenih podataka? Što ako nije moguće prikupiti sve podatke? Razvijena je cijela teorija i razne praktične tehnike obrade podataka. Mi ćemo se kroz primjere stvarnih podataka upoznati s važnom terminologijom i nekim tehnikama obrade podataka. Pritom ćemo se osvrnuti na matematičku teoriju koja stoji u pozadini, ali nećemo ulaziti u detalje. Otkucaji srca Sljedeći niz podataka predstavlja 100 mjerenja prosječnog broja otkucaja autorova srca u minuti tijekom sna (prikupljenih od 2. 1. 2016. do 18. 4. 2016. pomoću uređaja Microsoft Band i povučenih iz baze Microsoft Health): Tablica frekvencija i histogram Ovi brojevi ovako poslagani slabo nam govore o otkucajima srca. Jedna od ideja obrade podataka je pretvoriti podatke u pregledniju formu. U ovom slučaju bilo bi korisno kad bismo znali frekvenciju, tj. koliko je puta zabilježen pojedini broj. Također ćemo nacrtati histogram stupčasti dijagram koji će nam vizualno dočarati frekvencije pojedinih brojeva. Ovo je lako napraviti u Excelu. 19 Poucak 67.indd 19 19.10.2016. 13:21:21

Poučak 67 Slika 1. Histogram podataka o prosječnom broju otkucaja srca Što smo dobili? Iz histograma i tablice frekvencija preglednije vidimo neke informacije. Bez dubljeg ulaženja u analizu sa slike možemo odmah reći da autor tijekom sna ima prosječno od 47 do 57 otkucaja srca u minuti. Možemo očitati određene odnose. Primjerice: autor rijetko u prosjeku ima više od 54 otkucaja i manje od 48 po minuti; prosjek broja otkucaja srca u 90 % slučajeva nalazi se u intervalu [48, 52]; autor je u najviše slučajeva imao prosjek od 50 otkucaja u minuti. U ovom primjeru imamo samo 100 podataka koji poprimaju tek 11 vrijednosti pa nije jednostavno napraviti ni tablicu ni histogram bez pomoći računala i specijaliziranih programa. Uzorak Vrlo često neće nam biti dostupni svi podatci, nego ćemo baratati tek manjim dijelom njih uzorkom. No i to će nam često biti dovoljno da bi smo došli do određenih zaključaka o svim podatcima. Promatrajući podatke možemo vidjeti da će, ako uzmemo manji uzorak, ponašanje podataka biti slično kao da smo uzeli sve podatke. To ćemo ilustrirati na podatcima o prosječnom broju otkucaja srca. Slučajno odaberimo 30 vrijednosti. Jedna od mogućih realizacija ovakvog odabira podataka dana je histogramom i tablicom frekvencija prikazanom na slici 2. 20 Poucak 67.indd 20 19.10.2016. 13:21:21

Slika 2. Histogram uzorka Uočimo sličnosti s originalnim podatcima i prikazom podataka na slici 1: brojka 50 pojavljuje se najviše puta; 86.66 % podataka i dalje se nalazi u intervalu [48, 52]; vrijednosti iznad 54 i ispod 48 su rijetke. Uočimo kako smo slične zaključke imali kod svih podataka. Brojna svojstva podataka prenijet će se na uzorak s velikom vjerojatnošću. To ćemo pokazati eksperimentalno u sljedećem odjeljku, nakon što objasnimo uzimanje uzorka. Tipovi uzorka Svaki uzorak sadržavat će određen broj podataka. Taj broj zovemo duljina uzorka. Postoje dva načina generiranja uzorka: slučajni uzorak gdje slučajno biramo podatak i postupak ponavljamo na svim podatcima sve dok ne dobijemo uzorak željene duljine (isti podatak može biti izvučen više puta); reprezentativni uzorak gdje slučajno biramo podatak i postupak ponavljamo na podatcima koji još nisu bili izabrani sve dok ne dobijemo uzorak željene duljine. Ova dva načina uzimanja uzorka postoje iz raznih praktičnih i teorijskih razloga u koje sada nećemo ulaziti. Većina računalnih jezika više razine (poput Pythona) ima ugrađene funkcije za generiranje ovih uzoraka. 21 Poucak 67.indd 21 19.10.2016. 13:21:21

Poučak 67 Napravit ćemo idući eksperiment (pomoću računala, za detalje vidi dodatak na kraju članka): 1 000 000 (milijun) puta uzet ćemo uzorak duljine 30. Za svaki uzorak provjerit ćemo: je li 50 broj koji se najviše puta pojavio u uzorku (uključujući mogućnost da se pojavio jednako mnogo puta kao neki drugi broj); nalazi li se 85-95 % brojeva u uzorku u intervalu [48, 52]; ima li manje od 5 % brojeva vrijednost iznad 54 ili manje od 48. Rezultati eksperimenta su sljedeći: provjera / tip uzorka slučajni reprezentativni broj 50 najčešće se pojavljuje u uzorku u 53.8 % slučajeva u 59.7 % slučajeva 85-95 % brojeva u uzorku nalazi u intervalu [48, 52] u 64.2 % slučajeva u 72.6 % slučajeva manje od 5 % brojeva ima vrijednost iznad 54 ili manje od 48 u 66.1 % slučajeva u 65.2 % slučajeva Rezultati ilustriraju činjenicu da uzorak često preuzima brojna svojstva koja ima cijeli skup podataka. To će još češće biti slučaj za velike uzorke još većeg skupa podataka. Primjer toga su, primjerice, izlazne ankete na izborima (vidi članak (Tadić, 2011)) koje jako dobro uspiju procijeniti pobjednika izbora unatoč tome što su anketirale tek nekoliko desetaka tisuća ljudi od milijun glasača. U sljedećim člancima vidjet ćemo kako to funkcionira u drugim slučajevima. Zbog navedenog, brojna svojstva cijelog skupa podataka pokušavamo procijeniti na uzorku. Sve izrečeno može se matematički precizno formulirati koristeći napredne alate matematičke analize i terminologiju teorije vjerojatnosti. Čemu služe ovi podatci u praksi? Ovi podatci govore o uobičajenim vrijednostima prosječnog broja otkucaja autorova srca. Ukoliko bi te vrijednosti počele izlaziti izvan okvira uobičajenih vrijednosti, npr. ako bi autor zabilježio tri dana za redom prosječan broj otkucaja veći od 55, to bi bio znak da je došlo do određene promjene koja može biti uzrokovana: zdravstvenim stanjem, pokvarenim uređajem za mjerenje, 22 Poucak 67.indd 22 19.10.2016. 13:21:21

lošim snom, nečim sasvim drugim. Obično se prati više takvih signala na temelju kojih se može donijeti zaključak (u skladu s prijašnjim iskustvima) koje su promjene vjerojatno nastupile. Veliki problem kod donošenja ovakvih zaključaka je nedostupnost podataka. Primjerice, podatci o broju otkucaja srca su privatni, podatci o trenutnom zdravstvenom stanju se ne bilježe. Sve to predstavlja izazove s kojima se susreću oni koji u primjenama pokušavaju donijeti zaključke. O odnosu prakse i teorije U statistici i općenito praktičnim primjenama matematike koriste se razne matematičke metode. Često se u praksi nađu razni postupci koje je vrlo teško teorijski objasniti. Kako (posebice ako se radi o kompanijama) rijetko tko može čekati 5 godina da se neki postupak koji heuristički ima smisla i radi u praksi objasni, takvi postupci najčešće se opravdavaju simulacijama (slično kao što su neke stvari izložene u ovome članku). U mnogo slučajeva, kad se napokon nađe teorijsko objašnjenje, ono zna uključivati nerealne pretpostavke. Zaključak Cilj ovoga članka bio je na jedan drukčiji način pokušati objasniti neke postupke u statistici. Ideja je da se kroz stvarne podatke i računalne simulacije opravdaju neki statistički postupci, a da se pritom izbjegne zahtjevna matematička teorija. U poučavanju statistike ovakav pristup ima jednaku važnost kao otkrivanje geometrijskih činjenica crtanjem. Kao što ćemo u idućim člancima vidjeti, za obradu podataka i izvođenje zaključaka upotreba računala bit će neizbježna. Kako bi učenici stekli ideju o tome što je statistika, nužno je da se upoznaju i eksperimentiraju sa stvarnim podatcima koristeći pomoć proračunskih tablica i programskih jezika. U ovom članku pokušali smo objasniti što je uzorak i ilustrirati zašto ga uzimamo. Osnovni pregled mnogih pojmova dan je u člancima (Varošanec, 2013.) i (Varošanec, 2014). Za više razrede srednje škole knjiga (Sarapa, 1996.) temeljito daje uvod u statistiku. Dodatak podatci i kod Podatci i kod korišteni u izradi ovoga članka mogu se preuzeti s internetske stranice: https://web.math.pmf.unizg.hr/~tvrtko/metodikastatistike/clanak1 Dodatak Excel Excel je standardni program za pripremu proračunskih tablica i crtanje grafikona koji je dio Microsoft Office ponude. Postoji i besplatna (nešto jednostavnija) 23 Poucak 67.indd 23 19.10.2016. 13:21:21

Poučak 67 online verzija. Ovdje ćemo kratko prikazati kako nacrtati histogram i kako napraviti reprezentativni odnosno slučajni uzorak. Sve ovdje navedeno napravljeno je u verziji Excel 2016. Crtanje histograma Otvorimo novi Excel dokument i odaberimo stupac u koji ćemo smjestiti podatke. U prvi red stupca upišimo naziv Otkucaji, a nakon toga smjestimo podatke. Odaberimo podatke i napravimo tablicu (Polazno -> Oblikuj kao tablicu). U idućem koraku odaberemo cijelu tu tablicu i napravimo zaokrenuti dijagram (Umetanje -> Zaokretni grafikon). Postavljanjem da Os (kategorije) budu Otkucaji, a Vrijednosti stavimo da je Broj od Otkucaji dobivamo i tablicu frekvencija i histogram. Slika 3. Pripremanje histograma Uzimanje slučajnog i reprezentativnog uzorka Prvo podatke stavimo u neki stupac. Primjera radi, kao na slici 3, pretpostavimo da vrijedi sljedeće: podatci se nalaze u stupcu A i zauzimaju redove 2 do 101; želimo simulirati uzorak duljine 30. Slučajni uzorak u Excelu generira se na sljedeći način: odaberemo neki drugi slobodni stupac i u prvih 30 redova toga stupca upišemo kombinaciju naredbi: 24 Poucak 67.indd 24 19.10.2016. 13:21:22

=INDEX($A:$A,RANDBETWEEN(2,101),1) Ova naredba iz stupca A na slučajan način odabire polje u redu između 2 i 101 i ispisuje njegov sadržaj. Reprezentativni uzorak generira se na nešto drukčiji način: u stupcu B u redovima 2 do 101 upišemo naredbu: =RAND() Ona generira slučajan broj iz intervala [0,1]. Odaberemo stupce A i B od 1 do 101 reda. Napravimo sortiranje (uzlazno ili silazno) po vrijednostima u stupcu B (Podatci -> Sortiranje). Prvih 30 vrijednosti predstavlja reprezentativni uzorak. Dodatak Python Excel je alat prikladan za brzi pregled podataka i izradu grafova. Za zahtjevniju obradu podataka često koristimo programske jezike. U praksi se kao alati za obradu podataka koriste R, Python, Matlab i neki drugi popularni alati. Kako se Python koristi u nastavi informatike (vidi primjerice (L. Budin, 2012.)), prikazat ćemo kao napraviti 1 000 000 simulacija reprezentativnog i slučajnog uzorka te provjeriti jesu li pojedina svojstva izvornih podataka ostala sačuvana u uzorku. Idejno, algoritam izgleda ovako: unos: podatci, duljine uzorka, broj eksperimenata za j = 1 do broj eksperimenata: uzmi uzorak iz danih podataka provjeri svojstva na uzorku za svako svojstvo: Implementacija u Pythonu izgleda ovako: #unos paketa za generianje slucajnih brojeva import random; duljinauzorka = 30; brojeksperimenata = 100000; 25 Poucak 67.indd 25 19.10.2016. 13:21:22

Poučak 67 #brojaci najvisebroj50 = 0; punoputauintervalu4852 = 0; maloputaizvanintervala4854 = 0; #ucitavanje podataka with open( otkucaji.txt ) as podaciizvor: podaci = [int(x) for x in podaciizvor.readlines()] duljinapodataka = len(podaci); for k in range(0,brojeksperimenata): #reprezenativni uzorak uzorak = random.sample(podaci, duljinauzorka); #slucajni uzorak #uzorak = [podaci[random.randrange(duljinapodataka)] for j in range(0,duljinauzorka)] vrijednostiuzorka = set(uzorak); vrijednostipodatakabrojpojavljivanjauuzroku = dict( (vrijednost,uzorak.count(vrijednost)) for vrijednost in vrijednostiuzorka); 26 #provjeri da li je broj 50 najcesci u uzorku if(uzorak.count(50) == max(vrijednostipodatakabrojpojavljivanjauuzroku.values())): najvisebroj50 = najvisebroj50 + 1; #provjeri da li je 85%-95% vrijednosti uzorka u intervalu [48,52] relativnafrekvencijaintrevala4852 = sum( [vrijednostipodatakabrojpojavljivanjauuzroku[vrijednost] for vrijednost in vrijednostiuzorka if (vrijednost <= 52 and vrijednost >= 48)] )/duljinauzorka; if(relativnafrekvencijaintrevala4852 <= 0.95 and 0.85 <= relativnafrekvencijaintrevala4852): punoputauintervalu4852 = punoputauintervalu4852 + 1; #provjeri da li manje od 5% vrijednosti manje od 48 i vece od 54 relativnafrekvencijabrojevaizvanintervala4854 = sum( [vrijednostipodatakabrojpojavljivanjauuzroku[vrijednost] for vrijednost in vrijednostiuzorka if (vrijednost > 54 or vrijednost < 48)] )/duljinauzorka; Poucak 67.indd 26 19.10.2016. 13:21:22

if(relativnafrekvencijabrojevaizvanintervala4854 <= 0.05): maloputaizvanintervala4854 = maloputaizvanintervala4854 + 1; #ispisi rezultat print([najvisebroj50/brojeksperimenata, punoputauintervalu4852/brojeksperimenata, maloputaizvanintervala4854/brojeksperimenata]); Literatura: 1. Budin, L. i drugi (2012.). Rješavanje problema programiranjem u Pythonu : za 2. i 3. razred gimnazije. Zagreb: Element. 2. Sarapa, N. (1996.). Vjerojatnost i statistika 2. dio: Osnove statistike - slučajne varijable. Zagreb: Školska knjiga. 3. Tadić, T. (2011.). Matematika iza anketa primjer izbora. Poučak br. 43. 4. Varošanec, S. (2013.). Grupirani podaci I. Matematika i škola br. 72. 5. Varošanec, S. (2014.). Grupirani podaci II. Matematika i škola br. 74. 6. Wasserman, L. (2005.). All of Statistics: A Concise Course in Statistical Inference. New York: Springer. 27 Poucak 67.indd 27 19.10.2016. 13:21:22