Univerzitet u Nišu PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku OCENA I TESTIRANJE ODNOSA KVALITETA DVA MODELA MASTER RAD Student: Marko Dimi

Слични документи
ФАКУЛТЕТ ОРГАНИЗАЦИОНИХ НАУКА

Paper Title (use style: paper title)

ТЕОРИЈА УЗОРАКА 2

1 Polinomi jedne promenljive Neka je K polje. Izraz P (x) = a 0 + a 1 x + + a n x n = n a k x k, x K, naziva se algebarski polinom po x nad poljem K.

Microsoft PowerPoint - jkoren10.ppt

Matematka 1 Zadaci za vežbe Oktobar Uvod 1.1. Izračunati vrednost izraza (bez upotrebe pomoćnih sredstava): ( ) [ a) : b) 3 3

Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: min c T x Ax = b x 0 x Z n Gde pretpostavljamo da je A celobrojna matrica

Microsoft PowerPoint - Ispitivanje povezanosti Regresija redovni decembar 2007 [Compatibility Mode]

1

Slide 1

My_ST_FTNIspiti_Free

6-8. ČAS Celobrojno programiranje Rešavamo sledeći poblem celobrojnog programiranja: Gde pretpostavljamo da je A celobrojna matrica dimenzije,. Takođe

Verovatnoća - kolokvijum 17. decembar Profesor daje dva tipa ispita,,,težak ispit i,,lak ispit. Verovatnoća da student dobije težak ispit je

Mere slicnosti

1 Konusni preseci (drugim rečima: kružnica, elipsa, hiperbola i parabola) Definicija 0.1 Algebarska kriva drugog reda u ravni jeste skup tačaka opisan

Орт колоквијум

Analiticka geometrija

PRIRODNO-MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA MATEMATIKU I INFORMATIKU ZADACI SA REŠENJIMA SA PRIJEMNOG ISPITA IZ MATEMATIKE, JUN Odrediti

JMBAG IME I PREZIME BROJ BODOVA MJERA I INTEGRAL 2. kolokvij 29. lipnja (Knjige, bilježnice, dodatni papiri i kalkulatori nisu dozvoljeni!) 1. (

Microsoft Word - predavanje8

Univerzitet u Nišu PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku PORTFOLIO TEORIJA MASTER RAD Student: Bojana Živković Mentor: Prof. dr Miljan

Орт колоквијум

Sadržaj 1 Diskretan slučajan vektor Definicija slučajnog vektora Diskretan slučajan vektor

Microsoft Word - NULE FUNKCIJE I ZNAK FUNKCIJE.doc

Техничко решење: Метода мерења ефективне вредности сложенопериодичног сигнала Руководилац пројекта: Владимир Вујичић Одговорно лице: Владимир Вујичић

Optimizacija

PowerPoint Presentation

Microsoft Word - Master rad VERZIJA ZA STAMPU

My_P_Trigo_Zbir_Free

Microsoft Word - 6ms001

Орт колоквијум

Osnovni pojmovi teorije verovatnoce

Veeeeeliki brojevi

Teorija igara

TEORIJA SIGNALA I INFORMACIJA

Microsoft PowerPoint - 03-Slozenost [Compatibility Mode]

Konstrukcija linearnih višekoračnih metodi Postoje tri važne familije višekoračnih metoda: Adamsovi metodi Adams-Bashfortovi metodi kod kojih je ρ(w)

Microsoft Word - Ispitivanje toka i grafik funkcije V deo

My_P_Red_Bin_Zbir_Free

Skripte2013

UNIVERZITET U NIŠU PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku MASTER RAD VaR Mentor: Prof. dr Miljana Jovanović Student: Milena Stošić Niš,

07jeli.DVI

Matematiqki fakultet Univerzitet u Beogradu Iracionalne jednaqine i nejednaqine Zlatko Lazovi 29. mart 2017.

JMBAG IME I PREZIME BROJ BODOVA 1. (ukupno 6 bodova) MJERA I INTEGRAL 1. kolokvij 4. svibnja (Knjige, bilježnice, dodatni papiri i kalkulatori n

JMBAG IME I PREZIME BROJ BODOVA MJERA I INTEGRAL završni ispit 6. srpnja (Knjige, bilježnice, dodatni papiri i kalkulatori nisu dozvoljeni!) 1.

SVEUČILIŠTE U ZAGREBU PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK Ivana Šore REKURZIVNOST REALNIH FUNKCIJA Diplomski rad Voditelj rada: doc.

Hej hej bojiš se matematike? Ma nema potrebe! Dobra priprema je pola obavljenog posla, a da bi bio izvrsno pripremljen tu uskačemo mi iz Štreberaja. D

P1.1 Analiza efikasnosti algoritama 1

Analiticka geometrija

1. Vrednost izraza jednaka je: Rexenje Direktnim raqunom dobija se = 4 9, ili kra e S = 1 ( 1 1

ALGEBRA I (2010/11)

Microsoft Word - 13pavliskova

ТРОУГАО БРЗИНА и математичка неисправност Лоренцове трансформације у специјалној теорији релативности Александар Вукеља www.

Slide 1

Konstrukcija i analiza algoritama Nina Radojičić februar Analiza algoritama, rekurentne relacije 1 Definicija: Neka su f i g dve pozitivne fun

Прва економска школа Београд РЕПУБЛИЧКО ТАКМИЧЕЊЕ ИЗ СТАТИСТИКЕ март године ОПШТЕ ИНФОРМАЦИЈЕ И УПУТСТВО ЗА РАД Укупан број такмичарских

РЕШЕЊА 1. (2) Обележја статистичких јединица посматрања су: а) особине које су заједничке за јединице посматрања б) особине које се проучавају, а подр

(Microsoft Word - MATB - kolovoz osnovna razina - rje\232enja zadataka)

Microsoft Word - 15ms261

PRIRODNO MATEMATIČKI FAKULTET U NIŠU DEPARTMAN ZA RAČUNARSKE NAUKE Utorak, godine PRIJEMNI ISPIT IZ INFORMATIKE 1. Koja od navedenih ekste

Grafovi 1. Posmatrajmo graf prikazan na slici sa desne strane. a) Odrediti skup čvorova V i skup grana E posmatranog grafa. Za svaku granu posebno odr

Matrice. Algebarske operacije s matricama. - Predavanje I

Microsoft PowerPoint - vezbe 4. Merenja u telekomunikacionim mrežama

Analiticka geometrija

Uvod u statistiku

Алгебарски изрази 1. Запиши пет произвољних бројевних израза. 2. Израчунај вредност израза: а) : ; б) : (

Zadatak 1 U tablici se nalaze podaci dobiveni odredivanjem bilirubina u 24 uzoraka seruma (µmol/l):

08 RSA1

Ravno kretanje krutog tela

Техничко решење: Софтвер за симулацију стохастичког ортогоналног мерила сигнала, његовог интеграла и диференцијала Руководилац пројекта: Владимир Вуји

vjezbe-difrfv.dvi

MAT-KOL (Banja Luka) XXIII (4)(2017), DOI: /МК Ž ISSN (o) ISSN (o) ЈЕДНА

ЗАДАЦИ ИЗ МАТЕМАТИКЕ ЗА ПРИПРЕМАЊЕ ЗАВРШНОГ ИСПИТА

Matematicke metode fizike II - akademska 2012/2013.g.

Diferenciranje i integriranje pod znakom integrala math.e Vol math.e Hrvatski matematički elektronički časopis Diferenciranje i integriranje pod

PowerPoint Presentation

Numerička matematika 11. predavanje dodatak Saša Singer web.math.pmf.unizg.hr/~singer PMF Matematički odsjek, Zagreb NumMat 2019, 11. p

Vjezbe 1.dvi

Slide 1

Test iz Linearne algebre i Linearne algebre A qetvrti tok, U zavisnosti od realnog parametra λ rexiti sistem jednaqina x + y + z = λ x +

Microsoft PowerPoint - STABILNOST KONSTRUKCIJA 2_18 [Compatibility Mode]

Математика основни ниво 1. Одреди елементе скупова A, B, C: a) б) A = B = C = 2. Запиши елементе скупова A, B, C на основу слике: A = B = C = 3. Броје

Slide 1

Elementarna matematika 1 - Oblici matematickog mišljenja

1 MATEMATIKA 1 (prva zadaća) Vektori i primjene 1. U trokutu ABC točke M i N dijele stranicu AB na tri jednaka dijela. O

Microsoft Word - PARCIJALNI IZVODI I DIFERENCIJALI.doc

1. GRUPA Pismeni ispit iz MATEMATIKE Prezime i ime broj indeksa 1. (15 poena) Rexiti matriqnu jednaqinu 3XB T + XA = B, pri qemu

PITANJA I ZADACI ZA II KOLOKVIJUM IZ MATEMATIKE I Pitanja o nizovima Nizovi Realni niz i njegov podniz. Tačka nagomilavanja niza i granična vrednost(l

ДРУШТВО ФИЗИЧАРА СРБИЈЕ МИНИСТАРСТВО ПРОСВЕТЕ И СПОРТА РЕПУБЛИКЕ СРБИЈЕ Задаци за републичко такмичење ученика средњих школа 2006/2007 године I разред

РАСПОРЕД ИСПИТА У ИСПИТНОМ РОКУ ЈАНУАР 1 ШКОЛСКЕ 2016/2017. ГОДИНЕ (последња измена ) Прва година: ПРВА ГОДИНА - сви сем информатике Име пр

UAAG Osnovne algebarske strukture 5. Vektorski prostori Borka Jadrijević

Microsoft Word - CAD sistemi

FTN Novi Sad Katedra za motore i vozila Potrošnja goriva Teorija kretanja drumskih vozila Potrošnja goriva

9. : , ( )

СТРАХИЊА РАДИЋ КЛАСИФИКАЦИJА ИЗОМЕТРИJА И СЛИЧНОСТИ Према књизи [1], свака изометриjа σ се може представити ком позици - jом неке транслациjе за векто

Талесова 1 теорема и примене - неки задаци из збирке Дефинициjа 1: Нека су a и b две дужи чиjе су дужине изражене преко мерне jединице k > 0, тако да

Uvod u obične diferencijalne jednadžbe Metoda separacije varijabli Obične diferencijalne jednadžbe Franka Miriam Brückler

Slide 1

PowerPoint Presentation

Транскрипт:

Univerzitet u Nišu PRIRODNO-MATEMATIČKI FAKULTET Departman za matematiku OCENA I TESTIRANJE ODNOSA KVALITETA DVA MODELA MASTER RAD Student: Marko Dimitrov Mentor: Prof. dr Miodrag Ðor dević Niš, 2018.

Sažetak U master tezi predstavljeni su modeli linearne regresije kao što su prosta linearna regresija, višestruka regresija, i polinomna regresija. Objašnjeni su osnovni metodi ocene parametara modela, metod najmanjih kvadrata (OLS) i metod maksimalne verodostojnosti (MLE). Uvedene su osnove bootstrap metoda. Problem iz stvarnog života je simuliran kako bi se uvideo uticaj greške pri merenju na količnik dva ocenjena modela.

Acknowledgments I would like to thank Senior Lecturer Christopher Engström of the School of Education, Culture, and Communication at Mälardalen University. Prof. Engström s consistently allowed this paper to be my work but steered me in the right direction whenever he thought I needed it. I would also like to thank Prof. Dr. Miodrag Ðor dević who was involved in the validation survey for this master thesis. Without his participation and input, the validation survey could not have been successfully conducted. I would also like to acknowledge Prof. Dr. Aleksandar Nastić, Prof. Dr. Miroslav Ristić, and Senior Lecturer Milica Rančić as reviewers, and I am gratefully indebted to them for valuable comments on this thesis. The data used in the master thesis comes from ship log data gathered at Qtagg AB, from one ship gathered over roughly half a month, and I wish to acknowledge Qtagg AB for the data. Finally, I must express my very profound gratitude to my friends and girlfriend for providing me with unfailing support and continuous encouragement throughout my years of study and through the process of researching and writing this thesis. This accomplishment would not have been possible without them. Thank you. Author: Marko Dimitrov

Zahvalnica Želeo bih da se zahvalim prof. dr Kristoferu Engstromu sa Malardalen Univerzi-teta u Vesterosu, Švedska, Fakultet za edukaciju, kulturu i komunikaciju. Profesor Engstrom mi je neprekidno pružao podršku i podsticao na kreativnost u samostalnom radu, usmeravajući me kada god je to bilo potrebno. Tako de bih se zahvalio i mentoru, prof. dr Miodragu Ðor deviću, koji je bio uključen u proces evaluacije master rada. Bez njegovog učešća i doprinosa, evaluacija ne bi mogla biti sprovedena sa uspehom. Pomenuo bih i prof. dr Aleksandra Nastića, prof. dr Miroslava Ristića i vanrednog profesora Milicu Rančić, recezente. Neizmerno sam zahvalan za njihove vrlo korisne komentare na master rad. Podaci korišćeni u radu prikupljani su više od 15 dana od strane kompanije Qtagg AB, te se zahvaljujem kompaniji na ustupljenim podacima. Konačno, zadovoljstvo mi je da izrazim veliku zahvalnost prijateljima i devojci zbog pružanja bezuslovne podrške i ohrabrenja tokom studiranja, kroz istraživanje i pomoć u pisanju rada. Ovaj poduhvat ne bi bio moguć bez njih. Hvala! Autor: Marko Dimitrov

Sadržaj Slike 3 Tabele 4 Uvod 7 1 Prosta linearna regresija 9 1.1 Model proste linearne regresije......................... 9 1.2 Ocena parametara modela............................ 10 1.2.1 Metod običnih najmanjih kvadrata................... 10 1.2.2 Osobine ocena običnih najmanjih kvadrata.............. 12 1.2.3 Ocene varijanse............................. 12 1.3 Testiranje hipoteza, intervali poverenja i t-test................. 13 1.4 Koeficijent determinacije............................ 14 1.5 Ocene maksimalne verodostojnosti....................... 15 2 Višestruka regresija 18 2.1 Model višestruke regresije........................... 18 2.2 Ocena parametara modela............................ 20 2.2.1 Metod običnih najmanjih kvadrata................... 20 2.2.2 Osobine ocena običnih najmanjih kvadrata.............. 21 2.2.3 Ocene varijanse............................. 23 2.3 Ocene maksimalne verodostojnosti....................... 24 2.3.1 Osobine ocena maksimalne verodostojnosti.............. 25 2.4 Polinomna regresija............................... 26 2.4.1 Ortogonalni polinomi.......................... 27 3 Bootstrap metod 29 3.1 Uvod...................................... 29 3.1.1 Statistike................................ 30 3.2 Bootstrap ocene................................. 31 3.3 Parametarska simulacija............................ 32 3.3.1 Aproksimacija............................. 32 3.4 Neparametarska simulacija........................... 33 2

3.5 Intervali poverenja............................... 33 4 Simulacija i evaluacija 35 4.1 Matematički opis problema........................... 35 4.2 Analogija sa problemom iz realnog života................... 36 4.3 Ocena parametara................................ 36 4.4 Intervali poverenja............................... 40 4.5 Prava vrednost količnika............................ 48 4.6 Evaluacija rezultata............................... 48 5 Diskusija 51 5.1 Reflekcija i zaključci.............................. 51 5.2 Budući rad.................................... 52 A Definicije 53 A.1 Linearna algebra................................ 53 A.2 Matrični račun.................................. 54 A.3 Statistika.................................... 54 B Raspodele verovatnoća 56 B.1 Binomna raspodela............................... 56 B.2 Uniformna raspodela.............................. 56 B.3 Generalizovana pareto raspodela........................ 56 B.4 Normalna raspodela............................... 57 B.5 Log-normalna raspodela............................ 58 B.6 Gama raspodela................................. 58 B.7 Studentova raspodela.............................. 58 B.8 Hi-kvadrat raspodela.............................. 59 Literatura 60 Index 61 Biografija 61 3

Slike 4.1 Podaci o brzini broda bez grešaka pri merenju................. 37 4.2 Prvi slučaj - Podaci o potrošnji goriva bez grešaka pri merenju........ 38 4.3 Drugi slučaj - Podaci o potrošnji goriva bez grešaka pri merenju....... 38 4.4 Treći slučaj - Podaci o potrošnji goriva bez grešaka pri merenju........ 39 4.5 Uzorak iz uniformne raspodele......................... 42 4.6 Uzorak iz generalizovane pareto raspodele................... 43 4.7 Uzorak iz normalne raspodele......................... 44 4.8 Uzorak iz log-normalne raspodele....................... 45 4.9 Uzorak iz gama raspodele............................ 46 4.10 Uzorak iz studentove t-raspodele........................ 47 4.11 Uzorak iz hi-kvadrat raspodele......................... 48 4

Tabele 4.1 Tabela Intervala Poverenja za srednju vrednost količnika........... 49 5

Spisak oznaka SS R regresiona suma kvadrata. 14 SS T totalna suma kvadrata. 14 BLUE najbolja linearna nepristrasna ocena. 11 MLE ocena maksimalne verodostojnosti. 14, 23 OLS obični najmanji kvadrati. 9 RSS suma kvadrata grešaka. 10, 23 CDF funkcija raspodele. 28 EDF empirijska funkcija raspodele. 28 PDF funkcija gustine verovatnoće. 28 i.i.d. nezavisni i identično raspodeljeni. 28 df stepeni slobode. 11 6

Uvod Prilikom kreiranja novog sistema upravljanja ili novog hardvera za vozilo ili neku drugu mašinu, potrebno je isti i testirati u praksi ili, na primer, procena da li je jedan metod efikasniji za potrošnju goriva od drugog. Standardni metod je testiranje u kontrolisanom okruženju, gde se može ograničiti broj spoljnih uticaja na sistem. Me dutim, vršenje testova u kontrolisanom okruženju nije uvek moguće - bilo zbog prevelikih troškova ili zbog prirode stvari koja je predmet testiranja, nečega što je teško dostići u kontrolisanom okruženju. Koristeći količnik dva modela, cilj je utvrditi efikasnost potrošnje goriva dva motora koja ne mogu istovremeno biti testirana, gde se podaci uzimaju u nekontrolisanom okruženju, a efekti spoljnih faktora su veliki. Ocenom modela na osnovu podataka prikupljenih i obra denih u kompaniji Qtagg AB dobija se realna slika posmatratog količnika koji kasnije analiziramo uz pomoć pretpostavki o raspodeli greške nastale pri prikupljanju podataka. Ova analiza se zasniva na izračunavanje intervala poverenja i upore divanje istih. Za ocenu parametara modela korišćena je regresiona analiza, dok je za računanje intervala poverenja korišćen bootstrap metod. Regresiona analiza je statistička tehnika koja se koristi za analizu podataka i za pronalaženje veze izme du dve ili više promenljivih. Iza regresione analize stoji elegantna matematika i statistička teorija. Može se koristiti u raznim oblastima, inženjerstvu, ekonomiji, biologiji, medicini itd. Knjiga Dougherty [4] sadrži dobre primere gde se regresija može upotrebiti i na koji način. Najpre je ukratko predstavljena prosta linearna regresija, za više informacija, dokaza, teorema i primera autor upućuje čitaoca da pogleda knjigu Weisberg [11]. U knjizi Dougherty [4] mogu se naći dobri primeri proste linearne regresije. Uopštenje proste linearne regresije je višestruka linearna regresija. Postoje brojni rezultati i literatura o višestrukoj regresiji, počevši od knjige Rencher and Schaalje [7] koju autor preporučuju čitaocu. Tako de, knjige kao što su Wasserman [10], Montgomery et al. [5], Seber and Lee [8], Casella and Berger [1] i Weisberg [11] sadrže rezultate koje treba pogledati. Pored proste linearne regresije i višestruke regresije, knjige Casella and Berger [1] i Weisberg [11] analiziraju i druge modele linearne regresije, kao i modele nelinearne regresije. Posmatrana je polinomna regresija kao specijalan slučaj višestruke regresije. Za bolje razumevanje polinomne regresije, autor upućuje čitaoaca na knjigu Wasserman [10], koja sadrži dovoljno informacija zašto i kada je polinomna regresija dobra, i zašto i kada nije. Pojam "neuskla denost", koji pominjemo u ovoj tezi, je dobro objašnjen i rešen u knjizi Wasserman [10]. 7

Odličan uvod u bootstrap metode i intervale poverenja dat je u knjigama Davis [2] i Davison and Hinkley [3]. Me dutim, u knjizi Van Der Vaart and Wellner [9] autori uvode bootstrap empirijski proces, koji je detaljno objašnjen u istoj. U knjizi Popović [6] čitalac može naći definicije koje autor koristi u ovoj master tezi, uključujući primere i detaljna objašnjenja. 8

Glava 1 Prosta linearna regresija 1.1 Model proste linearne regresije Regresija je metod pronalaska veze izme du dve promenljive X i Y. Promenljiva Y se naziva promenljiva odgovora ili zavisna promenljiva, dok je promenljiva X nezavisna promenljiva. Promenljivu X tako de nazivamo i prediktor (prediktorska promenljiva) ili regresor (regresorska promenljiva). U modelu proste linearne regresije postoji jedna nezavisna promenljiva, ali, kao što ćemo videti kasnije, moguće je imati i više nezavisnih promenljivih. Neka je dat skup podataka D = {(y i,x i )} N i=1. Za nalaženje veze izme du promenljivih Y i X treba oceniti regresionu funkciju r(x) = E(Y X = x) = y f (y x)dy. (1.1) Pretpostavimo da je r(x) linearna funkcija, tada je r(x) = θ 0 + θ 1 x, gde je x skalar (nije vektor). Pored regresione funkcije (funkcije srednje vrednosti), model proste linearne regresije se sastoji i od funcije Var(Y X = x) = σ 2 koja se naziva funkcija varijanse (funkcija disperzije). Za različite vrednosti parametara θ 0 i θ 1 u regresionoj funkciji dobijaju se različite prave. Parametri θ 0 i θ 1 su nepoznate veličine i treba ih oceniti koristeći skup podataka D. Kako je varijansa σ 2 pozitivna, u opštem slučaju, posmatrana vrednost neće biti identična očekivanoj vrednosti. Zbog toga, uzeći u obzir razliku tih vrednosti, posmatramo grešku ξ i = y i (θ 0 + θ 1 x i ) za svako i {1, 2,..., N}. Greške su slučajne promenljive. Model proste linearne regresije se može zapisati na sledeći način y i = θ 0 + θ 1 x i + ξ i, i = 1,2,...,N. (1.2) 9

Model se naziva prostim jer je uključena samo jedna nezavisna promenljiva pomoću koje se predvi da zavisna promenljiva, dok linearnost u imenu modela označava da je model (1.2) linearan po parametrima θ 0 i θ 1, tačnije, pretpostavku da je regresiona funkcija (1.1) linearna. S obzirom na to da su greške ξ i slučajne promenljive, y i su tako de slučajne promenljive. Kako bi model bio kompletan, potrebne su sledeće tri pretpostavke o greškama ξ i, i = 1,2,...,N. 1. E(ξ i x i ) = 0, za svako i = 1,2,...,N; 2. Var(ξ i x i ) = σ 2, za svako i = 1,2,...,N; 3. Cov(ξ i,ξ j x i ) = 0, za svako i j, i, j = 1,2,...,N. Na osnovu prve pretpostavke se može zaključiti da je model (1.2) dobro definisan, kao i da je E(y i x i ) = θ 0 + θ 1 x i, što zapravo ukazuje na to da y i zavisi samo od x i, dok su svi ostali uticaju slučajni (sadržani u grešci ξ i ). Druga pretpostavka implicira da je Var(y i x i ) = σ 2. Dakle, varijansa je konstantna i ne zavisi od vrednosti x i. Treća pretpostavka je ekvivalentna činjenici da je Cov(y i,y j x i ) = 0. Greške, kao i zavisne promenljive y i, su me dusobno nekorelisane. Koristeći poznati rezultat iz teorije verovatnoće, ukoliko pretpostavimo da su greške (samim tim i zavisne promenljive) normalno raspodeljene, nekorelisanost bi značila i nezavisnost slučajnih promenljivih. Ova dva pojma su ekvivalentna kada je u pitanju normalna raspodela. 1.2 Ocena parametara modela 1.2.1 Metod običnih najmanjih kvadrata Jedan od mnogih metoda za ocenu nepoznatih parametara θ 0 i θ 1 modela (1.2) je metod običnih najmanjih kvadrata (OLS - Ordinary Least Squares). Neka su ˆθ 0 i ˆθ 1 ocene parametara θ 0 i θ 1. Korišćeni termini su dati sa: regresiona prava predvi dene vrednosti ˆr(x) = ˆθ 0 + ˆθ 1 x, ŷ i = ˆr(x i ), 10

greške (reziduali) ˆξ i = y i ŷ i = y i ( ˆθ 0 + ˆθ 1 x i ), suma kvadrata grešaka ili rezidualna suma kvadrata (RSS - Residual Sums of Squares) RSS = N ˆξ i 2. (1.3) i=1 Minimiziranjem rezidualne sume kvadrata dobijaju se ocene ˆθ 0 i ˆθ 1. Ove ocene se nazivaju ocene najmanjih kvadrata. Funkcija koju treba minimizirati je RSS(θ 0,θ 1 ) = gde se, rešavajući sistem linearnih jednačina N i=1 (y i (θ 0 + θ 1 x i )) 2, (1.4) RSS(θ 0,θ 1 ) θ 0 = 0, RSS(θ 0,θ 1 ) θ 1 = 0, (1.5) dobijaju ˆθ 0 i ˆθ 1. Diferenciranjem, linearni sistem (1.5) postaje 2 2 N i=1 N i=1 iz koga ocene najmanjih kvadrata su ˆθ 0 = ȳ ˆθ 1 x, (y i ((θ 0 + θ 1 x i )) = 0, (y i ((θ 0 + θ 1 x i ))x i = 0, ˆθ 1 = N i=1 x iy i N xȳ N i=1 x2 i N x2 = N i=1 (x i x)(y i ȳ) N i=1 (x i x) 2 (1.6) gde se x i ȳ izračunavaju na osnovu sledećih izraza x = 1 N N i=1x i, ȳ = 1 N Kako funkcija (1.4) nema maksimum jer je kvadratna funkcija, date ocene minimiziraju posmatranu funkciju. N i=1 y i. 11

1.2.2 Osobine ocena običnih najmanjih kvadrata Za ocenu parametara θ 0 i θ 1, tri pretpostavke o greškama nisu korišćene. Čak i u slučaju da pretpostavka E(y i x i ) = 0 ne važi za svako i = 1,2,...,N, definisanjem funkcije ŷ i = ˆθ 0 + ˆθ 1 x i se mogu fitovati podaci D = {y i,x i } N i=1. Ocene ˆθ 0 i ˆθ 1 su tako de slučajne promenljive jer zavise od statističkih grešaka. Ako tri pretpostavke o grešci važe, koristeći Teoremu Gauss-Markov-a (teorema 1), može se dokazati da su ocene ˆθ 0 i ˆθ 1 nepristrasne i imaju najmanju varijansu me du svim linearnim nepristrasnim ocenama parametara θ 0 i θ 1, gde su varijanse ocena date sa E( ˆθ 0 X) = θ 0, E( ˆθ 1 X) = θ 1, σ Var( ˆθ 2 1 X) = N i=1 x2 i N, [ x2 ] Var( ˆθ 0 X) = σ 2 1 N + x 2 N i=1 (x i x) 2. (1.7) Kako θ 0 zavisi od θ 1, očigledno je da su ocene korelisane i važi Cov( ˆθ 0, ˆθ 1 X) = σ 2 x N i=1 (x i x) 2. Ocene ˆθ 0 i ˆθ 1 nazivamo najbolje linearne nepristrasne ocene (BLUE - the Best Linear Unbiased Estimates) 1.2.3 Ocene varijanse Metod običnih najmanjih kvadrata ne daje ocenu varijanse. Prirodno, ocena σ 2 se dobija kao prosečna vrednost kvadrata reziduala jer je [ ] σ 2 2. = E y i E(y i x i ) x i Iz druge pretpostavke se zaključuje da je σ 2 konstantna vrednost za svako y i,i = 1,2,...,N. Ocena za E(y i x i ) je ŷ i. Kako ocena σ 2 dobijena kao prosečna vrednost kvadrata reziduala nije nepristrasna, za dobijanje nepristrasne ocene ˆσ 2 varijanse σ 2, treba podeliti RSS (1.3) stepenom slobode (df - degrees of freedom), gde je stepen slobode reziduala jednak razlici broja podataka u skupu D (N) i broja parametara, koji je u ovom slučaju 2. Dakle, nepristrasna ocena varijanse je ˆσ 2 = RSS N 2. (1.8) 12

Za ocenu varijansi slučajnih promenljivih ˆθ 0 i ˆθ 1 potrebno je zameniti σ 2 sa ˆσ 2 u (1.7). Dakle, su ocene varijansi. ˆσ Var( ˆθ 2 1 X) = N i=1 x2 i [ N x2 ] Var( ˆθ 0 X) = ˆσ 2 1 N + x 2 N i=1 (x i x) 2. 1.3 Testiranje hipoteza, intervali poverenja i t-test Do sada, pretpostavka o raspodeli greške nije bila potrebna, već su svi zaključci doneti na osnovu tri pretpostavke. Neka je ξ i x i : N (0,σ 2 ), i = 1,2,...,N. Kako je svaki y i linearna kombinacija ovih grešaka, sledeće važi y i x i : N (θ 0 + θ 1 x i,σ 2 ), i = 1,2,...,N. Sada, uz pretpostavku o raspodeli, mogu se konstruisati intervali poverenja za parametre modela i testirati hipoteze. Testiranjem hipoteze o parametru θ 1 H 0 : θ 1 = 0, H 1 : θ 1 0, (1.9) se može utvrditi da li postoji linearna veza izme du X i Y. U opštem slučaju se može testirati hipoteza H 0 : θ 1 = c, H 1 : θ 1 c, (1.10) gde je c proizvoljna konstanta. Konsanta c se bira u zavisnosti od datog problema. Prilikom testiranja hipoteza (1.9) i (1.10) koriste se sledeće osobine: ( ) ˆθ 1 : N θ 1,σ 2 1 N i=1 (x, i x) 2 (N 2) ˆσ 2 1 σ 2 : χ 2 (N 2), ˆθ 1 i ˆσ 2 su nezavisne slučajne promenljive, gde je ˆσ 2 dato izrazom (1.8). 13

Test statistika koje se koristi za testiranje hipoteze (1.10) je ˆθ 1 c t =, (1.11) Var( ˆθ 1 X) gde je Var( ˆθ 1 X) ocena standardna devijacija. Test statistika data sa (1.11) ima studentovu raspodelu t(n 2,δ), gde je parametar pomeraja δ dat sa δ = E( ˆθ 1 X) Var( ˆθ 1 X) = θ 1 1 σ 1 N i=1 (x i x) 2. (1.12) Hipoteza (1.9) je specijalan slučaj hipoteze (1.10), što znači da je test statistika za (1.9) t = ˆθ 1 ˆσ 2, 1 N i=1 (x i x) 2 gde t ima studentovu raspodelu t(n 2), jer, iz (1.12), ako važi hipoteza H 0 : θ 1 = 0, onda je δ = 0. Za dvostranu alternativnu hipotezu datu sa (1.9), odbacujemo nultu hipotezu H 0 sa pragom značajnosti α kada je t t α 2,N 2, gde je t α 2,N 2 kvantil reda 1 α centrirane studentove raspodele. Termin značajnost testa ili p vrednost podrazumeva veličinu kritične oblasti čija je granica realizovana vrednost test statistike. U slučaju kada je p > α = p 2 > α 2 = t < t α 2,N 2, prihvata se nulta hipoteza H 0. U suprotnom, kada je p α, nulta hipoteza se odbacuje. Interval poverenja se dobija na osnovu verovatnoće P{ t t α 2,N 2} = 1 α. Koristeći odgovarajuće transformacije, dobija 100(1 α)% interval poverenja za θ 1 dat sa ˆθ 1 t α 2,N 2 ˆσ 2 1 θ 1 ˆθ 1 +t α N i=1 (x i x) 2 2,N 2 ˆσ 2 1. N i=1 (x i x) 2 1.4 Koeficijent determinacije Koeficijent determinacije se definiše na sledeći način R 2 = SS R SS T, 14

gde je SS R = N i=1 (ŷ i ȳ) 2 regresiona suma kvadrata (SS R - Sum of Square due to Regression) i SS T = N i=1 (y i ȳ) 2 totalna suma kvadrata (SS T - Total Sum of Squares). Može se pokazati da je totalna suma kvadrata, data formulom SS T = RSS + SS R, zapravo totalna količina varijanse sadržana u y i. Uzimajući ovo u obzir, važi da je 1 = SS T = RSS + SS R = RSS + R 2, SS T SS T SS T odakle možemo zaključiti da je R 2 udeo varijanse koji je objašnjen regresionim modelom. Kako je 0 RSS SS T, važi da je R 2 [0,1]. Kako je R 2 udeo varijanse koji je objašnjen regresionim modelom, može se zaključiti da je poželjno da vrednosti koeficijenta determinacije budu što bliže jedinici. Dodavanjem promenljivih modelu koeficijent se neće smanjiti, ali to nužno ne znači da će novi model biti značajno bolji. Neki kompjuterski paketi koriste prilago deni koeficijent determinacije (adjusted coefficient of determination) dat sa R 2 adj = 1 RSS/d f SS T /(N 1). 1.5 Ocene maksimalne verodostojnosti Dok za metod običnih najmanjih kvadrata nije potrebna pretpostavka o raspodeli greške za ocenu parametara, metod maksimalne verodostojnosti (MLE - the Maximum Likelihood Estimation) zahteva takvu pretpostavku. Neka je dat skup podataka D = {y i,x i } N i=1. Neka su greške u prostom modelu linearne regresije normalno raspodeljene ξ i x i : N (0,σ 2 ), i = 1,2,...,N. Tada važi da je y i x i : N (θ 0 + θ 1 x i,σ 2 ), i = 1,2,...,N. 15

Kako su parametri θ 0, θ 1 i σ 2 nepoznati, funkcija maksimalne verodostojnosti je data sa { } L(y i,x i ;θ 0,θ 1,σ 2 N ) = (2πσ 2 ) 1 2 exp 1 i=1 2σ 2 (y i θ 0 θ 1 x i ) 2 { } = (2πσ 2 ) N 2 exp 1 (1.13) N 2σ 2 (y i θ 0 θ 1 x i ) 2 Vrednosti ˆθ 0, ˆθ 1 i ˆσ 2 koje maksimiziraju funkciju (1.13) nazivaju se ocene maksimalne verodostojnosti. Maksimum funkcije (1.13) je isti maksimumu prirodnog logaritma te funkcije. Posmatramo lnl(y i,x i ;θ 0,θ 1,σ 2 ) = ln ((2πσ 2 ) N2 exp { 1 2σ 2 = N 2 ln(2π) N 2 lnσ2 1 2σ 2 i=1 N i=1 N i=1 (y i θ 0 θ 1 x i ) 2 }) (y i θ 0 θ 1 x i ) 2. Nalaženje maksimuma funkcije (1.14) se svodi na rešavanje sistema linearnih jednačina ili ekvivalentno lnl(θ 0,θ 1,σ 2 ) θ 0 = 0, lnl(θ 0,θ 1,σ 2 ) θ 1 = 0, lnl(θ 0,θ 1,σ 2 ) σ 2 = 0, (1.14) 1 σ 2 1 σ 2 N i=1 N i=1 N 2σ 2 + 1 2σ 4 (y i θ 0 θ 1 x i ) = 0, (y i θ 0 θ 1 x i )x i = 0, N i=1 (y i θ 0 θ 1 x i ) 2 = 0. (1.15) Rešenjem sistema (1.15) dobijaju se ocene maksimalne verodostojnosti ˆθ 0 = ȳ ˆθ 1 x, ˆθ 1 = N i=1 (x i x)(y i ȳ) N i=1 (x i x) 2, σ 2 = N i=1 (y i ˆθ 0 ˆθ 1 x 1 ) 2, N (1.16) 16

Očigledno su ocene maksimalne verodostojnosti identične ocenama dobijenim OLS metodom datim izrazom (1.6). Koristeći ocenu varijanse σ 2 može se dobiti nepristrasna ocenu parametra σ 2, ˆσ 2. Ocena σ 2 je asimptotski nepristrasna. Ocene maksimalne verodostojnosti su BLUE, imaju najmanju varijansu me du svim linearnim nepristrasnim ocenama. 17

Glava 2 Višestruka regresija U ovoj glavi, uopštićemo metode za ocenu parametara iz glave (1). Naime, želimo da predvidimo zavisnu promenljivu Y koristeći k N nezavisnih promenljivih X 1,X 2,...,X k. Dodavanjem nezavisnih promenljivih objašnjavamo delove promenljive Y koji nisu objašnjeni ostalim nezavisnim promenljivima. 2.1 Model višestruke regresije Pretpostavimo da je regresiona funkcija r(x) (1.1) linearna funkcija, tada je r(x) = E(Y X = x) = θ 0 + θ 1 x 1 + θ 2 x 2 +... + θ k x k gde je x vektor x = (x 1,x 2,...,x k ). Model višestruke regresije se može zapisati kao y = θ 0 + θ 1 x 1 + θ 2 x 2 +... + θ k x k + ξ. Pretpostavimo da parametre θ 0,θ 1,...,θ k treba oceniti na osnovu skupa podataka D = {y i,x i } N i=1 gde je x i vektor, x i = (x i1,x i2,...,x ik ), k N, k je broj nezavisnih promenljivih, i = 1,2,...,N. Model i te opservacije se može zapisati na sledeći način y i = θ 0 + θ 1 x i1 + θ 2 x i2 +... + θ k x ik + ξ i, i = 1,2,...,N. (2.1) Kada kažemo da je model linearan, podrazumevamo linearnost po parametrima. Postoji veliki broj primera linearnih modela koji nisu linearani po x i j ovima, ali su linearani po parametrima θ i. Za k = 1 dobija se model proste linearne regresije, iz čega možemo zaključiti da tri pretpostavke iz prve glave važe i u slučaju višestruke regresije tj. 1. E(ξ i x i ) = 0, za svako i = 1,2,...,N; 18

2. Var(ξ i x i ) = σ 2, za svako i = 1,2,...,N; 3. Cov(ξ i,ξ j x i,x j ) = 0, za svako i j, i, j = 1,2,...,N. Interpretacija ovih pretpostavki je slična datoj interpretaciji u prvoj glavi. Za k = 2, funkcija srednje vrednosti E(Y X) = θ 0 + θ 1 X 1 + θ 2 X 2 je ravan u trodimenzionalnom prostoru. U opštem slučaju, funkcija srednje vrednosti će predstavljati hiper ravan u k + 1 dimenzionalnom prostoru. Nije moguće zamisliti ili nacrtati k dimenzionalnu ravan za k > 2. Primetimo da je data funkcija srednje vrednosti uslovna u odnosu na sve vrednosti nezavisnih promenljivih. Za lakšu interpretaciju rezultata, model (2.1) treba zapisati u matričnoj formi. Kako je (2.1) zapravo y 1 = θ 0 + θ 1 x 11 + θ 1 x 12 +... + θ k x 1k + ξ 1, y 2 = θ 0 + θ 1 x 21 + θ 1 x 22 +... + θ k x 2k + ξ 2,. y N = θ 0 + θ 1 x N1 + θ 1 x N2 +... + θ k x Nk + ξ N, može se lako uočiti da model višestruke regresije postaje y 1 1 x 11 x 12 x 13... x 1k θ 0 ξ 1 y 2. = 1 x 21 x 22 x 23... x 2k θ 1......... + ξ 2.. y N 1 x N1 x N2 x N3... x Nk ξ N Koristeći oznake y 1 1 x 11 x 12 x 13... x 1k θ 0 ξ 1 y 2 y =., X = 1 x 21 x 22 x 23... x 2k........, θ = θ 1., ξ = ξ 2., (2.2) y N 1 x N1 x N2 x N3... x Nk ξ N dobija se model y = Xθ + ξ. Koristeći matrični oblik, tri pretpostavke su date sa 1. E(ξ X) = 0; 2. Cov(ξ X) = σ 2 I; 3. Var(ξ i x i ) = σ 2, za svako i {1,2,...,N. θ k θ k 19

Kako je važi da je Cov(ξ X) = σ 2 I, Cov(ξ i,ξ j x i,x j ) = 0. Matrica X je dimenzije N (k +1). Zahtevamo da X bude matrica punog ranga, što znači da N mora biti veće od broja kolona (k + 1). U suprotnom, može se desiti da jedna od kolona bude linearna kombinacija ostalih. Kroz ovu glavu, pretpostavljamo da je N veće od k + 1 i da je rang matrice X zapravo k + 1, rank(x) = k + 1. Parametri θ se nazivaju regresioni koeficijenti. 2.2 Ocena parametara modela Cilj je oceniti nepoznate parametre θ and σ 2 na osnovu podataka D. U zavisnosti da li je raspodele greške poznata, mogu se koristiti različite metodi za ocenu parametara. 2.2.1 Metod običnih najmanjih kvadrata Metod koji ne zahteva pretpostavku o raspodeli greške modela je metod običnih najmanjih kvadrata. Predvi dene vrednosti su date sa ŷ i = ˆθ 0 + ˆθ 1 x i1 + ˆθ 2 x i2 +... + ˆθ k x ik, i = 1,2,...N. Kako bismo dobili OLS ocene parametara θ, potrebno je naći parametre koji minimiziraju sumu kvadrata ˆθ 0, ˆθ 1, ˆθ 2,..., ˆθ k N ˆξ i 2 = i=1 = N i=1 N i=1 (y i ŷ i ) 2 (y i ( ˆθ 0 + ˆθ 1 x i1 + ˆθ 2 x i2 +... + ˆθ k x ik )) 2. (2.3) Jedan način minimizacije date sume kvadrata je korišćenje parcijalnih izvoda po svim ˆθ j, j = 0,1,...,k. Izjednačavajući parcijalne izvode za nulom i rešavajući sistem od k + 1 jednačine, dobijamo ocene parametara. Razlog zašto smo napisali model u matričnoj formi, pored ostalih razloga, je uprošćavanje procesa nalaženja ocena. Zbog pretpostavke rank(x) = k + 1 < N, važiće naredni rezultati. Izraz (2.3) se može zapisati u matričnoj formi kao ˆξ ˆξ = N i=1 (y i x i ˆθ) 2 20

gde su Funkcija (2.3) koju treba minimizirati je ξˆ 1 ˆθ 0 1 ˆ ξ 2 ˆξ =., ˆθ 1 ˆθ =., x x i1 i =.. ξˆ N ˆθ k x ik N ˆξ i 2 = ˆξ ˆξ = i=1 N i=1 (y i x i ˆθ) 2 = (y X ˆθ) (y X ˆθ) = y y (X ˆθ) y y X ˆθ + (X ˆθ) X ˆθ = y y 2y X ˆθ + ˆθ X X ˆθ. Ocene se dobijaju korišćenjem matričnog računa. Diferenciranjem ˆξ ˆξ po ˆθ i izjednačavanjem rezultata sa nulom, dobijamo 0 2Xy + 2X X ˆθ = 0, iz čega dobijamo Kako je X X ˆθ = X y. rank(x) = k + 1, matrica X X je pozitivno-definitna matrica, pa je i nesingularna, dakle postoji inverz matrice (X X) 1. Resenje postaje ˆθ = (X X) 1 X y. (2.4) Proveravajući da li je hesijan matrice ˆξ ˆξ pozitivno-definitna matrica, znaćemo da li je ˆθ minimum. Hesijan je matrica 2X X koja je pozitivno-definitna matrica zbog pretpostavke o rangu matrice. Dakle, ˆθ je minimum funkcije. Kako ˆθ minimizira sumu kvadrata, naziva se ocenom običnih najmanjih kvadrata. 2.2.2 Osobine ocena običnih najmanjih kvadrata Ocene običnih najmanjih kvadrata se mogu dobiti i bez tri pretpostavke, ali bez njih nije moguće izvesti osobine ocena. Pretpostavimo da je E(y X) = Xθ. Sledeće važi E( ˆθ X) = E((X X) 1 X y X) = (X X) 1 X E(y X) = (X X) 1 X Xθ = θ, (2.5) 21

što znači da je ˆθ nepristrasna ocena parametra θ. Iz pretpostavke Cov(ξ X) = σ 2 I možemo izračunati kovarijansnu matricu ocene ˆθ, Cov( ˆθ X) = Cov((X X) 1 X y X) = (X X) 1 X Cov(y X)((X X) 1 X ) = (X X) 1 X σ 2 IX(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1. (2.6) Koristeći ove dve osobine, možemo dokaziti jednu od najvažnijih teorema, poznatu kao Teorema Gauss-Markova. Teorema 1. (Teorema Gauss-Markova) Ako važe pretpostavke 1. y = Xθ + ξ ; 2. E(ξ X) = 0; 3. Cov(ξ X) = σ 2 I; 4. rank(x) = k + 1, tada je ocena najmanjih kvadrata data sa (2.4) najbolja nepristrasna ocena me du svim linearnim ocenama (BLUE). Najbolja u smislu da je varijansna ocene najmanja me du svim nepristrasnim ocenama. Dokaz. Linearnost ocene se može uočiti posmatranjem izraza (2.4). Dokaz da je ocena nepristrasna je dat sa (2.5). Ostaje da pokažemo da je varijansa σ 2 (X X) 1 ocene najmanjih kvadrata najmanja me du svim nepristrasnim ocenama. Neka je ˆβ = B 1 y proizvoljna linearna i nepristrasna ocena parametra θ. Bez gubljenja opštosti, postoji ne-nula matrica B za koju je B 1 = (X X) 1 X + B. Pored linearnosti, važi da je ˆβ nepristrasna ocena parametra kao i da je E( ˆβ X) = θ, E( ˆβ X) = E(B 1 y X) = B 1 E(y X) = ((X X) 1 X + B)E(Xθ + ξ X) = ((X X) 1 X + B)Xθ = (X X) 1 X Xθ + BXθ = (I + BX)θ, 22

iz čega možemo zaključiti da je BX = 0. Kako je ocena ˆβ bila proizvoljna linearna i nepristrasna, treba još pokazati da je varijansa veća ili jednaka varijansi OLS ocene. Ukoliko dokažemo da je Cov( ˆβ X) Cov( ˆθ X), to će značiti da su varijasne ocena ˆθ i najmanje me du varijansama svih linearnih ocena jer se na dijagonali matrice nalaze same varijasne ocena. Oznaka znači da je matrica pozitivno semi-definitna. Sledeće važi Cov( ˆβ X) Cov( ˆθ X) Cov( ˆβ X) = Cov(B 1 y X) = B 1 Cov(y X)B 1 = σ 2 B 1 B 1 = σ 2 ((X X) 1 X + B)((X X) 1 X + B) gde smo koristili da je Iz (2.6), imamo da je na osnovu čega je = σ 2 ((X X) 1 X X(X X) 1 + (X X) 1 X B + BX(X X) 1 + BB ) = σ 2 ((X X) 1 + BB ), BX = 0, X B = 0. Cov( ˆθ X) = σ 2 (X X) 1, Cov( ˆβ X) Cov( ˆθ X) = BB 0. Matrica je pozitivno definitna zbog pretpostavke da je B ne-nula matrica. Dakle, uz objašnjenje koje je dato na početku, ocena OLS je BLUE. 2.2.3 Ocene varijanse Kako su prema pretpostavci varijanse konstantne za svako i = 1,2,...,N, važi da je kao i da je Var(y i x i ) = σ 2 = E(y i E(y i x i ) x i ) 2, E(y i x i ) = x iθ. Prirodno, na osnovu podataka D = {y i,x i } N i=1 ocena varijanse je data sa ˆσ 2 = 1 N k 1 N i=1 (y i x i ˆθ) 2, 23

ili u matričnoj formi gde je ˆσ 2 = RSS N k 1, (2.7) RSS = (y X ˆθ) (y X ˆθ), suma kvadrata grešaka. Statistika (2.7) je nepristrasna ocena parametara σ 2, to jest važi da je E( ˆσ 2 X) = σ 2. Koristeći (2.6) i (2.7), nepristrasna ocena kovarijanse Cov( ˆθ) je Ocena varijanse kod koje je Ĉov(θ) = ˆσ 2 (X X) 1. E(ξ 4 i x i ) = 3σ 4 ima najmanju varijansu me du svim kvadratnim nepristrasnim ocenama, što može biti dokazano. Za dokaz pogledati Teoremu 7.3g. u Rencher and Schaalje [7]. 2.3 Ocene maksimalne verodostojnosti Za dobijanje ocena maksimalne verodostojnosti (MLE) potrena je pretpostavka o raspodeli greške. Neka je ξ normalno raspodeljena ξ : N N (0,σ 2 I), gde N N označava N dimenzionalnu normalnu raspodelu. Na osnovu kovarijansne matrice σ 2 I, važi da su greške nekorelisane, što zajedno sa pretpostavkom o normalnosti znači da su greške i nezavisne. Slučajna promenljiva y je normalno raspodeljena sa očekivanjem Xθ i kovarijansnom matri-com σ 2 I, što implicira da je zajednička gustina, koju označavamo sa ϕ(y;x,θ,σ 2 ), data sa ϕ(y,x;θ,σ 2 ) = N i=1 ϕ(y i ;x i,θ,σ 2 ), jer su slučajne promenljive y i nezavisne. Ekvivalentno, koristeći definiciju gustine višedimenzionalne normalne raspodele, zajedničku gustinu možemo zapisati kao ( ϕ(y,x;θ,σ 2 ) = (2π) N 2 σ 2 I 1 2 exp 1 ) 2 (y Xθ) (σ 2 I) 1 (y Xθ). Kada su y i X poznate veličine, zajednička gustina se tretira kao funkcija parametara θ i σ 2 i u tom slučaju je nazivamo funkcija verodostojnosti i označavamo je sa ( L(y,X;θ,σ 2 ) = (2π) N 2 σ 2 I 1 2 exp 1 ) 2 (y Xθ) (σ 2 I) 1 (y Xθ). (2.8) 24

Maksimizirajući funkciju (2.8) za date vrednosti y i X dobijamo ocene maksimalne verodostojnosti θ i σ 2. Kako bismo lakse maksimizirali funkciju (2.8), maksimiziraćemo njen prirodni logaritam i time ćemo dobiti iste ocene. Logaritmovanjem funkcije verodostojosti dobijamo lnl(y,x;θ,σ 2 ) = N 2 ln(2π) N 2 lnσ2 1 2σ 2 (y Xθ) (y Xθ). (2.9) Pronalaženjem gradijenta funkcije lnl(y,x;θ,σ 2 ) i izjednačavanjem sa nula matricom 0, dobijaju se ocene maksimalne verodostojnosti ˆθ, date sa ˆθ = (X X) 1 X y koje su identične ocenama dobijenim metodom najmanjih kvadrata. Ocena varijanse σ 2, koju dobijamo na isti način, je Nepristrasna ocena varijanse je ˆσ 2 = ˆσ 2 b = 1 N (y X ˆθ) (y X ˆθ). 1 N k 1 (y X ˆθ) (y X ˆθ). Za proveru da li je dobijena ocena ˆθ maksimum funkcije (2.9), potrebno je pronaći hesijan matricu funkcije (2.9) i dokazati da je ona negativno definitna matrica. Kako je hesijan 2 x lnl(y,x;θ,σ 2 ) = X X, pod pretpostavkom sa početka odeljka o rangu matrice X, rank(x) = k + 1, važi da je što dokazuje naše tvr denje. X X 0, 2.3.1 Osobine ocena maksimalne verodostojnosti Ako su greške normalno raspodeljene, tada važe sledeće osobine: ˆθ : N k+1 (θ,σ 2 (X X) 1 ); (N k 1) ˆσ 2 /σ 2 : χ 2 (N k 1); ˆθ i ˆσ 2 su nezavisne; ˆθ i ˆσ 2 are zajednički dovoljne statistike za θ i σ 2 ; Ocene ˆθ i ˆσ 2 imaju najmanju varijansu me du svim nepristrasnim ocenama. Dokazi ovih osobina se mogu naći u navedenoj literaturi. 25

2.4 Polinomna regresija Model polinomne regresije se može posmatrati kao specijalni slučaj modela višestruke regresije. U ovoj glavi je model polinomne regresije ukratko opisan. Više o ovom tipu regresije se može naći u knjizi Seber and Lee [8], kao i u Weisberg [11]. Ukoliko se u modelu (2.1) zamene vrednosti x i j vrednostima x j i za svako j = 1,2,...,k, k N 1, to jest ako je x i j = x j i, j = 1,2,...,k, k N 1, dobija se model polinomne regresije k tog stepena ili (k + 1) reda y i = θ 0 + θ 1 x i + θ 2 x 2 i +... + θ k x k i + ξ i, i = 1,2,...,N. (2.10) Motivacija za uvo denje ovakvog modela proističe iz Vajerštrasove teoreme o aproksimaciji (Davis [2]), koja tvrdi da se svaka neprekidna funkcija na konačnom intervalu može uniformno aproksimirati polinomnom funkcijom. Iako ovo izgleda kao odlično rešenje, bolja aproksimacija zahteva veći stepen polinoma, što implicira da je potrebno oceniti veći broj parametara. Teoretski, k može ići do N 1, ali, kada je k 6, matrica X X postaje skoro singularna, što može predstavljati veliki problem. Matrica X u slučaju polinomne regresije je 1 x 1 x1 2 x1 3... x k 1 1 x 2 x2 2 x2 3... x k 2 X =........, (2.11) 1 x N xn 2 x3 N... xk N dok su matrice y, θ, i ξ identične analognim matricama višestruke regresije. Model (2.10) se može zapisati kao y = Xθ + ξ. (2.12) Iako je problem ocene nepoznatih parametara u polinomnoj regresiji sličan problemu ocene nepoznatih parametara višestruke regresije, polinomna regresija ima posebne karakteristike. Model (2.10) je model polinomne regresije k tog reda jedne promenljive. Kada je k = 2, model se naziva kvadratnim modelom, za k = 3 model se naziva kubni i tako dalje. Model može sadržati dve ili više promenljivih, na primer, polinomni model drugog reda je dat sa y = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 11 x 2 1 + θ 22 x 2 2 + θ 12 x 1 x 2 + ξ, što je model površi drugog reda. Za rešavanje problema kojim se bavi ovaj rad, proučen je samo model polinomne regresije jedne promenljive. Kod polinomne regresije je potrebno da red modela bude što manji. Fitovanjem polinoma višeg reda u većini slučajeva dobijamo "overfitovani" model, što znači da takav model neće biti dobar prediktor ili neće biti od pomoći prilikom razumevanja nepoznate funkcije. Povećavanjem reda polinoma u modelu polinomne regresije, matrica X X postaje skoro singularna. Ovo implicira da ocenjeni parametri nisu pouzdani, jer inverz (X X) 1 nije precizno odre den. 26

2.4.1 Ortogonalni polinomi Pre nastanka računara, ljudi su računali stepene brojeva x 0,x 1,...x k ručno, što je predstavljalo veliki problem. Za fitovanje modela polinomne regresije ovo izračunavanje je neophodno. Pretpostavimo da smo fitovali model proste linearne regresije koristeći skup podataka D. Cilj je povećati stepen polinoma u modelu, ali da se pritom koriste ocenjeni parametri prethodnog modela nižeg stepena. Dakle, potrebno je kreirati situaciju kod koje dodavanje jednog člana može samo poboljšati model. Ovo se postiže koristeći sistem ortogonalnih polinoma. Kako je danas uz pomoć računara moguće izračunati stepene veoma brzo, ovaj metod se manje koristi. Sistem ortogonalnih polinoma se matematički može dobiti koristeći Gram-Šmit ov metod. Ortogonalni polinom stepena k je k ti ortogonalni polinom. Kod modela polinomne regresije, problem kada je matrica (X X) 1 skoro singularna, kao i narušena pretpostavka da su sve prediktorske promenljive nezavisne, se može rešiti korišćenjem ortogonalnih polinoma. Postoje neprekidni ortogonalni polinomi kao i diskretni ortogonalni polinomi. Neprekidni ortogonalni polinomi su klasični ortogonalni polinomi kao što su Hermitski, Jakobijevi i Lagureovi polinomi. Za dati problem u tezi su korisni ortogonalni polinomi kod kojih se javljaju sume. Kolone matrice X modela (2.12) nisu ortogonalne. Dakle, dodavajući član θ k+1 xi k+1, matrica (X X) 1 će se promeniti (ponovno izračunavanje je potrebno). Tako de se menjaju i parametri ˆθ i, i = 0,1,...,k. Umesto toga, posmatra se model y i = θ 0 P 0 (x i ) + θ 1 P 1 (x i ) + θ 2 P 2 (x i ) +... + θ k P k (x i ) + ξ i, i = 1,2,...,N, (2.13) gde su P j (x i ) ortogonalni polinomi, P j (x i ) je polinom j tog reda za j = 0,1,...,k, kao i P 0 (x i ) = 1. Iz ortogonalnosti imamo da je N i=1 P m (x i )P n (x i ) = 0, Model (2.13) možemo zapisati u matričnoj formi m n, m,n = 0,1,...,k. y = Xθ + ξ. Uzeći ovo u obzir, matrica X postaje P 0 (x 1 ) P 1 (x 1 ) P 2 (x 1 )... P k (x 1 ) P 0 (x 2 ) P 1 (x 2 ) P 2 (x 2 )... P k (x 2 ) X =......., P 0 (x N ) P 1 (x N ) P 2 (x N )... P k (x N ) gde zbog ortogonalnosti važi da je N i=1 P2 0 (x i) 0 0... 0 X 0 N i=1 X = P2 1 (x i) 0... 0........ 0 0 0... N i=1 P2 k (x i) 27

Kako važi da je ˆθ = (X X) 1 X y, ocene običnih najmanjih kvadrata su date sa ˆθ j = N i=1 P j(x i )y i N i=1 P2 j (x i), j = 0,1,2,...,k. Uzimajući u obzir da je varijansa data izrazom (2.6), važi da je Lako je uočiti da je Var( ˆθ j x j ) = σ 2 N i=1 P2 j (x i). ˆθ 0 = N i=1 P 0(x i )y i N i=1 P2 0 (x i) = N i=1 y i = ȳ. N Dodavanjem člana θ k+1 P k+1 (x i ) modelu (2.13), ocena parametra θ k+1 je data sa ˆθ k+1 = N i=1 P k+1(x i )y i N i=1 P2 k+1 (x i). Za dobijanje ocene novog parametra modela nije potrebno promeniti ni jedan prethodno ocenjen parametar modela, već se koristi samo dodati član. Zbog ortogonalnosti, nema potrebe ponovo izračunavati inverz (X X) 1 niti bilo koje druge ocene. Na ovaj način se lako fituje model polinomne regresije višeg reda. Proces se zaustavlja kada se prona de optimalan model za potrebe rešavanja datog problema. 28

Glava 3 Bootstrap metod 3.1 Uvod Neka je x 1,x 2,...,x N homogen uzorak, koji može biti posmatran kao realizacija nezavisnih i identično raspodeljenih (independent and identically distributed - (i.i.d.)) slučajnih promenljivih X 1,X 2,...,X N, sa gustinom f (Probability Density Function - (PDF)) i funkcijom raspodele F (Cumulative Distribution Function (CDF)). Koristeći uzorak, možemo izvesti zaključke o parametru θ (karakteristika obeležja X). Kako bismo to učinili, potrebna nam je statistika S. Pretpostavljamo da smo već izabrali statistiku S i da je ona ocena parametra θ (koji je skalar). Za naše analize potreban nam je interval poverenja za parametar θ, pa je glavni cilj ove glave da, koristeći PDF statistike S, dobijemo traženi interval. Uopšteno, možemo biti zainteresovani i za pristrasnost, standardnu grešku ili kvartile. Za rešavanje problema razmatranog u ovoj tezi, potrebni su neparametarski metodi. Pored neparametarskih metoda postoje i parametarski metodi. Statistički metodi kod kojih raspodela modela značajno zavisi od raspodele obeležja (PDF f ) naziva se parametarski metod, dok model nazivamo parametarski model. U ovom slučaju, parametar θ je funkcija parametra τ, gde parametar τ u potpunosti odre duje gustinu f. Statistički metodi kod kojih raspodela modela ne zavisi od raspodele nazivamo neparametarski metodi, a modele neparametarski modeli. Za neparametarsku analizu, empirijska funkcija raspodele je veoma bitna. Empirijska raspodela svakom elementu uzorka x i, i = 1,2,...,N dodaje jednake verovatnoće 1 N. Empirijska funkcija raspodele (Empirical Distribution Function - EDF) ˆF kao ocena CDF F je data sa ˆF(x) = Funkciju ˆF možemo zapisati i kao broj elemenata u uzorku x. N ˆF(x) = 1 N N i=1 gde je I Ai indikator doga daja A i i A i = {ω X i (ω) x}. I Ai (3.1) 29

Zbog značaja empirijske funkcije raspodele definisaćemo je formalno. Neka je ν(x) funkcija ν(x) = { j : X j x, j = 1,2,...,N}, x R. Oznaka predstavlja kardinalnost skupa. Koristeći ovu funkciju, možemo definisati empirijsku funkciju raspodele kao Slučajna promenljiva ˆF(x) je statistika sa vrednostima u skupu ˆF(x) = ν(x) N, x R. (3.2) { 0, 1 N, 2 N,..., N 1 N,1 }. Raspodela ove slučajne promenljive će biti ( P ˆF(x) = k ) = P(ν(x) = k) = N ( ) N F(x) k (1 F(x)) N k, k k = 0,1,2,...,N, gde je F CDF, što znači da ˆF(x) ima binomnu raspodelu sa parametrima p i N, gde je p = P(X x) = F(x), x R. Uzimajući u obzir činjenicu da je E(I Ai ) = F(x), može se dokazati da za x R, skoro izvesno ili ˆF n F P( ˆF n F) = 1. U dokazu ovog tvr denja se koristi Borelov zakon velikih brojeva. 3.1.1 Statistike Veliki broj statistika se može predstaviti kao osobina empirijske funkcije raspodele. Na primer, uzoračka sredina x = 1 N N x i i=1 je očekivanje empirijske funkcije raspodele. Uopšteno, statistika s je funkcija podataka x 1,x 2,...,x N i raspored podataka ne utiče na vrednost statistike, što implicira da će statistika s zavisiti od EDF ˆF. Statistika s može biti predstavljena kao funkcija od ˆF, s = s( ˆF). Statistička funkcija s( ) može biti shvaćena kao način izračunavanja statistike s koristeći funkciju ˆF. Ova 30

funkcija je korisna u neparametarskom slučaju jer je parametar θ odre den funkcijom s(f) = θ. Očekivanje i varijasna se mogu posmatrati kao statističke funkcije s(f) = xdf(x) ( 2. s(f) = x 2 df(x) xdf(x)) Kod parametarskih metoda se definiše θ kao funkcija parametra τ. Oznaka S = s( ) se koristi kao funkcija, dok oznaka s označava ocenu parametra θ dobijenu na osnovu podataka x 1,x 2,...,x N. Ocena se može predstaviti kao s = s( ˆF), što predstavlja vezu izme du parametra θ i CDF F. Kako iz definicije (3.1) važi da ˆF n F skoro izvesno, i kako je s( ) neprekidna, važi da S konvergira skoro izvesno ka θ kada n, dakle statistika S je strogo postojana ocena za parametar θ. Kako primena bootstrap metoda ne zahteva preveliku formalost, nije potrebna detaljnija analiza. Neka je u nastavku S = s( ˆF). 3.2 Bootstrap ocene Nalaženje raspodele statistike S je od ključnog značaja prilikom donošenja zaključaka o oceni parametra θ. Na primer, za dobijanje 100(1 2α)% intervala poverenja za parametar θ, može se pokazati da statistika S ima približno normalnu raspodelu sa očekivanjem θ + β i standardnom devijacijom σ, gde je β pristrasnost statistike S. Neka su pristrasnost i varijansa poznati, tada je gde je funkcija Φ ( s (θ + β) ) P(S s F) Φ. σ Φ(z) = 1 2π z e t2 2 dt, z R Ukoliko je α kvantil standardne normalne raspodele dat sa z α = Φ 1 (α), tada je 100(1 2α)% interval poverenja za θ s β σ z 1 α θ s β σ z α (3.3) koji je dobijen iz ) P (β + σ z α S θ β + σ z 1 α 1 2α. 31

Retko kada će pristrasnost i varijansa biti poznati. Zbog toga ih treba oceniti. Neka su β i σ dati sa β = b(f) = E(S F) s(f), σ 2 = v(f) = Var(S F), gde S F označava da su slučajne promenljive X 1,X 2,...,X N, iz kojih izračunavamo S, nezavisno i identično raspodeljene sa funkcijom raspodele F. Neka je ˆF ocena funkcije F, tada je ocena za β i σ data sa B = b( ˆF) = E(S ˆF) s( ˆF), V = v( ˆF) = Var(S ˆF). (3.4) Ove ocene se nazivaju bootstrap ocene. 3.3 Parametarska simulacija Bootstrap metod se sastoji od dva koraka, najpre ocena parametara, a zatim aproksimacija istih, koristeći simulaciju. Ovo radimo jer često nije moguće jednostavno izraziti formulu za izračunavanje ocene parametara. Praktična alternativa je ponovno uzimanje uzorka, koje vršimo koristeći podatake dobijene iz fitovanog parametarskog modela, a zatim računanje osobina statistike S koje su nam potrebne. Postoje razni metodi za ponovno uzimanje uzorka. Neka su F τ i f τ, redom, funckija raspodele i gustina posmatranog obeležja. Neka je x 1,x 2,...,x N skup podataka i neka nam je poznat parametar raspodele modela. Neka je ˆF(x) = Fˆτ (x) funkcija raspodele fitovanog modela koju dobijamo kada ocenimo τ (obično) metodom maksimalne verodostojnosti sa ˆτ. Neka je X slučajna promenljiva sa raspodelom ˆF. 3.3.1 Aproksimacija Kada je izračunavanje vrednosti statistike previše komplikovano, alternativa je simulacija skupa podataka, ponovno uzimanje uzorka, i ocena osobina korišćenjem istih. Neka je X1,..., XN i.i.d. uzorak sa raspodelom ˆF. Označimo sa S vrednost statistike dobijene iz simuliranog skupa podataka. Ponavljajući proces R puta, dobijamo R vrednosti S1,S 2,...,S R. Ocena pristrasnosti postaje B = b( ˆF) = E(S ˆF) s = E (S ) s, dok ovaj izraz ocenjujemo sa B R = 1 R R Sr s = S s. r=1 32

Ovde, s je vrednost parametra modela, dakle izraz S s je analogan izrazu S θ. Slično, ocena varijanse za S je V R = 1 R 1 R r=1 (S r S ) 2. Kako se R povećava, na osnovu zakona velikih brojeva, B R skoro izvesno konvergira ka B (ka pravoj vrednosti fitovanog modela), tako de, V R skoro izvesno konvergira ka V. 3.4 Neparametarska simulacija Neka su X 1,X 2,...,X N zavisne promenljive, kao i da je njihova raspodela F nepoznata. Koristeći empirijsku funkciju raspodele ˆF, ocenjujemo funkciju raspodele F, i koristimo ˆF na isti način kao u parametarskom modelu. Najpre utvrdimo da li možemo izračunati vrednost statistike korišćenjem jednostavne formule, ukoliko ne, onda simuliramo skup podataka, ponovo uzimamo uzorke i aproksimiramo. Simulacija koristeći empirijsku funkciju raspodele je bazirana na činjenici da ona dodeljuje jednake verovatnoće svim vrednostima skupa podataka x 1,x 2,...,x N. Dakle, svaki simulirani uzorak X 1,X 2,...,X N je uzet potpuno slučajno. Ovaj metod ponovnog uzimanja uzorka se naziva neparametarski bootstrap. 3.5 Intervali poverenja Raspodela statistike S se može koristiti za izračunavanje intervala poverenja. Naš glavni cilj za uvo denje bootstrap metoda je nalaženje intervala poverenja. Postoje nekoliko načina korišćenja bootstrap simulacije za njihovo dobijanje. U ovoj sekciji su opisana dva metoda. Možemo aproksimirati raspodelu statistike S normalnom raspodelom. Ovo znači da je potrebno oceniti granice (3.3) koristeći bootstrap ocene pristrasnosti i varijanse. Koristeći bootstrap metod, možemo oceniti kvantile za S θ sa s (R+1)p s, gde pretpostavljamo da je (R + 1)p ceo broj, pa je p kvantili od S θ, zapravo, (R + 1)p ti element varijacionog niza s s, to jest s (R+1)p s. Imamo da je 100(1 2α)% interval poverenja koji dobijamo iz 2s s (R+1)(1 α) θ 2s s (R+1)α (3.5) P(a S θ b) = 1 2α = P(S b θ S a) = 1 2α. Interval (3.5) nazivamo osnovni bootstrap interval poverenja. Za veće R dobijamo i tačniji interval poverenja. Često se bira da je R > 1000, ali tačnost intervala zavisi od velikog broja faktora. 33

Kada raspodela razlike S θ zavisi od nepoznatih parametara, definišemo studentovu verziju statistike S θ sa Z = S θ V gde je V ocena za Var(S F). Ovim eliminišemo nepoznatu standardnu devijaciju prilikom donošenju zaključaka o očekivanju. Studentov t 100(1 2α)% interval poverenja za očekivanje je x ˆσ t N 1 (1 α) θ x ˆσ t N 1 (α), gde je ˆσ ocenjena standardna devijacija očekivanja, i t N (α) je kvantil studentove t raspodele sa N stepeni slobode. Dakle, 100(1 2α)% interval poverenja za θ je dat sa s ˆσ z 1 α θ s ˆσ z α gde je z p p kvantil raspodele Z. Za ocenu kvantila raspodele Z se koristi kopija studentizovane bootstrap statistike Z = S s V, čije vrednosti dobijamo iz ponovljenih uzoraka X1,X 2,...,X N. Ako se koriste simulirane vrednosti z 1,z 2,...z R za ocenu z α, tada dobijamo studentizovan bootstrap interval poverenja za θ s ˆσ z (R+1)(1 α) θ s ˆσ z (R+1)α. (3.6) U simulaciji našeg problema koristimo studentizovani bootstrap metod za dobijanje intervala poverenja. 34

Glava 4 Simulacija i evaluacija U ovoj glavi je simuliran problem iz stvarnog života koristeći podatke kreirane u programskom jeziku MatLab. Cilj je da ocenimo dva modela i testiramo njihov količnik. Kako bismo to i učinili, pretpostavimo da znamo pravu vezu izme du promenljivih koje posmatramo da znamo prave modele. Pri prikupljanju podataka, pomoću kojih ocenjujemo modele, dolazi do odre denih grešaka pri merenju (prikupljanju podataka) zbog različitih razloga. Zbog toga, pretpostavljamo da znamo prave podatke (bez grešaka pri merenju) i same greške. Uz pomoć ovih pretpostavki, želimo da vidimo kako pretpostavke o raspodeli greške nastale pri merenju utiču da količnik dva modela. 4.1 Matematički opis problema Neka su D 1 = {ỹ i1, x i1 } N 1 i=1 i D 2 = {ỹ j2, x j2 } N 2 j=1 dva skupa podataka. Pretpostavimo da su nam podaci x i1, x j2, ỹ i1 i ỹ j2 dati, kao i da postoji greška pri merenju, to jest greška nastala pri prikupljanju podataka. To se može zapisati kao x i1 = x i1 + ξ i1, i = 1,2,...,N 1, x j2 = x j2 + ξ j2, j = 1,2,...,N 2, ỹ i1 = y i1 + ε i1, i = 1,2,...,N 1, ỹ j2 = y j2 + ε j2, j = 1,2,...,N 2, gde ξ i1 i ξ i2, kao i ε i2 i ε j2, imaju istu raspodelu za svako i = 1,2,...,N 1, j = 1,2,...,N 2. Za svrhe ovog problema, pretpostavimo da su nam tako de poznate i prave vrednosti podataka x i1, x j2, y i1 i y j2. Pretpostavka da znamo pravu vezu izme du posmatranih promenljivih Y i X, implicira da su nam poznati pravi modeli koji odgovaraju podacima. Neka su dati skupovi podataka D 1 = {y i1,x i1 } N 1 i=1 i D 2 = {y j2,x j2 } N 2 j=1. U zavisnosti od problema, koristićemo neke od modela navedene u prethodnim glavama - model proste linearne regresije ili model polinomne regresije. Za ocenu parametara koristićemo metod najmanjih kvadrata. Pretpostavićemo da su parametri u jednom od dva prava modela za 5% manji od parametara drugog modela. 35

Korišćenjem skupova podataka D 1 i D 2, kada metodom najmanjih kvadrata ocenimo parametare, dobijamo dva modela y 1 (x) i y 2 (x). Posmatramo njihov količnik y 1 (x) y 2 (x). (4.1) Kako je naš cilj da utvrdimo da li pretpostavka o raspodeli greške pri merenju utiče na količnik (4.1), ponovićemo ovaj proces za različite greške iz iste raspodele i bootstrap metodom ćemo dobiti intervale poverenja za sredinu količnika. Kako su nam poznati pravi modeli, poznata nam je i prava vrednost količnika, to jest pravi odnos modela, koji ćemo koristiti kako bismo utvrdili da li pripada intervalu poverenja. 4.2 Analogija sa problemom iz realnog života Motivacija za testiranje uticaja raspodele greške pri merenju na količnik dva modela dolazi iz analiza analitičara kompanije Qtagg AB koje sugerišu da te greške prate neku raspodelu, kao i da je zbog istih teško ili nemoguće oceniti model. Na primer, želimo da simuliramo vezu izme du brzine i potrošnje goriva kod brodova. Kako su podaci koje dobijamo uvek praćeni velikim greškama pri merenju, zbog prirode problema i raznih faktora, dodavanje greške pri merenju pravim podacima (koji su nama poznati) je prirodno. Navedene pretpostavke pomažu pri razumevanju veze izme du brzine i potrošnje goriva. Pretpostavimo da želimo da utvrdimo koji od dva motora je bolji i za koliko, u smislu da li troši više ili manje goriva. Zbog grešaka pri merenju ovo može biti veoma teško, dobijeni rezultati nas mogu navesti na pogrešan zaključak. Testirajući količnik dva modela, pri čemu greške pri merenju u oba modela prate različite ili iste raspodele, možemo utvrditi da li pretpostavka o konkretnoj raspodeli greške pri merenju utiče na našu odluku koji od dva motora troši manje goriva i koliko možemo biti sigurni u našu odluku. 4.3 Ocena parametara Podaci o brzini i potrošnji goriva koje koristimo su prikupljeni i obra deni u kompaniji Qtagg AB. Podaci su prikupljani sa jednog broda u vremenskom periodu od pola meseca. Naši pravi skupovi podataka D 1 i D 2 sadrže brzinu merenu u čvorovima i potrošnju goriva merenu u litrima po satu. Podaci o brzini, bez grešaka pri merenju, su grafički prikazani na slici (4.1). 36

Slika 4.1: Podaci o brzini broda bez grešaka pri merenju Pretpostavka da znamo prave modele će nam dati uvid u to kako bi podaci o potrošnji goriva trebalo da izgledaju. Razmotrićemo tri slučaja. 1. pravi modeli su: y 1 (x) = θ 11 x y 2 (x) = θ 12 x (4.2) gde biramo da je θ 11 dato sa θ 11 128.518, kao i da je drugi parametar 5% veći, dat sa θ 12 134.944. Vrednost parametar smo dobili na osnovu podataka prikupljenih u kompaniji Qtagg AB korišćenjem metoda najmanjih kvadrata. Kao što smo i spomenuli ranije, parametri u jednom od dva modela će biti uvek 5% veći. Korišćenjem modela, dobijamo prave podatke y i1 i y i j. Grafički prikaz podataka je dat na slici (4.2). 37

Slika 4.2: Prvi slučaj - Podaci o potrošnji goriva bez grešaka pri merenju 2. pravi modeli su: y 1 (x) = θ 31 x 3 y 2 (x) = θ 32 x 3 (4.3) gde je θ 31 0.5942, θ 32 0.6239. Parametri su dobijeni na osnovu prikupljenih podataka korišćenjem polinomne regresije. Pravi podaci y i1 i y i j, dobijeni korišćenjem ovih modela, su grafički prikazani na slici (4.3). Slika 4.3: Drugi slučaj - Podaci o potrošnji goriva bez grešaka pri merenju 38

3. pravi modeli su: gde je y 1 (x) = θ 01 + θ 11 x + θ 21 x 2 + θ 31 x 3 y 2 (x) = θ 02 + θ 12 x + θ 22 x 2 + θ 32 x 3 (4.4) θ 1 = [ 3.04317,126.6566, 13.4759,0.9254], dok je vektor θ 2 sastavljen od koeficijenata koji su za 5% veći od koeficijenata vektora θ 1. Parametre smo dobili korišćenjem polinomne regresije na osnovu prikupljenih podataka. Grafički prikaz je dat na slici (4.4). Slika 4.4: Treći slučaj - Podaci o potrošnji goriva bez grešaka pri merenju Podaci u sva tri slučaja su bez grešaka pri merenju. U narednim odeljcima, dodaćemo ove greške podacima u zavisnosti od pretpostavke o raspodeli same greške pri merenju. Dodavanjem grešaka pri merenju, dobićemo nove skupove podataka pomoću kojih ćemo oceniti parametre modela. Za ocenu parametara ćemo koristiti metod najmanjih kvadrata. U zavisnosti od slučaja, ocenićemo parametre kako bismo dobili model istog tipa kao i pravi model. Ovo znači da ukoliko pretpostavimo da je pravi model oblika y(x) = θx 3, onda ćemo korišćenjem dobijenih podataka oceniti model istog tipa, tj oceniti samo vrednost parametra uz x 3. Objasnićemo kako. Pretpostavimo da su nam dati podaci D 1 i D 2. Na osnovu ranije dobijenih rezultata za ocenu najmanjih kvadrata, možemo oceniti parametre modela za svaki od tri slučajeva na sledeći način: 39

1. u prvom slučaju, za oba modela je potrebno oceniti samo jedan parametar. Neka je x 1i ỹ 1i x 2i X i =., Ỹ ỹ 2i i =., i = 1,2. x Ni,i Ocene najmanjih kvadrata date su sa ỹ Ni,i ˆθ 1i = ( X i X i ) 1 X iỹi, i = 1,2. 2. drugi slučaj se malo razlikuje od prethodnog. Korišćenjem metoda najmanjih kvadrata, kao i rezultata vezanih za polinomnu regresiju, dobijamo ocene parametara ˆθ 3i = ( X i X i ) 1 X iỹi, i = 1,2, gde su X i = x 3 1i x 3 2i. x 3 N i,i, Ỹ i = ỹ 1i ỹ 2i. ỹ Ni,i, i = 1,2. 3. treći slučaj je klasična polinomna regresija. U narednim odeljcima ćemo samo navesti rezultate dobijene navedenim metodima za ocenu parametara. 4.4 Intervali poverenja Kako bismo dobili intervale poverenja za srednju vrednost količnika, potrebno je kreirati podatke. U prvom i drugom slučaju pravih modela su nam potrebni intervali poverenja za sredinu količnika koeficijenata. Razmotrimo sledeće: U prvom i drugom slučaju radimo isto. Najpre dodajemo grešku pri merenju, uzetu iz iste raspodele, pravim skupovima podataka. Iz ta dva skupa ocenjujemo modele na način naveden u prethodnom odeljku. Nakon ocene parametara, zabeležimo količnik dva modela (dva parametara) i sačuvamo ga kao novi podatak. Kako nam je za simulaciju potreban veći broj količnika, ponavljamo proces. Ponovo uzimamo podatke iz iste raspodele, dodajemo pravim podacima i računamo količnik. Na taj način dobijamo skup podataka Q koji se sastoji od količnika dva modela za različite greške uzete iz iste raspodele. 40

Kod trećeg slučaja je malo drugačije. Ponovo dodajemo grešku pri merenju, uzetu iz iste raspodele, pravim skupovima podataka. Primetimo da količnik dva modela nije samo količnik dva parametara. Naravno, najpre je potrebno oceniti modele uz pomoć skupova podataka D 1 i D 2. Kada dobijemo ocene, ubacivanjem vrednosti x {x i1,x j2,i = 1,2,...,N 1, j = 1,2,...,N 2 }, u (4.1) dobijamo skup količnika S 1. Jedan skup podataka nije dovoljan da vidimo uticaj greške pri merenju iz odre dene raspodele. Potrebno je ponovo uzeti grešku iz iste raspodele i ponovoti proces. Na isti način na koji smo dobili skup S 1, dobijamo skupove S 1,S 2,...,S 9000 (9000 skupova bi trebalo biti dovoljno). Za svaki skup podataka S i, i = 1,2,...,9000, računamo srednju vrednost i na taj način dobijamo skup količnika Q. Koristimo bootstrap metod i skup podataka Q za izračunavanje intervala poverenja. U programskom jeziku MatLab su izračunati intervali poverenja, kao i ocene parametara. Naš cilj da utvrdimo da li i koliko pretpostavka o raspodeli greške pri merenju utiče na količnik dva modela, to ćemo učiniti posmatranjem intervala poverenja za srednju vrednost. Ispitaćemo da li neke konkretne raspodele utiču na količnik. Za svaku raspodelu ćemo razmotriti uticaj na svaki od tri slučaja. Kako smo objasnili način na koji dobijamo podatke, ocene i intervale poverenja, u nastavku ćemo navesti dobijene intervale poverenja, a kasnije ih i analizirati. Uz pretpostavku da su slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 uniformno raspodeljene na intervalu ( 0.3,1) (videti (B.2)), ξ i1,ξ j2,ε i1,ε j2 : U( 0.3,1), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.951974, 0.9519996], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.9523961, 0.9523962], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.9136, 1.1509]. 41

Uzorak uzet iz uniformne raspodele je grafički prikazan na slici (4.5). Slika 4.5: Uzorak iz uniformne raspodele Ukoliko slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju generalizovanu pareto raspodelu sa parametrima ξ = 0.1, µ = 0.2 i σ = 0.2 (pogledati (B.3)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.951977, 0.951992], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.950903, 0.950956], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.89138, 0.98558]. Uzorak uzet iz generalizovane pareto raspodele je grafički prikazan na slici (4.6). 42

Slika 4.6: Uzorak iz generalizovane pareto raspodele Pretpostavimo da slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju normalnu raspodelu sa parametrima µ = 0, σ 2 = 0.4 (pogledati (B.4)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.933671, 0.933703], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.952035, 0.952140], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.5428, 0.9387]. Uzorak uzet iz normalne raspodele je grafički prikazan na slici (4.7). 43

Slika 4.7: Uzorak iz normalne raspodele Ako slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju log-normalnu raspodelu sa parametrima µ = 0, σ 2 = 0.1 (videti (B.5)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.951259, 0.951266], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.9489897, 0.949012], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.9204, 0.9523]. Uzorak uzet iz log-normalne raspodele je grafički prikazan na slici (4.8). 44

Slika 4.8: Uzorak iz log-normalne raspodele Uz pretpostavku da slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju gama raspodelu sa parametrima α = 21, β = 0.02 (videti (B.6)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.951975, 0.951981], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.9509001, 0.950922], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.9467, 0.9542]. Uzorak uzet iz gama raspodele je grafički prikazan na slici(4.9). 45

Slika 4.9: Uzorak iz gama raspodele Ako slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju studentovu t-raspodelu sa d f = 15 stepeni slobode, (videti (B.7)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.951709, 0.951783], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.950322, 0.950608], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.6981, 1.8737]. Uzorak uzet iz studentove t-raspodele je grafički prikazan na slici (4.10). 46

Slika 4.10: Uzorak iz studentove t-raspodele Ukoliko slučajne promenljive ξ i1,ξ j2,ε i1,ε j2 imaju hi-kvadrat (Chi-Square) raspodelu sa d f = 0.8 stepeni slobode, (videti (B.8)), dobijamo sledeće intervale poverenja za srednju vrednost količnika: 1. u prvom slučaju, kada su pravi modeli dati sa (4.2), dobijamo interval poverenja [0.952203, 0.952241], 2. kada su pravi modeli dati sa (4.3) dobijamo interval poverenja [0.951385, 0.951726], 3. kada su pravi modeli dati sa (4.4) dobijamo interval poverenja [0.9467, 0.9542]. Uzorak uzet iz hi-kvadrat raspodele je grafički prikazan na slici (4.11). 47

Slika 4.11: Uzorak iz hi-kvadrat raspodele 4.5 Prava vrednost količnika Kako bismo nastavili analize, potrebna nam je prava vrednost količnika. S obzirom na način na koji smo birali modele, dobićemo istu pravu vrednost količnika dva modela za svaki od tri slučaja. S obzirom na to na koji način smo birali (4.2) i (4.3), prava vrednost količnika dva modela je zapravo količnik parametara θ 11 = 128.518 θ 12 139.944 = 0.952381, θ 31 = 0.5942 θ 32 0.6239 = 0.952381, Slično, zbog načina izbora modela (4.4), dobijamo pravu vrednost količnika θ true za sva tri slučaja. θ true = 0.952381, 4.6 Evaluacija rezultata Za lakšu interpretaciju rezultata, data je tabela (4.1) koja sadrži sve ranije navedene intervale poverenja, sa odgovarajućim slučajem i odgovorajućom raspodelom. 48