Uverztet u N²u Prrodo matemat k fakultet Departma za matematku Lear regreso model problem jhove prmee Master rad Studet: Mla Nkol Metor: dr Aleksadar Nast N², oktobar 2014.
2
Sadrºaj Predgovor.................................... 5 1 Jedostruka leara regresja 7 1.1 Uvod.................................... 7 1.2 Ocea ajmajh kvadrata osove pretpostavke................................ 10 1.3 Statst ke osobe ocea ajmajh kvadrata.............. 14 1.4 Ocea za σ 2................................ 19 1.5 Ocea maksmale verodostojost................... 22 1.6 Mera "tovaja"............................. 26 1.7 Predvžaje................................ 29 1.8 Aalza rezduala............................. 30 1.9 Prmer................................... 32 2 V²estruka leara regresja 37 2.1 Uvod.................................... 37 2.2 Ocea ajmajh kvadrata........................ 38 2.3 Ocea maksmale verodostojost................... 43 2.4 Iterpretacja ocea v²estruke regresje pomo u rezduala....... 46 2.5 Problem odrežvaja regresoog modela................ 47 2.6 Koecjet parcjale korelacje..................... 49 2.7 R 2 asuprot R 2.............................. 50 2.8 Iterval povereja testraje hpoteza................. 51 2.9 Zdruºe terval povereja testraje learh ogra eja........................... 52 3 Odstupaja od klas h pretpostavk 57 3.1 Pretpostavka o ultom o ekvaju.................... 57 3.2 Stohast ke obja²javaju e promeljve................. 58 3.3 Multkolearost............................. 61 3.4 Normalost smetj............................ 63 3.5 Heteroskedast ost............................ 64 3.5.1 Testraje homoskedast ost.................. 70 3.6 Autokorelacja............................... 73 3.6.1 Testraje autokorelacje..................... 77 3.7 Gre²ke u promeljvama......................... 79 3
4 Dodate tehke prmee u aalz regresje 83 4.1 Fukcoala forma............................ 83 4.2 Ve²ta ke promeljve........................... 85 4.3 Lag model................................ 89 4.4 Model sa barm zborom....................... 92 Zaklju ak.................................... 97 4
Predgovor Regreso model predstavljaju jeda od ajza ajjh oblka modelraja "tovaja" podataka z prrode kao samh prrodh pojava. Pomo u learh regresoh modela se moºe vr²t predvžaje, mogu se objast ek rezultat zvest odgovaraju zaklju c za posmatra problem, koj se dalje mogu korstt u asjama, ekoomj, prvred kao u mogm drugm aukama. U radu e bt uvede razmatra jedostruk v²estruk model leare regresje, metode za ocejvaje epozath parametara modela, problem koj se javljaju prlkom zrade regresoh modela, kao dodate tehke koje se korste u regresooj aalz. Rad se sastoj z etr glave. U prvoj glav se razmatra jedostruka leara regresja, u drugoj v²estruka leara regresja, metod koj se korste za ocejvaje epozath parametara jedostruke v²estruke regresje kao statst ke osobe ocea parametara regresje. U tre oj glav se razmatraju problem koj astaju kao posledca odstupaja od klas h pretpostavk a osovu kojh smo kostrusal regresoe modele. U etvrtoj glav se razmatraju dodate tehke prmee koje se korste u aalz regresje. 5
6
Glava 1 Jedostruka leara regresja 1.1 Uvod U velkom broju straºvaja l ekspermeata uo ava se veza zmežu dve l v²e promeljvh vel a. Od straºva a se u tom slu aju o ekuje da utvrd da l postoj kakva je drekta fukcoala zavsost mežu tm vel ama. Term "regresja" metode za alaºeje veze zmežu dve promeljve pojavl su se pre oko 100 goda. Prv h je predstavo Fracs Galto 1908. gode, uve brtask bolog, kada se bavo prou avajem asležvaja. Jeda od jegovh zaklju aka je bo da su deca vsokh rodtelja v²a od proseka al su vsoka kao jhov rodtelj. Tako je "regresja ka prose ost" dala ovoj statst koj metod me. Term regresja jegova evolucja prvestveo opsuju statst ku relacju zmežu promeljvh vel a. Specjalo, prosta regresja je regreso metod koj razmatra vezu uzmežu jede zavso promeljve, Y jede ezavso promeljve, X. Prost lear regreso model ob o je zadat formom Y = α + βx + ε, gde je Y zavso promeljva, α je odse ak a y-os, β je agb prave proste leare regresje, X je ezavso promeljva, a ε je slu aja smetja. Zavso promeljvu takože azvamo promeljva odgovora, a ezavso promeljvu obja²javaju a promeljva l predktor. Obja²javaju a promeljva obja²java uzro e promee u promeljvoj odgovora. Uop²teje predstavljaje regresoog modela moºe bt zapsao kao Y = EY + ε, gde je EY matemat ko o ekvaje promeljve odgovora. Kada je EY leara kombacja predktora X 1, X 2,..., X k, tada je regresja leara. Ako je k = 1 regresja je prosta leara. Ako je EY elera fukcja predktora X 1, X 2,..., X k, regresja je eleara. U ovom poglavlju, detaljo emo prou t oceu leare veze zmežu dve promeljve, Y X, koja ma formu Y = α + βx + ε, = 1, 2,...,, (1.1) 7
gde smo sa Y oza l -to posmatraje zavso promeljve Y, koja moºe bt potro²ja, prozvodja,..., a sa X smo oza l -to posmatraje ezavso promeljve X, koja moºe bt raspoloºv prhod, kamata stopa,... Takv podac mogu bt prkuplje z rm l z doma stava u datom treutku, u tom slu aju te podatke azvamo presekom. Sl o, takv podac mogu bt prkuplje tokom vremea za spec u dustrju l drºavu tada te podatke azvamo vremeskm zovma. je broj podataka, gde o moºe bt broj rm l broj doma stva kada se vr² presek l broj goda ako se podac sakupljaju tokom vremea. α β su, kao ²to smo rekl raje, odse ak agb regresoe prave koja opsuje prostu learu vezu zmežu Y X. To su epozat parametr koje treba ocet a osovu podataka. Gra k podac, (X, Y ), = 1,...,, mogu veoma lustratvo pokazat vrstu veze koja emprjsk postoj zmežu te dve promeljve. Na prmer, ukolko Y predstavlja potro²ju, a X raspoloºv prhod, tada moºemo o ekvat poztvu vezu zmežu te dve promeljve gra k podac mogu zgledat kao a slc 1.1. dobje a osovu slu ajog uzorka uzetog z doma stava. Ako b α β bl pozat, mogl bsmo da acrtamo jedu pravu lju, α + βx, kao ²to je prkazao a slc 1.1. Jaso je da e prpadaju sv podac (X, Y ) pravoj lj, α + βx. U stvar, jeda a (1.1) pokazuje razlku zmežu svake vredost Y odgovaraju e vredost α + βx koja astaje usled smetje ε. Na prmer, ako je ezavso promeljva prhod, a zavso promeljva potro²ja, ta smetja moºe astat usled: () zostavljaja relevath faktora koj mogu utcat a potro²ju, koj se razlkuju od raspoloºvog prhoda, kao ²to su bogatstvo, razl t ukus l epredvže dogažaj koj zskuju maju l ve u potro²ju u doma stvu () gre²ke pr mereju, koje mogu bt rezultat eta h podataka koje daje doma stvo o svojm tro²kovma l ulagajma () pogre²og zbora leare veze zmežu potro²je prhoda, kada prava veza moºe bt eleara. T razl t uzroc koj dovode do astaka smetje mogu mat razl te utcaje a raspodelu te smetje. Nadalje, podrazumeva emo samo smetje koje zadovoljavaju odrežee pretpostavke. U stvarost, α β su pozat moraju bt oceje a osovu dobjeh podataka {(X, Y ) za = 1, 2,..., }. To takože za da je prava α + βx dobra ukolko su smetje eprmete. U tom slu aju α β mogu bt oceje a osovu ajpogodje lje dobjee a osovu podataka. Razl t straºva mogu acrtat razl te lje korste ste podatke. Postavlja se ptaje ²ta jedu lju boljom od druge. Op²t problem alaºeja lje koja dobro aproskmra dat skup podataka, u statst kom ºargou azva se "tovaje krve". Sa Ŷ oza mo vredost koja odgovara X koja je dobjea a osovu tovae krve ˆα + ˆβX. Svako posmatraje (X, Y ) ma e odgovaraju u gre²ku vezau za jega, koju emo oza t sa e = Y Ŷ, (vd slku 1.2). Drugm re ma, dobl smo merljvu gre²ku tako ²to smo od prave vredost Y oduzel tovau vredost Ŷ. Jeda razlka zmežu slka 1.1 1.2 je ta ²to slka 1.1 sadrº pravu (sttu) lju potro²je, dok slka 1.2 sadrº tovau lju potro²je. Stoga, dok su ε epozat, e su pozat. Prmetmo da e svaka tovaa lja mat gre²aka, gde svaka gre²ka odgovara jedom paru 8
Slka 1.1: "Prava" fukcja potro²je Slka 1.2: Ocejea fukcja potro²je 9
podataka (X, Y ). Za tovau lju moºemo sumrat jee odgovaraju e gre²ke, tj. sumrat kvadrate th gre²aka ²to e bt prroda krterjum za zbor lje koja ajbolje aproksmra dat skup podataka. Prmetmo da ob a suma je dobar zbor za mereje epravlost, zato ²to e poztve vredost eutralsat odgovaraju e egatve vredost koje se alaze u a²em mereju. Druga ja mereja uklju uju sumu apsoluth gre²aka, al su ta mereja kasje teºa za matemat ko zra uavaje. Kada zaberemo jeda a mereja, moºemo ocet α β tako ²to emo mmzrat vredost gre²aka koje astaju pr mereju, u ovom slu aju mmzra emo sumu kvardata gre²aka. U stvar, to je deja a kojoj se zasva ocejvaje epozath parametara metodom ajmajh kvadrata. 1.2 Ocea ajmajh kvadrata osove pretpostavke sa Najmaj kvadrat mmzraju rezdualu sumu kvadrata, gde su rezdual dat e = Y Ŷ = Y ˆα ˆβX, = 1, 2,...,, gde smo sa ˆα ˆβ oza l ocejee vredost regresoh parametara α β, respektvo. Rezdualu sumu kvadrata, koju smo oza l sa RSS = e 2 = (Y ˆα ˆβX ) 2, =1 =1 mmzramo pomo u dva parcjala zvoda prvog reda: tj. tj. ˆα ( ) e 2 = 2 (Y ˆα ˆβX ) = 2 e = 0, =1 =1 =1 Y ˆα ˆβ =1 =1 X = 0 (1.2) ( ) ˆβ e 2 = 2 (Y ˆα ˆβX )X = 2 e X = 0, =1 =1 =1 Y X ˆα X ˆβ =1 =1 =1 X 2 = 0. (1.3) Re²avaju ormale jeda e ajmajh kvadrata (1.2) (1.3) po epozatm ˆα ˆβ dobjamo: ˆα OLS = Ȳ ˆβ OLS X ˆβOLS = 10 =1 X Y =1 X = S xy S xx (1.4)
gde je Ȳ = 1 =1 Y, X = 1 =1 X, Y = Y Ȳ, X = X X, =1 X = =1 X 2 X 2, =1 Y = =1 Y 2 Ȳ 2, =1 X Y = =1 X Y XȲ. Sa S xy smo oza l zraz S xy = =1 (X X)(Y Ȳ ), a sa S xx zraz S xx = =1 (X X) 2. Ove ocee maju OLS ozaku u deksu koja oza ava da su dobjee metodom ob h amjajh kvadrata (Ordary Least Squares). Rezdual dobje metodom ob h ajmajh kvadrata e = Y ˆα ˆβX automatsk zadovoljavaju dve umer ke veze date sa (1.2) (1.3). Prva veza am kazuje da je () =1 e = 0, tj. suma rezduala je jedaka ul. To je ta o sve dok postoj kostata u regresj. Ova umer ka osoba rezduala ajmajh kvardrata am takože ukazuje a to da ocejea regresoa prava sadrº ta ku ( X, Ȳ ). To vdmo drekto z jeda e Ȳ = ˆα OLS + ˆβ OLS X. Druga veza am kazuje da () =1 e X = 0, tj. da rezdual predktor su u korelacj. Druge umer ke osobe koje zadovoljavaju ocee dobjee metodom ob h ajmajh kvadrata su slede e: () =1 Ŷ = =1 Y, tj. suma ocejeh Y a osovu uzorka jedaka je sum pravh vredost Y. Da bsmo pokazal da ovo vaº požmo od jece da je e = Y Ŷ skorstmo rezultat z () Odatle sled e = Y Ŷ = 0. =1 =1 =1 Y = Ŷ. =1 =1 Ako obe strae prethodog zraza podelmo sa, dob emo odoso, 1 Y = 1 Ŷ =1 =1 Ȳ = Ŷ. (v) =1 e Ŷ = 0, tj. OLS rezdual predvžee vredost za Y su ekorelsa. Ako skorstmo jecu da je Ŷ = ˆα + ˆβX rezultate z () () vdmo da ovo vaº. Naravo, osova ocea dobjeh za (1.1) je da je to prav model, koj geer²e podatke. U tom slu aju, (1.1) je leara veza parametara α β sadrº samo jedu obja²javaju u promeljvu X. U clju prou avaja statst kh osoba ocea ob h ajmajh kvadrata za α β, moramo da uvedemo eke pretpostavke vezae za model koj geer²e podatke. Pretpostavka 1: Smetje maju o ekvaje 0, tj. E(ε ) = 0, = 1, 2,...,. Ova pretpostavka am osgurava da emo u proseku bt a regresooj pravoj. Da b vdel ²ta se de²ava ako E(ε ) 0, razmotrmo slu aj kada doma stva 11
Slka 1.3: Fukcja potro²je za koju je Cov(X, ε) > 0 Slka 1.4: Slu aje smetje oko regresoe prave 12
stalo prjavljuju umajee tro²kove za po δ d, dok su jhov prhod mere preczo a osovu poreskh obrazaca. U tom slu aju, a²a regresoa jeda a je (posmatra tro²ak) = (stvar tro²ak) δ (stvar tro²ak) = α + β(prhod) + ε. Kada ovu jedakost uvrstmo u prethod zraz, dobjamo (posmatra tro²ak) = α + β(prhod) + ε δ. Ovo moºe bt posmatrao kao stara regresja sa ovm smetjama ε = ε δ. Korste se jecom da je δ > 0 E(ε ) = 0 dobjamo E(ε ) = δ < 0. Ovo am kazuje da su za sva doma stva sa stm prhodom, a pr. 20000 d, jhov opservra tro²kov u proseku spod lje α + β(20000 d) za zos δ. Problem sa eultm o ekvajem smetje moºemo da re²mo ako reparametrzujemo model a slede a (posmatra tro²ak) = α + β(prhod) + ε, gde je α = α δ. U tom slu aju je E(ε ) = 0 α β mogu bt oceje. Prmetmo da e tada bt ocejeo α, al e α δ. Takože, za sva doma stva j je prhod 20000 d, jhov prose tro²ak b e (α δ) + β(20000 d). Pretpostavka 2: Smetje maju kostatu varjasu, tj. V ar(ε ) = σ 2, = 1, 2,...,. To am omogu ava da sve opservacje budu podjedako pouzdae. Da b vdel ²ta ova pretpostavka za, razmatrajmo slu aj kada je V ar(ε ) = σ 2, = 1, 2,...,. U ovom slu aju, svaka opservacja ma razl tu varjasu. Opservacja sa velkom varjasom je maje pouzdaa od opservacje sa malom varjasom. U slu aju sa potro²jom, doma stva sa velkm raspoloºvm prhodom (velko X, pr 100000 d) mo e da u²tede v²e ego doma stva sa malm prhodom (malo X, pr 10000 d). U tom slu aju e varjasa potro²je doma stva sa 100000 d prhoda bt ve a ego kod doma stva sa 10000 d prhoda. Pretpostavka 3: Smetje su korelsae, tj. E(ε ε j ) = 0,, j = 1, 2,...,, j. Pozavaje -te smetje e e am ²ta re o j -oj smetj. Na prmer, epredvžeo odstupaje koje je a lo -to doma stvo (kao ²to je poseta rožacma l sl) je u kakvoj vez sa epredvžem odstupajem koje je a lo eko drugo doma stvo. Na taj a se prdrºavamo toga da smo uzel slu aja uzorak od doma stava. Pretpostavka 4: Predktor X je eslu aja promeljva, tj. ma stu vredost za razl te poovljee uzorke. Takože, X =1 0 to je koa a broj kada teº beskoa ost. Ova pretpostavka de²e jedostruku learu regresju kao regresju druge vrste, kojom emo se a dalje bavt. ƒjeca da je X =1 0 am govor da mamo bar dve razl te vredost promeljve X. To ma smsla jer su am potrebe ajmaje dve ta ke da b acrtal pravu lju. Ako je X = X X = X X = 0, 13
tada se aru²ava uslov =1 X 0. U praks, mamo uvek v²e razl th vredost za X. Vaºje, ova pretpostavka ukazuje a to da X je slu aja promeljva otuda je u korelacj sa smetjama. Da b vdel kako zgleda kada se aru² pretpostavka 4, pretpostavmo da je X slu aja promeljva da su X ε poztvo korelsa. Tada, u prmeru sa potro²jom, kod doma stava sa prhodom zad prose og ma emo smetje ja su o ekvaja ve a od 0, dakle, poztve smetje. Sl o, kod doma stava sa prhodom spod prose og ma emo smetje ja su o ekvaja spod 0, dakle egatve smetje. To za da e smetje sstematsk utcat a vredost obja²javaju e promeljve raspaje podataka e bt kao a slc 1.3. Prmetmo da ako sada obr²emo pravu lju α + βx ocemo tu lju a osovu podataka, lja ajmajh kvadrata e mat sl a odse ak ve agb od ove lje. Djagram raspaja zgleda e kao a slc 1.4, gde su smetje slu aje promeljve, koje su u korelacj sa X prkazae su tako da m je o ekvaje 0 varjasa kostata. 1.3 Statst ke osobe ocea ajmajh kvadrata () Neprstrasost Na osovu pretpostavk 1-4, lako je pokazat da su ˆα OLS ˆβOLS eprstrase ocee parametara α β. Korste jeda u (1.4), jece da je Y = Y Ȳ =1 X = 0 zamejuju Y z (1.1) mamo =1 X ˆβ Y =1 X (Y OLS = =1 = Ȳ ) X =1 = X = = =1 X Y Ȳ =1 X =1 X =1 X (α + βx + ε ) =1 X = =1 X Y =1 X Na osovu jece da je =1 X X = =1 X = = α =1 X + β =1 X X + =1 X ε =1. X sled da je =1 X ˆβ ε OLS = β + =1. (1.5) X Ako potraºmo o ekvaje leve dese strae skorstmo pretpostavke 1 4, dobjamo E( ˆβ OLS ) = E(β) + E ( =1 X ε ) =1 E(X ε ) =1 = β + X =1 = β. X Dakle, ˆβ OLS je eprstrasa ocea parametra β. Dalje, korste (1.5) moºemo zra uat varjasu za ˆβ OLS. Najpre, korste pretpostavke 2 3 mamo da je ( ) 2 E X ε = X V ar(ε ) + 2 =1 =1 X Xj Cov(ε, ε j ) = σ 2 j =1 X. 14
Varjasa za ˆβ OLS je V ar( ˆβ OLS ) = E( ˆβ OLS β) 2 = E = σ2 =1 X ( =1 X ) 2 = σ2 =1 X ( =1 X ) 2 ε =1 = E ( =1 X ε ) 2 X ( =1 X ) 2 = = σ2 S xx. (1.6) Prmetmo da varjasa ocee ob h ajmajh kvadrata za β zavs od σ 2, tj. od varjase smetj u pravom modelu, al od varjacja u X. to je ve e odstupaje u X to je ve a suma 2 =1 X, al je tada maja varjasa za ˆβ OLS. Da b dokazal eprstrasost ocee ˆα OLS parametra α, požmo od jeda e (1.4) zamemo Ȳ sa Ȳ = α + β X + ε. Tada je ˆα OLS = Ȳ ˆβ OLS X = α + β X + ε ˆβOLS X = α + (β ˆβOLS ) X + ε. Ako potraºmo o ekvaje prethodog zraza skorstmo da je E( ˆβ OLS ) = β E( ε) = 0, dobjamo da je E(ˆα OLS ) = α, tj. da je ˆα OLS eprstrasa ocea parametra α. Korste prethode rezultate, moºemo zra uat varjasu ocee ˆα OLS V ar(ˆα OLS ) = E(ˆα OLS α) 2 = E [ (β ˆβ OLS ) X + ε ] 2 = = X 2 V ar( ˆβ OLS ) + V ar( ε) + 2Cov( ˆβ OLS, ε) X = [ ] = σ 2 X2 =1 + σ2 1 X = σ2 + X2 =1 = X = σ 2 =1 X + X 2 =1 X = σ2 =1 X 2. =1 X = σ 2 =1 X 2 X 2 + X 2 =1 X = () Postojaost Pokaza emo sada da je ˆβ OLS postojaa ocea za β. Dovolja uslov da ˆβ OLS bude postojaa ocea je da bude eprstrasa da jea varjasa teº ul kada teº beskoa ost. Ve smo pokazal da je ˆβ OLS eprstrasa ocea, pa am ostaje samo da pokaºemo da jea varjasa teº ul kada teº beskoa ost. U tom smslu, mamo da vaº lm V ar( ˆβ σ 2 OLS ) = lm =1 X = lm σ 2 =1 X = 0. Tre a jedakost sled a osovu jece da je σ2 0, da je =1 X 0 da ma koa a lmes (pretpostavka 4). Otuda sled da je ˆβ OLS postojaa ocea parametra β. Sl o, moºemo pokazat da je ˆα OLS postojaa ocea parametra α. Pokazal 15
smo da je eprstrasa, ostaje, sada, da pokaºemo da varjasa teº ul kada teº beskoa ost. V ar(ˆα OLS ) = σ2 =1 X 2 =1 X = σ2 =1 X2 =1 X 0,. Prethod rezultat vaº a osovu pretpostavke 4 jece da σ2 0,. Moºe se pokazat da je Cov(ˆα OLS, ˆβ OLS ) = XV ar( ˆβ OLS ). Da pokaºemo da vaº prethod zraz korstmo ˆα OLS = α + (β ˆβ OLS ) X + ε. Sada je Cov (ˆα OLS, ˆβ ) )] OLS = E [(ˆα OLS α)( ˆβOLS β = [( = E X ( ˆβOLS β ) )] + ε)( ˆβOLS β = [ = E X ( ˆβOLS β ) 2 ] ) ] + E[( ˆβOLS β ε = = XV ar ( ˆβOLS ). To za da je zak kovarjase odreže zakom za X. Ukolko je X poztvo, kovarjasa e bt egatva. To takože za da e ˆα OLS bt precejeo, a ˆβ OLS potcejeo. () Najbolja leara ocea ω = Korste (1.4) moºemo zapsat ˆβ OLS kao ˆβ OLS = X =1 X =1 X Y =1 X = =1 ω Y, gde je. Na ovaj a ˆβ OLS moºemo zapsat kao learu kombacju Y -ova sa teºskm koecjetma ω koj zadovoljavaju slede e osobe: ω = 0, =1 ω X = 1, =1 ω 2 = =1 1 =1. (1.7) X Lako se pokazuju prethodo avedee osobe teºskh koecjeata. jecu da je =1 X = 0, mamo da je X ω = =1 =1 =1 X = 1 S xx X = 0. =1 Korste Da bsmo pokazal da vaº druga osoba korstmo jecu da je =1 X X = =1 X 2 X 2 da je =1 X = =1 X 2 X 2. Sada mamo X 1 =1 ω X = =1 X X = =1 X X 2 X X = X 2 =1 = 1. X 2 X 2 =1 =1 Lako se pokazuje da vaº tre a osoba ( ω 2 X ) 2 = =1 = =1 =1 X =1 1 ( =1 X ) 2 =1 16 X = 1 =1. X
Slede a teorema am pokazuje da mežu svm learm eprstrasm oceama za β, ˆβOLS ma ajmaju varjasu. Ta teorema je pozata kao Gaus-Markova teorema. Teorema 1.3.1 Posmatrajmo prozvolju learu oceu β = =1 a Y parametra β, gde su sa a oza ee prozvolje kostate. Ako je β eprstrasa ocea parametra β koja zadovoljava pretpostavke 1-4, tada je V ar( β) V ar( ˆβ OLS ). Dokaz: Ako zamemo Y z (1.1) u β, dobjamo β = a Y = a (α + βx + ε ) = α a + β a X + a ε. =1 =1 =1 =1 =1 Kako je β eprstrasa ocea parametra β, vaº E( β) = α a + β a X = β, = 1, 2,...,. =1 =1 Odatle sled da vaº: =1 a = 0 =1 a X = 1. Otuda je sa varjasom β = β + a ε =1 ( V ar( β) ) = V ar a ε = σ 2 a 2, =1 =1 gde posledja jedakost sled a osovu pretpostavke 2 3. Kostate a su prozvolje razlkuju se od ω, teºskh koecjeata OLS ocee, opet za eku drugu kostatu, a pr. a = ω + d, za = 1, 2,...,. Na osovu osoba kostat a ω moºemo zvest zaklju ak koj vaº za kostate d : =1 d = 0 =1 d X = 0. U stvar je gde je a 2 = d 2 + ω 2 + 2 ω d, =1 =1 =1 =1 ω d = =1 =1 X d =1 X = =1 d (X X) =1 X = =1 d X X =1 d =1 X = 0. Otuda je V ar( β) = σ 2 a 2 = σ 2 d 2 + σ 2 ω 2 = V ar( ˆβ OLS ) + σ 2 =1 =1 =1 =1 17 d 2.
S obzrom a to da je σ 2 =1 d 2 eegatvo, dobjamo da je V ar( β) V ar( ˆβ OLS ), gde jedakost vaº samo za d = 0, = 1, 2,...,, tj. ako je a = ω. U tom slu aju, β postaje ˆβ OLS. Dakle, blo koja leara ocea za β, kao ²to je β, koja je eprstasa, ma varjasu ve u l jedaku sa V ar( ˆβ OLS ). Ovm smo pokazal da je ˆβ OLS ajbolja leara eprstrasa ocea za β (Best Lear Ubased Estmator- BLUE). Sl o, moºemo pokazat da je ˆα OLS leara kombacja Y -ova, da ma ajmaju varjasu mežu svm learm eprstrasm oceama za α ako su zadovoljee pretpostavke 1-4. Najpre emo pokazat da ˆα OLS moºe da se zap²e kao leara kombacja Y -ova ˆα OLS = =1 λ Y, gde je λ = 1 Xω ˆα OLS = Ȳ ˆβ 1 OLS X = Y X =1 1 = Y ω XY = = = =1 =1 =1 =1 Y [ 1 Xω ] = λ Y. Teºsk koecjet λ zadovoljavaju slede e osobe: ω Y = =1 λ = 1, =1 λ X = 0, =1 koje se lako dokazuju: 1 λ = =1 =1 X ω = 1 =1 X ω = 1 =1 [ 1 λ X = X =1 =1 Xω ] = 1 X X ω X = X X = 0. =1 =1 Oza mo sa α = =1 b Y prozvolju learu oceu parametra α, gde su b prozvolje kostate za koje emo pokazat da vaºe slede e osobe: =1 b = 1 =1 b X = 0. Po pretpostavc, α je eprstrasa ocea parametra α. U tom slu aju, α moºemo zapsat kao α = b Y = b (α + βx + ε ) = =1 =1 = α b + β b X + b ε. =1 =1 =1 18
Potraºmo, sada, o ekvaje leve dese strae, dobjamo E α = Eα b + Eβ b X + b Eε = α b + β b X. =1 =1 =1 =1 =1 Kako je α eprstrasa ocea parametra α, tj. vaº E α = α, mora bt: =1 b = 1 =1 b X = 0. Otuda, mamo da je α = α + b ε. =1 Kostate b su prozvolje koje se razlkuju od kostat λ opet za eku kostatu f, tj. b = λ + f. Na osovu osoba kostat b λ mamo da za kostate f vaºe slede e osobe: =1 f = 0 =1 f X = 0. Neprstrasa ocea α ma varjasu V ar( α) = σ 2 b 2 = σ 2 (λ + f ) 2 = σ 2 ( ) λ 2 + 2λ f + f 2 = =1 =1 =1 [ ] = σ 2 λ 2 + 2 λ f + f 2. =1 =1 =1 Lako se pokazuje da je =1 λ f = 0, pa mamo da je V ar( α) = σ 2 =1 λ 2 + σ 2 =1 f 2 = V ar(ˆα OLS ) + σ 2 f 2. Kako je σ 2 =1 f 2 eegatvo, mamo da vaº V ar( α) V ar(ˆα OLS ). Blo koja leara eprstrasa ocea α parametra α ma ve u varjasu od varjase ocee ˆα OLS ukolko je =1 f 2 0. Ukolko je f = 0, = 1, 2,...,, tada je b = λ, = 1, 2,...,, ²to za da je α = =1 b Y = =1 λ Y = ˆα OLS. Na ovaj a smo pokazal da je ˆα OLS ajbolja leara eprstrasa ocea parametra α, tj. ocea ˆα OLS je BLUE. =1 1.4 Ocea za σ 2 Varjasa regresoh smetj, σ 2, je epozata treba da se oce. U stvar, vdel smo da varjase ocea ˆα OLS ˆβ OLS zavse od σ 2. Neprstrasa ocea za σ 2 je s 2 = 1 =1 e 2 2. Da bsmo ovo pokazal, požmo od jece e = Y Ŷ = Y ˆα OLS ˆβ OLS X = Y Ȳ + ˆβ OLS X ˆβOLS X = = Y Ȳ ˆβ OLS (X X) = Y ˆβ OLS X = βx + (ε ε) ˆβ OLS X = = (β ˆβ OLS )X + (ε ε), 19
gde je ε = 1 =1 ε. Otuda je [ e 2 = (β ˆβOLS )X + (ε ε) ] 2 = =1 =1 [ = (β ˆβOLS ) 2 X + 2(β ˆβ OLS )X (ε ε) + (ε ε) 2] = =1 = (β ˆβ OLS ) 2 X + 2(β ˆβ OLS )X (ε ε) + (ε ε) 2 = =1 =1 =1 = ( ˆβ OLS β) 2 X + (ε ε) 2 2( ˆβ OLS β) X (ε ε). =1 =1 =1 Kada potraºmo o ekvaje leve dese strae, dobjamo ( ) E e 2 = E( ˆβ ( OLS β) 2 ) X +E (ε ε) 2 2 E ( =1 X ε ) =1 E =1 =1 =1 X ( X (ε ε) =1 Prethodo smo pokazal da je E( ˆβ OLS β) 2 = V ar( ˆβ OLS ). Tre sabrak prethodog zraza moºemo da ap²emo a druga j a korste slede e rezultate: ( ) E X (ε ε) =1 ( ) ( ) = E (X ε X ε) = E X ε X ε = =1 =1 =1 ( ) = E X ε 1 =1 E X ε j = =1 j=1 ( ) = E X ε 1 X Eε j = =1 =1 j=1 ( ) = E X ε =1 ( ) 2 E X ε = E X ε 2 + 2 X Xj ε ε j = =1 =1 =1 j ( ) = E X ε 2 + 2 X Xj E(ε ε j ) = =1 =1 j = X E(ε 2 ) = σ 2 X. =1 =1 Drug sabrak moºemo da ap²emo kao ( ) E (ε ε) 2 =1 ( ) ( ) = E ε 2 ε 2 = E ε 2 E 1 ( =1 =1 2 =1 ( ) = E ε 2 1 ( ) =1 E 2 ε = =1 20 ) 2 ε = ).
( ) = E ε 2 1 E ε 2 + 2 ε ε j = =1 =1 =1 j ( ) = E ε 2 1 ( ) =1 E ε 2 2 1 E(ε ε j ) = =1 =1 j ( ) ( = E ε 2 1 1 ) = 1 Eε 2 = =1 =1 = 1 σ2 = = σ 2 ( 1). Sada je ( ) E e 2 =1 = V ar ( ˆβOLS ) X =1 = σ 2 + σ 2 ( 1) 2 σ2 =1 X =1 X = σ 2 + σ 2 σ 2 2σ 2 = = ( 2)σ 2. + σ 2 ( 1) 2 E ( =1 X ( ε ) =1 E X = ) X ε = =1 Otuda je E(s 2 ) = 1 ( ) 2 E e 2 = σ 2. =1 Tako je s 2 eprstrasa ocea varjase smetje proste leare regresje, σ 2. Prethod zraz delmo sa 2 zato ²to u modelu jedostruke leare regresje mamo opservacja dva ogra eja ad tm opservacjama: () () (Y Ŷ) = 0 =1 (Y Ŷ)X = 0. =1 Otuda varjasa smetje ma 2 stepea slobode ²to je takože broj svh opservacja umaje za broj parametara u modelu koje treba ocet. Itutvo, ocea za σ 2 moºe da se dobje a osovu 1 =1 (ε 1 ε) 2 ako su prave smetje pozate. Al kako ε su pozat, korste se jhove postojae ocee, a to su e. Kako je =1 e = 0, ocea za σ 2 1 je =1 e 2 1. Da b ocea za σ 2 bla eprstrasa prav dellac treba da bude 2 umesto 1. Ovo je verodostojo, s obzrom a to da treba da se ocee dva parametra α β kada zra uamo e. Tada mamo 2 ezavsa dela formacja dobjea a osovu podataka. Jeda e (1.2) (1.3) predstavljaju dve veze koje uklju uju e. Tako, pozavaju 2 e -ova, moºemo dobt preostala dva rezduala a osovu jeda a (1.2) (1.3). 21
1.5 Ocea maksmale verodostojost Da bsmo dobl ocee parametara α β metodom maksmale verodostojost, uvodmo pretpostavku o raspodel smetj: Pretpostavka 5: Smetje ε su ezavse jedako raspodeljee sa raspodelom N (0, σ 2 ). Korste ovu pretpostavku, moºemo dobt raspodelu ocea kao odgovaraju h test statstka. Na osovu (1.5) vdmo da je ˆβ OLS leara kombacja ε. Leara kombacja slu ajh promeljvh sa ormalom raspodelom je slu aja promeljva sa ormalom raspodelom. Otuda je ˆβ OLS N ( β; σ 2 ) =1. X Sl o, ˆα OLS N ( α; σ2 =1 X 2 =1 X Y N ( α + βx ; σ 2). ) tav²e, moºemo zapsat zajed ku fukcju guste za ε kao f(ε 1, ε 2,..., ε ; α, β, σ 2 ) = 1 (2πσ 2 ) 1 e 2σ /2 2 =1 ε2. Da bsmo dobl fukcju verodostojost, zvr²mo trasformacju: ε = Y α βx. Jakobja te trasformacje je 1. Dakle, f(y 1, y 2,..., y ; α, β, σ 2 ) = 1 (2πσ 2 ) /2 e 1 2σ 2 =1 (y α βx ) 2. (1.8) Zajed ka fukcja guste f(y 1, y 2,..., y ; α, β, σ 2 ) posmatraa kao fukcja parametara α, β σ 2 za ksrae vredost y 1, y 2,..., y azva se fukcja verodostojost oza ava se sa L(α, β, σ 2 ) = f(y 1, y 2,..., y ; α, β, σ 2 ). Kada logartmujemo fukcju verodostojost, dobjamo logl(α, β, σ 2 ) = 2 log2πσ2 1 2σ 2 =1 (y α βx ) 2. (1.9) Maksmzraju fukcju verodostojost u odosu a parametre α, β σ 2 dobjamo ocee maksmale verodostojost (Maxmum Lkelhood Estmator-MLE). Mežutm, u zrazu koj predstavlja logartamsku fukcju verodostojost samo drug sabrak sadrº α β taj zraz smo ve mmzral u odosu a α β u (1.2) (1.3) 22
kada smo ra ual OLS oceu. Zasta, ako (1.9) dferecramo u odosu a α taj parcjal zvod zjeda mo sa ulom, dobjamo: logl α = 2 2σ 2 (y α βx ) = 0, σ 2 0 =1 Dakle, (y α βx ) = 0 =1 y α β x = 0 =1 =1 y β x = α =1 =1 1 y β 1 x = α =1 =1 ˆα MLE = Ȳ β X. ˆα MLE = ˆα OLS Ako, sada, dferecramo (1.9) u odosu a β dob emo da je ˆβ MLE = ˆβ OLS. Sl o, kada dferecramo logl u odosu a parametar σ 2 zjeda mo zvod sa ulom dobjamo ˆσ 2 MLE = 1 =1 e 2. Zasta, odavde je logl = 1 1 2π 2 σ 2 2 2πσ2 4σ 4 = 2σ 2 + 1 2σ 4 (y α βx ) 2 = =1 (y α βx ) 2 = 0, =1 S obzrom da je σ 2 + =1 (y α βx ) 2 2σ 4 = 0, gde je 2σ 4 0. (y α βx ) 2 = σ 2, =1 to a osovu prethodo dobjeh ocea parametara α β metodom maksmale verodostojost, mamo ˆσ MLE 2 = 1 ˆα MLE =1(Y ˆβ MLE X ) 2 = 1 e 2. =1 Prmetmo da se ovo razlkuje od s 2 samo u meocu. U stvar je E(ˆσ MLE ) = 2 σ2 σ 2. Dakle, ˆσ MLE 2 je prstrasa ocea parametra σ 2, al je dalje asmptotsk eprstrasa. 23
Predost pretpostavke 5 su slede e: moºemo formrat fukcju verodostojost, moºemo zvest ocee maksmale verodostojost, kao raspodele th ocea. Predost ocea maksmale verodostojost su te ²to su to: () postojae ocee ako zadovoljavaju veoma uop²tee uslove, () asmptotsk ekase ocee, () varjate ocee u odosu a reparametrzacju modela. Maa ocea maksmale verodostojost je ta ²to je za dobjaje th ocea potrebo da se preczo za raspodela smetj. Ovde je raspodela smetj preczo data pretpostavkom 5. Neprstrase ocee ˆα OLS, ˆβOLS s 2 su ajbolje eprstrase ocee parametara α, β σ 2 sa ajmajom varjasom pr emu ocee ˆα OLS, ˆβ OLS dostºu Rao-Kramerovu doju gracu, dok je s 2 e dostºe. Pod pretpostavkom da je raspodela smetj ormala, OLS MLE ocee parametara α β se poklapaju. Ako raspodela smetj e b bla ormala, tada OLS MLE ocee e b ble ste. U tom slu aju, MLE ocea e bt ekasja od OLS ocee sve dok je raspodela smetj preczo odrežea. Na²l smo raspodelu za ˆα OLS ˆβOLS. S obzrom da je s 2 suma kvadrata ezavsh slu ajh promeljvh sa ormalom raspodelom ma e χ 2 raspodelu, tj. =1 e2 σ 2 b e χ 2 2, odoso ( 2) s2 χ 2 σ 2. Takože, slu aja promeljva s 2 2 je ezavsa od ˆα OLS ˆβ OLS, ²to je veoma korso prlkom testraja hpoteza. U stvar, ajve a predost pretpostavke 5 je da moºemo vr²t testraje hpoteza. Stadardzuju ormalu slu aju promeljvu ˆβ OlS, dobjamo z = ˆβ OLS β ( ) 1/2 N (0; 1). σ 2 =1 X Ako ormalu ormrau slu aju promeljvu, z, podelmo kvadratm koreom zraza ( 2) s2 podeljem sa svojm stepeom slobode 2 dobjamo t-statstku σ 2 sa 2 stepea slobode. Dobjea statstka je t = ˆβ OLS β ( ) 1/2 t 2. s 2 =1 X Ova statstka se korst za testraje hpoteze H 0 : β = β 0 protv H 1 : β β 0, gde je β 0 pozata kostata. Pod pretpostavkom da vaº H 0, t se moºe zra uat jea vredost se moºe uporedt sa krt om vredo² u t-raspodele sa 2 stepea slobode za dat prag za ajost a. Od velkog je za aja hpoteza H 0 : β = 0 koja am govor da e postoj leara veza zmežu Y X. Pod pretpostavkom da vaº H 0, tada je t-statstka t = ( ˆβ OLS s 2 =1 X ) 1/2 = ˆβ OLS ŝe( ˆβ OLS ), 24
gde je stadarda gre²ka ocee ˆβ OLS ŝe( ˆβ ( OLS ) = s 2 =1 X ) 1/2. Ako je t > ta/2; 2 tada odbacujemo H 0 sa pragom za ajost a. t a/2; 2 predstavlja krt u vredost dobjeu z t-raspodele sa 2 stepea slobode. Sl o, moºemo dobt terval povereja za β korste jecu da je P { t a/2; 2 < t < t a/2; 2 } = 1 a ˆβ zamejuju t sa OLS ŝe( ˆβ. Vredost t OLS ) a/2; 2 tamo z tablce za Studetovu raspodelu, ˆβ OLS ŝe( ˆβ OLS ) se mogu zra uat a osovu podataka, pa e (1 a)100% terval povereja za β bt ˆβ OLS ± t a/2; 2 ŝe( ˆβ OLS ). Testraje hpoteza tevral povereja za α σ 2 se mogu sl o dobt korste ormalu raspodelu za ˆα OLS χ 2 raspodelu za ( 2) s2. σ 2 Za testraje hpoteze H 0 : α = α 0 protv H 1 : α α 0, gde je α 0 uapred pozata kostata, korstmo test statstku t = ˆα OLS α ( s 2 ) 1/2 =1 X2 =1 X koja ma t 2 raspodelu pod pretpostavkom da je hpoteza H 0 ta a. Ako je t > t a/2; 2, tada odbacujemo H 0 sa pragom za ajost a. (1 a)100% terval povereja za parametar α b e ( s 2 ˆα OLS ± t =1 X 2 ) 1/2 a/2; 2. =1 X Za testraje hpoteze H 0 : σ 2 = σ 2 0 protv H 1 : σ 2 σ 2 0, gde je σ 2 0 uapred pozata kostata, korst se test statstka ja je krt a oblast S( ˆβ) σ 2 0 ( χ 2 2;a/2 ; χ2 2;1 a/2) c. Iterval povereja za papametar σ 2 je S( ˆβ) S( ; ˆβ), χ 2 2;1 a/2 χ 2 2;a/2 gde smo sa S( ˆβ) oza l zraz S( ˆβ) = =1 (Y Ȳ )2 ˆβ 2 OLS =1 (X X) 2. Do sada smo dskutoval o statst km zaklju cma posebo za α posebo za β. Idvdual test za da kada se testra H 0 : α = α 0, testra se bez obzra a vredost parametra β. Na st a, kada se testra hpoteza H 0 : β = β 0 testra se bez obzra a vredost parametra α. Ako ºelmo da testramo hpotezu 25
da l se regresoa lja alaz u ekoj oblast l e, moramo da testramo hpotezu H 0 : α = α 0, β = β 0. Da b zvel zaklju ak, korstmo test statstku A = ( ) ( ) ( ) ˆα OLS α, ˆβOLS β =1 X ˆαOLS α =1 X =1 X 2 2s ˆβ 2 F 2; 2. OLS β Tako, (1 a)100% oblast povereja za α β je data sa A 2s 2 F a;2, 2, gde je F a;2, 2 kvatl reda a F²erove raspodele. Prmetmo da je ta oblast povereja u stvar elpsa. 1.6 Mera "tovaja" Dobl smo ocee ajmajh kvadrata parametara α, β σ 2 a²l smo jhove raspodele pod pretpostavkom da smetje maju ormalu raspodelu. Nau l smo kako se testraju hpoteze koje se odose a sve parametre. Sada emo se bavt merejem "tovaja" ocejee regresoe lje. Posmatra emo sada slu aj kada je predktor X slu aja promeljva. Podsetmo se da je e = Y Ŷ, gde smo sa Ŷ oza l predvžeu vredost za Y dobjeu a osovu regresoe lje metodom ajmajh kvadrata za dato X, tj. Ŷ = ˆα OLS + ˆβ OLS X. Korste jecu da je =1 e = 0, dobl smo da vaº =1 Y = =1 Ŷ. Ako obe strae prethodog zraza podelmo sa zaklju ujemo da vaº Ȳ = Ŷ, tj. prave predvžee vredost za Y maju sto uzora ko o ekvaje. To je ta o sve dok postoj kostata u regresj. Dodaju zamejuju Ȳ u e dobjamo e = Y kvadrramo sumramo prethod zraz dobjamo =1 Y = e 2 + Ŷ + 2 =1 =1 =1 e Ŷ = Ŷ, tj. Y =1 Ŷ + =1 = e + Ŷ. Ako e 2, (1.10) gde posledja jedakost sled a osovu jece da je Ŷ = ˆβ OLS X =1 e X = 0. U stvar, jeca da je =1 e Ŷ = =1 e Ŷ = 0 za da su OLS rezdual ekorelsa sa predvžem vredostma u regresj. Drugm re ma, (1.10) kaºe da se totalo odstupaje Y od jegovog uzora kog o ekvaja Ȳ, =1 Y, moºe podelt a dva dela: prv deo je regresoa suma kvadrata =1 Ŷ = ˆβ OLS 2 =1 X, a drug deo je rezduala suma kvadrata =1 e 2. Dakle, ukupa varjasa se moºe podelt a varjasu obja²jeu regresjom a eobja²jeu varjasu. Posmatrajmo regresju koja je data samo pomo u kostate Y = α + ε, gde je {ε } z ezavsh jedako raspodeljeh slu ajh promeljvh sa o ekvajem 0 varjasom σ 2, ²to kra e zapsujemo ε IID(0; σ 2 ). Da dobjemo oceu ajmajh kvadrata parametra α požmo od zraza =1 (Y α) 2 taj zraz dferecramo u odosu a parametar α: ( ) (Y α) 2 = 2 (Y α) = 0 α =1 26 =1
(Y α) = 0 =1 Y α = 0 =1 Y = α =1 1 Y =1 = α α OLS = Ȳ, gde je α OLS odgovaraju a ocea parametra α dobjea a osovu regresje date samo pomo u kostate. Ako sumramo po levu desu strau zraza Y = α + ε, a oda podelmo sa, dobjamo Ȳ = α + ε. Otuda je E( α OLS ) = E(α) + E ε = α. Varjasa eprstrase ocee parametra α je V ar( α OLS ) = E( α OLS α) 2 = E ε 2 = 1 2 Rezdulaa suma kvadrata je =1 Eε 2 = 1 2 σ2 = σ2. (Y α OLS ) 2 = (Y Ȳ )2 = Y. =1 =1 =1 Dakle, =1 Ŷ u (1.10) daje obja²javaju u mo promeljve X kada je kostata sprava. Korste ovu podelu, moºemo desat vel u koja mer spravost regresje kao odos regresoe sume kvadrata totale sume kvadrata (Total Sum of Squares- TSS). Drugm re ma, de²emo =1 R 2 Ŷ = =1 Y jea vredost je zmežu 0 1. U stvar, ako podelmo (1.10) sa =1 Y =1 R 2 e 2 = 1 =1, Y dobjamo gde =1 e 2 predstavlja meru odstupaja mmzrau metodom ajmajh kvadrata. Ako je =1 e 2 velko, regresja e obja²java ve u odstupaja u Y, tada je vredost R 2 mala. Mežutm, ako je =1 e 2 malo, regresja je dobra R 2 je velko. U stvar, za savr²eu regresju, gde sva posmatraja leºe a spravoj lj je Y = Ŷ e = 0, ²to za da je =1 e 2 = 0 R 2 = 1. Drug ekstrem slu aj je kada je regresoa suma kvadrata =1 Ŷ = 0, tj. kada leara regresja e opsuje jedo 27
odstupaje Y -ova. U tom slu aju je =1 Y = =1 e 2 R 2 = 0. Prmetmo da z =1 Ŷ = 0 sled da je Ŷ = 0 za svako, ²to za da je Ŷ = Ȳ, = 1, 2,...,. Ftovaa regresoa lja u ovom slu aju je horzotala lja ja je vredost Y = Ȳ e zavs od promeljve X. Prmetmo da R 2 ma dva alteratva za eja: () To je ob a kvadrat koecjeta korelacje zmežu Y Ŷ. Pokaza emo ajpre da je R 2 = r 2 xy, gde je r 2 xy = ( =1 X =1 X Y ) 2 =1 Y : R 2 = =1 Ŷ =1 Y = ˆβ OLS 2 =1 X =1 Y = ( =1 X Y ) 2 ( =1 X =1 X ) 2 =1 Y ) 2 = ( =1 X Y =1 X =1 Y = r 2 xy Požmo sada od jece da je Y sa Ŷ a zatm sumramo: =1 = Ŷ + e. Najpre, obe strae zraza pomoºmo Y Ŷ = Ŷ + e Ŷ Y Ŷ = =1 Ŷ + =1 e Ŷ Sada je =1 Y Ŷ = =1 Ŷ. r y ŷ 2 = ( =1 ) 2 Y Ŷ =1 Y =1 Ŷ = ( =1 ) 2 Ŷ =1 Y =1 Ŷ = =1 Ŷ =1 Y = R 2. () Takože, u slu aju proste regresje, to je kvadrat ob e korelcje zmežu X Y. To za da pre ego ²to regresramo Y pomo u slu aje promeljve X, moºemo da zra uamo r 2 xy koj am pokazuje u kojoj mer X dobro obja²java odstupaja u Y. Ukolko je taj broj veoma mal, ma emo slabu learu vezu zmežu Y X e emo spravo objast odstupaja u Y pomo u X. Treba aglast da je R 2 mera leare povezaost zmežu X Y. Moºe postojat, a prmer, savr²ea kvadrata veza zmežu X Y, al krva koja je ocejea metodom ajmajh kvadrata a osovu podataka je prava lja koja mplcra da je R 2 = 0. Takože, regresja pomo u ajmajh kvadrata moºe bt esprava kada je vredost R 2 blzu 1. U ekm slu ajevma se e uklju uje kostata u regresju. Tada korstmo ecetrrao R 2 kao meru "tovaja". Necetrrao R 2 se de²e sa ecetrrao R 2 = 1 =1 e 2 =1 Y 2 = =1 Ŷ 2 =1 Y 2 predstavlja udeo odstupaja u =1 Y 2 X. koj je obja²je regresjom za Y pomo u 28
1.7 Predvžaje Hajde sada da predvdmo vredost Y 0 za datu vredost X 0. Ob o se predvžaje rad pomo u vremeskh serja, kada se predvža budu ost, a prmer za jeda perod uapred. Ta ova opservacja Y 0 je data sa Y 0 = α + βx 0 + ε 0. (1.11) O ekvaje, EY 0 = α + βx 0, je leara kombacja parametara α β. Korste rezultat Gausa-Markova, Ŷ 0 = ˆα OLS + ˆβ OLS X 0 je ajbolja learaa eprstrasa ocea za α + βx 0 sa varjasom V ar(ŷ0) = V ar(ˆα OLS + ˆβ OLS X 0 ) = V ar(ˆα OLS ) + X0V 2 ar( ˆβ OLS ) + 2X 0 Cov(ˆα OLS, ˆβ OLS ) = ( ) 1 = σ 2 + X2 =1 + X 2 σ 2 X 0 =1 + 2X X 0 ( X) σ 2 =1 = X [ ] 1 = σ 2 + 1 =1 ( X X 2 + X 2 0 2X 0 X) = = σ 2 [ 1 + (X 0 X) 2 =1 X ]. Y 0 se razlkuje od EY 0 za ε 0. Najbolje predvžaje za ε 0 je ula pa je ajbolje learo eprstraso predvžaje za Y 0 upravo Ŷ0. Gre²ka predvžaja je Y 0 Ŷ0 = [Y 0 EY 0 ] + [EY 0 Ŷ0] = ε 0 + [EY 0 Ŷ0], gde je ε 0 smetja koja se javlja ako je pozata prava regresoa lja, a EY 0 Ŷ0 je razlka zmežu uzora ke populacoe regresoe lje. Otuda, varjasa gre²ke predvžaja b e [ V ar(ε 0 ) + V ar(ey 0 Ŷ0) + 2Cov(ε 0, EY 0 Ŷ0) = σ 2 1 + 1 + (X 0 X) 2 ] =1. X Na osovu prethodog zraza vdmo da je varjasa gre²ke predvžaja jedaka varjas predvžaja za EY 0, plus varjasa smetje, plus dve kovarjase za EY 0 Ŷ0 ε 0. Posledj sabrak prethodog zraza je ula, s obzrom da je ε 0 ova smetja oa je u korelacj sa smetjama koje se javljaju u uzorku koje se odose a Ŷ. Stoga, predvžaje proseka tro²kova doma stava koja maju 20000 d prhoda je sto kao predvžaje tro²kova pojedog doma stva j je prhod 20000 d. Razlka je u samom predvžaju ve u varjas koja se odos a to predvžaje. Varjasa gre²ke predvžaja je ve a od varjase predvžaja za σ 2. Dakle, varjasa predvžaja zavs od σ 2, vel e uzorka, odstupaja u X od toga kolko X 0 odstupa od uzora kog o ekvaja opservrah podataka. Da sumramo, varjasa predvžaja je maja ukolko je σ 2 maje, ve e kao kada je =1 X ve e kada je X 0 blºe X. Moºemo kostrusat 95 % terval povreja predvžaja za svaku vredost X 0. To je, u stvar, (ˆα OLS + ˆβ OLS X 0 ) ± t 0.025; 2 s 29 [ 1 + 1 + (X 0 X) 2 =1 X ] 1/2,
gde je s ocea za σ, a t 0.025; 2 predstavlja 2,5 % krt u vredost dobjeu a osovu t-raspodele sa 2 stepea slobode. Slka 1.5 pokazuje grace povereja za ocejeu regresou lju. To je hperbola koja je ajuºa oko X kao ²to se o ekvalo, a ²r se kada se udaljavamo od X. 1.8 Aalza rezduala Gra k podac o razdualma su veoma bt. Rezdual su postojae ocee pravh smetj. Za razlku od ε, e su zavs. tav²e, OLS ormale jeda e (1.2) (1.3) predstavljaju dve veze zmežu rezduala. Otuda, pozavaju 2 rezduala, preostala dva rezduala se mogu zra uat. Ako b pozaval prave ε gra k h predstavmo, o e bt asum o rasture oko horzotale ose bez ekog spec og obrasca. Gra k podac e koj se poa²aju po odrežeom obrascu kao skup poztvh rezduala pra e skupom egatvh rezduala, kao ²to je prkazao a slc 1.6(a), mogu ukazvat a aru²avaje eke od 5 pretpostavk a osovu kojh smo kostrusal model l prosto ukazuju a pogre²u fukcoalu formu. Na prmer, ako su aru²e uslov pretpostavke 3, recmo da su ε poztvo korelsa to je kao da mamo poztve rezduale pra ee poztvm egatve pra ee egatvm, slka 1.6(b). Sl o ako kvadratu vezu zmežu X Y ocemo pravom regresoom ljom, tada e grak rezduala zgledat kao a slc 1.6(c). Slka 1.5: 95% grace povereja Velk rezdual ukazuju a lo²e predvžaje. Velk rezdual mogu ukazvat a to da je sptva pogre²o obrado svoje podatke. Takože, mogu postojat utcaja posmatraja, autlajer, je se poa²aje razlkuje od drugh podataka u uzorku koj e bt daleko od ocejee regresoe lje u odosu a druge podatke. ƒjeca da metod ajmajh kvadrata mmzra sumu kvadrata rezduala, za da autlajer, po svojoj prrod, bto ut u a vredost ukupe sume. Drugm re ma, ukolko uklomo ova posmatraja z uzorka moºemo za ajo promet ocee regresou 30
Slka 1.6: Poztvo korelsa rezdual Slka 1.7: Rastu a varjasa rezduala 31
lju. Moºemo acrtat razduale aspram X. Ukolko se poa²aju po obrascu koj je prkaza a slc 1.7 to moºe bt pokazatelj da je aru²ea pretpostavka 2, zato ²to varjasa rezduala raste sa porastom deksa za X, a trebalo b da bude kostata za sve opservacje. Takože, moºe se agovestt veza zmežu X pravh smetj kao posledca aru²avaja pretpostavke 4. Da zaklju mo, trebalo b uvek gra k predstavt rezduale da b se proverl podac, da se detkuju autlajer da se prover da l je aru²ea eka od 5 pretpostavk a osovu kojh smo kostrusal model. 1.9 Prmer U tabel 1.1 dat je broj bu²ela (bu²el je jedca za masu ºtarca koja se alaz u Amer kom sastavu mera) kukuruza po jutru, Y, kao rezultat upotrebe razl te kol e žubrva po jutru, X, u perodu od 10 goda, od 1971-1980. Vredost su gra k prkazae a slc 1.8. Vdmo da je veza zmežu X Y prblºo leara. Tabela 1.1 Goda Y X Y X X Y X 1971 1 40 6-17 -12 204 144 37,08 1972 2 44 10-13 -8 104 64 43,72 1973 3 46 12-11 -6 66 36 47,04 1974 4 48 14-9 -4 36 16 50,36 1975 5 52 16-5 -2 10 4 53,68 1976 6 58 18 1 0 0 0 57 1977 7 60 22 3 4 12 16 63,64 1978 8 68 24 11 6 66 36 66,96 1979 9 74 26 17 8 136 64 70,28 1980 10 80 32 23 14 322 196 80,24 Na osovu podataka z tabele 1.1 moºemo ocet parametre leare regresje α β. Imamo da je 10 =1 X Y = 956, 10 =1 X = 576, kao da je X = 18 Ȳ = 57. Ocee parametara dobjee metodom ajmajh kvadrata b e: ˆβ OLS = Ocejea regresoa lja b e 10 =1 X Y 10 =1 X = 956 = 1, 66 576 ˆα OLS = Ȳ ˆβ OLS X = 57 1, 66 18 = 27, 12. Ŷ = ˆα OLS + ˆβ OLS X = 27, 12 + 1, 66X, = 1, 2,..., 10 a osovu je moºemo zra uat "tovae" vredost za Y, Ŷ. Za X = 0 mamo vredost za Ŷ, Ŷ = ˆα OLS = 27, 12. Za vredost X = 18 je Ŷ = 57 = Ȳ. Ta ka 32 Ŷ
( X, Ȳ ) leº a regresooj lj, slka 1.9. U tabel 1.2 se alaze rezultat pomo u kojh moºemo ocet varjasu smetj, σ 2, a osovu kojh moºemo testrat hpoteze o za ajost parametara regresje. Tabela 1.2 e e 2 X 2 Y Ŷ 1 2,92 8,52 36 289 396,80 2 0,28 0,07 100 169 176,35 3-1,04 1,08 144 121 99,20 4-2,36 5,56 196 81 44,08 5-1,68 2,82 256 25 11,02 6 1 1 324 1 0 7-3,64 13,24 484 9 44,08 8 1,04 1,04 576 121 99,20 9 3,72 13,83 676 289 176,35 10-0,24 0,05 1024 529 540,09 Slka 1.8: Najpre, zra uajmo rezduale e = Y Ŷ a oda oceu parametra σ 2 s 2 = 1 2 Varjase ocea parametara b e: V ar( ˆβ OLS ) = 10 =1 e 2 = s 2 10 =1 X 33 47, 31 8 = = 5, 91. 5, 91 576 = 0, 01
Slka 1.9: 34
V ar(ˆα OLS ) = s2 10 =1 X 2 10 10 =1 X = 5, 91 3816 10 576 = 3, 92. Stadarde gre²ke su ŝe( ˆβ OLS ) = 0, 1 ŝe(ˆα OLS ) = 1, 98. Testramo sada hpoteze H β 0 : β = 0 H α 0 : α = 0 korstmo test-statstke: t β = t α = ˆβ OLS ŝe( ˆβ OLS ) ˆα OLS ŝe(ˆα OLS ) = 1, 66 0, 1 = 16, 6 = 27, 12 1, 98 = 13, 7. Vredost t a/2; 2 dobjea a osovu Studetove raspodele sa 8 stepe slobode za dat prag za ajost od 5% je 2,306. S obzrom da je ova vredost maja od obe vredost test statstka, odbacujemo obe ulte hpoteze. Na kraju, zra uajmo vredost za R 2 R 2 = ( 10 =1 X Y ) 2 10 =1 X 10 =1 Y = (956)2 = 0, 971. 576 1634 Zamo da totalu varjasu odstupaja u Y moºemo podelt a dve sume: =1 Y = =1 Ŷ + =1 e 2. Sumu =1 Ŷ moºemo zra uat a osovu podataka z tabele 1.2 al kao razlku suma: =1 Ŷ = =1 Y =1 e 2 = 1587. U tom slu aju, vredost za R 2 je R 2 = 10 =1 Ŷ 10 =1 Y = 1587 = 0, 971. 1634 To za da kol a žubrva (X), obja²java 97,1% odstupaja u broju bu²ela kukuruza (Y). 35
36
Glava 2 V²estruka leara regresja 2.1 Uvod Do sada smo u regresooj jeda mal, pored kostate, samo jeda regresor X. V²estruka regresja omogu ava straºva u da prou efekte v²e od jede ezavso promeljve u sto vreme. Op²ta amea v²estruke leare regresje je da proaže learu vezu zmežu zavso promeljve ekolko ezavsh promeljvh. V²estruka leara regresja moºe bt kor² ea da se spta sa kolko ezavsh promeljvh moºe dovoljo dobro da se objas ek rezultat. U drugm slu ajevma, v²estruka leara regresja se korst da se spta efekat a rezultat ukolko v²e faktora ut e a taj rezultat. Veze zmežu promeljvh koje se korste u ekoomj ob o uklju uju v²e regresora. Na prmer, jeda a koja predstavlja prodaju jedog prozvoda ob o sadrº realu ceu tog prozvoda sa dodatkom realog prhoda u odosu a realu ceu kokuretog prozvoda kao tro²kove reklamraja prozvoda. U tom slu aju, regresoa jeda a je Y = α + β 2 X 2 + β 3 X 3 +... + β K X K + ε, = 1, 2,...,, (2.1) gde smo sa Y oza l -to posmatraje zavso promeljve Y, ²to je u ovom slu aju prodaja prozvoda. X k predstavlja -to posmatraje ezavso promeljve X k, k = 2,..., K, ²to je u ovom slu aju cea, kokuretska cea, tro²kov reklame. α je odse ak, β 2,..., β K su K 1 koecjeata agba. ε, = 1, 2,..., zadovoljavaju osove pretpostavke 1-4 date u glav 1. Pretpostavka 4 u slu aju v²estruke leare regresje de²e predktore X k, k = 2,..., kao eslu aje promeljve za koje vaº osoba da (X k X k ) 2 =1, gde je X k = 1 =1 X k, ma koa a lmes kada koj je razl t od ule. Jeda a v²estruke leare regresje moºe da se ap²e u matr oj form Y = Xβ + ε, (2.2) 37
gde su: Y = Y 1 Y 2. Y X 11 X 12... X 1K β 1, X = X 21 X 22... X 2K......, β = β 2., ε = X 1 X 2... X K β K je broj posmatraja K je broj promeljvh u regresj, > K. U ovom slu aju Y je vektor koloa, a X je matrca dmezje K. Svaka koloa u X oza ava jedu promeljvu, a svaka vrsta je posmatraje dath promeljvh. 2.2 Ocea ajmajh kvadrata Metod ajmajh kvadrata mmzra rezdualu sumu kvadrata, gde su, u ovom slu aju, rezdual dat sa: e = Y ˆα K k=2 ˆβk X k, = 1, 2,..., ˆα ˆβ k su eke ocee parametara regresje α β k, respektvo. Rezdualu sumu kvadrata RSS = e 2 = (Y ˆα ˆβ 2 X 2... ˆβ K X K ) 2 =1 =1 mmzramo re²avajem slede eg sstema learh jeda a: ˆα ˆβ k ²to je ekvvaleto sa: ( ) e 2 =1 ) ( e 2 =1 = 2 e = 0 =1 = 2 =1 ε 1 ε 2. ε, e X k = 0, k = 2,..., K (2.3) Y = ˆα + ˆβ 2 X 2 +... + ˆβ K X K =1 =1 =1 Y X 2 = ˆα X 2 + ˆβ 2 X 2 X 2 +... + ˆβ K X K X 2 =1 =1 =1 =1... Y X K = ˆα X K + ˆβ 2 X 2 X K +... + ˆβ K XK, 2 =1 =1 =1 =1 gde prvu jeda u dobjamo tako ²to regresou jeda u sumramo, drugu dobjamo tako ²to regresou jeda u pomoºmo sa X 2 sumramo td, K-tu jeda u dobjamo tako ²to regresou jeda u pomoºmo sa X K sumramo. Iz prethodog sstema jeda a sled da je =1 e = 0 =1 e X k = 0, k = 2,..., K. Re²avajem th K jeda a sa K epozath dobjamo ocee ajmajh kvadrata. To se moºe uradt elegatje pomo u matrca. Rezdual su sada dat sa e = Y X ˆβ, gde su sa ˆβ oza ee eke pretpostavljee vredost za β. Rezduala suma kvadrata je RSS = e 2 = e e = (Y X ˆβ) (Y X ˆβ) = Y Y Y X ˆβ ˆβ X Y + ˆβ X X ˆβ. =1 38
Posledja etr sabrka su skalar, ²to moºe bt potvržeo pomo u jhovh dmezja. U stvar, dva sabrka koja su u sred su jedaka, zato ²to je traspoovaa vredost skalara st taj skalar. Dferecraju RSS u odosu a ˆβ, dobjamo: RSS ˆβ = (Y X) X Y + (X X + (X X) ) ˆβ = = X Y X Y + (X X + X X) ˆβ = = 2X Y + 2X X ˆβ, (2.4) gde smo skorstl slede a dva pravla za dferecraje matrca: () a b = a, b () (b Ab) = (A + A )b = 2Ab, b gde je druga jedakost ta a ako je A smetr a matrca. Za mmzraje jeda- e date u (2.4) parcjal zvod prvog reda zjeda mo sa ulom. Odatle dobjamo X X ˆβ = X Y (2.5) koja je pozata kao ormala jeda a ob h ajmajh kvadrata. Dok god je X puog raga, tj. raga K, tada je X X esgulara matrca re²eje prethode jeda e je ˆβ OLS = (X X) 1 X Y. "Puog raga" za da e postoj koloa u X koja moºe da se dobje kao leara kombacja drugh koloa. U tom smslu uvodmo slede u pretpostavku: Pretpostavka 6: Ne postoj leara zavsost zmežu obja²javaju h promeljvh. Ova pretpostavka am govor da jeda promeljva koja se javlja u regresj e moºe se dobt kao leara kombacja ostalh promeljvh. Ukolko se aru² ova pretpostavka to za da b mal K-1 learo ezavsu jeda u za dobjaje K epozath β, odoso da e emo mat jedstvee ocee ajmajh kvadrata. Prmer 2.2.1 Ako je X 2 = 3X 4 2X 5 + X 7, za = 1, 2,...,, tada moºe ovu jeda u sa e sumraju po dobjamo X 2 e = 3 X 4 e 2 X 5 e + X 7 e. =1 =1 =1 =1 Vdmo da druga ormala jeda a ajmajh kvadrata z (2.3) moºe bt predstavljea kao leara kombacja etvrte, pete sedme ormale jeda e ajmajh kvadrata. Pozaju te tr ormale jeda e, druga jeda a am e daje ovu formacju. Moºemo zamet ovu jeda u u orgalu regresou jeda u (2.1), posle srežvaja, X 2 e bt elmsao dobja se jeda a Y = α+β 3 X 3 +(3β 2 +β 4 )X 4 +(β 5 2β 2 )X 5 +β 6 X 6 +(β 2 +β 7 )X 7 +...+β K X K +ε. Koecjet uz X 4, X 5, X 7 su, sada, 3β 2 + β 4, β 5 2β 2, β 2 + β 7, respektvo. Svak od jh sadrº β 2. Ove leare kombacje koecjeata β 2, β 4, β 5, β 7 e 39
bt ocejee a osovu prethode regresje koja e sadrº X 2. U stvar, ostale promeljve X, koje su learo zavse mežu sobom, ma e koecjete koj e sadrºe β 2 otuda oe mogu bt ocejee metodom ajmajh kvadrata. Mežutm, β 2, β 4, β 5, β 7 e mogu bt oceje pojeda o. Prmetmo da se ovo odos a leare veze al da se e odos a eleare veze zmežu ezavso promeljvh. Drugm re ma, moºemo uklju t X 1 X 2 1 kao (gode skustva) (gode skustva) 2 u jeda u obja²javaju zaradu pojedca. Iako postoj savr²ea kvadrata veza zmežu ovh ezavso promeljvh, e postoj savr²ea leara veza otuda to je uzrok savr²ee multkolearost. Dakle, da jeda a (2.5) ma jedstveo re²eje, matrca X X treba da bude esgulara. X X je matrca suma kvadrata prozvoda zmežu promeljvh. Ako je u regresju uklju ea kostata, tada matrca X sadrº jedu kolou jedca. Ob o je to prva koloa. U tom slu aju, matrca X X sadrº sume, sume kvadrata sume prozvoda svake dve promeljve, tj. X X = =1 X 2... =1 X =1 2 X2 2........ =1 X =1 K X K X 2... =1 X K =1 X 2 X K. =1 X 2 K Matrc X X moºemo da dodamo Y kao jo² jedu promeljvu me emo automatsk dobt X Y Y Y, tj. koloa koja se odos a Y e geersat =1 Y, =1 X 1 Y,..., =1 X K Y =1 Y 2. Da bsmo ovo pokazal posmatrajmo tada je Z Z = [ Y X Z = [Y, X], ] [ [ ] Y Y Y X Y X = X Y X X Ova matrca sadrº sve podatke moºemo regresrat blo koju promeljvu z Z pomo u ostalh promeljvh z Z korste samo Z Z. Oza mo rezduale dobjee metodom ajmajh kvadrata sa e = Y X ˆβ OLS, ormala jeda a ajmajh kvadrata data sa (2.5) moºe bt zapsaa kao X Y X X ˆβ OLS = X (Y X ˆβ OLS ) = X e = 0. (2.6) Rekl smo da ako jeda a regresje sadrº kostatu, prva koloa u X b e koloa jedca prva jeda a u (2.6) posta e =1 e = 0. To pokazuje dobro pozat rezultat da ako postoj kostata u regresj, suma rezduala ajmajh kvadrata je ula. Jeda a (2.6) takože ukazuje a to da je matrca regresora X ortogoala a vektor rezduala e. Smetje maju ormalu raspodelu, tj. ε N (0, σ 2 I ) ²to za da: () svaka smetja ma o ekvaje 0, () kostatu varjasu () ε ε j, j su ekorelsa. Takože, 40 ]..
X (v) podsetmo se da su predktor eslu aje vel e da je lm X koa a poztvo deta da je lm X ε = 0, u verovato. Na osovu dath osovh pretpostavk uslovljavaju opservram X, lako se pokazuje da je ˆβ OLS eprstrasa ocea za ˆβ. U stvar, korste (2.2) moºemo zapsat ˆβ OLS = ˆβ + (X X) 1 X ε. (2.7) Ako potraºmo uslovo o ekvaje leve dese strae pod uslovom X a osovu pretpostavk ()-(v) dobjamo kao rezultat eprstrasost. Osm toga, moºemo zvest kovarjasu matrcu za ˆβ OLS a osovu (2.7) s obzrom a to da je V ar( ˆβ OLS ) = E [( ˆβ OLS β)( ˆβ ] OLS β) = = ] E [(X X) 1 X εε X(X X) 1 = = (X X) 1 X X(X X) 1 E(εε ) = = σ 2 (X X) 1, (2.8) gde smo skorstl pretpostavku (v) jecu da je E(εε ) = σ 2 I. Ova kovarjasa matrca je dmezje K K a djagoal su varjase za ˆβ, a va glave djagoale su kovarjase za ˆβ ˆβ j. Slede a teorema pokazuje da su mežu svm learm eprstrasm oceama za c β, c ˆβOLS ocee sa ajmajom varjasom. Oa je pozata kao Gaus-Markova teorema. Teorema 2.2.1 Posmatrajmo learu oceu a Y za c β, gde su a c prozvolj vektor kostat. Ako je a Y eprstrasa ocea za c β tada je V ar(a Y ) V ar(c ˆβOLS ). Dokaz: Kako je a Y eprstrasa ocea za c β z (2.2) sled da je ²to za da je a X = c. Takože, E(a Y ) = E(a Xβ) + E(a ε) = a Xβ = c β V ar(a Y ) = E(a Y c β)(a Y c β) = E(a Y a Xβ)(a Y a Xβ) = = E(a ε)(a ε) = E(a εε a) = σ 2 a a. Uporežuju ovu varjasu sa varjasom za c ˆβOLS mamo Odoso V ar(a Y ) V ar(c β OLS ) = σ 2 a a σ 2 c (X X) 1 c. σ 2 a a σ 2 a X(X X) 1 X a = σ 2 [a a a P X a] = σ 2 a P X a, 41