Univerzitet u Ni²u Prirodno - matemati ki fakultet Departman za matematiku Linearni regresioni modeli u nansijama Master rad Mentor: dr Aleksandar Nasti Student: Aleksandra Cvetanovi Ni², 2015.
Sadrºaj 1 Uvod 5 2 Osnovni pojmovi 7 2.1 Ocena maksimalne verodostojnosti................... 7 2.2 Ocena najmanjih kvadrata........................ 8 2.3 Intervalno ocenjivanje........................... 8 2.4 Testovi................................... 9 2.5 Osobine nenegativno denitne matrice................. 10 2.6 Analiza glavnih komponenata...................... 10 2.7 Prinosi aktive............................... 12 2.8 Prinosi portfolija............................. 14 3 Linearna regresija sa jednom nezavisnom promenljivom 15 3.1 Statisti ka veza izmežu dve promenljive................. 15 3.2 Regresioni model............................. 17 3.2.1 Normalni regresioni model.................... 18 3.2.2 Zna enje regresionih parametara................. 18 3.3 Ocenjivanje regresione funkcije...................... 18 3.3.1 Ocene najmanjih kvadrata.................... 18 3.3.2 Osobine ocena najmanjih kvadrata............... 22 3.3.3 Ocena parametara metodom maksimalne verodostojnosti.......................... 25 3.3.4 Ocenjena regresiona funkcija................... 26 3.3.5 Reziduali............................. 26 3.3.6 Osobine tovane regresione linije................ 28 3.4 Sume kvadrata.............................. 28 3.5 Intervali poverenja za parametre normalne regresije............................. 31 3.6 Testiranje parametra β 1......................... 34 3.7 Prost regresioni model u obliku matrice................. 36 3.7.1 Regresioni koecijenti....................... 37 3.7.2 Fitovane vrednosti i reziduali.................. 40 3.7.3 Sume kvadrata.......................... 41 3.8 Dodatak: Kori² enje Microsoft Excel-a za prostu linearnu regresiju......................... 44 3
SADRšAJ 4 4 Vi²estruki regresioni modeli 47 4.1 Model prvog reda sa dve nezavisne neslu ajne promenljive.......................... 47 4.1.1 Zna enje regresionih koecijenata................ 47 4.2 Model prvog reda sa vi²e od dve nezavisne promenljive................................ 48 4.3 Op²ti linearni regresioni model...................... 48 4.4 Op²ti linearni regresioni model u matri nom obliku................................... 49 4.5 Regresioni koecijenti vi²estrukog regresionog modela............................ 50 4.6 Komentari................................. 51 4.7 Uop²tene ocene najmanjih kvadrata................... 52 4.8 Primer vi²estruke regresije sa dve nezavisne promenljive................................ 53 5 Osnovni investicioni modeli 57 5.1 Markoviceva portfolio teorija....................... 57 5.1.1 Ponderi portfolija......................... 57 5.1.2 Oblast realizacije i ekasna granica............... 58 5.1.3 Izra unavanja ekasnih portfolija................ 61 5.2 Model procenjivanja kapitalnih ulaganja................ 64 5.2.1 arpov koli nik i linija trºi²ta kapitala............. 65 5.2.2 Beta i trºi²na linija hartija od vrednosti............ 65 5.2.3 Implikacije ulaganja....................... 67 5.2.4 Ocenjivanje............................ 67 5.2.5 Empirijska istraºivanja CAPM-a................. 68 5.3 Vi²efaktorski modeli........................... 70 5.3.1 Teorija arbitraºnog vrednovanja................. 70 5.3.2 Analiza faktora.......................... 71 5.3.3 Pristup: Analiza glavnih komponenata............. 73 5.3.4 Fama-Fren trofaktorski model................. 73 Literatura 75 Biograja 77
Uvod 5 Glava 1 Uvod Regresiona analiza je statisti ki metod koji koristi vezu izmežu dve ili vi²e promenljivih veli ina, tako da se jedna promenljiva moºe predvideti iz druge promenljive, ili drugih promenljivih. Pod vezom izmežu promenljivih smatra se da je re o statisti koj vezi. Regresiona analiza podataka se toliko proºima u savremenom poslovanju da je lako sagledati injenicu da je metodologija stara 130 godina. Nau nici pripisuju nastanak regresije antropologu Frensis Galtonu 1. Galton je 1885. godine uveo opis regresije, prou avanjem prirodne selekcije i nasleživanja. U regresionoj analizi je od interesa jedna veli ina: zavisna promenljiva. Ostale veli ine se uzimaju za obja²njavaju e promenljive ili tzv. nezavisne promenljive. Cilj regresione analize je odrediti, pomo u promena obja²njavaju ih promenljivih, kako se menja zavisna promenljiva. Regresija ima ²iroku primenu u mnogim naukama, a u ovom radu posmatra emo njenu primenu u nansijama, zato se nadalje bavimo samo linearnom regresijom sa neslu ajnim obja²njavaju im (nezavisnim) promenljivama. Rad je sastavljen od pet celina. Osnovni pojmovi iz nansija, multivarijacione analize, verovatno e i statistike, koji se primenjuju u ovom radu su uvedeni u slede oj, drugoj glavi. Prikazani su metodi ocenjivanja, zatim testovi, kao i prinosi aktive i portfolija. Navedene su neke osobine nenegativno denitne matrice i opisana analiza glavnih komponenata. U tre oj glavi se razmatra linearna regresija u slu aju samo jedne obja²njavaju e promenljive, zato je poznata i kao prosta linearna regresija. Opisuje se statisti ka veza izmežu dve promenljive, regresioni model i normalni regresioni model. Govori se o zna enju regresionih parametara, a potom i o ocenjivanju. U praksi je zbog velikog broja podataka lak²e raditi sa matricama, te je predstavljen prost regresioni model u obliku matrice zajedno sa ocenjivanjem nepoznatih parametara. U dodatku ove glave obja²njeno je kori² enje Microsoft Excel-a za prostu linearnu regresiju. 1 Francis Galton (1822-1911), engleski antropolog i polimat.
Uvod 6 Analiza vi²estruke regresije je jedna od naj e² e kori² enih statisti kih alata. ƒetvrta glava, po inje diskusijom o raznovrsnim vi²estrukim regresionim modelima, zatim je predstavljen op²ti statisti ki rezultat za vi²estruku regresiju u matri nom obliku. Po²to su rezultati dobijeni za prostu regresiju u obliku matrice sli ni, navode se bez posebnih obrazlaganja za slu aj vi²estruke regresije. Na kraju ove glave je predstavljena op²ta ocena najmanjih kvadrata vi²estruke regresije u obliku matrice i primer vi²estruke regresije pri posmatranju dveju nezavisnih promenljivih. U petoj glavi je glavna tema: kvantitativne nansije i to teorija portfolija i investicioni modeli koji se zasnivaju na linearnoj regresiji, za ²ta su Hari Markovic 2 i Vilijem arp 3 nagraženi Nobelovom nagradom u ekonomiji. Posebno se poklanja paºnja CAPM-u i vi²efaktorskim modelima. Govori se i o statisti kim problemima i opisuju razni statisti ki pristupi. Zahvaljujem se mentoru, dr Aleksandru Nasti u, na podr²ci i pomo i pri izradi ovog rada. 2 Harry Max Markowitz (1927- ), ameri ki nansijski ekonomista. 3 William Sharpe (1934- ), ameri ki ekonomista.
Osnovni pojmovi 7 Glava 2 Osnovni pojmovi Populacija je skup elemenata ija se zajedni ka svojstva izu avaju statisti kim metodima. Obeleºje je zajedni ko svojstvo elemenata posmatrane populacije. Uzorak je deo populacije na kome se ispituje posmatrano obeleºje. Uzorak sa ponavljanjem je uzorak u kojem isti element populacije moºe biti izabran vi²e puta. Statistika je funkcija od uzorka i poznatih konstanti. Ocena θ parametra θ je nepristrasna ako je E( θ) = θ. Ocena θ parametra θ je ocena minimalne disperzije za θ, ako za bilo koju drugu ocenu θ je D( θ) D(θ ). Ocena je najbolja ocena parametra θ ako je nepristrasna ocena za θ i ocena minimalne disperzije za θ. Neka su A i B dva dogažaja. Tada vaºi: P (A B) = P (A) + P (B) P (A B), (2.1) P (A) = 1 P (A), (2.2) P (A B) = P (A B). (2.3) 2.1 Ocena maksimalne verodostojnosti Metod maksimalne verodostojnosti je op²ti metod nalaºenja ocena. Pretpostavimo da imamo uzora ku populaciju ija gustina raspodele f(y; θ) uklju uje jedan parametar θ. Zajedni ka gustina raspodele nezavisnih opservacija Y 1, Y 2,..., Y n je g θ (y 1, y 2,..., y n ) = n f(y i ; θ), gde je f marginalna gustina. Ako zajedni ku gustinu raspodele posmatramo kao funkciju od θ sa datim opservacijama, onda se takva funkcija zove funkcija verodostojnosti i ozna ava sa
Osnovni pojmovi 8 L(θ) = g θ (y 1, y 2,..., y n ), odnosno sa L(θ) = n f(y i ; θ), kada su Y 1, Y 2,..., Y n nezavisne slu ajne promenljive. Maksimalizovanjem L(θ) po θ dobija se ocena maksimalne verodostojnosti za θ. Po²to je funkcija log x rastu a za x > 0, esto se umesto funkcije verodostojnosti L(θ) koristi log-verodostojnost l(θ) = log g θ (y 1, y 2,..., y n ). 2.2 Ocena najmanjih kvadrata Metod najmanjih kvadrata je drugi op²ti metod za nalaºenje ocena. Neka su opservacije oblika Y i = f i (θ) + ε i, i = 1,..., n gde je f i (θ) poznata funkcija parametra θ, a ε i su slu ajne promenljive za koje se uglavnom podrazumeva da je E(ε i ) = 0. Posmatra se suma kvadrata Q = (Y i f i (θ)) 2. Ocena najmanjih kvadrata se dobija minimalizovanjem Q po θ. 2.3 Intervalno ocenjivanje Neka su slu ajne uzora ke opservacije Y 1, Y 2,..., Y n iz normalne populacije sa o ekivanjem µ i standardnom devijacijom σ. Interval poverenja za µ sa nivoom poverenja 1 α je Y ± t α (1 ;n 1)s(Y ), (2.4) 2 gde je broj t (1 α 2 ;n 1) odrežen iz uslova P {t n 1 t (1 α 2 ;n 1)} = 1 α 2, a Y = Y i, n S = n (Y i Y ) 2, n 1 s(y ) = S n Y µ s(y ) : t n 1. (2.5)
Osnovni pojmovi 9 2.4 Testovi Jednostrani i dvostrani testovi populacionog o ekivanja µ se zasnivaju na test statistici t = Y µ 0 s(y ). U tabeli 2.1 su data pravila odlu ivanja za sva tri mogu a slu aja. Hipoteze Pravilo odlu ivanja (a) H 0 : µ = µ 0 ako je t t (1 α/2;n 1), prihvata se H 0 H a : µ µ 0 ako je t > t (1 α/2;n 1), prihvata se H a (b) H 0 : µ µ 0 ako je t t (α;n 1), prihvata se H 0 H a : µ < µ 0 ako je t < t (α;n 1), prihvata se H a (c) H 0 : µ µ 0 ako je t t (1 α;n 1), prihvata se H 0 H a : µ > µ 0 ako je t > t (1 α;n 1), prihvata se H a Tabela 2.1: Pravila odlu ivanja za testiranje o ekivanja µ normalne populacije. Dvostrani interval poverenja (2.4) se moºe koristiti za testiranje: H 0 : µ = µ 0 H a : µ µ 0. Ako je µ 0 sadrºano u intervalu poverenja sa nivoom poverenja 1 α, onda nas dvostrano pravilo odlu ivanja u tabeli 2.1, sa pragom zna ajnosti α dovodi do zaklju ka H 0, i obratno. Ako µ 0 nije sadrºano u intervalu poverenja, pravilo odlu ivanja nas dovodi do H a, i obratno. Za testiranje H 0 : θ Θ 0, gde je Θ 0 q-dimenzionalni potprostor parametara, 0 q < p, statistika koli nika verodostojnosti je ( ) Λ = 2 l n ( θ) sup l n (θ), (2.6) θ Θ 0 gde je l n (θ) funkcija log-verodostojnosti. Test statistika koli nika verodostojnosti sa pragom zna ajnosti α odbacuje H 0 ako λ prevazilazi vrednost χ 2 p q;1 α.
Osnovni pojmovi 10 2.5 Osobine nenegativno denitne matrice Matrica V dimenzije p p je nenegativno denitna ako je simetri na i a Va 0 za a R p, a pozitivno denitna ako je simetri na i a Va > 0 za a 0, a R p. Prema tome, X X je nenegativno denitna ako je za svako a R p a X Xa = (Xa) Xa = b 2 i 0, gde je [b 1 b n ] = Xa. tavi²e, ako je nenegativno denitna matrica X X i nesingularna, onda je ona pozitivno denitna matrica. Matrica Q dimenzije n n je ortogonalna matrica ako je Q = Q 1. Reprezentacija V = QDQ se zove singularna dekompozicija za V, pri emu je V nenegativno denitna matrica, Q ortogonalna matrica, D dijagonalna matrica iji su elementi sopstvene vrednosti matrice V. Kada je V pozitivno denitna matrica, moºemo iskoristiti njenu nesingularnu dekompoziciju za izra unavanje inverzne matrice V 1, via V 1 = QD 1 Q. Primetimo da ako je D = diag(λ 1,..., λ n ) sa λ i > 0, za svako i, onda je D 1 = diag(1/λ 1,..., 1/λ n ). 2.6 Analiza glavnih komponenata Neka je V matrica dimenzije p p. Kompleksan broj λ je sopstvena vrednost matrice V ako postoji vektor a 0 dimenzije p 1, takav da je Va = λa. Takav vektor a se zove sopstveni vektor matrice V koji odgovara sopstvenoj vrednosti λ. Moºemo Va = λa zapisati kao (V λi)a = 0. Po²to je a 0, sledi da je λ re²enje jedna ine det(v λi) = 0. Kako je det(v λi) polinom stepena p, to je p sopstvenih vrednosti. Ako je V simetri na matrica, onda sve njene sopstvene vrednosti su realne, u nerastu em poretku λ 1 λ p i tr(v) = λ 1 + + λ p, det(v) = λ 1 λ p. (2.7) Ako je a sopstveni vektor za V koji odgovara sopstvenoj vrednosti λ, onda je takav i ca za c 0. tavi²e, mnoºenjem λa = Va sa a sledi λ = a Va a 2, gde je a 2 = p a 2 i, za a = [a 1 a p ]. (2.8) Nadalje, razmatramo slu aj kada je V kovarijaciona matrica slu ajnog vektora X = [X 1 X p ]. Tada su njene sopstvene vrednosti realne nenegativne. Posmatrajmo linearnu kombinaciju a X sa a = 1 koja ima najve u varijansu mežu svim linearnim kombinacijama. Za maksimalizaciju a Va(= D(a X)) po a sa a = 1,
Osnovni pojmovi 11 uve² emo Lagranºov 1 inilac λ da bismo dobili a i (a Va + λ(1 a a)) = 0, za i = 1,..., p. (2.9) Mogu se p jedna ina u (2.9) zapisati kao linearni sistem Va = λa. Po²to je a 0, sledi da je λ sopstvena vrednost za V i a je odgovaraju i sopstveni vektor, a iz (2.8) je λ = a Va. Neka je λ 1 = max a: a =1 a Va i a 1 odgovaraju i sopstveni vektor sa a 1 = 1. Sada posmatrajmo linearnu kombinaciju a X koja maksimalizuje D(a X) = a Va u zavisnosti od a 1a = 0 i a = 1. Uvoženjem Lagranºovih inioca λ i η, dobijamo a i (a Va + λ(1 a a) + ηa 1a) = 0, za i = 1,..., p. Kao u (2.9), odavde sledi da je Lagranºov inilac λ sopstvena vrednost za V sa odgovaraju im sopstvenim vektorom a 2 koji je ortogonalan na a 1. Nastavljaju i postupak, dobijamo sopstvene vrednosti λ 1 λ 2 λ p za V sa optimizacionom karakteristikom λ k+1 = max a: a =1,a a j =0 za 1 j k a Va. Vektor a k+1 za koji a Va dostiºe maksimum je sopstveni vektor odgovaraju e sopstvene vrednosti λ k+1. a ix se zove i-ta glavna komponenta slu ajnog vektora X. Osobine glavnih komponenata su a) λ i = D(a ix), b) Elementi sopstvenog vektora a i se zovu faktori optere enja. Po²to je a ia j = 0 za i j i a i = 1, [a 1 a p ] je ortogonalna matrica i moºemo izvr²iti dekompoziciju identi ne matrice I I = [a 1 a p ][a 1 a p ] = a 1 a 1 + + a p a p. (2.10) Sumiranjem λ i a i a i = Va i a i po i i dodavanjem (2.10), dobija se slede a dekompozicija za V V = λ 1 a 1 a 1 + + λ p a p a p, (2.11) c) Iz V = D(X), X = [X 1 X p ], tr(v) = p D(X i) i (2.7) sledi λ 1 + + λ p = p D(X i ). (2.12) 1 Joseph-Louis Lagrange (1736-1813), italijansko-francuski matemati ar i astronom.
Osnovni pojmovi 12 Vaºan cilj analize glavnih komponenata je odrediti prvih nekoliko glavnih komponenata koji mogu opisati ve inu sveobuhvatne varijanse p D(X i). S obzirom na (2.12) treba odrediti da li je k λ i tr(v) blizu 1 za neko malo k. (2.13) Koriste i funkciju screeplot u R, moºe se proceniti (2.13). Reprezentacija za V u (2.11) se moºe zapisati sa V = Qdiag(λ 1,..., λ p )Q, (2.14) gde je Q = [a 1 a p ]. Matrica Q je ortogonalna, a (2.14) se zove singularna dekompozicija za V. Iz V 1 1 2 V 2 = Qdiag(λ 1,..., λ p )Q = V i (2.14) sledi da je V 1 2 = Qdiag( λ1,..., λ p )Q kvadratni koren za V. Neka je X 1,..., X n n nezavisnih opservacija iz populacije sa o ekivanjem µ i kovarijacionom matricom V. O ekivanje µ se moºe oceniti sa X = X i/n, a kovarijaciona matrica se moºe oceniti sa V = (X i X)(X i X), n 1 ²to je uzora ka kovarijaciona matrica. Neka je X k = [X 1k X nk ], 1 k p, denisa emo: Y j = â 1j X 1 + + â pj X p, 1 j p gde je â j = [â 1j â pj ] sopstveni vektor koji odgovara j-toj najve oj sopstvenoj vrednosti λ j uzora ke kovarijacione matrice V sa â j = 1. Iz ortogonalnosti matrice  = (â ij) 1 i,j p sledi da se posmatrani podaci X k mogu izraziti u terminima glavnih komponenata Y j kao X k = â k1 Y 1 + + â kp Y p. U analizi glavnih komponenata se kao alternativa za D(X) koristi korelaciona matrica R, koja je takože nenegativno denitna i sastoji se od korelacionih koecijenata Corr(X i, X j ), 1 i, j p. 2.7 Prinosi aktive Aktiva je investicioni instrument koji se moºe kupiti i prodati. Aktive koje emo spominjati su obveznice i akcije. Obveznica je hartija od vrednosti kojom se obavezuje emitent (onaj koji je emitovao obveznicu) da e licu na ije ime glasi obveznica (ako je obveznica na ime) ili
Osnovni pojmovi 13 donosiocu obveznice (ako je obveznica na donosioca) na datum dospe a isplatiti dug u potpunosti. Akcija je hartija od vrednosti koja ozna ava udeo u kapitalu kompanije. Hartije od vrednosti su dokumenti kojima se obavezuje isplata novca, kamate, zarade ili dividende. Dividenda je deo dobiti akcionarskog dru²tva, koji akcionar dobija na osnovu svoje akcije. Neka P t ozna ava cenu aktive u trenutku t. Pretpostavimo da aktiva ne obezbežuje dividendu u periodu od t 1 do t. Tada je jednoperiodni neto prinos aktive R t = P t P t 1 P t 1. Jednoperiodni bruto prinos aktive je Bruto prinos za k perioda se deni²e sa P t P t 1, ²to je 1 + R t. 1 + R t (k) = P k 1 t = (1 + R t j ). P t k Neto prinos za k perioda je R t (k). U praksi, za jedinicu vremena se uglavnom koriste godine. Godi²nji bruto prinos na ime aktive sa periodom od k godina je (1 + R t (k)) 1/k, a godi²nji neto prinos je (1 + R t (k)) 1/k 1. Neka je p t = log P t. Logaritamski prinos ili neprekidni sloºeni prinos aktive je ( ) Pt r t = log = p t p t 1. P t 1 Ako vremenski korak t teºi nuli, logaritamski prinos r t je aproksimativno jednak neto prinosu ( ) Pt r t = log = log(1 + R t ) R t. P t 1 k-periodni logaritamski prinos je suma k jednoperiodnih logaritamskih prinosa, tj. j=0 j=0 ( ) Pt k 1 k 1 r t (k) = log = log(1 + R t j ) = r t j. P t k j=0 Posmatrajmo sada slu aj kada aktiva obezbežuje isplatu dividendi periodi no. Neka je D t dividenda koja se ispla uje u vremenskom periodu od t 1 do t. Tada
Osnovni pojmovi 14 su neto prinos, logaritamski prinos i k-periodni logaritamski prinos, respektivno R t = P t + D t P t 1 1, r t = log (P t + D t ) log P t 1 i r t (k) = log ( k 1 j=0 P t j + D t j P t j 1 ) k 1 ( Pt j + D t j = log j=0 P t j 1 ). Vi²ak prinosa predstavlja razliku r t r t, gde je r t logaritamski prinos aktive, a r t logaritamski prinos bezrizi ne aktive. Bezrizi na aktiva je aktiva ija je disperzija prinosa jednaka nuli, takve su npr. obveznice. 2.8 Prinosi portfolija Portfolio je vlasni²tvo nad kolekcijom aktiva. Posmatrajmo portfolio koji se sastoji od p razli itih aktiva. Neka je ω i, ponder izraºen u procentima, vrednost portfolija koja je uloºena u aktivu i. Prema tome, vrednost aktive i je ω i P t za ukupnu vrednost portfolija P t u trenutku t. Neka su R it i r it neto prinos i logaritamski prinos aktive i u trenutku t, respektivno. Tada, ukupna vrednost portfolija u trenutku t je (1 + p w ir it )P t 1, pa je neto prinos R t i logaritamski prinos r t portfolija, respektivno ( ) p p p R t = w i R it, r t = log 1 + w i R it w i R it. (2.15)
Linearna regresija sa jednom nezavisnom promenljivom 15 Glava 3 Linearna regresija sa jednom nezavisnom promenljivom 3.1 Statisti ka veza izmežu dve promenljive Primer 1. Odreženi rezervni deo se proizvodi u kompaniji za proizvodnju automobila (nadalje kompanija, smatraju i da se zna koja je proizvodnja u pitanju) jednom mese no u promenljivim koli inama u zavisnosti od potraºnje. U tabeli 3.1 dati su podaci o koli ini proizvodnje rezervnih delova i broju radnih sati za 10 poslednjih proizvodnji pod sli nim uslovima proizvodnje. Ti podaci su iscrtani gra ki na slici 3.1a). Broj radnih sati se uzima za zavisnu promenljivu Y, a koli ina proizvodnje je nezavisna promenljiva X. Na primer, za prvu proizvodnju rezultati su ucrtani sa X = 30, Y = 73. Serijska proizvodnja Koli ina proizvodnje Broj radnih sati i X i Y i 1 30 73 2 20 50 3 60 128 4 80 170 5 40 87 6 50 108 7 60 135 8 30 69 9 70 148 10 60 132 Tabela 3.1: Podaci o koli ini proizvodnje i broju radnih sati u kompaniji.
Linearna regresija sa jednom nezavisnom promenljivom 16 Slika 3.1: Statisti ka veza izmežu koli ine proizvodnje i broja radnih sati. Na slici 3.1a) se jasno vidi da postoji veza izmežu koli ine proizvodnje i broja radnih sati, u smislu da pove ana koli ina proizvodnje stvara tendenciju pove anja broja radnih sati. Ipak, veza nije savr²ena, jer postoji rasipanje ta aka, ²to sugeri²e da neki broj radnih sati nije povezan sa koli inom proizvodnje. Na primer, dve proizvodnje (1 i 8) se sastoje od po 30 delova svaka, a zahtevaju razli iti broj radnih sati. Zbog rasipanja ta aka u statisti koj vezi, slika 3.1a) se zove dijagram rasturanja. Op²ti problem nalaºenja funkcije koja dobro aproksimira dobijeni skup podataka, u statisti kom ºargonu se naziva "tovanje krive". Za odreživanje odgovaraju- eg tipa zavisnosti, u praksi se koristi upravo dijagram rasturanja. Statisti kom terminologijom, svaka ta ka na dijagramu rasturanja predstavlja opservaciju. Na slici 3.1b) je iscrtana prava koja opisuje statisti ku vezu broja radnih sati i koli ine proizvodnje. Ona ukazuje na tendenciju kojom broj radnih sati varira sa promenama u koli ini proizvodnje. Primetimo da ve ina ta aka ne pada direktno na pravu statisti ke veze. Ovo rasipanje ta aka oko prave predstavlja neki broj radnih sati koji nije povezan sa koli inom proizvodnje i obi no se pripisuje slu ajnosti.
Linearna regresija sa jednom nezavisnom promenljivom 17 3.2 Regresioni model Tokom eksperimentalnih istraºivanja se uglavnom varira jedna ili vi²e neslu ajnih veli ina i posmatra se kako one uti u na ishod eksperimenta. Ishod eksperimenta je slu ajan, jer osim neslu ajnih veli ina, uti u i slu ajne promenljive, tzv. slu ajne gre²ke, koje se ne mogu kontrolisati u eksperimentu. Slu ajni ishod eksperimenta je obeleºje Y kojim opisujemo eksperiment. U ovoj glavi se bavimo uticajem jedne nezavisne neslu ajne promenljive na posmatrano obeleºje Y. Ozna imo neslu ajnu promenljivu sa X, a slu ajnu gre²ku sa ε i konstrui²imo model linearne regresije sa jednom nezavisnom promenljivom. Linearni regresioni model koji ima samo jednu nezavisnu promenljivu je oblika Y i = β 0 + β 1 X i + ε i, (3.1) gde je: Y i vrednost zavisne promenljive na i-tom elementu uzorka, β 0 i β 1 su parametri, X i vrednost nezavisne promenljive na i-tom elementu uzorka, ε i slu ajna gre²ka sa o ekivanjem E(ε i ) = 0 i disperzijom D(ε i ) = σ 2 ; ε i i ε j su nekorelirane tako da je kovarijansa Cov(ε i, ε j ) = 0 za svako i, j; i j, i, j = 1,..., n. Za model (3.1) se kaºe da je prost, linearan u odnosu na parametre i linearan u odnosu na nezavisnu promenljivu. Kaºemo da je prost jer ima samo jednu nezavisnu promenljivu, linearan u odnosu na parametre jer predstavlja linearnu funkciju posmatranu kao funkciju od parametara i linearan u odnosu na nezavisnu promenljivu jer je i linearna funkcija kada se posmatra kao funkcija od promenljive X. Model koji je linearan u odnosu na parametre i nezavisnu promenljivu se zove model prvog reda. Iz konstrukcije modela (3.1), vidimo da je Y i slu ajna promenljiva sa o ekivanjem disperzijom i bilo koje dve opservacije Y i i Y j su nekorelirane. Prema tome, regresiona funkcija za model (3.1) je: E(Y i ) = β 0 + β 1 X i, (3.2) D(Y i ) = σ 2 (3.3) E(Y ) = β 0 + β 1 X, gde se regresiona funkcija odnosi na o ekivanje za Y, pri bilo kom zadatom X. Primer 2. Regresioni model za kompaniju u primeru 1 je Y i = 9, 5 + 2, 1X i + ε i, a regresiona funkcija je E(Y ) = 9, 5+2, 1X. Ako je na i-tom elementu uzorka koli ina proizvodnje X i = 45 rezervnih delova koji su proizvedeni u toj seriji i broj radnih
Linearna regresija sa jednom nezavisnom promenljivom 18 sati Y i = 108, onda je gre²ka ε i = 4 jer imamo da je E(Y i ) = 9, 5 + 2, 1 45 = 104 i Y i = 108 = 104 + 4. 3.2.1 Normalni regresioni model Model normalne regresije je oblika Y i = β 0 + β 1 X i + ε i, (3.4) gde je: Y i posmatrana zavisna promenljiva na i-tom elementu uzorka, X i nezavisna promenljiva na i-tom elementu uzorka, β 0 i β 1 su parametri, ε i su nezavisne slu ajne promenljive sa N (0, σ 2 ), i = 1,..., n. Iz postavke modela (3.4) sledi da su Y i nezavisne normalne slu ajne promenljive sa o ekivanjem E(Y i ) = β 0 + β 1 X i i disperzijom σ 2. 3.2.2 Zna enje regresionih parametara Parametri β 0 i β 1 u regresionom modelu (3.1) se zovu regresioni koecijenti. β 1 je koecijent pravca (nagib) regresione linije. On ukazuje na promene u o ekivanoj vrednosti Y pri jedini nom pove anju vrednosti X. Parametar β 0 je odse ak na osi na kojoj se prikazuju vrednosti za Y. Primer 3. Na slici 3.2 je prikazana regresiona funkcija E(Y ) = 9, 5 + 2, 1X iz primera o kompaniji. Nagib β 1 = 2, 1 ukazuje da ako se koli ina proizvodnje pove a za jedan rezervni deo, onda dolazi do pove anja o ekivanja Y za 2, 1 radna sata, dok odse ak β 0 = 9, 5 ukazuje na vrednost regresione funkcije kada je X = 0. 3.3 Ocenjivanje regresione funkcije 3.3.1 Ocene najmanjih kvadrata Za nalaºenje dobrih ocena regresionih parametara β 0 i β 1, primeni emo metod najmanjih kvadrata. Za svaku opservaciju (X i, Y i ), metodom najmanjih kvadrata se razmatra odstupanje za Y i od njegove o ekivane vrednosti Y i (β 0 + β 1 X i ). Naro ito, metod najmanjih kvadrata zahteva razmatranje sume n-kvadratnih odstupanja, u oznaci Q, Q = (Y i β 0 β 1 X i ) 2. Cilj metode najmanjih kvadrata je na i ocene β 0 i β 1 za β 0 i β 1, respektivno, tako da Q bude minimalno. Na taj na in e ocene biti dobre.
Linearna regresija sa jednom nezavisnom promenljivom 19 Slika 3.2: Zna enje linearnih regresionih parametara. X i Y i X i Y i X 2 i Y 2 i 30 73 2.190 900 5.329 20 50 1.000 400 2.500 60 128 7.680 3.600 16.384 80 170 13.600 6.400 28.900 40 87 3.480 1.600 7.569 50 108 5.400 2.500 11.664 60 135 8.100 3.600 18.225 30 69 2.070 900 4.761 70 148 10.360 4.900 21.904 60 132 7.920 3.600 17.424 Ukupno 500 1.100 61.800 28.400 134.660 Tabela 3.2: Podaci o koli ini proizvodnje i broju radnih sati u kompaniji.
Linearna regresija sa jednom nezavisnom promenljivom 20 Slika 3.3: Primer odstupanja od razli itih tovanih regresionih linija. Primer 4. Na slici 3.3a) je prikazan dijagram rasturanja za uzora ke podatke iz tabele 3.1. Na slici 3.3b) je grak tovane regresione linije kori² enjem proizvoljnih ocena β 0 = 30 i β 1 = 0.
Linearna regresija sa jednom nezavisnom promenljivom 21 Na slici 3.3b) su prikazana i odstupanja Y i 30 0 X i. Vidimo da svakom odstupanju odgovara vertikalno rastojanje izmežu Y i i tovane regresione linije. Jasno, t je lo². Prema tome odstupanja su velika, pa su takva i kvadratna odstupanja. Suma kvadratnih odstupanja je Q = (50 30) 2 + (69 30) 2 +... + (170 30) 2 = 77, 66. Slika 3.3c) prikazuje odstupanja Y i β 0 β 1 X i za ocene β 0 = 15, β1 = 1, 5. Ovde je t bolji (ali ne i dobar), odstupanja su mnogo manja, pa je i suma kvadrata odstupanja smanjena na Q = 4, 91. Tako da boljem tu regresione linije odgovara manja suma Q. Moºe se pokazati da su vrednosti β0 i β1 koje minimalizuju Q date slede im jedna inama Y i = n β 0 + β 1 X i Y i = β 0 X i X i + β 1 Xi 2. Re²avanjem sistema jedna ina dobijaju se ocene najmanjih kvadrata (3.5) β 1 = X iy i ( X i)( Y i) n X2 i ( X i) 2 za β 1 i β 0, respektivno. n β 0 = 1 n ( Y i β 1 = (X i X)(Y i Y ) (X i X) 2, (3.6) X i ) = Y β 1 X, (3.7) Primer 5. Koristimo podatke iz tabele 3.2 i grak na slici 3.3a) za primer o kompaniji. U tabeli 3.2 su dati rezultati potrebni za izra unavanje β 0 i β 1. Kori² enjem (3.6) i (3.7) dobija se β 1 = X iy i ( X i)( Y i) n X2 i ( X i) 2 β 0 = 1 n ( Y i β 1 n 500 1.100 61.800 = 10 = 2, 28.400 5002 10 X i ) = 1 (1.100 2 500) = 10. 10 Dakle, ocenjujemo da se o ekivani broj radnih sati pove a za 2 sata ako se pove a koli ina proizvodnje za jedan rezervni deo.
Linearna regresija sa jednom nezavisnom promenljivom 22 3.3.2 Osobine ocena najmanjih kvadrata Teorema 1. Ocene β 0 i β 1 date sa (3.7) i (3.6) su linearne kombinacije opservacija Y i. Dokaz. Prema (3.6) je β 1 = (X i X)(Y i Y ) (X i X) 2. Kako je (X i X)(Y i Y ) = (X i X)Y i Y (X i X) = (X i X)Y i, zbog (X i X) = 0, pa je β 1 = (X i X)Y i (X i X) 2. To moºemo zapisati sa gde je k i = β 1 = k i Y i, (3.8) X i X (X i X) 2. Primetimo da su k i poznate konstante, jer su X i poznate konstante. Dakle, β1 je linearna kombinacija opservacija Y i. Iz (3.8) i (3.7) sledi da je i β0 linearna kombinacija opservacija Y i. Konstanta k i ima slede e osobine: k i = 0, (3.9) k i X i = 1, (3.10) ki 2 = 1 (X i X) 2. (3.11) Primedba 1. Na osnovu (3.8) i (3.9) vidimo da miksovanjem vrednosti opservacija zavisno promenljive Y i dobijamo koecijent pravca regresione linije, i to tako ²to je ukupni efekat koecijenata miksovanja k i jednak 0.
Linearna regresija sa jednom nezavisnom promenljivom 23 Teorema 2 (Gaus 1 -Markova 2 ). Pod uslovima modela (3.1) ocene najmanjih kvadrata β 0 i β 1 denisane sa (3.6) i (3.7) su nepristrasne ocene sa najmanjom disperzijom u odnosu na sve ostale nepristrasne linearne ocene. Dokaz. Dokaºimo, najpre, nepristrasnost ocene β 1. Primenom (3.8), (3.9) i (3.10) je E( β 1 ) = E( k i Y i ) = k i EY i = k i (β 0 + β 1 X i ) = β 0 k i + β 1 k i X i = β 1. Ostaje da dokaºemo da je β 1 sa najmanjom disperzijom u odnosu na ostale nepristrasne linearne ocene. Pretpostavimo suprotno, tj. da ocena dobijena metodom najmanjih kvadrata nema minimalnu disperziju. Zna i, nepristrasna linearna ocena sa minimalnom disperzijom je ocena koja nije dobijena metodom najmanjih kvadrata, ozna imo je sa β 1. Dakle, ona je oblika β 1 = c i Y i (3.12) i vaºi da je Primenom (3.2), (3.12) i (3.13) je E( β 1 ) = β 1. (3.13) β 1 = E( β 1 ) = E( c i Y i ) = c i E(Y i ) = c i (β 0 +β 1 X i ) = β 0 c i +β 1 c i X i, gde vidimo, da bi vaºila nepristrasnost za β 1, c i treba da ispunjavaju uslove Disperzija za β 1 je c i = 0, c i X i = 1. D( β 1 ) = c 2 i D(Y i ) = σ 2 c 2 i. Stavimo da je c i = k i + d i, gde su k i konstante najmanjih kvadrata iz (3.8) i d i proizvoljne konstante. Tada je D( β 1 ) = σ 2 c 2 i = σ 2 (k i + d i ) 2 = σ 2 ( ki 2 + d 2 i + 2 k i d i ). 1 Johann Carl Friedrich Gauss (1777-1855), nema ki matemati ar. 2 Andrey Andreyevich Markov (1856-1922), ruski matemati ar.
Linearna regresija sa jednom nezavisnom promenljivom 24 Po²to je i ( ) D( β 1 ) = D k i Y i = k i d i = = = k i (c i k i ) = ki 2 D(Y i ) = k i c i ki 2 σ 2 k 2 i (X i X)c i (X i X) 1 2 n (X i X) 2 X ic i Xc i 1 (X i X) 2 onda je = 1 0 1 (X i X) 2 = 0, D( β 1 ) = D( β 1 ) + σ 2 d 2 i, pa je minimalna disperzija za β 1 kada je d2 i = 0, ²to se postiºe samo kada je svako d i = 0, te je c i k i. Prema tome, β 1 = c iy i = k iy i = β 1. Za β 0 se pokazuje analogno. Dakle, β 0 i β 1 su nepristrasne ocene sa najmanjom disperzijom u odnosu na sve ostale nepristrasne linearne ocene. Teorema 3. Ocene β 0 i β 1 modela (3.4) imaju raspodelu ( σ β 2 n ) 0 : N β 0, X2 i n (X i X) 2 β 1 : N ( ) σ 2 β 1, (X. i X) 2 Dokaz. U modelu (3.4) su ε i, i = 1,..., n slu ajne promenljive sa normalnom raspodelom, pa su i Y i, i = 1,..., n u modelu (3.4) sa normalnom raspodelom. Prema Teoremi 1 je β 1 linearna kombinacija slu ajnih promenljivih Y i, i = 1,..., n, a β 1 je ocena modela (3.4), pa je β 1 slu ajna promenljiva sa normalnom raspodelom kao linearna kombinacija slu ajnih promenljivih sa normalnom raspodelom. σ 2 U prethodnoj Teoremi je dokazano E( β 1 ) = β 1, a D( β 1 ) = (X i X) di- 2 rektno sledi iz prethodne teoreme i (3.11). Dokaz za β 0 je sli an kao za β 1.
Linearna regresija sa jednom nezavisnom promenljivom 25 Nepristrasna ocena za σ 2 je srednjekvadratna gre²ka (videti 3.17), u oznaci MSE (eng. mean square error), MSE = SSE n 2. Ocenimo disperziju za β 1 zamenom parametra σ 2 sa MSE s 2 ( β 1 ) = Ocena za D( β 0 ) je s 2 ( β 0 ) = MSE MSE (X i X) 2 = X2 i n (X i X) 2 = MSE MSE X2 i ( X i) 2 n [ ] 1 n + X 2 (X. i X) 2. 3.3.3 Ocena parametara metodom maksimalne verodostojnosti Funkcija verodostojnosti modela normalne regresije (3.4), datog opservacijama Y 1, Y 2,..., Y n je L(β 0, β 1, σ 2 ) = = n 1 (2πσ 2 ) 1 exp (2πσ 2 ) n/2 [ exp 1/2 [ 1 2σ 2 1 2σ 2 (y i β 0 β 1 x i ) 2 ] ] (y i β 0 β 1 x i ) 2. Vrednosti za β 0, β 1 i σ 2 koje maksimalizuju ovu funkciju verodostojnosti su ocene maksimalne verodostojnosti, date u slede oj tabeli. Parametar Ocena maksimalne verodostojnosti β 0 β0 isto kao (3.7) β 1 β1 isto kao (3.6) σ 2 ˆσ 2 = (Y i Ŷi) 2 n Prema tome, u modelu normalne regresije (3.4) su ocene maksimalne verodostojnosti za β 0, β 1 iste kao i ocene dobijene metodom najmanjih kvadrata.
Linearna regresija sa jednom nezavisnom promenljivom 26 3.3.4 Ocenjena regresiona funkcija Neka su poznate ocene β 0 i β 1 parametara regresione funkcije E(Y ) = β 0 + β 1 X. Tada ocenjujemo regresionu funkciju sa gde je Ŷ ocena regresione funkcije. Ako posmatramo opservacije, onda se Ŷi u Ŷ = β 0 + β 1 X, (3.14) Ŷ i = β 0 + β 1 X i, i = 1,..., n zove tovana vrednost za i-tu opservaciju. Primer 6. U primeru o kompaniji smo imali da je ocena regresionih koecijenata β 0 = 10, β 1 = 2. Prema (3.14) je onda ocenjena regresiona funkcija Ŷ = 10 + 2X. Dakle, za proizvodnju X = 55 rezervnih delova, o ekivani broj radnih sati je Ŷ = 10 + 2 55 = 120. Naravno, radno vreme potrebno za proizvodnju 55 proizvoda e verovatno biti iznad ili ispod o ekivanih 120 sati, zbog varijabilnosti u sistemu koja je predstavljena gre²kom u modelu. 3.3.5 Reziduali i-ti rezidual, u oznaci e i, je razlika posmatrane vrednosti Y i i odgovaraju e tovane vrednosti Ŷi, e i = Y i Ŷi = Y i β 0 β 1 X i. i X i Y i Ŷ i (Y i Ŷi) = e i (Y i Ŷi) 2 = e 2 i 1 30 73 70 +3 9 2 20 50 50 0 0 3 60 128 130 2 4 4 80 170 170 0 0 5 40 87 90 3 9 6 50 108 110 2 4 7 60 135 130 +5 25 8 30 69 70 1 1 9 70 148 150 2 4 10 60 132 130 +2 4 Ukupno 500 1.100 1.100 0 60 Tabela 3.3: Fitovane vrednosti, reziduali, kvadratni reziduali. Na slici 3.4 prikazano je 10 reziduala za primer o kompaniji. Reziduali su prikazani vertikalnom linijom izmežu posmatrane i tovane vrednosti na ocenjenoj
Linearna regresija sa jednom nezavisnom promenljivom 27 Slika 3.4: Regresiona linija i reziduali.
Linearna regresija sa jednom nezavisnom promenljivom 28 regresionoj liniji. Reziduali su izra unati u tabeli 3.3. Treba uvideti razliku izmežu gre²ke ε i = Y i E(Y i ) i reziduala e i = Y i Ŷi. Gre²ka ε i se odnosi na vertikalno odstupanje Y i od nepoznate populacione regresione linije, pa je ona nepoznata. S druge strane, rezidual je posmatrano vertikalno odstupanje Y i od tovane regresione linije. 3.3.6 Osobine tovane regresione linije Regresiona linija tovana metodom najmanjih kvadrata ima slede e osobine: 1. Suma reziduala je nula. (Videti tabelu 3.3.) 2. Suma posmatranih vrednosti Y i jednaka je sumi tovanih vrednosti Ŷi. 3. Suma ponderisanih reziduala je nula, gde je rezidual na i-tom elementu uzorka ponderisan pomo u nezavisne promenljive na i-tom elementu uzorka. 4. Suma ponderisanih reziduala je nula, gde je rezidual na i-tom elementu uzorka ponderisan pomo u tovane vrednosti zavisne promenljive na i-tom elementu uzorka. 5. Regresiona linija uvek prolazi kroz ta ku (X, Y ). (Videti sliku 3.4.) 3.4 Sume kvadrata Vratimo se opet na primer o kompaniji. Na slici 3.5a) prikazan je broj radnih sati potrebnih za 10 serijskih proizvodnji na osnovu podataka iz tabele 3.3. Vidimo da postoje varijacije u broju radnih sati, ²to je slu aj sa gotovo svim statisti kim podacima. Kada bi sve opservacije Y i identi ki bile jednake, Y i Y, ne bi bilo statisti kih problema. Varijacija za Y i se konvencionalno meri odstupanjem od srednje vrednosti Y i Y. Ova odstupanja su prikazana na slici 3.5a). Totalna suma kvadrata, u oznaci SST O (eng. kvadrata odstupanja total sum of squares), je zbir SST O = (Y i Y ) 2 = Y 2 i ( Y i) 2 n = Y 2 i ny 2. Za SST O = 0, sve opservacije su iste. to je ve e SST O, to je ve a varijacija mežu opservacijama. Ako primenimo regresioni pristup, varijacija izraºava nepouzdanost podataka, opservacijama Y oko regresione linije Y i Ŷi. (3.15) Ovo odstupanje je prikazano na slici 3.5b). Varijacija podataka se moºe izmeriti
Linearna regresija sa jednom nezavisnom promenljivom 29 Slika 3.5: Odstupanja.
Linearna regresija sa jednom nezavisnom promenljivom 30 sumom kvadrata odstupanja (3.15) SSE = (Y i Ŷi) 2. SSE (eng. error sum of squares) je suma kvadrata gre²aka. Drugi naziv za SSE je rezidualna suma kvadrata, jer odstupanja su reziduali e i = Y i Ŷi, pa je SSE = (Y i Ŷi) 2 = (Y i β 0 β 1 X i ) 2 = e 2 i. (3.16) Iz (3.16) se moºe izvesti alternativna formula za SSE SSE = Y 2 i β 0 Y i β 1 X i Y i. Ako je SSE = 0, sve opservacije su na tovanoj regresionoj liniji. Za ve e SSE, ve a je varijacija opservacija oko regresione linije. Za primer o kompaniji je SST O = 13.660 i SSE=60. Razlika ove dve sume je suma kvadrata: SSR = (Ŷi Y ) 2, gde SSR ozna ava regresionu sumu kvadrata (eng. regression sum of squares). Odstupanja Ŷi Y su prikazana na slici 3.5c). Svako odstupanje je razlika tovane vrednosti regresione linije i o ekivane tovane vrednosti. Ako je regresiona linija horizontalna, time je Ŷi Y 0, SSR = 0. Ina e je SSR pozitivno. SSR se moºe smatrati merom varijabilnosti Y -a povezanih sa regresionom linijom. Za ve e SSR, ve i je efekat regresije u ra unanju ukupne varijacije za Y opservacije. Konkretno, za na² primer je SSR = SST O SSE = 13.660 60 = 13.600, ²to ukazuje da ve ina ukupne varijabilnosti u broju radnih sati ulazi u vezu izmežu koli ine proizvodnje i broja radnih sati. SST O ima χ 2 raspodelu sa n 1 stepen slobode. Oduzet je jedan stepen, jer je o ekivanje Y upotrebljeno za ocenu matemati kog o ekivanja posmatranog obeleºja populacije. SSE ima χ 2 raspodelu sa n 2 stepena slobode. Oduzeta su dva stepena, jer su parametri β 0 i β 1 ocenjeni pri dobijanju tovane vrednosti Ŷi. SSR ima χ 2 raspodelu sa jednim stepenom slobode. Srednjekvadratna regresija, u oznaci M SR (eng. regression mean square), je MSR = SSR 1 = SSR,
Linearna regresija sa jednom nezavisnom promenljivom 31 a srednjekvadratna gre²ka, u oznaci MSE (eng. mean square error), je MSE = SSE n 2. (3.17) Za primer o kompaniji je MSR = 13.600, MSE = 60 8 = 7, 5. 3.5 Intervali poverenja za parametre normalne regresije Pri dokazivanju Teoreme 5, koristi emo slede u teoremu: Teorema 4. Za model (3.4) je SSE σ 2 Teorema 4 je dokazana u sekciji 3.7.3. : χ 2 n 2 i SSE σ 2 je nezavisna od β 0 i β 1. Teorema 5. Standardizovana statistika β 1 β 1 posmatranog modela (3.4) ima Studentovu raspodelu sa n 2 stepena slobode, pri emu je s( β 1 ) kvadratni koren iz s( β 1 ) s 2 ( β 1 ), β 1 β 1 : t n 2. s( β 1 ) Dokaz. Zapisa emo β 1 β 1 s( β 1 ) u obliku β 1 β 1 D( β 1 ) s( β 1 ) D( β 1 ). Kako je s 2 ( β 1 ) D( β 1 ) = MSE (X i X) 2 σ 2 = (X i X) 2 MSE σ 2 = SSE n 2 σ 2 = SSE σ 2 (n 2) i prema Teoremi 4, imamo da je (n 2)s 2 ( β 1 ) D( β 1 ) : χ 2 n 2 a, β 1 β 1 D( β 1 ) je standardizovana slu ajna promenljiva sa normalnom raspodelom,
Linearna regresija sa jednom nezavisnom promenljivom 32 pa je tj. Zna i, β 1 β 1 D( β 1 ) (n 2)s 2 ( β 1 ) D( β 1 ) n 2 β 1 β 1 D( β 1 ) s( β 1 ) D( β 1 ) β 1 β 1 s( β 1 ) : t n 2. : t n 2. : t n 2, Iz Teoreme 5 sledi { P t ( α 2 ;n 2) β 1 β 1 s( β 1 ) Studentova raspodela je simetri na, pa je t (1 α 2 ;n 2) t ( α 2 ;n 2) = t (1 α 2 ;n 2), te je (3.18) sada P { β1 t ;n 2)s( β (1 α 1 ) β 1 β } 1 + t ;n 2)s( β α 2 (1 1 ) 2 Zna i, interval poverenja za β 1 sa nivoom poverenja 1 α je } = 1 α. (3.18) = 1 α. β 1 ± t (1 α 2 ;n 2)s( β 1 ). (3.19) Sli no se dobija da je interval poverenja za β 0 sa nivoom poverenja 1 α β 0 ± t (1 α 2 ;n 2)s( β 0 ). Primer 7. Vratimo se na primer o prethodno posmatranoj kompaniji. Ho emo da ocenimo β 1 sa nivoom poverenja od 95%. Nažimo, najpre, s( β 1 ). s 2 ( β 1 ) = MSE (X i X) = 7, 5 2 3.400 = 0, 002206,
Linearna regresija sa jednom nezavisnom promenljivom 33 s( β 1 ) = 0, 04697. Za 95%-tni nivo poverenja je 1 α = 0, 975, a 10 2 = 8 stepena slobode. Iz (3.19) 2 i dobijenih podataka je 1, 89 β 1 2, 11. Prema tome, sa nivoom poverenja od 95%, ocenjujemo da se pove a o ekivani broj radnih sati za vrednost koja je izmežu 1, 89 i 2, 1 pri svakom pove anju proizvodnje za jedan rezervni deo. Za analizu podataka esto je potrebna serija ocena za koju je analiti ar uveren u ta nost celog skupa ocena. Takva serija ocena se zove familija ocena. Objasni emo Bonferonijev 3 metod za intervalno ocenjivanje parametara β 0 i β 1. Krenimo od ve poznatih intervala poverenja sa nivoom poverenja 1 α: β 0 ± t (1 α 2 ;n 2)s( β 0 ) β 1 ± t (1 α 2 ;n 2)s( β 1 ). Razmotri emo koja je verovatno a da oba intervala poverenja istovremeno pokrivaju svoj odgovaraju i parametar β 0 odnosno β 1. Neka A 1 ozna ava dogažaj da prvi interval poverenja ne obuhvata β 0 i A 2 ozna- ava dogažaj da prvi interval poverenja ne obuhvata β 1. Prema (2.1), (2.2) i (2.3) je 1 P (A 1 A 2 ) = P (A 1 A 2 ) = P (A 1 A 2 ), P (A 1 A 2 ) = 1 P (A 1 ) P (A 2 ) + P (A 1 A 2 ). Po²to je P (A 1 A 2 ) 0, dobijamo Bonferonijevu nejednakost ²to je u na²em slu aju P (A 1 A 2 ) 1 P (A 1 ) P (A 2 ), P (A 1 A 2 ) 1 α α = 1 2α. (3.20) Prema tome, ako su β 0 i β 1 zasebno ocenjeni sa, recimo, 95%-nim intervalom poverenja, Bonferonijeva nejednakost nam garantuje nivo poverenja od 90% da oba intervala posmatrana na istom uzorku istovremeno pokrivaju svoj odgovaraju i parametar β j. Primeni emo Bonferonijevu nejednakost za dobijanje intervalnih ocena sa nivoom poverenja 1 α. Ocenjuje se β 0 i β 1 zasebno, svaki sa nivoom poverenja 1 α 2. Prema tome, intervali poverenja sa 1 α nivoom poverenja za β 0 i β 1, koji zapravo predstavljaju Dekartov proizvod intervala poverenja, a dobijeni Bonferonijevom metodom su β 0 ± Bs( β 0 ), (3.21) β 1 ± Bs( β 1 ), 3 Carlo Emilio Bonferroni (1892-1960), italijanski matemati ar.
Linearna regresija sa jednom nezavisnom promenljivom 34 gde je B = t (1 α 4 ;n 2). U primeru za kompaniju traºimo 90%-ne intervale poverenja za β 0 i β 1. Dobijamo B = t (1 0,1 4 ;8) = t (0,975;8) = 2, 306. Znamo da je β 0 = 10, s( β 0 ) = 2, 50294, β 1 = 2, s( β 1 ) = 0, 04697. Primenom (3.21) i dobijenih podataka, intervali poverenja su 10±2, 306 2, 50294 i 2± 2, 306 0, 04697, a intervali poverenja koji istovremeno pokrivaju svoje odgovaraju e parametre β j su 4, 2282 β 0 15, 7718, 1, 8917 β 1 2, 1083. Dakle, sa nivoom poverenja od 0, 90 procenjujemo da je β 0 izmežu 4, 23 i 15, 77, a β 1 izmežu 1, 89 i 2, 11. Bonferonijeva nejednakost (3.20) se moºe lako pro²iriti za slu aj sa g intervala poverenja i nivoom poverenja 1 α ( g P A i ) 1 gα. Prema tome, ako se traºi g intervalnih ocena sa svojstvom da je nivo poverenja 1 α, dovoljno je odrediti svaku intervalnu ocenu sa nivoom poveranja 1 α g. 3.6 Testiranje parametra β 1 Dvostrani test. Finansijski analiti ar kompanije ºeli da ispita da li postoji linearna veza izmežu broja radnih sati i koli ine proizvodnje, koriste i regresioni model (3.4). Tada su hipoteze H 0 : β 1 = 0 (3.22) H a : β 1 0. Testiranje hipoteza (3.22) se zasniva na test statistici te je pravilo odlu ivanja t = β 1 s( β 1 ), (3.23) ako je t t (1 α 2 ;n 2), prihvata se H 0 ako je t > t (1 α 2 ;n 2), prihvata se H a. (3.24)
Linearna regresija sa jednom nezavisnom promenljivom 35 Za primer kompanije, kada je α = 0, 05, β 1 = 2, s( β 1 ) = 0, 04697 i n = 10 dobija se t (0,975;8) = 2, 306. Prema tome, ako je t 2, 306, prihvata se H 0 ako je t > 2, 306, prihvata se H a. Po²to je t = 2 0, 04697 = 42, 58 > 2, 306 prihvata se hipoteza H a, da je β 1 0, tj. da postoji linearna veza izmežu broja radnih sati i koli ine proizvodnje. Ponekad je pogodno testirati da li je β 1 jednako nekoj odreženoj nenula vrednosti β 10, koja moºe biti istorijska norma, vrednost komparabilnog procesa, ili inºenjering specikacije. Za takav test je odgovaraju a test statistika Pravilo odlu ivanja koje se koristi za hipoteze t = β 1 β 10 s( β 1 ). (3.25) H 0 : β 1 = β 10 H a : β 1 β 10 je (3.24) ali sa test statistikom (3.25). Primetimo da se test statistika (3.25) svodi na test statistiku (3.23) kada test uklju uje H 0 : β 1 = β 10 = 0. Jednostrani test. Ako analiti ar ºeli da ispita da li je β 1 pozitivno, sa pragom zna ajnosti α = 0, 05, onda su hipoteze H 0 : β 1 = 0 H a : β 1 > 0, a pravilo odlu ivanja u odnosu na test statistiku (3.23) je ako je t t (1 α;n 2), prihvata se H 0 ako je t > t (1 α;n 2), prihvata se H a. Za primer sa kompanijom, kada je α = 0, 05 dobija se t (0,95;8) = 1, 86. Po²to je t = 42, 58 > 1, 86 prihvata se hipoteza H a, da je β 1 pozitivno. Testiranje parametra β 0 se vr²i analogno testiranju parametra β 1.
Linearna regresija sa jednom nezavisnom promenljivom 36 3.7 Prost regresioni model u obliku matrice Deni²imo opservacioni vektor Y, matricu X, vektor β i vektor ε sa Y 1 1 X 1 ε [ ] 1 Y 2 1 X 2 β0 ε 2 Y =, X =, β =, ε =.... β 1. Y n 1 X n ε n Sada, model (3.4) moºemo zapisati u obliku matrice na slede i na in Y = Xβ + ε, po²to je Y 1 1 X 1 Y 2 1 X 2 =... Y n 1 X n [ β0 β 1 ε ] 1 β 0 + β 1 X 1 + ε 1 ε 2 β 0 + β 1 X 2 + ε 2 + =... ε n β 0 + β 1 X n + ε n U (3.4) modelu smo podrazumevali da je E(ε i ) = 0, D(ε i ) = σ 2 i da su ε i nezavisne normalne slu ajne promenljive. Uslov E(ε i ) = 0 u matri nom obliku je E(ε) = 0, jer ε 1 E(ε 1 ) 0 ε 2 E(ε 2 ) 0 E = =.... E(ε n ) 0 ε n Uslov da gre²ke imaju konstantnu disperziju i kovarijanse jednake nuli je u matri nom obliku predstavljen pomo u disperziono-kovarijacione matrice D(ε) = σ 2 I, jer 1 0 0 0 σ 2 0 0 0 D(ε) = σ 2 0 1 0 0 0 σ 2 0 0 =............... 0 0 0 1 0 0 0 σ 2
Linearna regresija sa jednom nezavisnom promenljivom 37 Dakle, model (3.4) u matri nom obliku je Y = Xβ + ε, pri emu je ε vektor nezavisnih normalnih slu ajnih promenljivih sa E(ε) = 0 i D(ε) = σ 2 I. 3.7.1 Regresioni koecijenti Sistem jedna ina (3.5): Y i = n β 0 + β 1 X i, X i Y i = β 0 X i + β 1 Xi 2, u matri nom obliku je gde je β vektor regresionih koecijenata ] [ β0 β =. β 1 X X β = X Y, (3.26) Da bismo to uvideli, koristi emo 1 X [ ] 1 [ 1 1 1 X 1 X 2 n X = = X 1 X 2 X n.. n X i 1 X n X i X2 i ] (3.27) i Y 1 [ ] 1 1 1 X Y 2 Y = = X 1 X 2 X n. Y n [ Y ] i X. (3.28) iy i Tada je (3.26) [ n X i X ] ] i [ β0 = β 1 X2 i [ Y ] i X, iy i tj. [ n β 0 + β 1 X ] i β n 0 X i + β = 1 X2 i [ Y i X iy i ],
Linearna regresija sa jednom nezavisnom promenljivom 38 a to su upravo jedna ine u (3.5). Reprezentacija (3.26) se moºe dobiti i metodom najmanjih kvadrata, pri emu je u matri nom obliku Q = (Y Xβ) (Y Xβ). Ocenjene regresione koecijente dobi emo matri nom metodom mnoºenjem (3.26) inverznom matricom matrice X X ako takva postoji (X X) 1 X X β = (X X) 1 X Y, kako je (X X) 1 X X = I i I β = β, onda je β = (X X) 1 X Y. (3.29) Ocene β 0 i β 1 u β su iste kao i dobijene vrednosti u (3.6) i (3.7). Primer 8. Odredimo ocenjene regresione koecijente za primer o posmatranoj kompaniji matri nom metodom. Izra unajmo, najpre, matricu iz (3.28) i inverz matrice iz (3.27), koriste i podatke iz tabele 3.2. X2 i n n X i n (X i X) 2 n (X i X) 2 (X X) 1 = = n (X i X) 2 n n (X i X) 2 [ X2 i X i X i n X i n 1 n (X i X) 2 ] Dakle, = 1 34.000 X Y = [ ] 28.400 500, 500 10 [ Y i X iy i ] = ] [ β0 β = = (X β X) 1 X Y = 1 1 34.000 [ ] [ ] = 1 340.000 10 =. 34.000 68.000 2 [ ] 1.100. 61.800 [ ] [ ] 28.400 500 1.100 500 10 61.800 Dobijeni rezultat je isti kao u primeru 5.
Linearna regresija sa jednom nezavisnom promenljivom 39 Teorema 6. Disperziono-kovarijaciona matrica vektora β, [ D( β0 ) Cov( β 0, D( β) = β ] 1 ) Cov( β 1, β 0 ) D( β 1 ) je D( β) = σ 2 (X X) 1. (3.30) Dokaz. Krenimo od (3.29) i ozna imo sa A matricu A = (X X) 1 X, tada je β = AY. Po²to je D(Y) = σ 2 I i iz (3.29) sledi A = X(X X) 1, te je Dakle, D( β) = A[D(Y)]A. D( β) = (X X) 1 X σ 2 IX(X X) 1 = σ 2 (X X) 1 X X(X X) 1 = σ 2 (X X) 1 I = σ 2 (X X) 1. Koriste i (X X) 1 = X2 i (X i X) 2, (X i X) 2 n (X i X) 2 X X 1 (X i X) 2 moºemo (3.30) zapisati na slede i na in σ 2 n X2 i n D( β) = (X Xσ2 i X) 2 n (X i X) 2 Xσ 2 σ 2. (3.31) (X i X) 2 n (X i X) 2 Ako MSE zameni σ 2 u (3.31), dobijamo ocenjenu disperziono-kovarijacionu matricu
Linearna regresija sa jednom nezavisnom promenljivom 40 za β, MSE n X2 i n XMSE n s 2 ( β) = MSE(X X) 1 = (X i X) 2 n (X i X) 2 XMSE MSE. (X i X) 2 n (X i X) 2 3.7.2 Fitovane vrednosti i reziduali Ozna imo vektor tovanih vrednosti Ŷi sa Ŷ, a vektor reziduala e i = Y i Ŷi sa e, Ŷ 1 Ŷ 2 Ŷ =,. Ŷ n e 1 e 2 e =. (3.32). U matri nom obliku je onda e = Y Ŷ = Y X β i Ŷ = X β, jer je Ŷ 1 1 X 1 β ] 0 + β 1 X 1 Ŷ 2 1 X 2 [ β0 β 0 + β 1 X 2 = =.... β 1. 1 X n β 0 + β 1 X n Ŷ n Vektor reziduala e, uveden sa (3.32), moºe se izraziti sa e = (I H)Y, gde je H = X(X X) 1 X. Kvadratna matrica H se zove kapa matrica. Matrica I H je simetri na i idempotentna. Disperziono-kovarijaciona matrica reziduala je D(e) = σ 2 (I H), a ocenjena disperziono-kovarijaciona matrica reziduala s 2 (e) = MSE(I H). e n
Linearna regresija sa jednom nezavisnom promenljivom 41 3.7.3 Sume kvadrata Nažimo sume kvadrata u matri nom obliku. Krenimo od SST O. Iz (3.49) je SST O = Y 2 i ny 2 = Y 2 i ( Y i) 2, n po²to je Y 1 ] Y Y 2 Y = [Y 1 Y 2 Y n =. pa je u matri nom zapisu Y n [ [ ] ] Y1 2 + Y2 2 + + Yn 2 = Yi 2, SST O = Y Y 1 n Y 11 Y, (3.33) gde je 1 1 1 =.. 1 Kako je SSE = e2 i = (Y i Ŷi) 2, to je u matri nom obliku Moºe se pokazati da je (3.34) ekvivalentno sa Koriste i (3.33) i (3.35), dobija se Suma kvadrata u kvadratnoj formi SSE = e e = (Y X β) (Y X β). (3.34) SSE = Y Y β X Y. (3.35) SSR = β X Y 1 n Y 11 Y. (3.36) Kvadratna forma je denisana sa Y AY = j=1 a ijy i Y j gde je a ij = a ji. A je simetri na matrica dimenzije n n i zove se matrica kvadratne forme. Sume kvadrata SST O, SSR i SSE su kvadratne forme, jer se sume kvadrata date sa (3.33), (3.36) i (3.35) svode na [ SST O = Y I 1 ] n J Y,
Linearna regresija sa jednom nezavisnom promenljivom 42 SSR = Y [ X(X X) 1 X 1 n J ] Y, gde je a matrice: SSE = Y [ I X(X X) 1 X ] Y, (3.37) 11 = J, I 1 n J, X(X X) 1 X 1 n J, I X(X X) 1 X, su matrice kvadratne forme. Ozna imo sa B = I X(X X) 1 X. Matrica B je idempotentna (B 2 = B), jer je B 2 = (I X(X X) 1 X ) (I X(X X) 1 X ) = I X(X X) 1 X X(X X) 1 X + (X(X X) 1 X ) (X(X X) 1 X ) = I X(X X) 1 X X(X X) 1 X + X(X X) 1 X X(X X) 1 X = I X(X X) 1 X X(X X) 1 X + X(X X) 1 X = I X(X X) 1 X = B. Iz (3.37) i B 2 = B dobija se jo² jedan izraz za SSE, SSE = Y BY = Y B BY = (BY ) BY = (BY 0) (BY 0) = (BY (XB XB)) (BY (XB XB)) = (BY (XB X(X X) 1 (X X)B) (BY (XB X(X X) 1 (X X)B) = (BY (XB X(X X) 1 X XB) (BY (XB X(X X) 1 X XB) = (BY (I X(X X) 1 X )(XB)) (BY (I X(X X) 1 X )(XB)) = (BY B(XB)) (BY B(XB)) = (B(Y XB)) (B(Y XB)) = (B(Y EY )) (B(Y EY )) = (Y EY ) B B(Y EY ) = (Y EY ) B(Y EY ). Teorema 7. Za model (3.4) je SSE σ 2 (3.38) ] [ β0 : χ 2 n 2 i SSE je nezavisna od σ β =. 2 β 1 Dokaz. Slu ajne promenljive Y i, i = 1,..., n su nezavisne, te su i Y i β 0 β 1 X i, σ i = 1,..., n nezavisne slu ajne promenljive Kako su Y i, i = 1,..., n slu ajne promenljive sa normalnom raspodelom, to je Y i β 0 β 1 X i σ : N (0, 1), i = 1,..., n. (3.39)
Linearna regresija sa jednom nezavisnom promenljivom 43 Sledi da je ( Y i β 0 β ) 2 1 X i : χ 2 σ i prema (3.16) dobija se SSE : χ 2. σ 2 Sada, odredimo broj stepeni slobode. Na osnovu (3.38) je SSE = 1 σ 2 σ (Y EY ) B 1 (Y EY ), σ te moºemo primeniti Lemu 1.4 (Iv enko, Medvedev: Matemati ka statistika, Moskva, 1984), iz koje se dobija da SSE ima χ 2 raspodelu, gde je tr(b) broj stepeni σ 2 slobode. Nažimo tr(b). tr(b) = tr(i X(X X) 1 X ) = tr(i) tr(x(x X) 1 X ) = n 2, jer je I jedini na matrica formata n n, a tr(x(x X) 1 X ) = 1 X 1 X2 i 1 X 2 n n X i n (X i X) 2 n (X i X) 2 [ ] 1 1 1 = tr.. X i 1 X n n n (X i X) 2 n X 1 X 2 X n n (X i X) 2 X2 i X n 1 X i n n X i + X 1 n n (X i X) 2 n (X i X) 2 = tr X2 i X n 2 X i n n X [ ] i + X 2 n n (X i X) 2 n (X 1 1 1 i X) 2 X 1 X 2 X n.. n X2 i X n n X i n n X i + X n n n (X i X) 2 n n (X i X) 2 ( 1 ( ) = n (X X 2 i X) 2 i X 1 X i + X 1 X i + X 1 n + ( ) X 2 X i + X 2 X i + X 2 n + + Xi 2 X n + X n ( )) X i + X n n X i X 2 i
Linearna regresija sa jednom nezavisnom promenljivom 44 = ( 1 n (X n i X) 2 Xi 2 X i X i X i X i + n X 2 i ) = 2n( X i 2 nx 2 ) n (X = 2n (X i X) 2 i X) 2 n (X i X) = 2. 2 Preostaje da dokaºemo nezavisnost SSE i β. Ozna imo normirani vektor gre²aka σ 2 sa [ ε ε1 = σ... ε ] n, σ pa on ima raspodelu ε : N (0, I). Sada je te dobijamo da je i Y = Xβ + σε, β = (X X) 1 X Y = (X X) 1 X (Xβ + σε ) = (X X) 1 X Xβ + (X X) 1 X σε = β + σ(x X) 1 X ε SSE = (Xβ + σε ) B(Xβ + σε ) = σ 2 ε Bε. Po²to je (X X) 1 X B = 0, tj proizvod matrica kvadratne forme i linearne forme vekora ε jednak nula matrici, sledi da su kvadratna i linearna forma nezavisne, te sledi i nezavisnost SSE i β. σ 2 3.8 Dodatak: Kori² enje Microsoft Excel-a za prostu linearnu regresiju Otvoriti u Excel-u radni list sa podacima, potrebnim za analizu regresije. Odabrati Tools Data Analysis ako se radi u Excel-u 97-2003 (nadalje radimo u Excelu 97-2003, a u ostalim verzijama se sli no radi). Zatim odabrati Regression sa liste Data Analysis i pritisnuti OK. U dijalogu kao na slici 3.6 uneti opseg za Y u Input Y Range i uneti opseg za X u Input X Range. Ozna iti Labels, Confidence Level i uneti nivo poverenja, zatim pritisnuti OK. Za predvižanje zasebne vrednosti Y u Excel-u koristi se funkcija TREND(opseg elija za Y, opseg elija za X, vrednost za X). Za analizu reziduala pratiti uptstvo u prvom pasusu do pritiska OK, s tim ²to je pre odabira OK potrebno u dijalogu regresije ozna iti Residuals i Residual Plots. Za crtanje dijagrama na osnovu unetih podataka, i i na Insert Chart, oda-
Linearna regresija sa jednom nezavisnom promenljivom 45 Slika 3.6: Dijalog regresije. brati XY (Scatter), zatim odabrati prvi dijagram ponužen u Chart sub-type. Pritisnuti Next. U Data range uneti duºinu promenljivih i ozna iti Columns. Pritisnuti Next. Uneti naziv dijagrama u Chart title, nazive osa u Value (X) axis i Value (Y) axis, zatim pritisnuti Finish. Liniju na dijagramu dobi emo na slede i na in. Odabrati Chart Add Trendline. U dijalogu kao na slici 3.7 na Type kartici odabrati Linear, a na kartici Options izabrati Automatic. Obeleºiti Display equation on chart i Display R-squared value on chart, pritisnuti OK. Slika 3.7: Add Trendline dijalog.
Vi²estruki regresioni modeli 47 Glava 4 Vi²estruki regresioni modeli 4.1 Model prvog reda sa dve nezavisne neslu ajne promenljive Ako se posmatraju dve nezavisne neslu ajne promenljive X 1 i X 2, model Y i = β 0 + β 1 X i1 + β 2 X i2 + ε i (4.1) se zove model prvog reda sa dve nezavisne promenljive. Model prvog reda (4.1) je model sa linearnim parametrima i linearnim nezavisnim promenljivama. Y i ozna ava zavisnu promenljivu na i-tom elementu uzorka, X i1 i X i2 su nezavisne promenljive na i-tom elementu uzorka. Parametri modela su β 0, β 1 i β 2, a gre²ka je ε i. Smatraju i da je E(ε i ) = 0, regresiona funkcija modela (4.1) je E(Y ) = β 0 + β 1 X 1 + β 2 X 2. (4.2) Prosta linearna regresija ima regresionu funkciju E(Y ) = β 0 + β 1 X koja je prava, a regresiona funkcija (4.2) je ravan. Regresiona funkcija u vi²estrukoj regresiji se zove regresiona povr². 4.1.1 Zna enje regresionih koecijenata Parametar β 0 je Y odse ak na y-osi regresione povr²i. Ako je u modelu X 1 = 0 i X 2 = 0, onda β 0 pokazuje kolika je o ekivana vrednost zavisne promenljive kada je X 1 = 0, X 2 = 0. Parametar β 1 pokazuje promenu o ekivane vrednosti zavisne promenljive pri jedini nom pove anju X 1 kada je X 2 konstantno. Isto tako, β 2 ukazuje na promenu u o ekivanoj vrednosti pri jedini noj promeni X 2 kada je X 1 konstantno. Ako uticaj X 1 na o ekivanu vrednost zavisne promenljive ne zavisi od X 2 i obrnuto, da uticaj X 2 na o ekivanu vrednost zavisne promenljive ne zavisi od X 1, onda se za takve dve nezavisne promenljive kaºe da imaju aditivne efekte ili da nisu interaktivne. Prema tome, model prvog reda (4.1) se odnosi na nezavisne promenljive koje nisu interaktivne. Parametri β 1 i β 2 se esto zovu parcijalni regresioni koecijenti jer ozna avaju
Vi²estruki regresioni modeli 48 parcijalni uticaj jedne nezavisne promenljive kada je druga konstantna. 4.2 Model prvog reda sa vi²e od dve nezavisne promenljive Posmatrajmo slu aj sa p 1 nezavisnih neslu ajnih promenljivih X 1, X 2,..., X p 1. Model Y i = β 0 + β 1 X i1 + β 2 X i2 +... + β p 1 X i,p 1 + ε i (4.3) se zove model prvog reda sa p 1 nezavisnih promenljivih. Model (4.3) se moºe zapisati i ovako p 1 Y i = β 0 + β k X ik + ε i, k=1 gde je i = 1, 2,..., n. Za p 1 = 1, model (4.3) se svodi na Y i = β 0 + β 1 X i1 + ε i, ²to je prost linearni regresioni model. Pretpostavimo da je E(ε i ) = 0, funkcija zavisne promenljive za model (4.3) je E(Y i ) = β 0 + β 1 X i1 + β 2 X i2 +... + β p 1 X i,p 1. Ova funkcija zavisne promenljive je hiperravan (to je ravan u prostoru sa ve om dimenzijom od dva). U modelu prvog reda (4.3) vidimo da je zna enje parametara analogno kao u slu aju sa dve nezavisne promenljive i nezavisne promenljive nisu interaktivne. 4.3 Op²ti linearni regresioni model U pojedinim slu ajevima od interesa je u istom regresionom modelu posmatrati jednu neslu ajnu nezavisnu promenljivu dva ili vi²e puta, ²to moºe biti opravdano razli itim mehanizmima uticaja (²to je predstavljeno odgovaraju im razli itim parametrima β i ) na obeleºje predstavljeno zavisnom promenljivom Y i. U op²tem slu aju, promenljive X 1, X 2,..., X p 1 u regresionom modelu ne mora da budu razli ite nezavisne promenljive. Zbog toga uvodimo op²ti linearni regresioni model Y i = β 0 + β 1 X i1 + β 2 X i2 +... + β p 1 X i,p 1 + ε i, (4.4) gde su β 0, β 1,..., β p 1 parametri, a X i1, X i2,..., X i,p 1 su poznate konstante, ε i nezavisne slu ajne promenljive sa raspodelom N (0, σ 2 ), i = 1, 2,..., n. Funkcija zavisne promenljive modela (4.4) kada je E(ε i ) = 0: E(Y i ) = β 0 + β 1 X i1 + β 2 X i2 +... + β p 1 X i,p 1. (4.5) Prema tome, opservacije Y i su nezavisne slu ajne promenljive sa normalnom raspo-
Vi²estruki regresioni modeli 49 delom, ije je o ekivanje E(Y i ) dato sa (4.5) i konstantnom disperzijom σ 2. Kada X 1, X 2,..., X p 1 predstavlja p 1 razli itih nezavisnih promenljivih, op²ti linearni model (4.4) je model prvog reda u kome nema interaktivnih uticaja mežu nezavisnim promenljivama. 4.4 Op²ti linearni regresioni model u matri nom obliku Za izraºavanje op²teg linearnog regresionog modela (4.4) u matri nom obliku, potrebno je denisati slede e matrice Y 1 1 X 11 X 12 X 1,p 1 Y 2 1 X 21 X 22 X 2,p 1 Y =, X =,........ Y n 1 X n1 X n2 X n,p 1 β = β 0 β 1 β 2. β p 1 ε 1 ε 2, ε =.. U matri nom obliku, op²ti linearni regresioni model (4.4) je ε n Y = Xβ + ε, (4.6) gde je: Y vektor opservacija, β vektor parametara, X matrica konstanti, ε vektor slu ajnih promenljivih sa normalnom raspodelom, pri emu je o ekivanje E(ε) = 0 i disperziono-kovarijaciona matrica D(ε) = σ 2 I. Stoga, slu ajni vektor Y ima o ekivanje E(Y) = Xβ, a disperziono-kovarijaciona matrica za Y je D(Y) = σ 2 I.
Vi²estruki regresioni modeli 50 4.5 Regresioni koecijenti vi²estrukog regresionog modela Nave² emo osobine i primene regresionih koecijenata vi²estrukog linearnog regresionog modela bez detaljnijeg obrazloºenja, jer su njihova izvoženja analogna izvoženjima osobina i primena koecijenata linerane regresije sa jednom nezavisnom promenljivom. Ozna i emo sa β vektor ocenjenih regresionih koecijenata β 0 β 1 β = β 2.. β p 1 Jedna ina najmanjih kvadrata op²teg linearnog regresionog modela (4.6) je (X X) β = X Y, a ocene najmanjih kvadrata su β = (X X) 1 X Y, ukoliko je matrica X X nesingularna. Ocene najmanjih kvadrata β su nepristrasne, E( β) = β. Disperziono-kovarijaciona matrica D( β 0 ) Cov( β 0, β 1 ) Cov( β 0, β p 1 ) D( β) Cov( β 1, β 0 ) D( β 1 ) Cov( β 1, β p 1 ) =...... Cov( β p 1, β 0 ) Cov( β p 1, β 1 ) D( β p 1 ) je izraºena sa D( β) = σ 2 (X X) 1, a njena ocena s 2 ( β 0 ) s( β 0, β 1 ) s( β 0, β p 1 ) s 2 ( β) s( β 1, β 0 ) s 2 ( β 1 ) s( β 1, β p 1 ) =...... s( β p 1, β 0 ) s( β p 1, β 1 ) s 2 ( β p 1 ) je s 2 ( β) = MSE(X X) 1. Interval poverenja za β k sa 1 α nivoom poverenja je β k ± t (1 α 2 ;n p) s( β k ).
Vi²estruki regresioni modeli 51 Za testiranje koristi emo test statistiku i pravilo H 0 : β k = 0 H a : β k 0, t = β k s( β k ) Ako je t t (1 α 2 ;n p), prihvata se H 0 Inače se prihvata H a. Intervali poverenja kada ocenjujemo g razli itih parametara sa nivoom poverenja 1 α su β k ± Bs( β k ), (4.7) gde je B = t (1 α 2g ;n p). (4.8) 4.6 Komentari Fitovane vrednosti, reziduali, sume kvadrata i o ekivane sume kvadrata se mogu predstaviti isto kao u ve diskutovanom delu o linearnoj regresiji sa jednom nezavisnom promenljivom u matri nom obliku. Mežutim, javlja se razlika u stepenima slobode za SSR i SSE, te se i o ekivane sume kvadrata razlikuju u odnosu na linearnu regresiju sa jednom nezavisnom promenljivom (videti tabelu 4.1). SS Stepeni slobode MS Regresija SSR = β X Y 1 n Y 11 Y p 1 MSR = SSR p 1 Gre²ka SSE = Y Y β X Y n p MSE = SSE n p Ukupno SST O = Y Y 1 n Y 11 Y n 1 Tabela 4.1: SS i MS za model (4.6). SSE ima n p stepena slobode po²to treba oceniti p parametara u regresionoj funkciji za model (4.6). SSR ima p 1 stepena slobode zbog broja X promenljivih, X 1, X 2,..., X p 1. Kori² enje MS Excel-a za analizu vi²estruke linearne regresije i analizu reziduala je sli no kao u delu 3.8.
Vi²estruki regresioni modeli 52 Za izra unavanje t statistike moºe se primeniti funkcija u Excel-u TINV(nivo poverenja, stepen slobode), za dobijanje transponovane i inverzne matrice TRANSPOSE(opseg elija matrice) i MINVERSE(opseg elija matrice), respektivno, dok se za mnoºenje matrica koristi funkcija MMULT(opseg elija prve matrice, opseg elija druge matrice). 4.7 Uop²tene ocene najmanjih kvadrata Pretpostavka da slu ajne promenljive ε i imaju istu disperziju σ 2 moºe biti suvi²e restriktivna u ekonometrijskim istraºivanjima. Na primer, ako Y predstavlja prot rme, a X meri veli inu rme, onda je verovatno da se D(Y ) pove a sa pove anjem X. Slu ajne raspodele sa disperzijama koje nisu konstantne se zovu heteroskedasti ne. Osim heteroskedasti nosti, pretopstavka nekoreliranih ε i moºe biti neodrºiva. Ovakva razmatranja vode do zamene pretpostavke D(Y) = σ 2 I sa gde je V simetri na i pozitivno denitna matrica. D(Y) = V, (4.9) Time se menja ocena najmanjih kvadrata β = (X X) 1 X Y sa β GLS = (X V 1 X) 1 X V 1 Y, (4.10) koja se zove uop²tena ocena najmanjih kvadrata, ima osobinu nepristrasnosti i vaºi pod pretpostavkom (4.9). D( β GLS ) = (X V 1 X) 1, (4.11) Specijalno, za V = σ 2 I u (4.11) ocena se svodi na σ 2 (X X) 1 u (3.30). Za dokazivanje (4.10) i (4.11) koristi emo rezultate iz 2.6. Za simetri nu i pozitivno denitnu matricu V postoji simetri na i pozitivno denitna matrica P takva da je PP = V, tj. P = V 1/2. Mnoºenjem regresionog modela Y = Xβ + ε sa P 1 dobija se P 1 Y = P 1 Xβ + u, (4.12) gde u = P 1 ε ima kovarijacionu matricu P 1 D(ε)P 1 = P 1 PPP 1 = I. Prema tome, model (4.12) ima D(u) = I, za koji je ocena najmanjih kvadrata oblika [ (P 1 X) (P 1 X) ] 1 (P 1 X) P 1 Y = (X P 1 P 1 X) 1 X P 1 P 1 Y, ²to je istog oblika kao β GLS u (4.10) po²to je P 1 P 1 = (PP) 1 = V 1. Stoga, koriste i transformaciju (4.12), uop²tena ocena najmanjih kvadrata se moºe transformisati u ocenu najmanjih kvadrata, te uop²tena ocena najmanjih kvadrata ima iste osobine kao ocena najmanjih kvadrata nakon zamene X sa P 1 X. Dakle, (4.11) sledi iz (3.30) primenom ove transformacije.
Vi²estruki regresioni modeli 53 4.8 Primer vi²estruke regresije sa dve nezavisne promenljive Osiguravaju a kompanija ima 15 lijala u Srbiji. U tabeli 4.2 su dati podaci o prodaji polisa. Filijala Prodaja polisa u lijali i Ciljana populacija (u hiljadama) Prihod po glavi stanovnika (u dinarima) i Y i X i1 X i2 1 162 274 2.450 2 120 180 3.254 3 223 375 3.802 4 131 205 2.838 5 67 86 2.347 6 169 265 3.782 7 81 98 3.008 8 192 330 2.450 9 116 195 2.137 10 55 53 2.560 11 252 430 4.020 12 232 372 4.427 13 144 236 2.660 14 103 157 2.088 15 212 370 2.605 Tabela 4.2: Prodaja polisa. Prodaju ozna ava zavisna promenljiva Y, dok ciljanu populaciju i prihod po glavi stanovnika ozna avaju nezavisne promenljive X 1 i X 2, respektivno. Odgovaraju i model za ovaj primer je model (4.1) sa gre²kom ija je raspodela normalna. Y i = β 0 + β 1 X i1 + β 2 X i2 + ε i
Vi²estruki regresioni modeli 54 Matrice X i Y su 1 274 2.450 162 1 180 3.254 120 1 375 3.802 223 1 205 2.838 131 1 86 2.347 67 1 265 3.782 169 1 98 3.008 81 X = 1 330 2.450, Y = 192. 1 195 2.137 116 1 53 2.560 55 1 430 4.020 252 1 372 4.427 232 1 236 2.660 144 1 157 2.088 103 1 370 2.605 212 Dobi emo ocene najmanjih kvadrata β koriste i (4.5) i matrice X i Y. β = (X X) 1 X Y 1, 2463484 2, 1296642 10 4 4, 1567125 10 4 2.259 = 2, 1296642 10 4 7, 7329030 10 6 7, 0302518 10 7 647.107 4, 1567125 10 4 7, 0302518 10 7 1, 9771851 10 7 7.096.619 3, 4526127900 = 0, 4960049761. 0, 0091990809 Prema tome je pa je ocenjena regresiona funkcija β 0 3, 4526127900 β 1 = 0, 4960049761, β 2 0, 0091990809 Ŷ = 3, 453 + 0, 496X 1 + 0, 0092X 2. Dakle, o ekuje se pove anje prodaje za 0, 496 polisa kada je ciljana populacija pove- ana za hiljadu stanovnika, u slu aju da je prihod po glavi stanovnika nepromenjen. A, ako se prihod po glavi stanovnika pove a za jedan dinar, o ekuje se pove anje
Vi²estruki regresioni modeli 55 prodaje za 0, 0092 polisa, pri konstantnoj populaciji. Ocenimo β 1 i β 2 zajedno sa familijom nivoa poverenja 0, 90, koriste i Bonferonijeve intervale poverenja date u (4.7). Najpre, potrebno je oceniti disperziono-kovarijacionu matricu s 2 ( β), s 2 ( β) = 4, 7403 1,2463484 2,1296642E - 4-4,1567125E - 4 2,1296642E - 4 7,7329030E - 6-7,0302518E - 7-4,1567125E - 4-7,0302518E - 7 1,9771851E - 7 5,9081 1,0095E - 3-1,9704E - 3 = 1,0095E - 3 3,6656E - 5-3,3326E - 6. -1,9704E - 3-3,3326E - 6 9,3725E - 7 Potrebna su nam dva elementa dobijene matrice, pa je s 2 ( β 1 ) = 0, 000036656 i s 2 ( β 2 ) = 0, 00000093725, s( β 1 ) = 0, 006054 i s( β 2 ) = 0, 0009681. Ocenjujemo β 1 i β 2, zna i da je g = 2. Zamenom dobijenih vrednosti i datog α = 0, 10 u (4.8) je B = t (1 0,10 2 2 ;12) = t (0,975;12) = 2, 179. Dakle, intervali poverenja su i tj. i 0, 4960 2, 179 0, 006054 β 1 0, 4960 + 2, 179 0, 006054 0, 009199 2, 179 0, 0009681 β 2 0, 009199 + 2, 179 0, 0009681, 0, 483 β 1 0, 509 0, 0071 β 2 0, 0113. Sa familijom nivoa poverenja 0, 90 zaklju ujemo da β 1 ima neku vrednost izmežu 0, 483 i 0, 509, a β 2 izmežu 0, 0071 i 0, 0113. Primetimo da dobijeni intervali poverenja navode da su i β 1 i β 2 pozitivni, ²to se poklapa sa teorijskim o ekivanjima da bi trebalo do i do pove anja prodaje polisa sa pove anjem bilo ciljane populacije, bilo prihoda po glavi stanovnika.
Osnovni investicioni modeli 57 Glava 5 Osnovni investicioni modeli 5.1 Markoviceva portfolio teorija Dobar portfolio je vi²e od duge liste dobrih akcija i obveznica. To je balansirana celina, koja ²titi investitora i obezbežuje mogu nosti u skladu sa ²irokim spektrom nepredviženih situacija. Hari Markovic Po etni kapital koji je potrebno uloºiti u investiciju je skoro uvek poznat, za razliku od prinosa koji je neizvestan. Naravno, investitori preferiraju da takve neizvesnosti budu minimalne. Markovic je ispitivao neizvesnost prinosa analizom o ekivanja i varijacije. Dobijena teorija se zove Markoviceva portfolio teorija, a 1990. godine Markovic je nagražen Nobelovom nagradom u ekonomiji. Na ovoj teoriji se zasniva model procenjivanja kapitalnih ulaganja, koji je uveo arp i dobio 1990. Nobelovu nagradu u ekonomiji. 5.1.1 Ponderi portfolija Za portfolio od p aktiva sa ponderima ω i, prema (2.15) i za ksirani vremenski trenutak t, prinos je r = p ω ir i, gde je r i prinos i-te aktive. O ekivani prinos portfolija µ i disperzija prinosa portfolija σ 2 su µ = p ω i E(r i ), σ 2 = ω i ω j Cov(r i, r j ), (5.1) 1 i,j p pri emu za ω i vaºi p ω i = 1, (5.2) 0 ω i 1. (5.3) Diversikacija je postupak za smanjenje rizika ulaganjem u razli ite aktive. Recimo, lo²e je formirati portfolio koji se sastoji od jedne akcije. Takav portfolio je nediversikovan, jer sa padom vrednosti akcije, investitor je na gubitku.
Osnovni investicioni modeli 58 Za meru rizika se uzima standardna devijacija prinosa rizi ne aktive. Rizi na aktiva je svaka aktiva koja sa sobom nosi neki stepen rizika. Takve su aktive koje poseduju banke ili nansijske institucije i ije vrednosti mogu uktuirati usled promene kamatne stope, rizika otplate, kredibiliteta itd. Diversikacijom se moºe disperzija prinosa portfolija smanjiti uklju ivanjem dodatnih aktiva u portfolio. Primenimo diversikaciju na na² slu aj, ako su r i nekorelirani ili negativno korelirani i ω i zadovoljavaju (5.2) i (5.3), onda je σ 2 p ωi 2 D(r i ) p ω i D(r i ). Dakle, disperzija prinosa portfolija je manja od zbira pojedina nih disperzija prinosa aktiva koje zajedno ine portfolio. Po ovakvom principu posluju osiguravaju e kompanije, jer je manji rizik ukoliko imaju ve i broj osiguranika. Specijalno, za ω i = 1 p tj. jednako u e² e aktiva u portfoliju i D(r i) = v odnosno svi prinosi aktiva su istih disperzija, je σ 2 v, a takav portfolio se zove jednako- p ponderisani portfolio. Ponekad je mogu e da investitor proda aktivu koju ne poseduje, ²to zovemo kratkom prodajom aktive. Kratka prodaja uklju uje pozajmljivanje n aktiva od zajmodavca (npr. brokerske rme) i prodaju tih aktiva kupcu za x 0 dinara. Tada, investitor ima portfolio koji se sastoji od n aktiva i od x 0 dinara. n je pozitivno i ozna ava broj aktiva, ali u portfoliju posmatramo negativan broj n, jer je investitor kratak za n aktiva, odnosno toliko aktiva duguje. Na kraju investitor za x 1 dinara kupuje n aktiva, iste kakve je prvobitno pozajmio i vra a ih zajmodavcu. Ako je x 0 > x 1 investitor je ostvario zaradu, u suprotnom je na gubitku. Arbitraºa predstavlja kori² enje razlike u ceni posmatranog instrumenta na razli itim trºi²tima u cilju zarade bez sopstvenog ulaganja. Ako nema arbitraºe, onda je x 0 = x 1, a investitor nije ni zaradio, ni izgubio. Mnoge brokerske ku e ne dozvoljavaju kratku prodaju, zbog mogu eg velikog rizika. U slu ajevima kada je omogu ena kratka prodaja, pretpostavka (5.3) se moºe zanemariti, jer tada w i moºe biti negativan broj, naravno, ne manji od 1 po²to se radi o ponderu. 5.1.2 Oblast realizacije i ekasna granica Neka se portfolio sastoji od p = 2 rizi nih aktiva, iji prinosi imaju o ekivanja µ 1, µ 2, standardne devijacije σ 1, σ 2 i koecijent korelacije ρ. Neka je ω 1 = α ponder prve aktive u portfoliju, a ω 2 = 1 α ponder druge aktive u portfoliju, gde je 0 α 1. Tada je o ekivani prinos portfolija µ(α) = αµ 1 + (1 α)µ 2, (5.4)
Osnovni investicioni modeli 59 a njegova disperzija je σ(α) = α 2 σ 2 1 + 2ρα(1 α)σ 1 σ 2 + (1 α) 2 σ 2 2. (5.5) Sa promenom vrednosti α u (5.4) i (5.5) menjaju se ponderi, te dobijamo skup ta aka oblika (σ(α), µ(α)) koje obrazuju krivu u ravni µ σ (videti sliku 5.1). Ovako denisana kriva se zove oblast realizacije, pri emu ta ka (σ(α), µ(α)) na graku predstavlja portfolio sa o ekivanjem µ(α) i standardnom devijacijom σ(α). Slika 5.1: Grak o ekivanja-standardne devijacije za dve aktive. Pokaza emo da je oblast realizacije ograni ena trouganom obla² u u ravni µ σ. Funkcija σ je rastu a po ρ, gde je ρ [0, 1], pa nažimo granice funkcije. Gornju granicu traºimo za ρ = 1, σ(α; ρ = 1) = (1 α) 2 σ1 2 + 2α(1 α)σ 1 σ 2 + α 2 σ2 2 = ((1 α)σ 1 + ασ 2 ) 2 = (1 α)σ 1 + ασ 2. Na pravoj se nalaze ta ke P 1 i P 2. Kada je α = 1, u portfoliju je samo prva aktiva i na graku je takav slu aj predstavljen ta kom P 1, dok ta ka P 2 prikazuje portfolio kada je α = 0. Portfolija koja su predstavljenja ta kama na ovoj pravoj su izloºena velikom riziku, jer su sastavljeni od aktiva koje se isto kre u na trºi²tu, pa kada padne jedna aktiva pa² e i druga, a time i ceo portfolio. Kada je ρ = 1, dobija se donja granica: σ(α; ρ = 1) = (1 α) 2 σ1 2 2α(1 α)σ 1 σ 2 + α 2 σ2 2 = ((1 α)σ 1 ασ 2 ) 2 = (1 α)σ 1 ασ 2 { ασ 2 (1 α)σ 1, za α σ 1 σ = 1 +σ 2. (5.6) (1 α)σ 1 ασ 2, za α < σ 1 σ 1 +σ 2
Osnovni investicioni modeli 60 Prave u (5.6) se seku u ta ki A. Dakle, u ta ki A je standardna devijacija prinosa portfolija jednaka nuli, a takav slu aj je pogodan za investitora. Ta ke na isprekidanoj liniji predstavljaju portfolije kada je dozvoljena kratka prodaja, u slu aju da je ρ = 1, a ta ka A upravo odgovara jednom takvom portfoliju. Za p 3, oblast realizacije je dvodimenzionalna, konveksna ulevo. Na slici 5.2 je tamnijom obla² u prikazana oblast realizacije kada je dozvoljena kratka prodaja, a svetlijom kada kratka prodaja nije dozvoljena. Slika 5.2: Oblast realizacije za p 3 aktiva. Leva granica realizacione oblasti se zove skup minimalne disperzije. Ekasna granica u Markovicevom smislu je gornji deo skupa minimalne disperzije po ev²i od ta ke sa najmanjom disperzijom. Investitor preferira portfolio koji ima najve i o ekivani prinos i najmanju disperziju prinosa. Slika 5.3: Ekasna granica i ta ka mininalne disperzije.