Ispitivanje povezanosti Jelena Marinkovi Institut za medicinsku statistiku i informatiku Medicinskog fakulteta Beograd, decembar 2007.g.
Kakav je odnos DOZA-EFEKAT (ODGOVOR)? Log Doza vs Odgovor 150 y-osa je Odgovor Response e odgovor 100 50 0 0.01 0.1 1 10 100 1000 10000 D odoza s e
40 17% Smrtn nost (%) 30 20 10 Metoprolol Dilatrend 0 0 1 2 3 4 5 Vreme (godine) Poole-Wilson et al. Lancet 2003;362:7-13
Malo istorije Termin "regresija" primenio je Fransis Galton u XIX veku da opiše biološki fenomen potomci izuzetnih roditelja teže ka proseku.
Odnos izmeu visina oeva i sinova: Karl Pearson, (1896 1896)
Tri (3) karakteristike povezanosti (mereno na istom ispitaniku) Smer Pozitivan (+) Negativan (-) Stepen/ jaina povezanosti Izmeu 1 i 1 Apsolutna vrednost oznaava jainu Oblik / forma Linearan Nelinearan
Smer 20.0 Pozitivan C1 vs C2 120.0 Negativan C1 vs C2 13.3 80.0 C2 C2 6.7 40.0 0.0 0.0 4.0 8.0 12.0 C1 0.0 0.0 83.3 166.7 250.0 C1
Stepen / jaina povezanosti Jak Slab 20.0 C1 vs C2 120.0 C1 vs C2 13.3 80.0 C2 C2 6.7 40.0 0.0 0.0 4.0 8.0 12.0 C1 0.0 0.0 4.0 8.0 12.0 C1
Oblik Linearan Nelinearan
Ispitivanje povezanosti / Odgovori Regresija (oblik i smer) statistiko modelovanje definisanje linearnog modela evaluacija modela koeficijentom determinacije predvianje i/ili ili ocenjivanje parametara model linearnog trenda Korelacija (jaina i smer) mera povezanosti koeficijenti korelacije Pirsonov koeficijent linearne korelacije r Spirmanov koeficijent korelacije rangova testiranje znaajnosti koeficijenata korelacije tablice znaajnosti koeficijenata ili varijante t-testa testa
Ispitivanje povezanosti - Statistiko modelovanje Linearni regresioni model
Regresiona analiza U statistici regresiona analiza predstavlja ispitivanje odnosa zavisne promenljive i specifine nezavisne varijable (ili više njih). Matematiki model njihovog odnosa je regresiona jednaina. Regresiona jednaina sem promenljivih veliina sadrži i ocene dva regresiona parametra ( konstante ). Ove ocene konstruisane su korišenjem uzorakih podataka.
Populacioni Linearnini Regresioni Model 1. Odnos meu varijablama je linearna funkcija Populacion ioni Y-odseak Populacion ioni nagib Sluajna greška Y = β + β X + ε i 0 1 i i Zavisna varijabla (npr. odgovor na lek) Nezavisna varijabla (npr., doza leka)
Populacija & Uzorak - Regresioni Modeli Populacija Sluajni uzorak Y Nepoznati odnos = β + β X + ε i 0 1 i i
Linearni regresioni model/ linearna regresiona jednaina Linearni ni model Y = a + b X Y = zavisna varijabla X = nezavisna varijabla b = nagib = Y/ Y/ X a = y-odseak (taka u kojoj prava linija preseca y-osu) Y 12 10 8 6 4 2 0 Y X 0 5 10 15 20 25 X
Linearni ni model Razliiti nagibi Predictor prediktor
Linearni ni model Razliiti odseci Predictor prediktor
Linearni ni model Razliiti i odseci i nagibi (a i b) Predictor prediktor
Ocena parametara modela Parametri ri regresionog modela mogu biti ocenjeni na više naina: metodom najmanjih kvadrata metodom maksimalne verodostojnosti ili bajesovskim metodama. Kada je model sa normalno raspodeljenim greškama prve dve metode su istovetne.
Izraunavanje linearnog statistikog regresionog modela y = a + bx linearni model sa jednom (1) nezavisnom varijablom b = sd 2 xy / sd x2 i a = Y bx. gde je sd xy kovarijansa, tj. mera zajednikog variranja obe sluajno promenljive veliine
Regresiona dijagnostika Kada je regresioni model konstruisan važno je potvrditi: slaganje modela sa opserviranim podacima i statistiku znaajnost ocenjenih regresionih parametara Provera se uobiajeno vrši pomou: koeficijenta determinacije, analizom reziduala,... F-testom ukupnog slaganja i t-testovima testovima individualnih parametara
Evaluacija regresionog modela - Vizualizacija r 2 Regresioni model na desnoj slici ima vei R 2!!!
Koeficijent determinacije (r 2 ) Koeficijent determinacije, (r 2 ) Kvantifikacija dela Y matematiki objašnjena sa X. ProporP roporcija varijanse zavisne promenljive koja je objašnjena od strane nezavisne varijable. Primeri: r=1: r 2 =1: regresiona linija ija objašnjava celo (100%) variranje promenljive Y r=0.7: r 2 =.49: regresiona linija ija objašnjava skoro polovinu (49%) variranja promenljive Y r=0: r 2 =0: zavisna varijabla ne može biti uopšte objašnjena nezavisnom
Izraunavanje koeficijenta determinacije r 2 ( ˆ ) Y Y ( ) 2 = Y Y 2 i
Standardna greška regresione Mera prosene koliine koju regresiona jednaina predvianjem podcenjuje ili precenjuje Vei koeficijent determinacije manja SE tanije predvianje linije (SE)
Predvianje / interpolacija i ekstrapolacija Regresionim im modelima predviaju se vrednosti varijable y kada su poznate vrednosti varijable x. Ako se predvianje vrši unutar intervala ispitivanih vrednosti varijable x radi se o interpolaciji. Predvianje van opsega ispitivanih vrednosti varijable x je ekstrapolacija.
Korišenje regresije u funkciji predvianja Interpolacija i Ekstrapolacija! Na dijagramu rasipanja su visina prema starosti Može li se predvideti njena visina kada je imala 42 meseca? Može li se predvideti njena visina kada bude imala 30 godina (360 meseci)? heigh visina ht (cm) (cm) 100 95 90 85 80 30 35 40 45 50 55 60 65 uzrast age (months) (meseci)
Ekstrapolacija!!! Pazi!!! Regresiona jednaina: = 71.95 +.383(x) 42 meseca: = 71.95 +.383 383(42 42) = 88 (Razumno) 360 meseci: = 71.95 +.383 383(360) = 209.8 (Preko 2 metra!) height visina (cm) 210 190 170 88 150 130 110 90 70 30 90 150 210 270 330 390 age uzrast (months) (meseci)
Model linearnog trenda Poseban sluaj regresionog modela Y = a + b t Vremenske serije Linearni trend = opservirano predvianje 95% granice t