Univerzitet u Nišu Prirodno-matematički fakultet Departman za matematiku Verovatnosni modeli evolucije DNK lanca Master rad Mentor: Prof.dr Miljana Jovanović Student: Andrijana Stamenković Niš, 2018
Osnovni verovatnosni modeli evolucije DNK lanca 2 UVOD Zašto se za DNK kaţe da je knjiga ţivota? DNK ili dezoksiribonukleinska kiselina je kiselina koja sadrţi uputstvo za razvoj i pravilno funkcionisanje svih ţivih organizama. Nasledne informacije većine ţivih organizama prenose se putem DNK molekula. Sva ţiva bića svoj genetički materijal nose u obliku DNK molekula izuzev nekih virusa. DNK ima vaţnu ulogu ne samo u prenosu genetičkog materijala sa jedne na drugu generaciju već sadrţi uputstva za građenje neophodnih ćelijskih organela, proteina i molekula RNK. U eukariotima, organizmima kao što su ţivotinje, biljke, gljive i protiste, najveći broj molekula DNK se nalazi u jedru ćelije, a manji broj je u organelama, kao što su mitohondrije ili hloroplasti. U prokariotima npr. bakterijama) DNK se nalazi u citoplazmi ćelije. DNK je dugačak polimer, sastavljen od manjih jedinica koje se ponavljaju i nazivaju nukleotidi. Kada je više nukleotida međusobno povezano, kao u molekulu DNK, taj polimer se naziva polinukleotidni lanac. Votson i Kirk su 1953. godine pokazali da je u ţivim organizmima molekul DNK sastavljen od dva polinukleotidna lanca koji su spiralno uvijeni jedan oko drugog i imaju antiparalelnu orjentaciju. Nukleotidi su veoma male jedinice, međutim DNK lanac se sastoji od miliona nukleotida što ga čini jako dugim. Najveći ljudski hromozom se sastoji od 440 miliona nukleotida, odnosno 220 miliona parova. Uloga molekula DNK je jako bitna, a samim tim i glavna tema ovog rada. Master rad je izloţen u dve glave. Prva glava se sastoji od dva poglavlja. U prvom poglavlju je definisan DNK lanac, objašnjena njegova struktura i uloga. U drugom poglavlju su dati vaţni rezultati teorije verovatnoća koji se koriste u dokazu rezultata u drugoj glavi. Druga glava je posvećena modelima evolucije DNK lanca. U prvom poglavlju je obrađen Wright-Fisherov model, kao jedan od najpoznatijih modela u populacionoj genetici. Proučava se verovatnoća fiksiranja i ispituje heterozigotnost, odnosno različitost alela. U drugom poglavlju razmatra se model beskonačnog alela, pretpostavlja se da ima toliko mutacija da je svaka mutacija tip koji nikada ranije nije viđen. Objašnjen je Hoppe-
Osnovni verovatnosni modeli evolucije DNK lanca 3 ov model urne i dokazana je Ewensova formula uzorkovanja. U trećem poglavlju je objašnjen model beskonačnih lokacija, pri čemu se istraţuju mutacije na različitim lokacijama, razmatra se izdvajanje lokacija i izdvajanje lokacija nasuprot halotipovima. Pored toga, razmatra se verovatnoća da se dva nukleotida razlikuju kod dve slučajno odabrane jedinke, kao i uparene razlike i primer frekventnih preklapanja. U poslednjem poglavlju druge glave razmatra se Moranov model koji predstavlja model sa preklapajućim generacijama kod koga se samo jedna jedinka menja tokom vremena. Zahvaljujem mentoru, prof.dr Miljani Jovanović na nesebičnoj pomoći i podršci prilikom izrade ovog rada.
Osnovni verovatnosni modeli evolucije DNK lanca 4 Sadržaj 1. Osnovni pojmovi i rezultati 1.1 Molekul DNK................................................... 5 1.2 Osnovni pojmovi teorije verovatnoća................................ 12 2. Osnovni modeli evolucije DNK lanca 2.1 Wright-Fisherov model......................................... 19 2.1.1 Koalescenti................................................ 24 2.2 Model beskonačnog alela.......................................... 27 2.2.1 Hoppeova urna. Ewensova formula uzorkovanja.................... 29 2.2.2 Proces grananja.............................................. 35 2.3 Model beskonačnih lokacija......................................... 37 2.3.1 Izdvajanje lokacija............................................ 38 2.3.2 Izdvajanje lokacija nasuprot halotipovima......................... 42 2.3.3 Nukleotidna raznolikost....................................... 45 2.3.4 Uparene razlike............................................. 46 2.3.5 Frekventni spektar preklapanja................................. 47 2.4 Moranov model................................................. 49 2.4.1 Verovatnoća fiksiranja i vreme................................ 50 Zaključak............................................................54 Literatura............................................................ 55
Osnovni verovatnosni modeli evolucije DNK lanca 5 Glava 1 Osnovni pojmovi i rezultati U Poglavlju 1.1 ove glave uvedeni su pojmovi dezoksiribonukleinska i ribonukleinska kiselina. U Poglavlju 2.1 se razmatra aksiomatika teorije verovatnoće, pojam slučajne promenljive i tipovi slučajnih promenljivih, kao i neke osnovne raspodele. Definiše se matematičko očekivanje slučajne promenljive i uslovno matematičko očekivanje slučajne promenljive. 1.1 Molekul DNK Nukleinske kiseline je prvi put izolovao švajcarski fiziolog Fridrih Mišer 1869. godine, iz jedra ćelije semene tečnosti lososa. Njihova uloga u prenošenju naslednih informacija otkrivena je mnogo kasnije, 1928. godine. Nasledne informacije većine ţivih organizama prenose se putem molekula dezoksiribonukleinske kiseline, molekula DNK. Dezoksiribonukleinska kiselina DNK) je nukleinska kiselina koja sadrţi uputstva za razvoj i pravilno funkcionisanje svih ţivih organizama. Sva ţiva bića svoj genetički materijal nose u obliku DNK, sa izuzetkom nekih virusa koji imaju ribonukleinsku kuselinu RNK). DNK ima vaţnu ulogu ne samo u prenosu genetičkog materijala sa jedne na drugu generaciju već sadrţi uputstva za građenje neophodnih ćelijskih organela, proteina i molekula RNK. DNK segment koji prenosi ova vaţna uputstva se naziva gen. U eukariotima, organizmima kao što su ţivotinje, biljke, gljive i protiste, najveći broj molekula DNK se nalazi u jedru ćelije, a manji broj je u organelama, kao što su mitohondrije ili hloroplasti. U prokariotima npr. bakterijama) DNK se nalazi u citoplazmi ćelije. Za razliku od enzima, molekul DNK ne utiče direktno na druge
Osnovni verovatnosni modeli evolucije DNK lanca 6 molekule, već različiti enzimi sarađuju sa DNK i realizuju informacije bilo u obliku molekula RNK ili u obliku proteina. DNK je dugačak polimer, sastavljen od manjih jedinica koje se ponavljaju i nazivaju nukleotidi. Baza koja je povezana sa šećerom naziva se nukleozid, dok baza koja je povezana sa šećerom i jednom ili više fosfatnih grupa naziva se nukleotid. Kada je više nukleotida međusobno povezano, kao u molekulu DNK, taj polimer se naziva polinukleotidni lanac. Votson i Kirk su 1953. godine pokazali da je u ţivim organizmima molekul DNK sastavljen od dva polinukleotidna lanca koji su spiralno uvijeni jedan oko drugog i imaju antiparalelnu orjentaciju. Nukleotidi su veoma male jedinice, međutim DNK se sastoji od miliona nukleotida što ga čini jako dugim. Najveći ljudski hromozom se sastoji od 440 miliona nukleotida, odnosno 220 miliona parova. Šećer u molekulu DNK je šećer pentoze, sastoji se od pet ugljenikovih atoma i naziva se 2-dezoksiriboza, dok se molekul RNK sastoji od šećera riboze, otuda i pun naziv ribonukleinska kiselina. Šećeri su međusobno povezani fosfatnim grupama, koje stvaraju fosfodiestarsku vezu između trećeg i petog ugljenikovog atoma šećernog prstena. Pored pentoze i fosfatne grupe nukletid sadrţi i četiri različite nukleobaze vezane za dezoksiribozu. Redosled ove četiri baze je osnova kodiranja genetičkog materijala.
Osnovni verovatnosni modeli evolucije DNK lanca 7 Azotne baze mogu biti purinske i pirimidinske. Purinske baze u sastavu DNK su: adenin A) i guanin G), a pirimidinske baze u sastavu DNK su: citozin C), timin T). Slika 1.1 Purinske i pirimidinske baze U molekulima nukleinskih kiselina adenin se vezuje dvostrukom vodoničnom vezom za pirimidinske baze, i to timin, u naspramnom polinukleotidnom DNK lancu ili uracil, u RNK lancu. Par adenin timin ima isti oblik kao par citozin guanin, i njega odrţavaju tri vodonične veze. Od svih azotnih baza mogu se napraviti parovi, ali samo za parove A-T i C-G se kaţe da su komplementarni, zato što samo ta dva para baza imaju potpuno istovetan prostorni oblik i samo oni mogu da se sloţe u dvostruku spiralu tako da daju savršeno stabilnu strukturu. DNK se sastoji od dva komplementarna lanca uvijena jedan u drugi kako bi se formirala dvostruka spirala. Svaki lanac je linearna sekvenca četiri nukleotida: adenin A), guanin G), citozin C) i timint). Dva polinukleotidna lanca koja čine zavojnicu DNK lanca su antiparalelna. Asimetrični brojevi baza DNK se označavaju sa 3 i 5, što znači da se naspram 5 kraja jednog lanca nalazi 3 kraj drugog lanca i obrnuto Slika 1.2).
Osnovni verovatnosni modeli evolucije DNK lanca 8 Slika 1.2 Struktura DNK Votson i Kirk su 1953. godine u svom prvom izveštaju o strukturi DNK napisali: Primetili smo da specifična nukleotidna baza na osnovu uparivanja koje smo postavili odmah predlaţe mogući mehanizam za kopiranje genetskog materijala. Kasnije te godine Harbour, Votson i Kirk su nastavili: Ţelimo da predloţimo, specifična replikacija DNK se postiţe bez korišćenja specifičnih sinteza proteina i svaki od naših dopunskih lanaca sluţi kao šablon ili matrica za formiranje novog lanca. Ova slika se pokazala tačnom. Kada je molekul DNK spreman da se umnoţava, njegova dva pramena se razdvajaju, i nastaju dve kopije koje su iste kao i original. Slika 1.3 Deo DNK lanca
Osnovni verovatnosni modeli evolucije DNK lanca 9 Hromozomi, izgrađeni od molekula DNK, imaju vaţnu ulogu u prenošenju genetičkog materijala. Oni kontrolišu raspodelu genetičkog materijala tako da bude jednaka u svim ćerkama ćelijama prilikom ćelijskih deoba, i da nije njih DNK molekul ne bi bio tako savršeno spakovan i bio bi mnogo duţi. Hromozomi su i dalje nedovoljno istraţeni i sve funkcije koje vrše su još uvek nepoznate, ali je njihov značaj neosporno veliki. Slika 1.4 Hromozom Broj hromozoma je stalan i karakterističan za svaku biološku vrstu i naziva se karotip. Telesne somatske) ćelije imaju diploidan grčki diploos dvostruk) broj hromozoma koji se označava sa 2N. Telesna ćelija čoveka ima 46 hromozoma ili dve garniture po 23 hromozoma, pri čemu jedna garnitura potiče od majke, a druga od oca, tako da se obrazuju 23 para homologih hromozoma. Polne ćelije ili gameti kod čoveka su to spermatozoidi i jajna ćelija) sadrţe upola manji broj hromozoma u odnosu na telesne ćelije i taj broj se naziva haploidan grčki haploos jednostruk) broj hromozoma i označava sa N. Kako telesna ćelija ima dve, polna će imati jednu garnituru hromozoma, tako da je kod čoveka broj hromozoma u polnim ćelijama 23, od kojih jedan određuje pol i to je tzv. seks hromozom. Kod muškog pola to je Y dok je kod ţenskog X hromozom.
Osnovni verovatnosni modeli evolucije DNK lanca 10 Slika 1.5 Uredan karotip ţene. Uočavaju se dva X i odsustvo Y hromozoma levo). Uredan kariotip muškarca. Uočavaju se X i Y hromozomi desno). U većini slučajeva, ţene imaju dva X hromozoma, a muškarci jedan X i jedan Y hromozom. Majke uvek prenose X hromozom svojoj deci. Ako beba od oca dobije X hromozom, postaće devojčica. Ako nasledi Y hromozom rodiće se dečak. Iako većina ćelija odraslog čoveka ima dva kompleta hromozoma, jajne ćelije i spermatozoidi kao polne ćelije imaju samo po jedan hromozom od svakog para. Koji od dva hromozoma će dobiti je stvar slučajnosti, pa su zbog toga svaka jajna ćelija i svaki spermatozoid jedinstveni. Pre nego što se hromozomi ugrade u jajnu ćeliju ili u spermatozoid, dolazi do mešanja. Pre samog stvaranja polne ćelije, hromozomi jedne osobe dolaze u kontakt jedni sa drugima i međusobno razmenjuju DNK, praveći hibridne hromozome. Kada se spermatozoid i jajna ćelija spoje, oni stvaraju jednu ćeliju, sa 23 para hromozoma. Ta ćelija se deli na nove ćelije, i tako počinje formiranje bebe. Međutim, pošto su svi spermatozoidi različiti, kao i sve jajne ćelije, drugo dete od istih roditelja dobiće drugačije hromozome. Ovo jedino ne vaţi u slučaju jednojajčanih blizanaca. Neki drugi organizmi imaju drugačiji broj parova hromozoma. Veći broj hromozoma ne znači obavezno kompleksniji organizam. Gen je deo molekula DNK. Geni su linearno raspoređeni delovi hromozomske DNK. Njihova veličina broj nukleotida DNK) i raspored na hromozomima su strogo određeni. Građa gena je u stvari građa same DNK i ogleda se u tačno određenom redosledu četiri različita nukleotida adenin, timin, citozin i guanin). Promena tog redosleda, manjak ili višak nukleotida rezultira u promeni funkcije gena i naziva se genska mutacija. Raspored A, T, C i G govore našim ćelijama kako da funkcionišu i koje
Osnovni verovatnosni modeli evolucije DNK lanca 11 osobine da pokazuju. Na primer, ako dete ima kovrdţavu kosu, to se dešava zbog toga što geni koje je ono nasledilo od roditelja daju uputstvo folikulima da iz njih rastu kovrdţave vlasi. Slika 1.6 Hromozom i gen na molekulu DNK Ćelije koriste uputstva zapisana u genima da bi stvorile proteine. Proteini su vaţni za funkcionisanje ćelija i tela kao celine. Neki od proteina daju ćelijama oblik i strukturu, a drugi pomaţu da se odvijaju biološki procesi, kao što je varenje hrane ili prenos kiseonika kroz krv. Uz različite kombinacije A, T, C i G, DNK pomaţe da se stvore različiti proteini. Naravno, postoji mnogo vrsta ćelija: na primer, postoje nervne ćelije, različite krvne ćelije, ćelije koţe, jetre, bubrega i kostiju. Ali svaka od tih vrsta ćelija sadrţi ista uputstva u obliku DNK. Šta je to što ćeliji govori u koji deo tela će se pretvoriti? Odgovor leţi u komplikovanom sistemu genetskih prekidača. Glavni geni uključuju i isključuju pojedine komponente drugih gena, kako bi se pravi proteini pravili na pravom mestu i u pravim ćelijama. Da bi se stvorila nova ćelija, postojeća ćelija se deli na dva dela. Prvo se kopira DNK ćelije, kako bi nova ćelija imala kompletna genetska uputstva da se stvori. Kada se ćelije razmnoţavaju, nekada se dese greške. Te greške dovode do varijacija u DNK na posebnim lokacijama. Te greške su odgovorne za biološke varijacije među ljudima jer daju drugačiji recept za stvaranje proteina. Od njih zavise razlike u izgledu, podloţnost nekim bolestima ili reakcijama na lekove. Neke od tih grešaka nemaju nikakav značaj i ne stvaraju razlike. Pošto se DNK roditelja prenosi na decu, bebe nasleđuju i greške u DNK. Lokus je specifično mesto lokacija) ili pozicija na hromozomu) jednog gena u DNK lancu. Svaki hromozom nosi mnoštvo gena. Moguće varijante DNK lanca gena) na datom lokusu označene su kao aleli. Genom je skup gena koje sadrţi jedna haploidna
Osnovni verovatnosni modeli evolucije DNK lanca 12 ćelija. Uređena lista lokusa u određenom genomu se naziva genetička mapa. Gensko mapiranje je proces utvrđivanja lokusa za određenu biološku osobinu. Osobine koje beba dobija od maminih i tatinih gena zovu se genotip. Fenotip je sloţeniji od genotipa, jer zavisi i od gena i od njihove interakcije sa okolinom. Neke razlike u fenotipu, kao što je visina deteta, zavisi uglavnom od gena. Međutim, neke osobine zavise od grešaka u kopiranju. Neke od njih imaju ozbiljan uticaj na ţivot deteta, kao što su podloţnosti nekim bolestima, dok su druge trivijalne. 1.2 Osnovni pojmovi teorije verovatnoća Osnovni polazni pojam u teoriji verovatnoća je neprazan skup koji predstavlja skup svih mogućih ishoda ω jednog eksperimenta i naziva se skup svih ishoda. Skup moţe biti konačan, prebrojiv ili neprebrojiv. Slučajni događaj se definiše kao podskup od i realizuje se samo ako se realizuje ishod koji pripada podskupu A. Definicija 1. Familija podskupova skupa je algebra ako: 1. 2. 3. Ako je algebra na skupu, onda je uređeni par merljiv prostor na kome će biti definisana odgovarajuća mera, verovatnoća. Definicija 2. Preslikanje P: je verovatnoća, ako zadovoljava sledeće osobine: 1. normiranost); 2. nenegativnost); 3. aditivnost). Prema tome, P je nenegativna, normirana i aditivna mera na merljivim prostoru. Prostor se naziva prostor verovatnoća. Na osnovu definicije verovatnoće jednostavno se dokazuju sledeće osobine verovatnoće: 1. ;
Osnovni verovatnosni modeli evolucije DNK lanca 13 2. Konačna aditivnost: Za događaje vaţi ; 3. Monotonost: Ako je 4. 5. Za proizvoljne ) ) Definicija 3. Neka su A i B događaji iz istog prostora verovatnoće. Verovatnoća događaja A pod uslovom da se realizovao događaj B naziva se uslovna verovatnoća, označava se sa i definiše se sa. Definicija 4. Ako su disjunktni događaji, tj. takvi da je, tada oni čine potpun sistem događaja. Teorema 1.1. Formula potpune verovatnoće) Ako događaji čine potpun sistem događaja i ako je tada je za svaki događaj, Teorema 1.2. Bajesova formula) Ako je i događaji čine potpun sistem dogadjaja, tada vaţi Definicija 5. Neka su događaji A i B definisani na istom prostoru verovatnoće. Događaji A i B su nezavisni ako vaţi Definicija 6. Preslikavanje koje je finitno, tj. P{ i - merljivo, tj. je slučajna promenljiva. Definicija 7. Slučajna promenljiva X je diskretnog tipa ako postoji prebrojiv skup vrednosti takav da je U tom slučaju je
Osnovni verovatnosni modeli evolucije DNK lanca 14 i pri čemu događaji čine prebrojivo razbijanje skupa Definicija 8. Slučajna promenljiva X je apsolutno neprekidnog tipa ako postoji nenegativna, integrabilna funkcija takva da je Funkcija se naziva gustina raspodela verovatnoće slučajne promenljive X. Definicija 9. Funkcija raspodele slučajne promenljive X je funkcija. Ako je X slučajna promenljiva diskretnog tipa, tada ) predstavlja zakon raspodele slučajne promenljive X, a njena funkcija raspodele je. Ako je slučajna promenljiva X apsolutno neprekidnog tipa, sa gustinom tada je njena funkcija raspodele {. Definicija 10. Matematičko očekivanje proste slučajne promenljive X definiše se na sledeći način Definicija 11. Matematičko očekivanje elementarne slučajne promenljive X se definiše kao i postoji ako je
Osnovni verovatnosni modeli evolucije DNK lanca 15 Teorema 1.3. Neka su i diskretne proste ili elementarne) slučajne promenljive za koje vaţi da je Tada je: 1., gde je 2., gde je ; 3. s.i. tada je ; 4. ; 5. 6. 7. ; 8. 9.. Definicija 12. Neka je na prostoru verovatnoća definisana slučajna promenljiva koja je apsolutno integrabilna i neka je tako da je Uslovno matematičko očekivanje slučajne promenjive X u odnosu na događaj A je definisano sa. Neka je. Neka su događaji koji čine prebrojivo razbijanje skupa u smislu da je Neka je G algebra generisana ovim razbijanjem, tj. Ona je diskretna i svaki njen element je najviše prebrojiva unija elemenata niza Definicija 13. Neka je slučajna promenljiva definisana na prostoru verovatnoća koja je apsolutno integrabilna, tj., i prebrojivo razbijanje skupa Uslovno očekivanje slučajne promenljive X u odnosu na algebru koja je generisana tim razbijanjem u oznaci je diskretna slučajna promenljiva definisana na sledeći način gde je,
Osnovni verovatnosni modeli evolucije DNK lanca 16 ). Neka je X slučajna promenljiva za koju vaţi zakon raspodele ) Ova raspodela se naziva binomna raspodela u oznaci, a predstavlja verovatnoću da se u n nezavisnih ponavljanja eksperimenata dogodi k uspeha, ako je verovatnoća uspeha, a neuspeha Matematičko očekivanje i disperzija slučajne promenljive sa binomnom raspodelom su i Poissonova Simeon Denis Poisson 1781-1840) raspodela definiše verovatnoće broja slučajnih događaja u jedinici vremena ili prostora. Neka je X slučajna promenljiva za koju vaţi zakon raspodele Ova raspodela se naziva Poasonova raspodela i označava sa X: P Očekivanje slučajne promenljive sa Poissonovom raspodelom je. Neka je X slučajna promenljiva za koju vaţi zakon raspodele, Ova raspodela se naziva geometrijska raspodela, gde je verovatnoća uspeha. Očekivanje slučajne promenljive sa geometrijskom raspodelom je, a disperzija Slučajna promenljiva X ima uniformnu raspodelu na intervalu a,b) ako je gustina slučajne promenljive X {. disperziju Slučajna promenljiva sa uniformnom raspodelom ima očekivanje i
Osnovni verovatnosni modeli evolucije DNK lanca 17 Slučajna promenljiva X ima eksponencijalnu raspodelu sa parametrom ako je gustina slučajne promenljive X {. Matematičko očekivanje slučajne promenljive X sa eksponencijalnom raspodelom je, a disperzija Slučajna promenljiva X ima normalnu raspodelu sa parametrima X: ako je njena gustina raspodele oblika u oznaci, Matematičko očekivanje slučajne promenljive X sa normalnom raspodelom je disperzija. a Teorema 1.4 Neka je niz nezavisnih slučajnih promenljivih i neka je,. Tada za ovaj niz vaţi centralna granična teorema { } pri čemu je Definicija 14. Stohastički process je familija slučajnih promenljivih definisanih na istom prostoru verovatnoće gde je skup T parametarski skup. Definicija 15. Za proces za koji vaţi da su priraštaji nezavisne slučajne promenljive za bilo koji izbor kaţe se da je stohastički proces sa nezavisnim priraštajima. Definicija 16. Neka je ukupan broj događaja koji se dese u intervalu [ ] Stohastički proces naziva se proces brojanja događaja ili proces prebrojavanja. Definicija 17. Poissonov process sa stopom rasta ako vaţi: je proces prebrojavanja
Osnovni verovatnosni modeli evolucije DNK lanca 18 1. 2. proces ima nezavisne priraštaje, 3. broj događaja u proizvoljnom intervalu duţine t ima Poissonovu raspodelu sa parametrom, tj.
Osnovni verovatnosni modeli evolucije DNK lanca 19 Glava 2 Osnovni modeli evolucije DNK lanca U ovoj glavi su opisani modeli evolucije DNK lanca. U Poglavlju 2.1 ove glave opisan je Wright Fisherov model, jedan od najpoznatijih modela u populacionoj genetici. U Poglavlju 2.2 se razmatra model beskonačnog alela, u Poglavlju 2.3 model beskonačnih lokacija. U Poglavlju 2.4 je opisan Moranov model preklapajućih generacija u kome se samo jedna jedinka, jedan alel menja tokom vremena. 2.1 Wright-Fisherov model Daleko najpoznatiji model reprodukcije u populacionoj genetici je Wright Fisherov model. Slika 2.1 Wright Fisherov model populacione genetike: koraci izgradnje generacije n+1
Osnovni verovatnosni modeli evolucije DNK lanca 20 Na Slici 2.1 je predstavljen postupak konstrukcije generacije n+1) iz generacije n određene populacije koji se odvija na sledeći način: i) slučajno se bira gen iz generacije n, ii) kopira se odabrani gen, iii) kopija gena se ubacuje u generaciju n+1), iv) vraća se original u roditeljsku populaciju generaciju n). Koraci se ponavljaju sve dok veličina populacije generacije n+1) ne postane jednaka veličini populacije generacije n. Posmatra se genetski lokus sa dva alela A i a koji imaju istu sposobnost da preţive i reprodukuju se u diploidnoj populaciji konstantne veličine n, gde se generacije te populacije ne preklapaju i prolaze kroz proces slučajnog razmnoţavanja. Stanje populacije u početnoj roditeljskoj) generaciji n se moţe predstaviti kao genetski bazen koji sadrţi 2N alela, gde su njih i označeni sa A, dok su 2N-i označeni sa a. generacija n generacija n+1 Slika 2.2 Genetski bazen sa alelima A i a Generacija n+1) se sastoji od 2N alela, i ona nastaje slučajnim nezavisnim odabirom po jednog alela iz početne generacije n, s tim što se nakon svakog odabira izvučeni alel vraća u roditeljsku populaciju. Neka je slučajna promenljiva koja označava broj alela A u generaciji n. Lako je videti da je lanac Markova, tj. s obzirom na sadašnje stanje, prošlost je irelevantna za predviđanje budućnosti. U tom slučaju se moţe opisati slučajna promenljiva koja
Osnovni verovatnosni modeli evolucije DNK lanca 21 predstavlja broj alela A u generaciji n+1 u 2N odabira iz generacije n, koja ima i alela A. Ona ima binomnu raspodelu sa parametrima Tada je verovatnoća da u generaciji n+1 ima alela A, kada u generaciji n ima alela A jednaka ), 2.1) gde je ). Verovatnoća fiksiranja Tokom drugog vremenskog perioda moţe se desiti da broj alela A u generaciji n bude 0, što ukazuje na gubitak alela A, ili što ukazuje na gubitak alela a. Jednom kada populacija izgubi neki alel on se nikada ne javlja ponovo, tako da su 0 i apsorbujuća stanja za. Kada lanac uđe u neko od ovih stanja nikada ga ne moţe napustiti. Neka je vreme fiksacije, odnosno trenutak u kome su svi aleli tipa a ili svi tipa A. Teorema 2.1. U modelu Wright-Fishera verovatnoća fiksacije u svim stanjima A jednaka je, Dokaz. Kako je broj jedinki konačan, uvek je moguće izvući sve alele A ili sve alele a, pa će se fiksacija eventualno dogoditi. Kao što je istaknuto je broj alela A u generaciji n. Budući da je očekivanje broja alela A u generaciji n+1, ako je u generaciji n bilo i alela A a čija je raspodela data sa 2.1), jednako, tada je ) Ako se nađe matematičko očekivanje, na osnovu osobine 7) uslovnog matematičkog očekivanja dobija se da je što znači da je matematičko očekivanje slučajne promenljive konstantno u vremenu, tako da se intuitivno moţe zaključiti da je Zaista, kako je
Osnovni verovatnosni modeli evolucije DNK lanca 22 a za vaţi da je jer je apsorbujuće stanje dostignuto u trenutku ), tada je Kada, a kako je moţe se zaključiti da je tako da je što dokazuje teoremu. Sledeća teorema predstavlja poznati rezultat Kimure. Teorema 2.2. U modelu Wright-Fishera stopa fiksacije neutralne mutacije populacije veličine N je stopa mutacije µ. Mutacije se kod nekih pojedinaca u populaciji javljaju po stopi dešava sa verovatnoćom. fiksacija se Heterozigotnost Da bi se dobila ideja o tome koliko je vremena potrebno da se dogodi fiksacija potrebno je ispitati heterozigotnost različitost alela). Ako u genetskom bazenu ima 2N alela, A i a i ako je slučajna promenljiva koja označava broj alela A, tada je slučajna promenljiva koja označava broj alela a. Slučajna promenljiva označava heterozigonost, odnosno verovatnoću da su dva slučajno odabrana alela bez vraćanja) u trenutku n različita. Broj načina da se odabere jedan alel iz genetskog bazena je 2N, a dva bez vraćanja prvog alela) je 2N2N-1). Dakle, heterozigotnost, odnosno verovatnoća da se iz genetskog bazena sa alela A i alela a izaberu dva različita alela A i a ili a i A), jednaka je. Teorema 2.3. Neka je Wright-Fisher-ovom modelu je prosečna vrednost heterozigotnosti u trenutku n. U
Osnovni verovatnosni modeli evolucije DNK lanca 23 ) 2.2) Dokaz. Neka se razmatra 2N kopija lokusa, pri čemu se svaka od kopija lokusa posmatra kao jedinka. Neka su izabrane dve jedinke numerisane u trenutku n. Svaka jedinka je potomak jedinke u trenutku koja je potomak jedinke u trenutku itd. Dakle, opisuje liniju tj. sve njegove pretke unazad u vremenu. Ako je, tada je za Kada se jedinke nalaze na različitim mestima, tj. kada se ne podudaraju na poziciji i, i {1,2, 2N}, one se kreću nezavisno, ali kada se nađu na istom mestu one se spoje i postaju jedna jedinka. Kako bi dve odabrane jedinke bile različite u trenutku n, njihova kretanja se ne smeju podudarati ni u jednom trenutku. Ako su onda su izbori dva roditelja napravljeni nezavisno, tako da je. Budući da je verovatnoća da dodje do podudaranja dve jedinke na istoj poziciji sledi da je verovatnoća nepodudaranja jedinki na istim pozicijama. Da bi različiti roditelji moraju biti izabrani u svakom trenutku, tako da je ta verovatnoća. Kada se dve linije 1 izbegavaju, su dve jedinke izabrane slučajno iz populacije u trenutku 0, tako da je verovatnoća da su različite Slika 2.3 Parovi geneaologija 1 Evoluciona linija opisuje predačko-potomačke odnose koji nastaju jedan od drugog bez grananja.
Osnovni verovatnosni modeli evolucije DNK lanca 24 2.1.1 Koalescenti Prema teoriji koalescencije, u populacionoj genetici, ako se za bilo koja dva haploidna organizma koja se razlikuju u nekom nukleotidu prati njihovo poreklo unazad doći će se do trenutka u vremenu u kome se nalazi najbliţi zajednički predak tih dveju jedinki, odnosno zajednički alel koji se naziva MRCA) i to je trenutak u kome te dve jedinke koalesciraju. Prema teoriji koalescencije svi aleli i geni) u nekoj populaciji su nasleđeni od samo jednog pretka. Ako se nasledno srodstvo zapiše u formi filogenetskog stabla 2 genealogije gena, za gen ili alel koji je predmet proučavanja se kaţe da koalescira u zajedničkom pretku. Kada je malo tada je. Dakle, kada je N veliko tada 2.2) moţe biti napisano u obliku Ako se izabere k jedinki, verovatnoća da će dve imati istog roditelja iz prethodne generacije je pribliţno aproksimativno jednaka gde prvi činilac predstavlja broj kombinacija gde se od k jedinki izaberu dve, a drugi verovatnoću izbora istog roditelja. Ovde se ignoriše verovatnoća da će dva različita para izabrati iste roditelje u jednom koraku ili da će tri osobe izabrati iste roditelje, događaji verovatnoće reda. Teorema 2.4. Kada se meri u jedinicama 2N generacija, vreme tokom kojeg postoji k linija ima pribliţno eksponencijalnu raspodelu sa očekivanjem 2/kk-1). Dokaz. Verovatnoća postojanja linija za prvih generacija kada je veličina populacije N velika), kao što je objašnjeno, je - - ) ) - - ) ) Za slučajnu promenljivu sa eksponencijalnom raspodelom sa parametrom vaţi, 2 Filogenetsko stablo evoluciono stablo, filogram) je dijagram koji ima oblik stabla sa granama, koji grafički opisuje evolucione odnose između različitih evolucionih linija.
Osnovni verovatnosni modeli evolucije DNK lanca 25 ona ima očekivanje, a kada veličina populacije i vreme se izrazi u uslovima 2N generacija, tj. kada je, onda vreme do prvog spajanja konvergira ka eksponencijalnoj raspodeli sa očekivanjem. Koristeći terminologiju iz teorije lanaca Markova u neprekidnom vremenu, linija koalescira ka po stopi. Primenom u bilo kom trenutku u kome postoji linija, sledi ţeljeni rezultat. Granica genealogija opisanih u Teoremi 2.4 naziva se koalescent. Ako je trenutak kada postoji linija, moţe se nacrtati slika o tome šta se dešava sa linijama dok se radi unazad u vremenu. prvi Slika 2.4 Realizacija koalescenata za uzorak veličine 5 Da bi se pojednostavilo, ne prikazuje se kako su se linije kretale u skupu pre njihovog susreta, već se pokazuje kada se koalescencija dešava. Da bi se stekao utisak o broju koalescentnih trenutaka, napravljeno je linija srazmernih njihovim očekivanim vrednostima, što je u ovom slučaju
Osnovni verovatnosni modeli evolucije DNK lanca 26 U ovom slučaju veličine n, je vreme najskorijeg zajedničkog alela MRCA) u uzorku. Za uzorak, tako da je očekivanje ) ) i konvergira ka 2 ako obim uzorka, ali vreme, gde ima samo dve linije ima očekivanje pa je očekivana vrednost vremena provedenog u čekanju zadnje koalescencije uvek najmanje polovina očekivanog ukupnog vremena koalescencije. Simulacija koalescenata Prilično je jednostavno prevesti gornji opis u simulacioni algoritam, ali je za kasnije namene korisno označiti interne čvorove drveta. Sledeća slika omogućava objašnjenje procedure. Slika 2.5 Notacija za koalescentni simulacijski algoritam Za uzorak veličine n počinje se sa i Za potrebno je Izabrati dva broja i iz. Neka je. Na stablu povezati i Neka ima eksponencijalnu raspodelu sa očekivanjem )
Osnovni verovatnosni modeli evolucije DNK lanca 27 Neka je Primer. Genetsko stablo Nemanjića, gde svi koalesciraju ka istom pretku Zavidi. Slika 2.4 Genealogija Nemanjića 2.2 Model beskonačnog alela U ovom delu razmatra se model beskonačnog alela. Kako ime kaţe, pretpostavlja se da ima toliko alela da je svaka mutacija uvek novi tip koji nikada ranije nije vidjen. Da bi objasnio razlog ove pretpostavke, Kimura 1971) je tvrdio da ako se gen sastoji od
Osnovni verovatnosni modeli evolucije DNK lanca 28 500 nukleotida, broj mogućih DNK lanaca predstavlja varijacije sa ponavljanjem od 500 elemenata četvrte klase Za svaki od njih, postoji 3 500 = 1500 lanaca koji se mogu dobiti sa jednom baznom promenom tako da je šansa da se vrati gde je počeo u dve mutacije pretpostavkom da su jednake verovatnoće svih zamena). Dakle, ukupan broj mogućih alela je u suštini beskonačan. Model beskonačnog alela nastao je u trenutku kada je neko morao da koristi indirektne metode za zaključivanje razlika između pojedinaca. Na primer, Coyne 1976) i Singh, Lewontin i Felton 1976) su proučavali mušice Drosophila) pod različitim uslovima. Coyne 1976) je pronašao 23 alela u 60 porodičnih linija na lokusu ksantin dehidrogenaze kod Drosophila persimilis koji su prikazali obrazac pod imenom alelna particija, pod što znači da je bilo 18 jedinstvenih alela, 3 alela su imala 2 predstavnika, 1 su imala 4 i 1 su imala 32. Singh, Lewontin i Felton 1976) su pronašli 27 alela u 146 gena na lokusu ksantin dehidrogenaze D. pseudoobscure sa sledećim obrascem: Model beskonačnog alela je takođe relevantan za podatke o DNK lancu kada nema rekombinacije. Underhill i ostali 1997) su proučavali 718 Y hromozoma. Oni su pronašli 22 nukleotida koji su polimorfni tj. nisu isti za sve jedinke). Niz nukleotida na ovim promenljivim pozicijama daje haplotip pojedinca. U uzorku je bilo 20 različitih haplotipova. Nizovi se mogu organizovati na drvetu na kome se mutacija ne pojavljuje više od jednom, pa je razumno pretpostaviti da haplotipovi prate beskonačni model alela. Alelna particija ima Posle posmatranja podataka, prvo očigledno pitanje je šta se moţe očekivati. Odgovor na ovo pitanje daje Ewensova formula uzorkovanja koja će biti izvedena u nastavku.
Osnovni verovatnosni modeli evolucije DNK lanca 29 2.2.1 Hoppeova urna, Ewensova formula uzorkovanja Genealoški proces koji je povezan sa beskonačnim alelima verzije Wright- Fisherovog modela je koalescent sa ubijanjem. Kada postoji k linija, koalescencija i mutacija se, kao što je i opisano, javljaju u svakom koraku sa verovatnoćom ali sada se ubija jedna od linija sa verovatnoćom gde je stopa mutacije po generaciji, jer ako se naiđe na mutaciju zna se genetsko stanje tog pojedinca i svih njegovih potomaka u uzorku. Ubrzavajući sistem tako što će se raditi po stopi 2N, stope postaju gde je i predstavlja Poissonov broj mutacija grane i. U nastavku je objašnjen Hoppeov model urne 1984). Ova urna sadrţi crnu kuglicu sa masom i kuglice različitih boja sa masom 1. Svaki put, kuglica se bira nasumično sa verovatnoćom proporcionalnom njenoj masi. Ako je izvučena obojena kuglica, ta kuglica i još jedna iste boje se vraćaju u urnu. Ako je izvučena crna kuglica, ona se vraća u urnu sa kuglicom nove boje koja ima masu 1. Izbor crne kuglice odgovara novoj mutaciji, a izbor obojene kuglice odgovara koalesenciji. Na Slici 2.5 crna tačka ukazuje na to da je u to vreme dodata nova boja. Slika 2.5 Realizacija Hoppe-ove urne
Osnovni verovatnosni modeli evolucije DNK lanca 30 Kada se ide unazad od vremena do vremena u Hoppeovoj urni, dakle ima linija, odnosno obojenih kuglica i jedna crna kuglica, pa se mutacija moţe desiti sa verovatnoćom, a koalesencija sa verovatnoćom. U koalescentu postoji linija koje su izloţene mutacijama po stopi kolizije se javljaju po stopi. S obzirom na simetriju, svi događaji koalescencije imaju jednaku verovatnoću, te sledi sledeća teorema. Teorema 2.5. Geneološki odnos između linija u koalescentu sa ubijanjem moţe se simulirati pokretanjem Hopeove urne sa vremenskih koraka. Neka je obima n. slučajna promenljiva koja broji različite alele koji se nalaze u uzorku Teorema 2.6. Waterson 1975) Za fiksirano i uzorak obima n vaţi gde znači da kada. Pored toga vaţi centralna granična teorema, odnosno ako slučajna promenljiva ima standardnu normalnu raspodelu, tada je: ) Dokaz. Neka je niz slučajnih promenljivih definisan na sledeći način: ako je i-ta kuglica dodata u Hoppeovu urnu nova boja ili 0 inače. Tada je pri čemu su nezavisne slučajne promenljive sa raspodelom Da bi se izračunalo asimptotsko ponašanje jasno je da je Posmatrajući desnu stranu poslednjeg izraza kao Rimanovu sumu koja pribliţno odgovara integralu što je ilustrovano sledećim grafikom,
Osnovni verovatnosni modeli evolucije DNK lanca 31 sledi, 2.5) što pokazuje prvi deo teoreme. Disperzija slučajne promenljive je jednaka Kada, tako da se primenom 2.5) dobija Kako je niz nezavisnih slučajnih promenljivih sa različitim raspodelama, na osnovu Teoreme 1.4 vaţi centralna granična teorema. Slika 2.6 Model sa beskonačno alela i jedinstvenim mutacijama
Osnovni verovatnosni modeli evolucije DNK lanca 32 Na Slici 2.6 je predstavljen model sa 15 alela obim uzorka 15), pri čemu postoji pet različitih tipova alela predstavljenih različitim bojama. Teorema 2.7. Ewensova formula uzorkovanja). Neka je broj tipova alela prisutnih i puta u uzorku obima n. Kada je stopa mutacije tada je verovatnoća da u uzorku koji ima k tipova alela, tip bude prisutan jednom u uzorku, dva puta,..., n puta jednaka ) pri čemu je U cilju razumevanja Ewensove formule razmatraće se Slika 2.6. na kojoj je prisutno pet različitih tipova alela, dakle k, pri čemu su prisutna 4 crvena alela, 1 crni, 4 pink, 3 zelena i 3 plava. Prema tome, kako je broj tipova alela koji su prisutni jednom, zaključujemo da je, jer je samo crni alel prisutan jednom, nema tipova alela koji su prisutni dvaput, tako da je Zeleni i plavi su prisutni tri puta, tako da je koliko iznosi i jer su četiri puta prisutni crveni i pink aleli. Dokaz. Neka je vektor stanja u trenutku n prisutno n linija), a vektor dimenizije n gde su na svim pozicijama nule, osim na i-toj na kojoj je jedinica. U zavisnosti od toga da li je poslednji događaj mutacija M) ili koalescencija C) za izračunavanje verovatnoće se moţe primeniti formula potpune verovatnoće Teorema 1.1) Ako je poslednji događaj bio mutacija, mutirajuća linija ima jedinstveni alelni tip a ostalih linija sadrţi tip alela, tako da je Ako je tada je ova verovatnoća jednaka nuli. Ako je poslednji događaj bio koalescencija, verovatnoća se određuje u odnosu na sve mogućnosti u trenutku, pa je neposredno pre koalescencije
Osnovni verovatnosni modeli evolucije DNK lanca 33 gde je vektor stanja u trenutku kada je prisutno linija). Koalescencija se moţe dogoditi između bilo koje dve linije koje sadrţe alele koji su već u. Neka označava broj alela određenog tipa u vektoru u linijama koje koalesciraju. Ako je dato tada je smanjuje se broj tipova alela koji su prisutni puta, a povećava se broj tipova alela koji su prisutni puta). Prema tome ) ) Verovatnoća da se za fiksirani tip alela od tipova sa alela koalescencija desi sa jednim od ostalih alela u odnosu na prisutnih linija je ) tako da se zamenom dobija ) ) Uz granične uslove ako je neko rešavanjem ove rekurzivne jednačine dokazuje se Ewensova formula. Mali obim uzorka Da bi se pojednostavilo značenje Ewensove formule uzorkovanja razmatra se mali obim uzorka, odnosno mali broj linija n. Kada je tada je verovatnoća da u uzorku bude tipova alela sa jednim i sa dva alela jednaka ) tako da u ovom slučaju postoje dve moguće particije i Ako je to znači da je prisutan jedan tip sa dva alela i verovatnoća tog događaja je ),
Osnovni verovatnosni modeli evolucije DNK lanca 34 dok u slučaju kada je prisutna su dva tipa sa po jednim alelom i verovatnoća tog događaja je ) Moţe se zaključiti da je verovatnoća da su dve slučajno izabrane jedinke identične poznata i kao homozigotnost) jednaka, što se moţe zaključiti i direktno na sledeći način: dve linije se spajaju sa verovatnoćom po generaciji i do mutacije dolazi sa verovatnoćom, tako da je verovatnoća da do koalescencije dođe pre mutacije. 2.6) Kada je tada je na osnovu Ewensove formule ) ). U ovom slučaju su prisutne tri linije, tako da postoje tri moguće particije: kada postoji jedan tip sa tri alela, dva tipa od kojih jedan sa jednim i drugi sa dva alela i tri tipa sa po jednim alelom. Sledeća tabela sadrţi moguće particije, vrednosti proizvoda i verovatnoća realizacije navedenih particija Proizvod Verovatnoća Kada je je tada je
Osnovni verovatnosni modeli evolucije DNK lanca 35 ) ). Postoji pet mogućih particija i to: jedan tip sa četiri alela, dva tipa od kojih jedan sa jednim i drugi sa tri alela, dva tipa sa po dva alela, tri tipa od kojih dva sa jednim i drugi sa dva alela, četiri tipa sa po jednim alelom. Sledeća tabela sadrţi moguće particije, vrednosti proizvoda i verovatnoća realizacije navedenih particija Proizvod Verovatnoća ) ) ) 2.2.2 Proces grananja Joice i Tavare 1987) su Hoppeovu urnu povezali sa procesom imigracije. U ovom procesu, imigranti ulaze u populaciju u određeno vreme i svaka od jedinki u populaciji nikada ne umire, a nove jedinke se rađaju sa stopom 1 proces Yulea). Vreme ulaska imigranata je Poissonov proces sa stopom. Ako se posmatra samo u trenucima kada se broj jedinki povećava dobija se diskretan vremenski proces u kome kada ima jedinki novi tip imigrira sa verovatnoćom, a već postojeći tip imigrira sa verovatnoćom na osnovu opisa Hoppeove urne). Tada vaţe sledeća tvrđenja: Teorema 2.8. Ako je svaki imigrant novog tipa, a potomci su istog tipa kao roditelji, tada niz stanja kroz koja prolazi proces grananja sa imigracijom ima istu raspodelu kao onaj koji je generisan Hoppeovom urnom.
Osnovni verovatnosni modeli evolucije DNK lanca 36 Teorema 2.9. Počevši od jedne jedinke, broj jedinki u procesu Yulea u trenutku geometrijsku raspodelu sa verovatnoćom uspeha. ima Teorema 2.10. Razmatra se koalescent koji počinje sa linija i završava kada ima linija. Neka predstavlja broj linija u elemenata particije kada su one označene slučajno. Koordinate vektora ) imaju istu raspodelu i uzimaju pozitivne cele brojeve koji se dodaju do tako da je verovatnoća da one sadrţe od polaznih linija jednaka ) ). 2.7) za i Dokaz. Neka je, nezavisna kopija procesa Yulea. Ako su pozitivni celi brojevi koji se dodaju do broja, na osnovu Teoreme 2.9 broj jedinki u procesu Yulea ima geometrijsku raspodelu, tako da je ) gde je. Kako desna strana zavisi samo od i, onda svi mogući vektori imaju istu verovatnoću. Da bi se prebrojali mogući vektori pozitivnih brojeva koji se dodaju do moţe se uzeti u obzir model konstruisan pomoću kuglica koje su razdvojene na grupa sa kartonom. Na primer, ako je, a, tada je tako da je =1,. Dakle, komada kartona moţe biti stavljen u bilo koji od prostora, tako da ima ) mogućih vektora pozitivnih brojeva koji se dodaju do. U tom slučaju sledi da je ) ), čime je određena uslovna raspodela vektora ). Pošto je broj vektora pozitivnih celih brojeva koji se sabiraju do jednak ) sledi da je ) ) ) što dokazuje tvrđenje.
Osnovni verovatnosni modeli evolucije DNK lanca 37 2.3 Model beskonačnih lokacija Model beskonačnog alela nastao je u doba kada su informacije o genetičkom stanju pojedinca dobijane posrednim sredstvima. Sa dostupnošću podataka o strukturi DNK lanca postalo je prirodnije istraţiti model beskonačnih lokacija Kimure 1969) u kojem se uvek pojavljuju mutacije na različitim lokacijama za razliku od modela beskonačnih alela). U ovom poglavlju se proučavaju različiti aspekti ovih modela. Da bi se motivisao razvoj i ilustrovao koncept razmatraće se podaci Warda i ostalih iz 1991. godine koji su sekvencirali 3 360 nukleotida u D-petlji mitohondrija kod 63 ljudi: Ignorišu se pozicije na kojima su svi lanci isti. Lanac na vrhu je ljudski referentni lanac Anderson i ostali, 1981). Brojevi na vrhu označavaju pozicije na kojima se nalaze mutacije koje se pojavljuju u sekvenciranom fragmentu. Da bi se olakšalo otkrivanje 3 Sekvenciranje je metoda ili tehnika koja se koristi za određivanje poretka četiri baze u nukleotidu adenina, citozina, guanina i timina)
Osnovni verovatnosni modeli evolucije DNK lanca 38 mutacija, ostali lanci imaju tačke gde se slaţu sa referentnim lancem. Brojevi na desnoj strani pokazuju koliko puta je svaki obrazac ili haplotip uočen u grupi od 63 posmatranih ljudi. Dobijeni podaci mogu biti predstavljeni saglasno modelu beskonačnih alela kao particija: dakle, trinaestoro ljudi ima jedinstvenu mutaciju u odnosu na referentnu), sedam različitih lanaca haplotipova) imaju po dve osobe, pet lanaca imaju po tri osobe, itd. 2.3.1 Izdvajanje lokacija Izdvajanje lokacija počinje razmatranjem broja izdvojenih lokacija u uzorku obima, tj. brojem pozicija u kojima se neki par lanaca razlikuje. U pomenutom primeru je a. Teorema 2.11. Neka je stopa mutacije za lokus koji se razmatra i neka je. U modelu beskonačnih lokacija očekivani broj izdvojenih lokacija je gde je Dokaz. Neka je trenutak u kome postoji linija u koalescentu. Teorema 2.4 pokazuje da ako je veliko i vreme se meri u jedinicama generacija, tada ima pribliţno eksponencijalnu raspodelu sa očekivanjem. Ukupno vreme na drvetu videti Sliku 2.4) za uzorak obima je a očekivano ukupno vreme je Kako se mutacije pojavljuju po stopi sledi da je 2.7) čime je teorema dokazana.
Osnovni verovatnosni modeli evolucije DNK lanca 39 Teorema 2.12. U modelu beskonačnih lokacija, broj izdvojenih lokacija disperziju jednaku ima Dokaz. Neka je gde je. broj izdvojenih lokacija nastalih kada je bilo linija. Kada postoji linija ne zna se da li će se prvo javiti mutacija ili koalescencija, pri čemu se mutacije javljaju po stopi a koalescencije po stopi. Mutacije se javljaju pre koalescencija sa verovatnoćom tako da je ) ) za Dakle, odakle je ima pomerenu geometrijsku raspodelu sa verovatnoćom uspeha ). Sumiranjem za do i smenom dobija se rezultat. Poslednji dokaz je jednostavan, ali se moţe dobiti dodatni uvid i opštost podsećanjem na simulacijski algoritam. Prvo se generiše stablo, a onda se dodaju mutacije na svaku granu u skladu sa Poissonovim procesom po stopi. Odatle sledi da je, tako da ima Poissonovu raspodelu sa očekivanjem koliko iznosi i disperzija. Odakle sledi da je
Osnovni verovatnosni modeli evolucije DNK lanca 40 ) Poslednji rezultat vaţi za bilo koju genealogiju. Ako se iskoristi činjenica da je u Wright-Fisherovom modelu gde ima eksponencijalnu raspodelu sa očekivanjem i disperzijom pri čemu je značenje sabiraka u prethodnom izrazu za sledi formula za iz Teoreme 2.16, sledeće: se zove mutaciona varijansa, koja je određena time koliko se mutacija dogodi na drvetu, se zove evoluciona varijansa i ona je posledica fluktuacija u genealogiji. Na osnovu Teoreme 2.15 i Teoreme 2.16 sledi tvrđenje. Teorema 2.13. Očekivanje i disperzija Wattersonove ocene su jednaki i. Primer 1.Vard i ostali 1991) su primetili da postoji nukleotida i 26 izdvojenih lokacija. Sumiranjem se dobija da je pa Watterson-ova ocena bazirana na broju izdvojenih lokacija je Deljenjem sa brojem nukleotida, koji je 360, dobija se Watterson-ova ocena po nukleotidu. Napomena. U izvođenju 2.5) primenjeno je da je Razlika između njih se povećava sa povećanjem i konvergira ka Eulerovoj konstanti, pa ako se ne primenjuje sumiranje reda onda se moţe koristiti umesto tačne vrednosti 4.7124). Na osnovu Teoreme 2.15 i Teoreme 2.16 očekivanje i standardna devijacija slučajne promenljive kada je a redom imaju vrednosti:
Osnovni verovatnosni modeli evolucije DNK lanca 41 Slika 2.6 Raspodela slučajne promenljive, za Slika 2.6 prikazuje raspodelu slučajne promenljive i na osnovu nje se moţe primetiti da sa povećanjem obima uzorka ona teţi normalnoj raspodeli, tako da vaţi sledeći rezultat. Teorema 2.14. U modelu beskonačnih lokacija za Wattersonovu ocenu vaţi ) gde ima standardnu normalnu raspodelu. Tačna raspodela za da je U zavisnosti od toga da li je prvi događaj mutacija ili koalescencija zaključuje se gde je verovatnoća da se desila mutacija, a verovatnoća da se desila koalescencija. Tavare 1984) je koristio navedeni pristup da bi dobio eksplicitne izraze za raspodelu slučajne promenljive ) ). Rezultat je vrlo jednostavan za. U tom slučaju je
Osnovni verovatnosni modeli evolucije DNK lanca 42 Kako je dobija se 2.3.2 Izdvajanje lokacija nasuprot haplotipovima Ako se uporedi broj izdvojenih lokacija sa brojem alela halotipova) primećuje se da je, budući da je potrebna nova mutacija da bi se povećao broj haplotipova. Na osnovu 2.4) je, dok je na osnovu 2.7) Primenom 4. osobine matematičkog očekivanja iz Teoreme 1.3, dobija se Ako je tada je ) tako da u proseku postoji jedna izdvojena lokacija više nego što ima haplotipova. Izračunavanje se uopštava da bi se pokazalo da ako je ceo broj, onda je ) tako da ako je veliko, postoji mnogo više izdvojenih lokacija nego haplotipova. Primer 3. Po Wardu 1991), postoji izdvojenih lokacija, ali haplotipova. Razlog za to je što podaci ne zadovoljavaju pretpostavke modela beskonačnih lokacija. Da bi se to objasnilo razmatra se sledeći primer genealogija. Skup jedinki na koje su delovale mutacije A, B i C su SA = {1, 2}, SB = {5, 6} i SC = {5, 6, 7}. Treba imati na umu da je SB SC dok su SC i SA dijskunktni. Dakle,
Osnovni verovatnosni modeli evolucije DNK lanca 43 svake dve mutacije na ovom stablu moraju da prate ovaj obrazac, tj. skupovi pogođenih jedinki moraju biti ugneţdeni jedna je podskup druge) ili disjunktni. Ako se uvedu mala slova a, b, c da bi se ukazalo na odsustvo odgovarajućih mutacija koje su označene velikim slovima, tada ako svi lokusi dele istu rodoslovnu sliku, nemoguće je posmatrati sve četiri kombinacije AB, Ab, ab i ab u jednom skupu podataka. Vraćajući se na izvorni skup podataka Warda i ostalih 1991), sve četiri kombinacije se javljaju u kolonama 69 i 88, 190 i 200, 255 i 267, 296 i 301 i 302 i 304, tako da je najmanje pet lokacija pogođeno mutacijom dva puta. Slika 2.7 Nemoguće je posmatrati sve četiri kombinacije alela na dve lokacije bez ponavljanja mutacije Slika 2.8 Primer većeg broja mutacija u genealogiji
Osnovni verovatnosni modeli evolucije DNK lanca 44 Problem rođendana Moţe izgledati iznenađujuće da ako ima 26 mutacija u 360 nukleotidnih regiona da će na nekoj lokaciji biti više od jedne mutacije. Međutim, ovo je samo klasični rođendanski problem teorije verovatnoće. Verovatnoća da nijedna lokacija mutacijom nije pogođena više od jednom je ) ) ) Kako je a tada je verovatnoća da nijedna od lokacija nema više od jedne mutacije jednaka ) Dakle, ako postoje mutacije u regionu L nukleotida, verovatnoća je ) i ona je najveća kada je. Sa druge strane, u ovom primeru je veoma neobično da se mutacije na pet lokacija dogode dva puta. Ako se pretpostavi da postoji 31 mutacija u 360 nukleotidnih regiona, onda je očekivani broj lokacija gde su se mutacije dogodile više od jednom jednak Kako ima veliki broj događaja sa malom verovatnoćom uspeha i kako su ovi događaji gotovo nezavisni, broj dvostrukih pogodaka ima grubu Poissonovu raspodelu sa očekivanjem 1.2916. U tom slučaju, verovatnoća da se dogodi tačno pet dvostrukih mutacija je
Osnovni verovatnosni modeli evolucije DNK lanca 45 dok je što znači da samo u 1% slučajeva pet ili više lokacija imaju duple mutacije. 2.3.3 Nukleotidna raznolikost Verovatnoća da se dva nukleotida razlikuju kod dve slučajno izabrane jedinke se naziva nukleotidna raznolikost i označava se sa Teorema 2.15. Neka je stopa mutacije po nukleotidu po generaciji i U modelu beskonačnih lokacija jer je u većini slučajeva malo. Dokaz. U svakoj generaciji dve linije se spajaju sa verovatnoćom verovatnoćom, pa je verovatnoća mutacije pre koalescencije i mutiraju sa Li i Sadler 1991) su ocenili verovatnoću za ljude ispitivanjem 49 gena. Kod četvorostruke degenerisane lokacije tj. gde se bez zamene menja aminokiselina) izračunali su da je = 0.11% tj. = 0.0011). Na dvostruko degenerisanim lokacijama tj. gde je samo jedna od tri moguće promene sinonimna) i kod nedegenerisanih lokacija vrednosti su bile 0.06% i 0.03%. Novije studije su potvrdile ove rezultate. Harding i ostali 1997) su sekvencionisali 3 kb rastezanja uključujući -globinski gen u 349 hromozoma iz devet populacija u Africi, Aziji i Evropi, otkrivajući verovatnoću nukleotidne raznolikosti = 0.18%. Clark i ostali 1998) i Nickerson i ostali 1998) sekvencionisali su deo od 9.7 kb blizu lipoproteinske lipaze u 142 hromozoma i otkrili nukleotidnu raznolikost od 0.2%. Nasuprot tome, podaci koji je sakupio Aquadro 1991) za različite vrste Drosophila daju sledeće ocene za :
Osnovni verovatnosni modeli evolucije DNK lanca 46 Kako je razlike u vrednosti mogu nastati zbog razlika u vrednostima N ili. Vrednost N nije fizička veličina populacije, tj. 6 milijardi za ljude ili astronomski broj za Drosophila, već je efikasna veličina populacije. Da bi se objasnila potreba za ovim konceptom, zapaţa se da je u nedavnoj prošlosti ljudska populacija eksponencijalno rasla a populacija Drosophila podleţe velikim sezonskim fluktuacijama, tako da to ne odgovara pretpostavci o konstantnoj veličini populacije. 2.3.4 Uparene razlike Neka su data dva DNK lanca duţine i neka je broj uparenih razlika, tj. razlika u parovima. Na primer, dva lanca imaju tri uparene razlike na pozicijama 2, 7 i 13. Za datih n DNK lanaca neka bude broj uparenih razlika između -tog i -tog lanca, i definiše se prosečan broj parnih razlika sa ) gde je suma po svim parovima za Teorema 2.16. Neka je stopa mutacije za lokus i neka je U modelu beskonačnih lokacija je 2.8) Dokaz. Da bi se izračunala raspodela za, treba primetiti da 2.6) podrazumeva da je verovatnoća da do koalescencije dodje pre mutacije. Ako, međutim mutacija dolazi pre koalescencije, postoje jednake šanse da dodje do druge mutacije pre koalescencije, tako da ako je, tada je
Osnovni verovatnosni modeli evolucije DNK lanca 47 ) Dakle, slučajna promenljiva čije je očekivanje jednako ima geometrijsku raspodelu sa verovatnoćom uspeha. Kako postoji ) parova lanaca, i dobija se traţeni rezultat. Napomena. Teorema 2.16 pokazuje da je nepristrasna ocena za. U situacijama gde se naglašava da je ocena za ona se označava sa tj. ocena za je bazirana na nukleotidnoj raznolikosti Tajima 1983) je pokazao da je Kada je, tada je, što sledi iz 2.8), odnosno iz činjenice da ima pomerenu geometrijsku raspodelu. Kao i u slučaju Watersonove ocene član sa dok je član sa je mutacijska disperzija koja nastaje usled javljanja mutacija na drvetu, evoluciona disperzija koja nastaje zbog promena u obliku drveta. 2.3.5 Frekventni spektar preklapanja Za motivaciju, razmatra se sledeći primer. Primer. Aquadro i Greenberg 1983) su proučavali podatke o 900 nukleotida u 7 mtdnk lanaca. Ignorišu se pozicije na kojima su svi lanci isti i tri pozicije u kojima je bilo ubacivanja ili brisanja. Kao i ranije, kako bi se olakšalo otkrivanje mutacija, poslednjih šest lanaca imaju tačke gde se slaţu sa prvim.
Osnovni verovatnosni modeli evolucije DNK lanca 48 U ovom skupu podataka ne postoji način da se kaţe šta je predak nukleotida, tako da sve što se moţe reći jeste da se jedan nukleotid javlja puta, dok se drugi javlja puta, što motiviše definiciju frekvencijskog spektra preklopnih lokacija. Neka je broj lokacija gde se nukleotid koji se ređe javlja pojavljuje puta. Teorema 2.17. Razmatra se izdvojena lokacija gde se dva različita nukleotida pojavljuju u uzorku. Verovatnoća da ređi nukleotid ima kopija je ) ako je ako je. Dokaz. Da bi se dokazala teorema koristi se Ewensonova formula uzorkovanja za izračunavanje uslovne raspodele broja jedinki sa dva navedena nukleotida gde postoji jedna mutacija. Najpre se uzima u obzir situacija u kojoj jedan nukleotid ima a drugi predstavnika. Neka je alelna particija kod koje je i. Neka je sa označena verovatnoća da u uzorku koji ima dva tipa nukleotida prvi tip bude prisutan puta u uzorku a drugi puta. Na osnovu Teoreme 2.7 je. U specijalnom slučaju kada je, alelna particija je, tako da je Ako nukleotida prvog tipa ima manje od nukleotida drugog tipa, uslovna verovatnoća je jednaka