SVEUČILIŠTE U ZAGREBU PRIRODOSLOVNO-MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK Petra Stopić RAČUNANJE I ANALIZA MATRIČNE FUNKCIJE PREDZNAKA Diplomski rad Zagreb, 06.
SVEUČILIŠTE U ZAGREBU PRIRODOSLOVNO-MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK Petra Stopić RAČUNANJE I ANALIZA MATRIČNE FUNKCIJE PREDZNAKA Diplomski rad Voditelj rada: Doc.dr.sc. Nela Bosner Zagreb, 06.
Ovaj diplomski rad obranjen je dana povjerenstvom u sastavu: pred ispitnim., predsjednik., član 3., član Povjerenstvo je rad ocijenilo ocjenom. Potpisi članova povjerenstva:.. 3.
Sadržaj Uvod 3 Potrebne definicije i korolari 5 TEORIJA MATRIČNIH FUNKCIJA. Definicije matrične funkcije...................... Jordanova forma....................... Interpolacija polinomom................. 3. Fréchetova derivacija....................... 8.3 Uvjetovanost matrične funkcije................. 9.4 Schurova dekompozicija.......................5 Matrične iteracije......................... 4.5. Red kovergencije..................... 5.5. Kriterij zaustavljanja................... 5.5.3 Numerička stabilnost................... 7 3 MATRIČNA FUNKCIJA PREDZNAKA 3 3. Uvod u funkciju predznaka.................... 3 3. Schurova metoda......................... 33 3.3 Newtonova metoda........................ 35 3.4 Skalirane Newtnove iteracije................... 40
3.5 Padéove iteracije......................... 45 3.6 Numerička stabilnost i konačnost iteracija........... 47 3.6. Numerička stabilnost................... 47 3.6. Konačnost iteracija.................... 49 3.7 Osjetljivost i uvjetovanost.................... 5 Literatura 56 Sažetak 57 Summary 59
Uvod Ovaj rad uključuje teoriju matrica, numeričku analizu, teoriju aproksimacija i razvoj algoritama. Pojam matrična funkcija koji je korišten u narednom tekstu odnosi se na funkciju f koja uzima kvadratnu matricu A C n n te f(a) predstavlja matricu jednakih dimenzija kao što je i matrica A. Razne matrične funkcije uz pomoć matrične teorije, numeričke matematike te raznih algoritama koji doprinose računanju funkcije neke matrice, korisne su, ne samo za teoriju matrica, nego i u drugim primjenama. Tema ovog rada je usko vezana samo uz jednu matričnu funkciju, a to je funkcija predznaka ili sign funkcija. Definirati matričnu sign funkciju može se na više načina. Jedan od najčešćih načina je onaj koji koriste razni programerski jezici - elementarni pristup, tj. primjenjuje se funkcija na svaki element matrice. Nadalje, postoje varijante kada matrična funkcija daje skalar kao rezultat, npr. trag matrice, uvjetovanost, determinanta ili pristup funkciji predznaka matrice kojoj je kodomena opet matrica ali nije izvedena pomoću neke skalarne funkcije. U daljnjem tekstu definiran je drugačiji način od svih navedenih koji se bazira na svojstvenim vrijednostima. U teoriji kontrole funkcija predznaka primjenjuje se za rješavanje Lyapunove jednadžbe te Riccatijeve algebarske jednadžbe. Za oba rješenja je potrebno grupirati vrijednosti po tome nalaze li se lijevo ili desno od imaginarne osi u kompleksnoj ravnini što ćemo vidjeti u narednom tekstu da je usko vezano uz sign funkciju. Takod er se pomoću matrične sign funkcije može izbrojati koliko ima svojstvenih vrijednosti matrice u lijevom području kompleksne ravnine u odnosu na imaginarnu os, odnosno u desnom: p = (n tr(sign(a))), q = (n + tr(sign(a))) gdje je p broj svojstvenih vrijednosti u lijevoj, q u desnoj poluravnini, n je dimenzija matrice A. U teorijskoj fizici čestica kod Diracovog operatora je potrebno računanje sustava jednadžbi koje sadrže sign funkciju: (G sign(h))x = b 3
gdje je G = diag(±), a H kompleksna hermitska matrica. U prvom poglavlju nalaze se sve definicije i korolari potrebni za daljnje razumjevanje rada. Drugo poglavlje sadrži općenitu teoriju matričnih funkcija koja će se kasnije primjenjivati na funkciju predznaka. Navode se dvije potrebne definicije matričnih funkcija, svojstva, uvjetovanost funkcija te neke metode. Nadalje, rad se ograničava na sign funkciju u trećem poglavlju u kojem detaljno objašnjava metode računanja funkcije predznaka. Za više numeričkih algoritama dala bi se analiza točnosti, stabilnosti i složenosti. Takod er se daje uvid u osjetljivost ovog problema baziran na Fréchetovoj derivaciji. 4
Potrebne definicije i korolari Definicija. Matrica A C n n je regularna ako postoji matrica B C n n za koju vrijedi: AB = BA = I, gdje je I jedinična matrica. Ako postoji takva matrica, ona je jedinstvena i zove se inverzna matrica matrice A. Matrica je singularna ako nije regularna. Definicija. Svojstvena vrijednost matrice A C n n je λ C ako postoji vektor x C n, x 0 t.d. vrijedi: Ax = x. Skup svih svojstvenih vrijednosti od A naziva se spektar matrice A (oznaka: σ(a)). Spektralni radijus matrice A C n n je ρ(a) := max λ σ(a) λ. Definicija.3 Karakteristični polinom matrice A C n n je k A (λ) = det(a λi). Dakle, nultočke karakterističnog polinoma su svojstvene vrijednosti matrice A. Kratnost λ u tom polinomu je algebarska kratnost svojstvene vrijednosti λ. Geometrijska kratnost je dimenzija potprostora Ker(A λi), gdje je Ker oznaka za jezgru. Definicija.4 Minimalni polinom matrice A C n n je jedinstveni normirani polinom p najmanjeg stupnja za koji vrijedi p(a) = 0. 5
Definicija.5 Pretpostavimo da su λ, λ,..., λ d različite svojstvene vrijednosti matrice A, a n k dimenzija najvećeg Jordanovog bloka u kojem se nalazi λ k. Tada se n k naziva indeksom svojstvene vrijednosti λ k. Funkcija f je definirana na spektru matrice A ako postoje vrijednosti f (p) (λ k ), za sve p = 0,..., n k te za sve k =,..., d. Definicija.6 Hermitski adjungirana matrica A C n n matrici A je matrica čiji su elementi a ij = ā ji, i, j =,..., n (.) Normalna matrica A C n n je kompleksna matrica za koju vrijedi: AA = A A (.) Unitarna matrica A C n n je kompleksna matrica za koju vrijedi: AA = A A = I (.3) Definicija.7 Matrica B C n n je slična matrica matrici A C n n ako vrijedi za neku regularnu matricu Z: B = Z AZ. Definicija.8 Matrična norma na C m n je funkcija : C m n R koja zadovoljava slijedeće uvjete:. A 0.. A = 0 A = 0. 3. αa = α A za sve α R, A C m n. 4. A + B A + B za sve A, B C m n. Definicija.9 Matrična norma na C n n je konzistentna ako za sve A i B kvadratne kompleksne matrice vrijedi: AB A B Za svaku konzistentnu matričnu normu postoji vektorska norma ν koja je konzistentna sa tom matričnom normom : ν(ax) A ν(x) 6
Definicija.0 Neka je dana neka vektorska norma ν na C n. Odgovarajuća operatorska norma je definirana kao: A := max x 0 ν(ax) ν(x) Definicija. F robeniusova matrična norma je F : C n n R, n n A F := a ij = tr(a A) (.4) i= j= Spektralna matrična norma je : C n n R, Matrična norma je : C n n R, A := ρ(a A) (.5) A := max i=,...,n n a ij (.6) Definicija. Neka je A C nxn. Korijeni svojstvenih vrijednosti matrice A A C nxn zovu se singularne vrijednosti σ,..., σ n od A. Lijevi u i i desni singularni vektor v i za i =,..., n zadovoljavaju: j= Av i = σ i u i A u i = σ i v i Definicija.3 Ako je B := o( A ), onda B lim A 0 A = 0 Definicija.4 Ako je B := O( A ), onda vrijedi: za neku konstantu c kada A 0. B c A, Definicija.5 Funkcija f je idempotentna ako vrijedi (f f)(x) = f(x). 7
Definicija.6 Ako je z = x + iy kompleksni broj, onda je njegov zapis u polarnim koordinatama z := re iα = r(cos α + i sin α), gdje je: tan α = y x r = x + y Definicija.7 Ako je z = r(cos α + i sin α) polarni oblik kompleksnog broja, tada vrijedi: cos α =(cos α) (sin α) sin α = sin α cos α z n = r n ( cos nα + i sin nα) ( z /n = r /n cos α + kπ + i sin α + kπ ), k = 0,,..., n n n Definicija.8 Cayleyova metrika definira udaljenost nekog kompleksnog broja x od sign(x) kao udaljenost x sign(x) od ishodišta, tj.: x + sign(x) x x +, Rex > 0 (Rex ) + (Imx) (Rex + ) + (Imx), Rex > 0 C(x, sign(x)) := = x + x, Rex < 0 (Rex + ) + (Imx) (Rex ) + (Imx), Rex < 0 Definicija.9 Taylorov red oko 0 za funkciju f(x) = ( x) α, α C je: ( x) α = n=0 ( ) α ( ) n x n, x < n gdje je: ( ) α :=, 0 ( ) α = n α(α )... (α n + ) n! 8
Korolar.0 A C n n je regularna matrica ako i samo ako 0 nije svojstvena vrijednost od A. Dokaz: A singularna jezgra od A nije trivijalna postoji x 0 t.d. Ax = 0 Ax = 0x, x 0 0 je svojstvena vrijednost Korolar. Ako su A i B C n n slične matrice, onda one imaju jednake svojstvene vrijednosti Dokaz: det(a λi) = det(z BZ λi) = = det(z (B λi)z) = = (Binet Cauchyev teorem) = = det(z ) det(b λi) det(z) = = det(z ) det(z) det(b λi) = = det(b λi) Korolar. Ako je A C n n sa svojstvenim vrijednostima λ,..., λ n, onda vrijedi: n det(a) = Dokaz: Iz Definicije.3 znamo da su nultočke karakterističnog polinoma matrice A svojstvene vrijednosti od A, tj. k A (λ) = n i= (λ λ i). i= k A (λ) = det(λi A) λ a a... a n n a λ a... a n (λ λ i ) =........ a n a n... λ a nn i= 9 λ i
Kao slobodni član s lijeve strane je n i= λ i, a s desne det(a) što je jednako zbog jednakosti dva polinoma. Korolar.3 Za proizvoljnu konzistentnu matričnu normu i spektralni radijus vrijedi nejednakost: ρ(a) A. Dokaz: Ako je λ svojstvena vrijednost od A, tada postoji x 0 t.d. Ax = λx. Unutar Definicije.9 je jedan rezultat koji ovdje koristimo: ν(ax) = λ ν(x) i ν(ax) A ν(x) λ ν(x) A ν(x) Budući x nije 0, možemo podjeliti sa ν(x) te dobimo: λ A, što vrijedi za svaku svojstvenu vrijednost pa tako i za onu najveću što je upravo ρ(a). 0
TEORIJA MATRIČNIH FUNKCIJA. Definicije matrične funkcije Matrična funkcija je definirana sa: f : C n n C n n. U ovom radu se koriste dvije specifične definicije matričnih funkcija. Prva je preko Jordanove kanonske forme matrice, dok je druga definicija matrične funkcije pomoću interpolacijskog polinoma... Jordanova forma Ova definicija matrične funkcije se bazira na rezultatu da se svaka matrica A C n n može izraziti u Jordanovoj kanonskoj formi J (A = ZJZ ). J = Z AZ = diag(j,..., J p ), (.) gdje je Z regularna matrica, m + m + + m p = n te J k C m kxm k: λ k 0... 0 0 λ k... 0. J k (λ k ) =........... 0 0..... 0 0... 0 λ k Jordanova matrica J je jedinstvena do na redoslijed blokova J k, a Z nije jedinstvena. Zahtijevamo da je funkcija matrice A definirana na spektru (Definicija
.5) od A. Definiramo funkciju matrice A, f : C n n C n n, pomoću Jordanove forme (.): f(a) := Zf(J)Z = Zdiag(f(J ),..., f(j p ))Z, (.) gdje je svaka f(j k ) C m kxm k u obliku: f(λ k ) f f (λ (λ k ) k )... 0 f(λ k ) f (λ k )... f(j k (λ k )) =............ 0 0 0.. f (λ k ) f (m k ) (λ k ) (m k )! f (m k ) (λ k ) (m k )! 0 0 0... f(λ k ) Ako je A dijagonalizabilna matrica kojoj su sve svojstvene vrijednosti različite, tj.oblika A = ZDZ, onda je pripadna Jordanova forma (.) dekompozicija gdje je D dijagonalna matrica sa svojstvenim vrijednostima na dijagonali, a Z je matrica čiji su stupci svojstveni vektori od tih svojstvenih vrijednosti. Po (.) vrijedi da je f(a) = ZDZ = Zdiag(f(λ ),..., f(λ d ))Z. Očito je da matrica f(a) ima iste svojstvene vektore kao A te svojstvene vrijednosti jednake vrijednostima funkcije f u svojstvenim vrijednostima od A. Pomoću gornje definicije matrice dokazujemo idući korolar koji ćemo koristiti u narednim poglavljima. Korolar. Ako je ρ(a) < za neku kompleksnu matricu A, tada vrijedi lim i Ai = 0. Dokaz: U Jordanovoj formi je A = ZJZ pa je A i = ZJ i Z. K-ti Jordanov
blok dimenzije m k m k na potenciju n je u obliku: λ n k n λ n n (n m k... k +) 0 λ n n (n m k... k +3) Jk n =........ 0 0... n λ n k 0 0... λ n k (m k λ n m k+ )! k (m k λ n m k+ )! k Po pretpostavci teorema sve λ k su po apsolutnoj vrijednosti manje od pa kada ih potenciramo na n idu prema 0 za veliki n, puno veći od k... Interpolacija polinomom Dimenzija prostora kompleksnih matrica je n. Promotrimo niz matrica: I, A, A,..., A n. Budući da je dimenzija prostora n, taj niz je zavisan. Zbog I 0 vrijedi da je niz I nezavisan. Dakle, postoji neki m n takav da je niz matrica zavisan, a niz I, A, A,..., A m I, A, A,..., A m linearno nezavisan. Odnosno, A m je linearna kombinacija ostalih. Tada vrijedi, α 0 I α A + α m A m + α m A m = 0 pa podjelivši sa α m 0, dobivamo polinom kojeg A poništava: p(x) = X m β X β 0 I, β i = α i α m Teorem. Neka je A C n n. Tada je p(x) iz dijela iznad teorema minimalni polinom matrice A. Vrijedi takod er: ako je f(x) neki drugi polinom kojeg poništava matrica A, tada p dijeli f. 3
Dokaz: Kada bi postojao neki drugi netrivijalni polinom f(x) kojeg A poništava stupnja r < m, tada bi vrijedilo f(a) = β 0 I + β A + + β r A r = 0. Budući da je m odabran tako da je niz od stupnja m zavisan, a do stupnja m nezavisan, gornji niz mora biti različit od 0 kao podniz nezavisnog niza, tj. dolazi do kontradikcije zbog izbora broja m. Jedinstvenost vrijedi jer ako bi uzeli neki drugi minimalni polinom f(x) različit od p, vrijedilo bi da je polinom f(x) p(x) 0 polinom stupnja manjeg od m (minimalni polinom je normiran) kojeg A poništava, što je kontradikcija kao i u prvom dijelu. Ako A poništava f, tada po prvom dijelu vrijedi da je f stupnja većeg ili jednakog m, te se dijeljenjem polinoma f sa p dobiva f(x) = p(x)q(x) + r(x). Kada uvrstimo A, dobivamo f(a) = p(a)q(a) + r(a). Budući da A poništava f i p, zaključujemo da poništava i r, a to može vrijediti samo za r 0 jer je p minimalni polinom i deg(r) < deg(p). Dakle, p dijeli f. Neka je f funkcija definirana na spektru od A. Različite svojstvene vrijednosti od A su λ k, k =,..., d. Uz oznaku n k za dimenziju najvećeg Jordanovog bloka k te svojstvene vrijednosti, minimalni polinom od A je: p(t) = d (t λ k ) n k (.3) k= Slijedeći teorem govori o svojstvu polinoma da je matrica f(a) u potpunosti odred ena vrijednostima polinoma f na spektru od A. Teorem.3 Neka su z i q polinomi te A C n n. Vrijedi: z(a) = q(a) ako i samo ako z i q poprimaju iste vrijednosti na spektru od A. Dokaz: Neka vrijedi da je z(a) = q(a). Tada je b(a) = z(a) q(a) = 0 polinom poništen matricom A. Po Teoremu. vrijedi da onda minimalni polinom p dijeli b. Iz (.3) je očito da je minimalni polinom p jednak 0 na spektru od A. Tada i b poprima vrijednosti 0 na spektru (jer p dijeli b), tj z i q poprimaju iste vrijednosti na spektru. 4
Neka z i q poprimaju iste vrijednosti na spektru. Definiramo b := z q. Tada je b jednak 0 na spektru od A pa ga p mora dijeliti zbog gornjih tvrdnji. Vrijedi: b(a) = p(a)h(a) = 0 za neki polinom h. Tada je z(a) = q(a). Sada možemo definirati matričnu funkciju na još jedan način. gdje je h polinom za koji vrijedi f(a) := h(a), (.4) uz uvjet interpolacije deg(h) < deg(p) = d k= n k h (l) (λ k ) = f (l) (λ k ), l = 0,,..., n k, k =,..., d. (.5) Postoji jedinstven takav polinom h i naziva se Hermiteov interpolacijski polinom. Hermiteov interpolacijski polinom može se zapisati u Newtonovoj bazi. Čvorovi interpolacije su u ovom slučaju svojstvene vrijednosti, i svaka svojstvena vrijednost λ k je n k -struki čvor. Podijeljena razlika u n k -strukom čvoru: Inače, vrijedi rekurzija: f [λ k,..., λ k ] = f (n k ) (λ k ) (n k )! f [λ k, λ k+,..., λ k+j ] = f [λ k+,..., λ k+j ] f [λ k,..., λ k+j ] λ k+j λ k Hermiteov interpolacijski polinom je u obliku: h(t) = n k=0 gdje su: n f k (t λ ) k + k=0 n d f(t k λ ) n (t λ ) k + + k=0 f k d(t λ ) n... (t λ d ) k 5
f k := f [λ,..., λ ], k λ f k := f [λ,..., λ, λ,..., λ ], n λ, k λ f k j := f [λ,..., λ,..., λ j,..., λ j ], n λ,..., n j λ j, k λ j Ako bi računali na taj način funkciju neke matrice, to baš i ne bi bilo praktično zbog dva razloga. Prvi je taj da je zahtjeva O(n) množenja matrica dok množenje dvije kvadratne matrice zahtjeva O(n 3 ) operacija. Na kraju je to O(n 4 ) operacija da bi dobili f(a), čak ako je h jednočlan polinom ili u obliku podijeljenih razlika, dok ostale metode imaju složenost O(n 3 ). Drugi razlog je neizvjesna numerička stabilnost te komplicirana analiza veličine pogrešaka koje bi opravdale tu metodu pomoću polinoma interpolacije. Teorem.4 Definicije (.) pomoću Jordanove kanonske forme i (.4) pomoću Hermiteova polinoma su ekvivalentne. Dokaz: Iz (.4) slijedi da f(a) = h(a) gdje je h Hermiteov interpolacijski polinom koji zadovoljava (.5). Ako je A u Jordanovoj formi (.), onda zbog osnovnih svojstava matričnih potencija u polinomu vrijedi f(a) = h(a) = h(zjz ) = Zh(J)Z = Zdiag(h(J k ))Z. 6
Za najjednostavniji polinom h(x) = x n vrijedi: h(j k ) = Jk n = λ n k n λ n n (n m k... k +) (m k λ n m k+ )! k 0 λ n n (n m k... k +3) (m k λ n m k+ )! k =........ = 0 0... n λ n k 0 0... λ n k h(λ k ) h h (λ (λ k ) k ) h... (m k ) (λ k ) (m k )! 0 h(λ k ) h h (λ k )... (m k ) (λ k ) (m k )! =........... 0 0 0... h (λ k ) 0 0 0... h(λ k ) Gornja jednakost vrijedi i za proizvoljan polinom pa i za Hermiteov s uvjetima interpolacije (.5). Zbog tih uvjeta zaključujem h(j k ) = f(j k ). Teorem.5 o svojstvima matrične funkcije Neka je A C n n te f matrična funkcija definirana na spektru od A. Vrijede slijedeća svojstva:. f(a)a = Af(A). f(x AX) = X f(a)x, X kvadratna kompleksna regularna matrica 3. Ako je λ svojstvena vrijednost od A, onda je f(λ) svojstvena vrijednost od f(a). 4. Ako je A = (A ij ) blok trokutasta matrica, tada je F := f(a) blok trokutasta matrica sa istom strukturom blokova kao A i F ii = f(a ii ). 7
Dokaz: Svojstvo komutativnosti () slijedi iz (.4) što implicira da je f(a) polinom potencija od A: f(a)a = h(a)a = Ah(A) = Af(A). Svojstva () i (3) slijede direktno iz (.). Koristeći ponovno (.4), f(a) = h(a) je očito trokutasta blok matrica jer je potencija trokutaste matrice opet trokutasta matrica. I-ti dijagonalni blok je h(a ii ). Budući da h interpolira f na spektru od A, onda interpolira f i na spektru od svake A ii jer je σ(a) = i (A ii ) pa je zbog definicije funkcije pomoću interpolacijskog polinoma (.4) i uvjeta interpolacije (.5), h(a ii ) = f(a ii ). Time je dokazano i zadnje svojstvo.. Fréchetova derivacija Definicija.6 Za funkciju f : Ω X Y kažemo da je Fréchet derivabilna u točci x Ω ako postoji linearan neprekidan operator Df(x) L(X, Y ), takav da vrijedi: f(x + h) f(x) (D(f(x)) (h) Y lim = 0 h 0 h X Slijedi: f(x + h) f(x) (Df(x))(h) = o( h X ). Analogno se definira u slučaju matrica. Definicija.7 Za linearni operator L f (A) := Df(A) iz L(C n n, C n n ) vrijedi: f(x + H) f(x) L f (X, H) = o( H ) (.6) L f (X, H) je Fréchetova derivacija u X primjenjena na matricu H ili u smjeru H. Kada se želimo orijentirati na matricu u kojoj gledamo derivaciju, a ne vrijednost matrice u nekom smjeru, oznaka je L f (X) ili češće L(X). Norma Fréchetove derivacije je definirana sa: L(X) := max Z 0 8 L(X, Z) F Z F (.7)
Teorem.8 Ako su f i g funkcije koje su Fréchet derivabilne u X, tada vrijedi da su f + g, fg i f g Fréchet derivabilne u X i vrijedi:. Pravilo sume:. Pravilo produkta: L f+g (X, H) = L f (X, H) + L g (X, H) (.8) L fg (X, H) = L f (X, H)g(X) + f(x)l g (X, H) (.9) 3. Lančano pravilo: Ovdje zahtjevamo da je f Fréchet derivabilna u g(x). Dokaz: L f g (X, H) = L f (g(x), L g (X, H)) (.0) Pravilo sume proizlazi odmah iz Definicije.7. Pravilo produkta slijedi uz korištenje (.6): (fg)(x + H) = f(x + H)g(X + H) = = (f(x) + L f (X, H) + o( H )) (g(x) + L g (X, H) + o( H )) = = (fg)(x) + L f (X, H)g(X) + f(x)l g (X, H) + o( H ) Lančano pravilo uz dvostruku upotrebu (.6): (f g)(x + H) (f g)(x) = f(g(x + H)) f(g(x)) = = f(g(x) + L g (X, H) + o( H )) f(g(x)) = = f(g(x)) + L f (g(x), L g (X, H) + o( H )) + o( H ) f(g(x)) = = L f (g(x), L g (X, H)) + o( H ).3 Uvjetovanost matrične funkcije Osjetljivost matričnih funkcija na perturbacije podataka je mjerena koeficijentom ili brojem uvjetovanosti. Ovo poglavlje će pokazati kako definirati koeficijente uvjetovanosti te kako ih učinkovito procijeniti. Oni mogu biti 9
izraženi u normi Fréchetove derivacije pa ćemo brojeve uvjetovanosti upoznavati kroz svojstva Fréchet-ove derivacije. Standardna definicija relativnog broja uvjetovanosti za skalarnu funkciju f : R R je: cond rel (f, x) := lim sup f(x + x) f(x) ε 0 εf(x) x ε x Objašnjenje gornjeg izraza je da taj broj mjeri koliko jako male promjene u podacima povećavaju promjenu funkcijske vrijednosti, u slučaju kad su obje promjene mjerene u relativnom smislu. f f(x + x) f(x) (x) = lim x 0 x f(x + x) f(x) xf (x) = o( x) f(x + x) f(x) = f (x) x x f(x) f(x) x + o( x) ( ) f(x + x) f(x) f f(x) = (x)x x f(x) x + o( x) f(x + x) f(x) f(x) f (x)x x f(x) x + o( x) (.) Zbog svojstva supremuma uz uvjet x ε, slijedi x f(x + x) f(x) f(x)ε f (x)x ε f(x) ε + o( x) pa za relativni broj uvjetovanosti uz o( x) = o(ε) za cond rel (f, x) = lim sup ε 0 x ε x ( ) f (x)x x f(x)ε x + o( x) ε sup vrijedi: x ε x = f (x)x f(x) (.) Definicija.9 Relativni broj uvjetovanosti matrične funkcije f uz bilo koju matričnu normu te perturbacije matrice X koje označavamo sa H je: cond rel (f, X) := lim sup ε 0 H ε X f(x + H) f(x) εf(x) (.3) 0
Primjenivši matrice na (.) i (.) slijedi granica približne perturbacije H: f(x + H) f(x) f(x) cond rel (f, X) H + o( H ) (.4) X Definicija.0 Apsolutni broj uvjetovanosti matrične funkcije f uz bilo koju matričnu normu te perturbacije matrice X koje označavamo sa H je: cond abs (f, X) := lim sup ε 0 H ε f(x + H) f(x) ε (.5) Relativni i apsolutni brojevi uvjetovanosti razlikuju se konstantom: cond rel (f, X) = lim sup ε 0 H ε X = lim sup ε 0 H ε X f(x + H) f(x) εf(x) f(x + H) f(x) X εf(x) X = lim sup ε 0 H ε X f(x + H) f(x) εx X f(x) (.6) = lim sup η 0 H η X = cond abs (f, X) f(x) f(x + H) f(x) η X f(x) Slijedeći teorem govori o izražavanju brojeva uvjetovanosti pomoću norme Fréchetove derivacije (.7). Teorem. Apsolutni i relativni brojevi uvjetovnosti su dani formulama: cond abs (f, X) = L(X) (.7) cond rel (f, X) = L(X) X f(x) (.8) Dokaz: Dovoljno je dokazati prvu formulu (.7) jer iz (.6) onda odmah slijedi i druga formula (.8). Prva jednakost slijedi iz Definicije.0, druga iz (.6). Treća je linearnost od L. Za posljednju se koristi Definicija.3, tj.
H = o(ε) pa je o(o(ε)) = o(ε) te (.7) i činjenica da neprekidna funkcija postiže maksimum na kompaktnom skupu u rubu: cond abs (f, X) = lim sup ε 0 H ε = lim sup ε 0 H ε = lim sup ε 0 H ε = sup L(X, Z) Z = L(X) f(x + H) f(x) ε L(X, H) + o( H ) ε (X, L H ) + o( H ) ε ε.4 Schurova dekompozicija Korolar. nam olakšava pronalaženje svojstvenih vrijednosti matrice A, tako da transformiramo A u neku njoj sličnu matricu koja je jednostavnije strukture (dijagonalna, gornje trokutasta) te joj je tako lakše pronaći svojstvene vrijednosti. Teorem. Neka je A C n n matrica sa svojstvenim vrijednostima λ, λ,..., λ n. Tada postoji unitarna matrica U te gornje trokutasta matrica T takve da vrijedi A = UT U i na dijagonali od T su svojstvene vrijednosti od A, tj. [t ii ] = λ i, za svaki i. Dokaz: Dokazujemo pomoću matematičke indukcije. Baza: n = A = A Pretpostavka: Neka tvrdnja vrijedi za A C (n ) (n ) Korak: Gledamo: Au = λ u, u =. Skup {u } nadopunimo do ortonormirane baze u C n, {u,, u,..., u n } (u T i u i =, u T i u j = 0). Definirajmo ortonormiranu matricu koja je ortogonalna u odnosu na u : V := [u... u n ] C nx(n )
Tada je matrica U := [u V ] C n n unitarna matrica t.d. [ u ] U AU = [Au ] AV = V [ u ] = [λ ] u AV = V [ λ u = AV 0 A Zbog Korolara. vrijedi: ], gdje je A = V AV slična sa A n (λ i λ) = det(a λi) = det(u AU λi) = (λ λ)det(a λi) i= Slijedi da su λ,..., λ n svojstvene vrijednosti od A. Po pretpostavci indukcije postoje unitarna matrica U C (n ) (n ) i gornje trokutasta matrica T C (n ) (n ) sa λ,..., λ n na dijagonali t.d. A = U T U. Definiramo: [ ] 0 U := U 0 U C n n [ ] [ ] 0 0 U U = U 0 U U = 0 U [ ] 0 = = I 0 U U 3
Očito je U unitarna matrica i vrijedi: [ ] [ ] 0 0 U AU = U 0 U AU = 0 U [ ][ 0 λ u ][ ] = AV 0 = 0 U 0 A 0 U [ λ u ] = AV U = 0 U A U [ λ u ] = AV U = 0 T λ u AV U 0 λ... =.......... = 0... 0 λ n = T.5 Matrične iteracije Matrične iteracije se identificiraju pomoću rekurzije. Slijedeća iteracija je funkcija prethodne iteracije: g : C n n C n n, X i+ = g(x i ) (.9) Potreban je početni uvjet, koji je u ovom slučaju matrica najčešće X 0 = A ili X 0 = I. Iterativna funkcija g može i ne mora ovisiti o A. Uzevši u obzir kompliciranost računanja, najbolje je da je funkcija g polinom ili racionalna funkcija. Racionalne funkcije dovode do računanja inverzne matrice ili rješenja sustava sa kompliciranijom desnom stranom. Na modernim računalima puno se brže izračunaju potencije matrica, tj. višestruko množenje matrica, nego računanje sustava ili traženje inverzne matrice. To znači da su polinom poželjniji od racionalnih funkcija. Najstandardnija metoda izvod enja iteracija je Newtonova. Newtonova 4
iteracija za f : R R je: x i+ = x i f(x i) f (x i ) Metoda služi traženju nultočke funkcije f iz iteracije. Ovisno o kojoj se funkciji radi, iteracija se razvija pomoću deriviranja i sred ivanja gornje jednadžbe. Iteracija za realnu funkciju je primjenjiva na matrične funkcije, tj. funkciju g iz (.9)..5. Red kovergencije Ako je (X i ) niz koji konvergira prema X kažemo da je red konvergencije najveći broj p za koji vrijedi: X X i+ c X X i p, (.0) gdje je c neka pozitivna konstanta, a i je dovoljno veliki indeks. Iteracija je reda p ako niz koji ju generira ima konvergenciju reda p. Linearna kovergencija je reda, kvadratna je reda, a super linearna konvergencija je ona za koju vrijedi: X X i+ lim i X X i = 0 (.) Konvergencija niza se dijeli na dva dijela. Prvi je početni dio u kojem se greška smanjuje ispod. Druga faza je asimptotska u kojoj (.0) garantira da će niz konvergirati prema nuli. Red konvergencije se odnosi na asimptotsku fazu, dok za početnu fazu ne znamo koliki je broj iteracija potreban. Često se u praksi iteracije skaliraju što znači da se članovi niza množe sa nekim odred enim skalarom u svrhu skraćivanja broja iteracija u početnoj fazi. Što je veći red konvergencije, to je teže skalirati iteraciju..5. Kriterij zaustavljanja Jedno od važnijih pitanja u iteracijama je kada se zaustaviti? Ako iteracija (X i ) konvergira prema X, kriterij zaustavljanja uz neku zadanu toleranciju tol može biti (uz bilo koju matričnu normu):. Zaustaviti iteraciju kada X i ima relativnu grešku manju tol: X i X X 5 tol (.)
. Zaustaviti iteraciju kada je apsolutna greška ispod tol: X i X tol (.3) 3. Zaustavljanje iteracije bazirano na relativnoj razlici izmed u dvije susjedne iteracije koja je manja od tol: X i+ X i X i+ tol (.4) Treći kriterij zapravo aproksimira relativnu grešku u X i iz prvog kriterija u kojoj je X = lim X i. Zadnji kriterij je najčešće korišten pa označimo taj i kriterij sa: δ i+ := X i+ X i X i+ Zaista, X i+ X = (X i+ X i ) + (X i X) pa kada greška naglo pada očito iteracije brzo konvergiraju prema X te će tada norme X i+ X i i X i X biti otprilike jednake jer vrijedi X i+ X X i X. Promotrimo kriterij zaustavljanja u kvadratnoj konvergenciji: X i+ X c X i X (.5) Pomoću nejednakosti trokuta i kvadratne konvergencije vrijedi: X i X X i X i+ + X i+ X X i X i+ + c X i X (.6) pa je X i X X i+ X i c X i X (.7) Rješavajući realnu kvadratnu nejednažbu (.6) za dovoljno mali X i X takav da je X i X (.8) c Koristeći (.5), (.7) i (.8) slijedi: X i+ X c X i X ( ) Xi+ X i c c X i X (.9) c X i+ X i 6
Usporedbom (.5) i (.9) zaključujemo da bi se zaustavili na iteraciji X i+, za kriterij relativne razlike trebat će nam možda jedna iteracija više u odnosu na kriterij relativne greške..5.3 Numerička stabilnost Ako je X 0 = A, svaka iteracija u obliku (.9) je funkcija od A pa po Teoremu.5, svaka iteracija komutira sa A. Svojstvo komutativnosti je često korišteno u dokazivanju konvergencije te razvijanju iteracije. U aritmetici konačne preciznosti, zaokruživanje greške uzrokuje gubitak svojstva komutativnosti što se očituje kao numerička nestabilnost. Takod er, proizvoljna greška može proširiti nestabilnost iz iteracije u iteraciju. Napomena.3 I-tu potenciju Fréchetove derivacije u X označavamo sa L i (X), a definiramo kao i-tu kompoziciju. Za drugu potenciju vrijedi: L (X, H) = (L L)(X, H) := L(X, L(X, H)) Analogno vrijedi za ostale potencije, uz L 0 (X, H) := H. Definicija.4 Promatramo iteraciju X i+ = g(x i ) sa fiksnom točkom X. Pretpostavimo da je g Fréchet derivabilna u X. Iteracija je stabilna u okolini od X ako Fréchetova derivacija od g ima ograničene potencije, tj. postoji konstanta c t.d. L i g(x) c, za sve i > 0. Ako gledamo derivaciju u nekom smjeru, (L i g(x))(h), u definiciji stabilnosti je tada (L i g(x))(h) c H. Neka je X 0 = X + H 0 perturbiran oko fiksne točke X sa H 0 prilično male norme te H i := X i X. Po Definiciji.7: X i = g(x i ) = g(x + H i ) = = g(x) + L g (X, H i ) + o( H i ) (.30) Uz gornju jednakost i g(x) = X slijedi slijedeće: H i = X i X = = g(x) + L g (X, H i ) + o( H i ) X = = L g (X, H i ) + o( H i ) (.3) 7
Pomoću gornje jednakosti za H i te linearnosti operatora L g razvijanjem iteracije dobivamo: H i = L g (X, H i ) + o( H i ) = = L g (X, L g (X, H i ) + o( H i )) + o( H i ) = = L g (X, L g (X, H i )) + L g (X, o( H i )) + o( H i ) = = L g(x, H i ) + L g (X, o( H i )) + o( H i ) = = L g(x, L g (X, H i 3 ) + o( H i 3 )) + L g (X, o( H i )) + o( H i ) = = L 3 g(x, H i 3 ) + L g(x, o( H i 3 )) + L g (X, o( H i )) + o( H i ) = =... Na kraju H i ima oblik: i H i = L i g(x, H 0 ) + L k g(x, o( H i k ) (.3) U slučaju kad je iteracija stabilna, iz Definicije.4 i (.3) slijedi: k=0 i H i = L i g(x, H 0 ) + L k g(x, o( H i k ) k=0 i c H 0 + c o( H i k ) k=0 (.33) c H 0 + i c o( H 0 ) Zadnja nejednakost govori kako u stabilnoj iteraciji, približno male greške u okolini fiksne točke su ograničene pomoću izraza koji ovisi o prvoj grešci. Za skalarne iteracije g : R R, g(x i ) = x i+ koje su konvergentne, vrijedi da konvergiraju u fiksnu točku, lim g(x i) = x, x t.d. g(x) = x. i Za takve iteracije, konvergencija implicira stabilnost jer je takvoj superlinearno konvergentnoj iteraciji derivacija u fiksnoj točci x 0, tj. ograničena je. To pokazujemo uz pomoć definicije derivacije funkcije i činjenice g(x) = x: 0 = lim i g(x i ) x x i x = lim i g(x i ) g(x) x i x 8 = g (x)
Dakle, g (x) = 0 U slučaju matrica, Fréchetova derivacija iteracijske funkcije u fiksnoj točci ne mora biti 0, stoga nam trebaju slijedeća dva teorema da bi bolje utvrdili stabilnost matričnih iteracija. Teorem.5 Neka je f idempotentna funkcija koja je Fréchet derivabilna u X = f(x). Tada je L f (X) idempotentna. Dokaz: Neka je h(t) = f(f(t)). Iz Teorema.8, lančanog pravila (.0) slijedi: L h (X, H) = L f (f(x), L f (X, H)) = L f (X, L f (X, H)) Zbog gornje jednkosti i idempotentnosti od f vrijedi: što znači da je L f idempotentna. ((L f L f )(X))(H) = L f (X, L f (X, H)) = = L h (X, H) = = L f (X, H) = = (L f (X))(H), Stabilnost je utvrd ena Fréchetovim derivacijama iteracijske funkcije, a ne funkcije f. Slijedeći teorem govori o vezi f i g. Teorem.6 Neka je f idempotentna Fréchet derivabilna u X = f(x) sa Fréchetovom derivacijom L f (X), g(x i ) = X i+ iteracije koje superlinearno konvergiraju prema f(x 0 ), gdje je X 0 dovoljno blizu X i neka je g neovisna o izboru X 0. Tada je Fréchetova derivacija od g u X L g (X) = L f (X). Dokaz: Za dovoljno mali H, X 0 = X +H, f(x 0 ) = f(x +H) postoji po Definiciji.7 pa vrijedi: f(x + H) = f(x) + L f (X, H) + o( H ) = X + L f (X, H) + o( H ) 9
f(x + H) (X + H) = L f (X, H) H + o( H ) = O( H ) Superlinearna kovergencija iteracije g(x i ) = X i+ prema f(x 0 ) iz (.) povlači: f(x 0 ) X i+ f(x 0 ) g(x i ) lim = lim = 0 i f(x 0 ) X i i f(x 0 ) X i Budući da g(x i ) konvergiraju prema f(x 0 ), slijedeća iteracija nakon limesa je upravo limes: g( lim g(x i )) = lim g(x i ), tj. i i g(f(x 0 )) = f(x 0 ). Za H = 0, slijedi da i g ima fiksnu točku u X jer f ima fiksnu točku u X. Zbog svega navedenog slijedi: f(x 0 ) g(x 0 ) = o( f(x 0 ) X 0 ) = o(o( H )) = o( H ) g(x 0 ) g(x) = g(x 0 ) X = f(x 0 ) X + o( H ) = L f (X, H) + o( H ) Zaključujemo, L f (X, H) = L g (X, H). L f (X) je konačnodimenzionalni linearni operator pa vrijedi da je ograničen. Budući da je L f idempotentna funkcija, prvi teorem implicira da su sve potencije nje ograničene. Uz drugi teorem imamo da je diferencijal iteracijske funkcije jednak L f (X). Iz tog slijedi da sve iteracije koje superlinearno konvergiraju su numerički stabilne i ne trebamo računati Fréchetove derivacije, niti testirati granice njihovih potencija. 30
3 MATRIČNA FUNKCIJA PREDZNAKA 3. Uvod u funkciju predznaka Neka je I skup brojeva koji leže na imaginarnoj osi (0 I). Funkcija sign : C \ I {, } je definirana za z C \ I kao: sign(z) := {, Re(z) > 0, Re(z) < 0 (3.) gdje je Re(z) realni dio kompleksnog broja z. Matrična funkcija predznaka može biti dobivena iz bilo koje od dvije definicije s početka (.) i (.4). U definicijama baziranim na Jordanovoj formi i interpolaciji polinomom potrebne su derivacije funkcije. Lako je zaključiti da su derivacije funkcije sign jednake nuli, sign (k) (z) = 0, k i z C \ I. Pretpostavljamo da matrice koje koristimo iz C n n imaju svojstvene vrijednosti iz skupa kompleksnih brojeva bez čisto imaginarnih brojeva (imaginarne osi) pa je funkcija sign dobro definirana u smislu (.) i (.4) u kojima su nam potrebne vrijednosti funkcija i njenih derivacija u svojstvenim vrijednostima. Slijedi da ne postoji svojstvena vrijednost 0 jer je 0 I, stoga su takve matrice regularne (Korolar.0). Iz (.) imamo jedan način primjene funkcije f na neku matricu. Neka je A C n n u Jordanovoj formi, A = ZJZ, J = diag(j, J ). Budući da svojstvene vrijednosti matrice A nisu na imaginarnoj osi, neka su u J C p p svojstvene vrijednosti koje se nalaze na lijevoj polovici ravnine (p algebarska kratnost tih svojstvenih vrijednosti) dok se u J C q q nalaze svojstvene vrijednosti na desnoj polovici (q algebarska kratnost svojstvenih vrijednosti s desne polovice). Funkcija sign primijenjena na te svojstvene vrijednosti 3
daje, odnosno, dok su derivacije 0. Zato je funkcija predznaka u obliku: [ ] Ip 0 sign(a) := Z Z (3.) 0 I q Promotrimo sada skalarnu funkciju sign iz (3.). Budući da je z kompleksan broj, može biti u polarnim koordinatama u obliku: z = r(cos α + i sin α). Nadalje, pomoću Definicije (.7): z = r (cos α + i sin α) = = r ((cos α) (sin α) + i cos α sin α) = = r (cos α + i sin α) Kada računamo drugi korijen iz kompleksnog broja (.7), on će imati dva rješenja. U ovom slučaju, ograničavamo rješenja na ona koja se nalaze s desne strane u odnosu na imaginarnu os, odnosno tražimo glavni drugi korijen iz z : r(cos α + i sin α), α π (z ), π = r(cos (α + π) + i sin (α + π)), α π, 3π r(cos α + i sin α), α π =, (3.3) π r( cos α i sin α), α π, 3π Na kraju imamo: z (z ), α π =, π, α π, = 3π {, Re(z) > 0, Re(z) < 0 (3.4) Generaliziramo li gornju funkciju na matrice, dobivamo: sign(a) := A(A ) (3.5) Teorem 3. Neka A C n n nema čisto imaginarne svojstvene vrijednosti i neka je S = sign(a). Vrijede slijedeća svojstva:. S je involutorna matrica, tj. S = I.. S je dijagonalizabilna sa svojstvenim vrijednostima i. 3
3. SA = AS 4. Ako je λ svojstvena vrijednost od A, onda je i sign(λ) svojstvena vrijednost od sign(a). Dokaz: Za dokazivanje koristimo (3.). Prvo svojstvo: S = (Z sign(j) Z ) = (Z diag( I p, I q ) Z ) = = (Z diag( I p, I q ) Z ) (Z diag( I p, I q ) Z ) = = Z diag(( I p ), I q ) Z = = Z diag(i p, I q ) Z = = I Drugo svojstvo slijedi direktno iz (3.), dok su svojstva (3) i (4) dokazana za općenite matrične funkcije u Teoremu.5. Ako je spektar od A cijeli u pozitivnoj poluravnini, odnosno negativnoj, tada je sign(a) = ZZ = I, odnosno sign(a) = ZZ = I, što vrijedi intuitivno iz Teorema 3. (svojstva () i ()). Inače, ako je spektar matrice s obje strane imaginarne osi, ne vrijedi da je sign(a) primarni drugi korijen jedinične matrice, I ili I (primarni drugi korijen preslikava svaki element u sve vrijednosti, ili pak u sve -, a kod neprimarnog postoji neka vrijednost preslikana u - a druga u ). 3. Schurova metoda Neka je A C n n. Schurova dekompozicija matrice A je QT Q, gdje je T gornje trokutasta matrica, a Q je unitarna. Po Teoremu.5, drugom svojstvu slijedi: sign(a) = Qsign(T )Q. Budući da je T gornje trokutasta matrica, onda je po Teoremu.5, četvrtom svojstvu, i sign(t ) gornje trokutasta matrica U := sign(t ) za koju vrijedi: u ii = sign(t ii ) = ± 33
jer su t ii svojstvene vrijednosti od matrice T (gornje trokutasta matrica ima svojstvene vrijednosti na dijagonali). Ostali u ij se dobiva iz: U = I i UT = T U. Elementi matrice U koji se nalaze u i-tom retku i j-tom stupcu su u obliku: j u ik u kj = (u ii + u jj )u ij + k=i j k=i+ u ik u kj Kada njih izjednačimo sa nulama u jediničnoj matrici, dobit ćemo, u slučaju da je u ii + u jj 0: j k=i+ u ij = u iku kj u ii + u jj Za slučaj kada vrijedi u ii + u jj = 0 koristimo jednadžbu UT = T U. Izjednačavamo elemente matrica s obje strane: j u ik t kj = k=i j t ik u kj k=i Na kraju dobivamo: (t ii t jj )u ij (u ii u jj )t ij = u ij = (u ii u jj )t ij t ii t jj + j k=i+ (u ik t kj t ik u kj ) j k=i+ (u ikt kj t ik u kj ) t ii t jj Ako vrijedi t ii t jj = 0, onda je sign(t ii ) = sign(t jj ). Iz tog slijedi da je u ii + u jj = ± 0. Vrijedi i obrnuto, t ii t jj 0 u ii + u jj = 0. Dakle, imamo dva disjunktna slučaja. Algoritam: Svedi A na Schurovu dekompoziciju QT Q u ii = sign(t ii ), i =,..., n za j =,..., n za i = j,..., 34
kraj kraj u ij = S = QUQ j k= i+ u ik u kj u ii + u jj, u ii + u jj 0 j (u ii u jj ) t ij k= i+ + (u ik t kj t ik u kj ), u ii + u jj = 0 t ii t jj t ii t jj Složenost algoritma je O(n 3 ). da bi se došlo do rješenja. Sveukupno je potrebno oko 86 3 n3 operacija 3.3 Newtonova metoda U ovom slučaju gdje je sign funkcija involutorna matrica, tj.sign(a) = I, slijedi da je sign nultočka funkcije g(x) = x. Kada tu funkciju uvrstimo u Newtonovu iteraciju, dobivamo: x n+ = x n g(x n) g (x n ) = = x n x n = x n ) (x n + xn (3.6) = Uvrstimo li matricu, dobit ćemo oblik: X i+ = ( ) X i + X i, X 0 = A (3.7) Za slučaj matrica se gledaju njihove svojstvene vrijednosti jer je iteracija (3.7) izvedena iz (3.6) za svaku pojedinu svojstvenu vrijednost. Slijedeći teorem govori o konvergenciji Newtonove iteracije prema sign. Teorem 3. Neka matrica A C n n nema svojstvene vrijednosti na imaginarnoj osi. Tada vrijedi: 35
. Iteracije X i iz (3.7) konvergiraju prema S := sign(a).. Kvadratna brzina konvergencije za svaku konzistentnu normu (Definicija.9): X i+ S X i X i S. 3. Za k te G 0 := (A S)(A + S) vrijedi: Dokaz: X i = (I G i 0 ) (I + G i 0 )S Kompleksni broj z = Re(z) + iim(z) se po Definiciji.6 može zapisati u polarnim koordinatama, z = re iα. Neka je λ = re iα. Iz Definicije.7 slijedi da je: λ + λ = r r (cos α + i sin α) + (cos ( α) + i sin ( α)) = = r r (cos α + i sin α) + (cos α i sin α) = = r + r cos α + r r i sin α Ako je λ svojstvena vrijednost za neku matricu X i iz iteracije (3.7), onda po Teoremu.5 imamo da je svojstvena vrijednost za X i+ : µ := λ + λ. Usporedimo dva kompleksna broja u odnosu na poluravnine u kojima leže: λ = r cosα + r sinα, µ = r + r cos α + r r i sin α Ako je λ u jednoj od poluravnina, onda će µ ovisno (r + r ) i (r r ) promjeniti poluravninu ili ostati u istoj. Budući da je r + r pozitivan broj, zaključujemo da je µ u istoj poluravnini kao i λ bez obzira je li r r negativan ili pozitivan broj jer taj skalar mijenja samo okomitu komponentu smjera kompleksnog broja. Počnimo od početka, tj. λ je svojstvena vrijednost od A. Budući da A nema svojstvene vrijednosti na imaginarnoj osi, po Korolaru.0 vrijedi da 36
je A regularna. Svaka slijedeća iteracija X i nema svojstvene vrijednosti na imaginarnoj osi jer kada bi imala: µ = ci λ + λ = ci λ icλ + = 0 λ = ci ± i c λ + Dakle, svojstvena vrijednost od iteracije X i+, µ neće nikada biti na imaginarnoj osi jer bi onda svojstvena vrijednost od X i trebala biti čisto imaginarni broj, a to ne vrijedi. Zadnja činjenica se lako dokazuje pomoću indukcije unatrag gdje dodjemo u kontradikciju s pretpostavkom da X 0 = A nema imaginarne svojstvene vrijednosti. Iz Korolara.0 zaključujemo da je X i dobro definirana na spektru bez imaginarne osi i regularna matrica, za svaki i > 0. X i+ ± S = (X i + X i ± S) = = X i (X i ± X i S + I) = (3.8) = X i (X i ± S) Uz. imamo: X = (A + A ) = = (ZJZ + (ZJZ ) ) = = (ZJZ + ZJ Z ) = ( ) J + J = Z Z Kako su λ i µ sa iste strane imaginarne osi, istog su predznaka pa je: ( ( ) J + J sign(x ) = sign Z )Z = ( ) J + J = Zsign Z = = Zsign(J)Z = (3.9) (3.0) = sign(a) = = S 37
Analogno, za svaku slijedeću iteraciju vrijedi: sign(x i ) = sign(a) = sign(x 0 ). Svojstvene vrijednosti od matrice X i +sign(x i ) će biti u obliku λ i +sign(λ i ), što je uvijek različito od 0. Po Korolaru.0, X i + S je regularna matrica, i 0 pa njen inverz postoji. Takod er, jer su X i racionalne funkcije od A, po Teoremu.5, komutiraju sa A. Pomoću definicije funkcije s polinomom i primjenivši da A komutira sa S vrijedi Sf(A) = Sp(A) = p(a)s = f(a)s. Dakle, X i komutira sa S. Iz (3.8) imamo: (X i+ S)(X i+ + S) = ((X i S)(X i + S) ) (3.) Uz oznaku G i := (X i S)(X i + S), vrijedi: G i+ = G i = = G i+ 0. U slučaju kada je λ svojstvena vrijednost od A, po Teoremu.5, G 0 definiran u iskazu teorema ima svojstvene vrijednosti u obliku: λ sign(λ) λ + sign(λ). Udaljenosti tih svojstvenih vrijednosti od ishodišta ( C (λ,sign(λ)) iz Definicije.8 o Cayleyovoj metrici) za one u desnoj poluravnini, odnosno one u lijevoj su: (Reλ ) + (Imλ) (Reλ + ) + (Imλ), (Reλ + ) + (Imλ) (Reλ ) + (Imλ). Zbog većeg nazivnika od brojnika u oba slučaja, svojstvene vrijednosti od G 0 su unutar jediničnog kruga oko 0 u kompleksnoj ravnini, tj. za spektralni radijus vrijedi: ( ) ρ(g 0 ) = max µ = max λ sign(λ) µ σ(g 0 ) λ σ(a) λ + sign(λ) < Dakle, G i = G i 0 i ρ(g 0 ) < pa iz Korolara.3 i. slijedi: lim G i = 0. i Napokon, dobivamo tvrdnje teorema () i (3): Tvrdnja () slijedi iz (3.8). G i (X i + S) = (X i S) G i X i + G i S = X i S X i = (I G i ) (I + G i )S lim i X i = lim i (I G i ) (I + G i )S = S 38
Iz gornjeg teorema i Korolara.3 i. slijedi: ( G i 0 ρ(g i 0 ) = max λ σ(a) λ sign(λ) λ + sign(λ) ) i (3.) Konvergencija iteracija prema sign(a) je po trećoj tvrdnji Teorema 3. analogna konvergenciji potencija G 0 prema 0. Očito će konvergencija G i 0 prema 0 biti spora ako su: svojstvene vrijednosti od A blizu imaginarne osi ρ(a) = max λ σ(a) λ jer će tada λ sign(λ) λ + sign(λ). Algoritam: Maksimalni broj iteracija u algoritmu označimo sa m, a kriterij zaustavljanja koji je na početku T RUE je neki račun iz Poglavlja.5.. X 0 = A i i = 0 za i =,..., m kraj B i = X i X i = ) (X i + B i ako je kriterij zaustavljanja == T RUE, onda i = i + S = X i+ Složenost algoritma je takod er O(n 3 ), ali je broj potrebnih operacija otprilike in 3 za i koraka Newtonovih iteracija. 39
3.4 Skalirane Newtnove iteracije Newtonova iteracija iz Poglavlja 3.3 za sign funkciju dobivena iz traženja nultočke za funkciju (sign(z)) je x i+ = (x i + x i ), x 0 = a. Ona kvadratično konvergira prema sign(a) = ±. Može se gledati na način da je to Newtonova iteracija za funkciju drugog korijena od. Jednom dok je pogreška mala, slijedeće uzastopne pogreške se brzo smanjuju. Svaka slijedeća pogreška je približno jednaka kvadratu prethodne pogreške (vidi (3.8)). Za x i je x i x i, iteracija je zapravo jako spor način običnog dijeljenja s. Takod er iz Teorema 3. i dijela gdje je objašnjena nejednakost (3.) vidimo da iteracija sporo konvergira kada je a kompleksni broj blizu imaginarne osi jer a možemo identificirati sa svojstvenom vrijednosti matrice. Traži se način za ubrzavanje konvergencije u ta dva slučaja. Teorem 3.3 Za Newtonovu iteraciju (3.7), ako X i ima svojstvene vrijednosti ±, za neki i, onda je X i+p = sign(a) za p m, gdje je m dimenzija najvećeg Jordanovog bloka od X i. Dokaz: Neka su ± svojstvene vrijednosti od X i. Neka je Jordanova forma X i = ZJ i Z, J i = D + N i, D = diag(±), N i nilpotentna strogo gornje trokutasta matrica sa jedinicama i nulama iznad glavne dijagonale. Indeks nilpotentnosti je m, tj. Ni m = 0, N m i,..., I 0. Promatramo konvergenciju niza koji počinje sa J i, a završava sa D i možemo staviti Z = I bez smanjenja općenitosti. Iteracija X i+ = D + N i+ zadovoljava po (3.8): X i+ D = X i (X i D) N i+ = X i Budući da je m indeks nilpotentnosti od N i, N i+ mora imati indeks nilpotentnosti m. Primjenjujući tu činjenicu više puta, za p m, N i+p ima indeks nilpotentnosti, slijedi da je X i+p = D = sign(a) za p m. N i 40
Učinkoviti način da se poveća brzina konvergencije je skaliranje iteracija: u (3.7) zamijenimo X i sa µ i X i : X i+ = (µ ix i + µ i X i ), X 0 = A (3.3) Dok god je µ i pozitivan i realan broj, predznak svake iteracije je sačuvan. Predložene su tri vrste skaliranja: skaliranje pomoću determinante: µ i := det(x i ) n (3.4) skaliranje pomoću spektralnog radijusa: ρ(x i ) µ i := ρ(x i ) (3.5) skaliranje pomoću norme: µ i := X i X i (3.6) Pogledajmo slučaj skaliranja pomoću determinante. Neka su λ (i),..., λ n (i) svojstvene vrijednosti od X i. Iz Korolara. znamo da je umnožak svojstvenih vrijednosti matrice jednak determinanti matrice. Za skaliranje pomoću determinante (3.4) vrijedi da je apsolutna vrijednost umnoška svojstvenih vrijednosti skalirane iteracije jednaka : n ( ) µ i λ (i) k = det(µi X i ) = k= ) = ( det(x det i ) n Xi = ( ) n = det(x i ) n det(x i ) = = (3.7) Neka su λ,..., λ n svojstvene vrijednosti od X. Definiramo funkciju t : C n n R + : n t(x) := (log λ k ) k= 4
Faktor skaliranja µ i iz (3.4) minimizira t(µ i X i ). To dokazujemo uz osnovna svojstva logaritma te Korolara.: n n g(µ) := t(µx) = (log µλ k ) = (log µ + log λ k ) k= k= n (log µ + log λ k ) = ( n log µ + µ g (µ) = µ k= log µ n = log λ λ... λ n µ = n k= n λ k n k= ) log λ k = 0 = det(x) n Promotrimo skaliranje pomoću spektralnog radijusa. Za X i promatramo svojstvene vrijednosti λ (i) n,..., λ (i) redom od najmanje prema najvećoj udaljenosti od ishodišta te spektralni radijus ρ(x i ). Tada je iz (3.5): µ i = λ (i) λ (i) n pa matrica µ i X i ima svojstvene vrijednosti najmanje i najveće veličine: µ i λ n (i) = λ (i) n i µ i λ (i) = λ (i) Dakle, vrijedi: λ (i) µ i λ (i) n = µ i λ (i) Ako su λ (i) i λ n (i) realni brojevi postoje 4 slučaja uz λ n (i) < λ (i) te Cayleyevu metriku iz Definicije.8: () λ (i) > λ n (i) > 0 µ i λ n (i) = µ i λ (i) µ i λ n (i) µ i λ n (i) + = µ i λ (i) µ i λ (i) + () λ (i) > 0 > λ n (i) µ i λ n (i) = µ i λ (i) µ i λ n (i) + µ i λ n (i) = + µ i λ (i) µ i λ (i) 4 λ (i) n = µ iλ (i) µ i λ (i) + = µ iλ (i) µ i λ (i) +
(3) λ n (i) > 0 > λ (i) µ i λ n (i) = µ i λ (i) µ i λ n (i) µ i λ n (i) + = µ i λ (i) µ i λ (i) + = µ iλ (i) + µ i λ (i) (4) 0 > λ (i) n > λ (i) µ i λ n (i) = µ i λ (i) µ i λ n (i) + µ i λ n (i) = µ i λ (i) µ i λ (i) + = µ iλ (i) + µ i λ (i) Po Definiciji.8 o Cayleyovoj metrici sva četiri slučaja impliciraju: C(µ i λ (i) n, sign(µ i λ (i) n )) = C(µ i λ (i), sign(µ i λ (i) )) Budući da je µ i pozitivan realan broj, sign(µ i λ (i) k ) = sign(λ(i) k ), k =, imamo: C(µ i λ (i) n, sign(λ (i) n )) = C(µ i λ (i), sign(λ (i) )) Znamo da Newtonove iteracije (3.7) teže prema sign(a) po Teoremu 3.. Gledajući po svojstvenim vrijednostima od A, neka je λ njena svojstvena vrijednost, tada svojstvena vrijednost svake iteracije X i dobivena iz prethodne iteracije, λ (i) teži prema sign(λ). Zaključujemo da spektralno skaliranje izjednačava greške u Cayleyovoj metrici najmanje i najveće svojstvene vrijednosti. Teorem 3.4 (Barraud) Neka je matrica A C n n regularna sa realnim svojstvenim vrijednostima i neka je S := sign(a). Za spektralno skalirane Newtonove iteracije (3.3), X d+p = sign(a), d je broj različitih svojstvenih vrijednosti od A, a p m, gdje je m dimenzija najvećeg Jordanovog bloka od A. Dokaz: Koristit ćemo svojstva iterativne funkcije f(x) = ( ) x + : x 43
( ) () f(x) = f x () 0 x x ili x x f(x ) f(x ) Za X 0 = A promatramo svojstvene vrijednosti λ n,..., λ redom od najmanje prema najvećoj udaljenosti od ishodišta. Tada, iz (3.5) imamo µ 0 = λ n λ pa µ 0 X 0 ima svojstvene vrijednosti kojima su moduli izmed u: µ 0 λ n = λ n i µ 0 λ = λ λ Te su vrijednosti recipročne i svojstvene vrijednosti su realne ( λ i = ±λ i ) pa uz svojstvo () vrijedi: ( ) f( µ 0 λ n ) = f µ 0 λ n = f( µ 0 λ ) Svojstvo () govori da su te vrijednosti svojstvene vrijednosti najvećeg modula matrice X : { µ 0 λ i : 0 µ 0 λ n µ 0 λ i } f( µ 0 λ n ) f( µ 0 λ i ) { µ 0 λ j : µ 0 λ j µ 0 λ } f( µ 0 λ ) f( µ 0 λ j ) Zato X ima svojstvene vrijednosti koje zadovoljavaju: λ n λ () n λ () n λ () = λ () U svakoj slijedećoj iteraciji se povećava broj najvećih po modulu svojstvenih vrijednosti barem za, sve dok nakon d iteracija X d ima sve svojstvene vrijednosti jednakog modula. Vrijedi da su svojstvene vrijednosti za µ d X d po modulu izmed u: µ d λ (d ) n = λ (d ) n λ (d ) = i µd λ (d ) = λ (d ) λ (d ) n = Dakle, svojstvene vrijednosti matrice µ d X d su jednake ±. Takod er, iz (3.3) slijedi da su svojstvene vrijednosti od X d jednake ±: λ (d) i = ( ( ) ) µ d λ (d ) i + µ d λ (d ) i = (± + ±) = ± Znači, µ d je jednako po definiciji. Takod er, svaki slijedeći µ k, k > d je pa se skalirane iteracije poklapaju sa običnim iteracijama. Po Teoremu 3.3 slijedi da će iteracija nakon p koraka biti jednaka sign(a). 44
Algoritam: Potrebnan je skalar kriterij skaliranja koji regulira kada se prebacuje sa skaliranih na neskalirane iteracije. Drugi kriterij je račun kriterij zaustavljanja za zaustavljanje ako su dvije susjedne iteracije dovoljno blizu. X 0 = A i scale = T RUE za i =,,... B i = X i ako je scale == T RUE onda µ i postaje jedan od (3.4)-(3.6) inače, µ i = X i+ = ( ) µ i X i + µ i B i δ i+ = X i+ X i F X i+ F ako je scale == T RUE i δ i+ kriterij skaliranja onda scale = F ALSE ako je kriterij zaustavljanja == T RUE idi na kraj X = X i+ inače, i = i + Potrebno je in 3 operacija za i iteracija. 3.5 Padéove iteracije Definicija 3.5 Za skalarnu funkciju f(x), racionalna funkcija dva polinoma p i q r km (x) = p km(x), k deg(p), a m deg(q) je [k/m] Padéova aproksimacija funkcije f q km (x) ako: r km R k,m = { racionalne funkcije f g : deg(f) k, deg(g) m} 45
q km (0) = ) f(x) r km (x) = O (x k+m+ Za kompleksni broj koji nije na imaginarnoj osi z iz Poglavlja 3. i (3.4) znamo: sign(z) = z z = = {ξ := z z } = (z ) ( ( z )) ( ξ) Definiramo funkciju: h(ξ) := ( ξ) Funkcija h je specijalani slučaj hipergeometrijske funkcije, pa imaju smisla Padéove aproksimacije funkcije h: r lm (ξ) = p lm(ξ) q lm (ξ) Kenney i Laub su imali ideju definirati familiju iteracija ako stavimo z = x k, tj. ξ = x k : x k+ = f lm (x k ) := x k p lm ( x k ) q lm ( x k ), x 0 = a Pomoću tog rezultata, definiramo Padéove iteracije matrica: X k+ = X k p lm (I X k ) q lm (I X k ), X 0 = A (3.8) Teorem 3.6 Neka matrica A C n n nema svojstvene vrijednosti na imaginarnoj osi. Uzimajući u obzir Padéove iteracije (3.8) uz l + m > 0 i bilo koju konzistentnu matričnu normu vrijedi:. Za l m, ako je I A <, onda lim k X k = sign(a) i I X k < I A (l+m+)k.. Za l = m i l = m, S := sign(a), (S X k )(S + X k ) = ((S A)(S + A) ) (l+m+)k pa je lim X k = S. k Gornji teorem o konvergenciji govori da je konvergencija u () globalna, dok je u slučaju () lokalna. Brzina konvergencije je stupnja l + m + u oba slučaja. Iteracije u slučaju () se nazivaju osnovne Padéove iteracije. 46