MARKETINŠKO ISTRAŽIVANJE Faktorska analiza i analiza skupina 2 Tehnike analize međuzavisnosti Faktorska analiza i analiza skupina se nazivaju tehnikama analize međuzavisnosti, jer analiziraju zavisnost koja postoji između pitanja, varijabli ili predmeta posmatranja Faktorskom analizom se kombinuju pitanja ili varijable kako bi se formirale nove varijable faktori Analizom skupina se jedinice posmatranja kombinuju kako bi se formirale nove grupe Osnovni cilj je isti - razumevanje suštinskih koncepata koji leže u osnovi pitanja, varijabli ili objekata, kao i da se oni prekombinuju u nove varijable ili grupe. IX.3. Faktorska analiza 3 4 1
Tehnike za analizu podataka Multivarijacione tehnike Univarijacione tehnike Posmatra se samo jedna promenljiva Posmatra se više promenljivih istovremeno Multivarijacione tehnike 5 Jedna zavisna varijabla Tehnike zavisnosti - ANOVA i ANCOVA - Višestruka regresija - Diskriminaciona anal. - Analiza združenih efekata Novembar 2017 Više zavisnih varijabli - MANOVA i MANCOVA - Kanonička korelacija Tehnike međuzavisnosti Fokus na varijablama - Faktorska analiza Fokus na predmetima posmatranja - Analiza skupina - Višedimenzionalno skaliranje 6 Šta je faktorska analiza? Faktorska analiza je tehnika kojom se originalne varijable transformišu u manji broj novih, međusobno nekoreliranih varijabli koje nazivamo faktorima; Pri tome je važno da ti faktori: Sačuvaju što je moguće više informacija iz originalnih varijabli, ali i da Imaju smisleno značenje i budu jednostavni za analizu; Varijansa faktora je mera količine informacija koju on nosi. Dve svrhe faktorske analize Visoka korelacija među promenljivim govori da iza podataka leže neki nemerljivi faktori Ili postoji neki koncept koji se ne može opisati Upravo time se bavi faktorska analiza, čije su dve osnovne svrhe: 1.Redukcija podataka, tj. da se sa što manjim brojem varijabli (faktora) najbolje opiše što veći deo varijabiliteta posmatranih promenljivih; 2.Otkrivanje nemerljivih faktora koji se kriju iza skupa inicijalnih promenljivih. 7 8 2
Metodologija Dve najčešće korišćene procedure faktorske analize su: 1. Analiza glavnih komponenata, koja se koristi kada je cilj da se informacije iz većeg broja varijabli prenesu na manji broj dimenzija (faktora). Ona se zasniva na informacijama o ukupnom varijabilitetu svih varijabli 2. Analiza zajedničkih faktora, koja se koristi kada se žele otkriti nepoznati, osnovni koncepti (dimenzije) koji suštinski određuju originalne varijable. Ona se zasniva na zajedničkim varijabilitetima svih varijabli. 9 Šta je faktor? U faktorskoj analizi faktor je varijabla koja bi trebalo da objašnjava ili da je uzročno povezana sa originalnom promenljivom; Faktor se ne može meriti direktno, već preko opserviranih originalnih varijabli Faktor je linearna kombinacija inicijalnih varijabli: F j = b j1 x s1 + b j2 x s2 +...+ b jk x sk, gde je F j standardizovani faktorski skor za j-ti faktor Faktorski skor je vrednost faktora za svaku konkretnu jedinica posmatranja. 10 Primer sa 5 inicijalnih varijabli x 1 = l 11 F 1 + l 12 F 2 +... + l 15 F 5 + e 1 x 2 = l 21 F 1 + l 22 F 2 +... + l 25 F 5 + e 2... x 5 = l 51 F 1 + l 52 F 2 +... + l 55 F 5 + e 5 x 1 do x 5 su standardizovane inicijalne varijable, F 1 do F 5 su standardizovani faktorski skorovi, l 11, l 12,... l 55 su faktorska opterećenja, a e 1 do e 5 su greške modela. Faktorska opterećenja predstavljaju korelacije između faktora i varijabli. Analiza glavnih komponenata 11 12 3
Analiza glavnih komponenata Tehnika koja postoji nezavisno od faktorske analize, ali često i prvi korak u faktorskoj analizi, Procedura, u kratkim crtama: Faktori se uređuju po opadajućoj vrednosti varijanse, Prvi faktor (prva glavna komponenta) i njegova opterećenja se biraju tako da se objasni najveći deo varijabiliteta (najveća varijansa), Istim metodom se bira druga glavna komponenta, Postupak se ponavlja sve dok se ne nađe onoliko faktora koliko ima originalnih varijabli, ili primenom drugog pravila/kriterijuma za broj faktora. Geometrijski prikaz za dve inicijalne varijable Dvodimenzionalni slučaj: dve varijable i dva faktora Jedinice posmatranja su prikazane na grafiku u odnosu na varijable X 1 i X 2 Faktorskom analizom se određuju faktori F 1 i F 2 Faktor 1 (prva glavna komponenta, prvi glavni faktor) se određuje tako da obuhvati najveći deo informacija o udaljenosti između tačaka Faktor 2 obuhvata odstupanja od ose F 1 koja njome nisu objašnjena i pod normalnim uglom je u odnosu na F 1 Sada se sve jedinice posmatranja mogu predstaviti preko dve nove dimenzije, F 1 i F 2. 13 14 X 2 Jedinica posmatranja 7 Kada ima više od dve inicijalne varijable Koordinata jedinice posmatranja 7 na faktoru 2, t.j. faktorski skor jedinice 7 na faktoru 2 X 7,2 X 7,1 X 1 Koordinata jedinice posmatranja 7 na faktoru 1, t.j. faktorski skor jedinice 7 na faktoru 1 Kada postoji više varijabli, traži se i više faktora Ukupno se može naći onoliko faktora koliki je broj inicijalnih varijabli Postupak je isti kao što je prethodno objašnjeno, a faktori su ortogonalni jedni na druge Kada se postupak završi, t.j. metodom glavnih komponenata pronađeni su svi faktori, oni se mogu rotirati primenom jedne od mnogih rotacionih shema, kao što je varimax rotacija. 16 4
Koliko faktora i koje faktore treba uključiti? Faktore je moguće naći sve dok njihov broj ne dostigne broj inicijalnih varijabli Koji broj faktora treba uključiti? Iskustvena pravila: Svi uključeni faktori (pre rotacije) moraju da objasne bar toliko varijabiliteta koliko jedna prosečna varijabla Identifikovati dva faktora između kojih dolazi do značajnog pada u prirastu objašnjenog varijabiliteta Formiranje faktora zaustaviti kada faktori više nemaju smisla. U nekom trenutku bi faktori sa manjim varijabilitetom mogli da se tretiraju kao slučajna komponenta (e i), pa se neće ni interpretirati. 17 Kriterijum karakteristične vrednosti Karakteristična vrednost kovarijacione (korelacione) matrice je varijansa odgovarajućeg faktora Varijansa (karakteristična vrednost) nekog faktora je jednaka zbiru kvadrata njegovih faktorskih opterećenja u odnosu na sve inicijalne varijable (koje su standardizovane) Ako je karakteristična vrednost faktora manja od 1, onda taj faktor objašnjava manje varijabiliteta od inicijalne varijable Dakle, onda bi bolje bilo koristiti incijalnu varijablu Kriterijum karakteristične vrednosti zadržava se onaj faktor čija je karakteristična vrednost veća od 1. 18 Ostali kriterijumi za određivanje broja faktora Kriterijum na bazi dijagrama osipanja Dijagram osipanja je grafikon karakterističnih vrednosti, t.j. varijansi faktora, organizovan redom kojim su faktori formirani Eksperimentalni dokazi ukazuju da tačka u kojoj blago osipanje počinje, određuje pravi broj faktora Kriterijum procentualnog učešća varijabiliteta Određeno je kumulativno procentualno učešće varijabiliteta Kriterijum testa značajnosti Zadržati samo one faktore čije su varijanse statistički značajne (problem su veliki uzorci gde je puno faktora značajno iako objašnjavaju samo mali deo uk. varijabiliteta). 19 Faktorski skorovi Iako se ne može opservirati, faktor je ipak varijabla Vrednost svakog faktora za svaku jedinicu posmatranja predstavlja njen faktorski skor Faktor je izvedena varijabla koja se može predstaviti F j = b j1 x s1 + b j2 x s2 +...+ b jk x sk, gde je F j standardizovani faktorski skor za j-ti faktor b j koeficijenti standardizovanih faktorskih skorova x sk k-ta varijabla (standardizovana) Dalje se umesto inicijalnih varijabli koriste samo faktorski skorovi, kojih je manje i mogu se tumačiti. 20 5
Objašnjen varijabilitet Procentualno učešće objašnjenog varijabiliteta pokazuje koliko od ukupnog originalnog varijabiliteta svih inicijalnih varijabli objašnjava određeni faktor; Procentualno učešće objašnjenog varijabiliteta je proporcionalno zbiru kvadrata opterećenja datog faktora; Procenat objašnjenog varijabiliteta delimično zavisi od broja varijabli po kojima faktor ima velika opterećenja. Rotacija faktora Faktorskom analizom se može generisati više rešenja, u smislu opterećenja i faktorskih skorova Svako moguće rešenje tada ima svoj naziv kao određena rotacija faktora Svaki put kada se faktori rotiraju, menjaju se opterećenja, ali i interpretacija samih faktora Cilj je naći rotaciju koja istovremeno daje i jasniju interpretaciju faktora. 21 22 Metode rotacije faktora Primer inicijalnog rešenja (5 varijabli, 2 zadržana faktora) Varimax rotacija (ortogonalna) Cilj je da svaki faktor postigne veliko opterećenje (1 ili skoro 1) za manji broj varijabli i malo opterećenje (blizu 0) za ostale varijable, kako bi se što lakše interpretirali rezultujući faktori; Ukupan objašnjen varijabilitet ostaje isti, ali prvi rotirani faktor više ne mora objašnjavati maksimum varijabiliteta. Promax rotacija (neortogonalna) Faktori se rotiraju radi boljeg tumačenja ali tako da se ortogonalnost više ne zadržava. 23 24 6
Primer rotiranog rešenja (5 varijabli, 2 zadržana faktora) Kako se smanjuje broj varijabli? 1. Odaberite jednu, dve ili tri inicijalne varijable koje će predstaviti svaki faktor. Njih treba odabrati na bazi faktorskih opterećenja i subjektivne odluke o njihovoj upotrebljivosti i validnosti 2. Umesto originalnih inicijalnih varijabli nadalje se analiziraju samo faktorski skorovi u nižedimenzionom prostoru od inicijalnog (pod uslovom da imaju smislenu interpretaciju). 25 26 Zadatak Sakupljeno je 19 izjava iz fokus-grupe studenata; izjave se odnose na stavove studenata o društvenoj mreži Fejsbuk Na osnovu ovih izjava sastavljen je upitnik kojim se ispituju mišljenja studenata o ovim stavovima Pitanja su sa zatvorenim ponuđenim odgovorima: stepen slaganja sa navedenim stavom dat na skali od 1-5 Od navedenih 19 izjava treba izabrati manji skup onih koje najbolje odražavaju stavove studenata 27 Stavovi 1 Često mi se dešava da na Fejsbuku provedem i više od tri sata u kontinuitetu. 2 Kada se osećam usamljenim odlazim na Fejsbuk. 3 Provodim više vremena na Fejsbuku nego učeći/ radeći. 4 Od kada sam na Fejsbuku moje ocene/ uspesi na poslu su manje. 5 Dešava mi se da zarad dužeg boravka na Fejsbuku spavam znatno manje nego uobičajeno. 6 Osećam da je komunikacija preko Fejsbuka puna stereotipa i pretvaranja. 7 Ponekad sam toliko zaokupljen aktivnostima na Fejsbuku da zaboravim da jedem. 28 7
Stavovi (nastavak) 8 Fejsbuk je moja obaveza koja mi prija. 9 Inicirao sam susret sa osobom koju sam upoznao preko Fejsbuka. 10 Imam jak osećaj zajedništva sa ljudima koje sam upoznao preko Fejsbuka. 11 Preko interneta sam upoznao osobu sa kojom sam bio ili sam još uvek u bliskoj vezi. 12 Imam osećaj da se ljudi na Fejsbuku pretvaraju da su drugaciji nego što jesu. 13 Brišem sa liste svojih virtuelnih prijatelja one sa kojima gotovo uopšte ne komuniciram. 14 Ponekad imam utisak da živim dva života: jedan pravi i jedan virtuelni. 29 Stavovi (nastavak) 15 Veoma vodim računa o tome ko ćemi biti medu prijateljima ("friends"). 16 Volim da flertujem preko Fejsbuka. 17 Neprijatno mi je da se poveravam nekome sa interneta, pošto ne mogu da budem siguran u to što znam o njemu. 18 Rastužim se kada vidim da je neko od mojih virtuelnih prijatelja "ugasio" svoj profil. 19 "Ulepšavao" sam neke informacije o sebi u komunikaciji na Fejsbuku da bih osvojio simpatije. 30 Glavne komponente na primeru 1. Proveriti da li ima smisla sprovoditi analizu Koriste se Kajzer-Majer-Olkinova ocena zajedničkog varijabiliteta i Bartletov test; 2. Sprovesti analizu glavnih komponenti; 3. Odlučiti koliko glavnih komponenti treba zadržati; 4. Rotacija i tumačenje glavnih komponenti 1. Da li zajednički faktori uopšte postoje? Kajzer-Majer-Olkinova ocena, KMO, pokazuje proporciju varijabiliteta originalnih varijabli koja se može objasniti potencijalnim zajedničkim faktorima; Obično se za granicu uzima 0,5 pa kažemo da, ako je ova proporcija veća od 50% onda ima smisla sprovesti analizu glavnih komponenti; Bartletov test se koristi da se testira nulta hipoteza da je korelaciona matrica originalnih varijabli jedinična matrica, t.j. proveravamo da li su originalne varijable apsolutno nekorelisane između sebe; Ako se odbaci nulta hipoteza, možemo ići dalje u analizu 31 32 8
Bartletov test KMO i Bartletov test Vrednost KMO ocene 2. Sprovođenje analize Vrednost KMO od 0,575 je veća od granične vrednosti, 0,5; p-vrednost Bartletovog testa iznosi 0, pa se odbacuje nulta hipoteza o nepostojanju korelisanosti među originalnim varijablama; Možemo nastaviti sa daljom analizom Faktora ukupno ima onoliko koliko i originalnih varijabli, 19; Izlazna tabela dobijena analizom na SPSSpaketu ima 19 faktora, ali je navedeno samo 11 usled nedostatka prostora; U daljoj analizi nas zanimaju samo oni koje ćemo zadržati, oni koje smatramo značajnim 33 34 3. Koliko glavnih komponenti treba zadržati? Kriterijum karateristične vrednosti: zadržati one faktore čija je karakteristična vrednost veća od 1 (takvih u ovom primeru ima 6) Kriterijum na bazi dijagrama osipanja: Izabrati one faktore posle kojih na dijagramu dolazi do blagog osipanja Kriterijum procentualnog učešća varijabiliteta: Izabrane glavne komponente bi trebalo da ukupno objašnjavaju ne manje od 70% ukupnog varijabiliteta 35 36 9
Dijagram osipanja 4. Rotacija i tumačenje glavnih komponenti Faktorska opterećenja su (prosti) koeficijenti korelacije komponenti sa (standardizovanim) inicijalnim varijablama Oni pokazuju koje varijable najbolje reprezentuje koja novoformirana glavna komponenta Rotacija se koristi, po potrebi, kako bi dobijeno rešenje imalo što smisleniju interpretaciju (cilj je da svaka glavna koponenta faktor bude visoko korelisan sa što manjim brojem inicijalnih varijabli) 37 38 Ekstrahovana suma kvadratnih opterećenja Nerotirane i rotirane glavne komponente Rotirana suma kvadratnih opterećenja 39 40 10
41 42 Za dalje istraživanje biramo sledeća pitanja: 1. Često mi se dešava da na Fejsbuku provedem i više od tri sata u kontinuitetu; 19. "Ulepšavao" sam neke informacije o sebi u komunikaciji na Fejsbuku da bih osvojio simpatije; 11. Preko interneta sam upoznao osobu sa kojom sam bio ili sam još uvek u bliskoj vezi; 12. Imam osećaj da se ljudi na Fejsbuku pretvaraju da su drugaciji nego što jesu; 18. Rastužim se kada vidim da je neko od mojih virtuelnih prijatelja "ugasio" svoj profil; 13. Brišem sa liste svojih virtuelnih prijatelja one sa kojima gotovo uopšte ne komuniciram. Ove izjave su izabrane zato što imaju najveća faktorska opterećenja kod zadržanih glavnih komponenata; Alternativno rešenje bi bilo da umesto postojećih pitanja koristimo neka nova, koja proizilaze iz interpretacije svake od 6 odabranih glavnih komponenti 43 44 11
Analiza zajedničkih faktora Analiza zajedničkih faktora Koristi se da se otkriju dimenzije (faktori) koji suštinski opisuju određene varijable; Procedura je slična kao kod analize glavnih komponenata, ali se ne koristi korelaciona matrica već komunaliteti; Ovo stoga što je ova procedura okrenuta ka varijabilitetu objašnjenom faktorima koji su zajednički za sve varijable. 45 46 Komunaliteti Glavne komponente vs. zajednički faktori Iznos varijabiliteta neke varijable koji je objašnjen faktorima predstavlja njen komunalitet: Komunalitet je deo varijabiliteta koji se objašnjava odabranim brojem faktora zajedničkih za sve varijable, a koji najviše doprinose međusobnim korelacijama (odnosno kovarijansama) izvornih varijabli; Komunalitet varijable je jednak zbiru kvadrata faktorskih opterećenja te varijable. Svaka glavna komponenta može egzaktno izraziti kao linerana kombinacija svih varijabli; Kod analize zajedničkih faktora se svaka varijabla može izraziti kao linearna kombinacija svih nemerljivih faktora i specifičnih varijabiliteta (koje takođe ne opažamo), tj: Komunalitet je deo varijabiliteta koji se objašnjava odabranim brojem faktora zajedničkih za sve varijable, a koji ujedno najviše doprinose međusobnim korelacijama originalnih varijabli; Kod analize zajedničkih faktora, za razliku od glavnih komponenata, neophodno je unapred znati koliko glavnih komponenti treba zadržati. 47 48 12
Primer Potrebno je naći zajedničke faktore koji stoje iza stavova ispitanika o sledećim pitanjima: Životni standard će se povećati ulaskom u EU. Pridruživanjem Srbije EU lakše će se prebroditi naša tekuća kriza. Ulaskom Srbije u EU nezaposlenost će se smanjiti. Pravosudni sistem će funkcionisati bolje ulaskom Srbije u EU. Svetska kriza će biti još dublja u 2012. godini. Kriza u Srbiji će biti dublja u 2012. godini. Zajednički faktori na primeru 1. Proveriti da li ima smisla sprovoditi analizu Opet se koriste Kajzer-Majer-Olkinova ocena zajedničkog varijabiliteta i Bartletov test 2. Računanje inicijalnih komunaliteta Pokazuju koliko varijabiliteta svaka varijabla deli sa ostalim 3. Računanje ekstrahovanih komunaliteta Ocenjeni varijabilitet varijabli koji se može objasniti ekstrahovanim faktorima. U principu ne bi trebalo da budu niži od 0,3 49 50 1. KMO i Bartletov test Inicijalni komunaliteti Vrednost KMO od 0,706 je veća od granične vrednosti, 0,5; p-vrednost Bartletovog testa iznosi 0, pa se odbacuje nulta hipoteza o nepostojanju korelisanosti među originalnim varijablama; Možemo nastaviti sa daljom analizom 51 52 13
Primena analize glavnih komponenata Dijagram osipanja za glavne komponente Prve dve glavne komponente objašnjavaju 70% ukupnog varijabiliteta; sličan zaključak sledi iz dijagrama osipanja 53 54 Ekstrahovani komunaliteti Karakteristične vrednosti 55 56 14
Nerotirano rešenje Matrica nerotiranih faktorskih opterecenja 57 58 Rotirano rešenje Matrica rotiranih faktorskih opterecenja 59 60 15