Istraživačka analiza i model logističke regresije aktivnosti u LMS sustavu M. Matetic*, J. Canic* and M. Brkic Bakaric* * University of Rijeka, Department of Informatics, Rijeka, Croatia majam@inf.uniri.hr, josip.canic@uniri.hr, mbrkic@inf.uniri.hr Sažetak - Vrijedan resurs koji se generira u okviru sustava za e-učenje su podaci koji se bilježe i iz kojih analizom možemo otkriti zanimljivo i novo ekspertno znanje o ponašanju i aktivnosti studenata pri korištenju samog sustava u procesu učenja. Primjerice, otkrivanje atipičnih ponašanja i karakterističnih tipova modela ponašanja studenata je temelj za slanje poruka studentima da bi na vrijeme dobili korisnu informaciju o svojem napretku i uspjehu u učenju. Naime, nisu samo bodovi iz raznih provjera i zadaća na kojima se direktno temelji ocjena bitni za konačni uspjeh. Podaci sustava za e-učenje sadrže znanje o aktivnostima kao što je primjerice gledanje video lekcija, odgovaranje na pitanja u samoprovjerama i druge aktivnosti temeljene na suvremenim edukativnim smjernicama koje se ne boduju. Te su aktivnosti izvrsni pokazatelji na temelju kojih se u svakom trenutku može predvidjeti u značajnoj mjeri i konačan uspjeh studenta. U radu se bavimo otkrivanjem znanja o takvim aktivnostima podatkovnom analizom izvedenom istraživačkom analizom podataka i logističkom regresijom u okviru e-kolegija Programiranje 2 Odjela za informatiku Sveučilišta u Rijeci. Ključne riječi dubinska analiza podataka; logistička regresija; Moodle; istraživačka analiza podataka I. UVOD Za generaciju Z koja je već prisutna na svim razinama obrazovanja važno je da se aktivnosti i sadržaji e-učenja temelje na novim tehnologijama s kojima je ta generacija odrasla, a koje omogućavaju dinamično i mobilno učenje [1]. U radu se bavimo procjenom značenja dodatnih aktivnosti i sadržaja u LMS sustavu (engl. Learning Management System) koje se ne boduju već imaju zadatak omogućiti studentu učenje na prihvatljiviji, personalizirani i mobilni način neovisno o računalnoj platformi, vremenu i mjestu učenja. Proces učenja u sustavu e-učenja ostavlja svoj trag u podacima koji se bilježe i skrivaju vrijedne informacije koje mogu obogatiti ekspertizu nastavnika i pružiti korisne povratne informacije studentu. Dubinska analiza podataka na području edukacije već je više od dva desetljeća vrlo aktivno područje istraživanja u nastojanjima da se otkriju nova i korisna znanja i podigne kvaliteta procesa učenja [2, 3]. U radu predstavljamo istraživanje u okviru predmeta Programiranje 2 na Odjelu za informatiku Sveučilišta u Rijeci. Predmet je oblikovan u okviru sveučilišne Moodle Istraživanje je financirano iz projekta br. uniri-drustv-18-122 i potpore 17.14.2.2.01. Sveučilišta u Rijeci. platforme za e-učenje. Istraživanje se nastavlja na prethodno istraživanje opisano u [4, 5, 6]. Početni uvid u karakteristike skupa podataka stječemo istraživačkom analizom podataka, posebno raznim metodama vizualizacije podataka. U nastavku analize primjenjujemo model logističke regresije kao tip modela koji omogućava uz relativno zadovoljavajuću točnost predviđanja i interpretaciju modela, te se često koristi u analizi podataka u području edukacije. Istražujemo hipotezu da gledanje video lekcija i samoprovjere, tj. dodatne aktivnosti na predmetu koje se ne boduju, imaju značenje za predviđanje uspjeha studenta na predmetu. Rad je organiziran na sljedeći način. U drugom poglavlju dan je pregled područja istraživanja problema kojim se bavimo. U poglavlju tri predstavljen je skup podataka i metode koje koristimo u analizi online aktivnosti studenta. U četvrtom poglavlju dana je diskusija rezultata, te zaključujemo sa smjernicama za budući rad. II. PREGLED ISTRAŽIVANJA Najuspješniji postupci dubinske analize podataka na području edukacije su vizualizacija, grupiranje, klasifikacija i učenje asocijacijskih pravila. Ovim postupcima se otkriva novo, zanimljivo i korisno znanje analizom podatkovnog traga koji su studenti proizveli u aktivnostima procesa učenja [7]. Problemi i zadaci kojim se dubinska analiza bavi su uspjeh studenta, unaprjeđenje predmeta, preporuke u procesu učenja, prilagodba sadržaja na temelju ponašanja studenta, povratna informacija namijenjena nastavniku i studentu te detekcija atipičnih ponašanja studenata vezano uz učenje. Veliki broj radova koji primjenjuje dubinsku analizu podataka na području edukacije bavi se predviđanjem uspjeha studenata na temelju različitih značajki skupa podataka. U [8] autori koriste logističku regresiju za predviđanje odustajanja studenata od studija. U drugom istraživanju predstavlja se studija složenih odnosa između nekoliko ulaznih varijabli koje predstavljaju aktivnosti individualnog online učenja i njihov učinak (video lekcije, broj pogleda na materijale za učenje, odgovaranje na pitanja s više točnih odgovora i sl.) [9]. U [10] autori razmatraju rezultate tri različite metode predviđanja logističke regresije, višeslojnog perceptrona i neuronske mreže koja se temelji na vjerojatnosti u predviđanju, u predviđanju odustajanja studenata od studija. U pristupu [11] se koristi model predikcije za MIPRO 2019/CE 599
preporučivanje predmeta prve godine studija pri čemu najbolji rezultat daju metode slučajne šume i logistička regresija. III. OPIS SKUPA PODATAKA, PROBLEM I METODE A. Skup podataka i problem Podaci koje analiziramo prikupljeni su u okviru predmeta Programiranje 2 u procesu učenja u interakciji sa Moodle sustavom. Skup podataka sadrži 77 instance i predstavljen je sa 14 atributa. Tablica 1 daje opis pojedinih značajki čije vrijednosti su karakteristične za pojedine instance. U radu istražujemo značaj koji pojedina značajka (ulazna varijabla ili prediktor) ima na konačnu ocjenu (izlazna varijabla odnosno značajka grade). B. Istraživačka analiza podataka U istraživačkoj analizi podataka dobivamo prvi uvid u podatke vizualizacijama i tablicama koji često otkrivaju važne odnose i daju smjernice za istraživanje [12]. C. Logistička regresija Logistička regresija se tipično koristi uz kategorijsku binarnu varijablu odgovora. Zbog toga se često koristi kao postupak klasifikacije. Kako logistička regresija previđa vjerojatnost klase, možemo o njoj razmišljati i kao o postupku regresije [13]. U skupu podataka EDU77 varijabla izlaza grade može poprimiti jednu od dvije vrijednosti: PASS ili FAIL. Umjesto da se direktno modelira odgovor Y, logistička regresija modelira vjerojatnost da Y pripada određenoj kategoriji. Za skup podataka EDU77 logistička regresija modelira vjerojatnost za grade. Primjerice, vjerojatnost varijable grade za danu vrijednost ulazne varijable videos pišemo Pr(grade = PASS videos). Vrijednosti za Pr(grade = PASS videos), što možemo kraće pisati kao p(videos), imat će raspon između 0 i 1. Za bilo koju danu vrijednost varijable videos može se izvršiti predviđanje za grade. Primjerice, možemo definirati predviđanje grade = PASS za studenta za kojega je p(videos) > 0.5. Ako želimo biti oprezni u predviđanju uspjeha studenta jer ipak kod tog odabira postoji i određeni rizik da neće položiti predmet, tada se možemo odlučiti za viši prag, primjerice p(videos) > 0.8. Kako bi trebali modelirati odnos između p(x) = Pr(Y = PASS X) i X? Za modeliranje p(x) moramo koristiti funkciju koja na izlazu daje vrijednost između 0 i 1 za sve vrijednosti X. Taj uvjet zadovoljava veći broj funkcija. U logističkoj regresiji koristimo logističku funkciju (1). p(x) 1 p(x) = eβ 0+β 1 X (1) Izračun logaritma za lijevu i desnu stranu jednadžbe daje oblik jednadžbe čiji član na lijevoj strani zovemo logit funkcija ili logaritam omjera šansi (engl. log-odds) i linearno je zavisan o X (2). log ( p(x) 1 p(x) ) = β 0 + β 1 X (2) TABLICA I. ZNAČAJKE SKUPA PODATAKA I NJIHOV OPIS ID Značajka Opis 1 lectures 2 quizzes 3 labs Za učenje modela koristi se postupak najveće vjerodostojnosti (engl. maximum likelihood) [13]. IV. Ukupni broj bodova za aktivnost na predavanju (0-7 + bonus do 12) Ukupni broj bodova na online provjerama (0-36) Ukupni broj bodova na vježbama (0-57) 4 videos Ukupni broj gledanja video lekcija 5 selfassesm 6 grade 7 red 8 stog 9 dinamicko 10 kruzna 11 stabla1 12 stabla2 13 demons 14 forum Ukupni broj klikova u okviru aktivnosti samoprovjera (odgovaranje na pitanja sa više ponuđenih odgovora) Uspjeh studenta na predmetu (PASS/FAIL) Red najmanje jednom, inače 0 Stog najmanje jednom, inače 0 Dinamičko programiranje najmanje jednom, inače 0 Kruzna lista najmanje jednom, inače 0 Uvod u stabla 1 najmanje jednom, inače 0 Uvod u stabla 2 najmanje jednom, inače 0 ako je student pristupio demonstraturama, inače 0 ako je student pristupio forumu najmanje jednom, inače 0 REZULTATI A. Istraživačka analiza podataka Slika 1 prikazuje prvih deset instanci skupa podataka EDU77. Za vizualizaciju koristimo generičke R funkcije i R pakete ggplot2 i corrplot (verzija 3.1.0 i verzija 0.84) [14]. Slika 2 prikazuje korelacije značajki skupa podataka na temelju koda na slici 3. Pozitivne korelacije su prikazane plavom, a negativne crvenom bojom. Aktivnosti koje se boduju labs, quizzes i lectures su u većoj korelaciji s grade, a i međusobna korelacija im je značajna. Na temelju aktivnosti videos i selfassesm čije značenje istražujemo se može predvidjeti izlazna varijabla grade sa većom točnosti nego na temelju primjerice značajki forum, stog ili dinamicko. Problem za učenje modela logističke regresije predstavlja korelacija između pojedinih prediktora, jer takve redundantne informacije smanjuju kvalitetu naučenog modela. 600 MIPRO 2019/CE
Slika 1. Prvih deset instanci skupa podataka EDU77 Slika 2. Korelacija značajki skupa podataka. Značajke koje boduju labs, quizzes i lectures imaju veću korelaciju sa varijablom izlaza grade. Značajke videos i selfassesm slabo koreliraju sa aktivnostima koje se boduju, a ipak imaju veću korelaciju sa grade nego primjerice stabla2. library(corrplot) M <- cor(edu77) corrplot(m, method = "number") Slika 3. Kod za prikaz korelacije značajki Iz dijagrama s pravokutnikom (Slika 4) uočavamo da se na temelju prediktora labs može sa velikom sigurnošću predvidjeti vrijednost za grade, što nije slučaj sa prediktorima videos i selfasessm. Za prediktore videos i selfassesm možemo uočiti anomalije koje se očituju u gledanju video lekcija više od 30 puta odnosno više od 400 klikova u aktivnosti selfassem (Slike 4 i 5). Na dijagramima raspršenja prikazani su odnosi parova prediktora uz prikaz vrijednosti izlazne varijable grade (crveni trokuti označavaju vrijednost PASS, a plavi krugovi označavaju FAIL) (Slika 6). Vizualizacije dostupnih podataka mogu i za vrijeme izvođenja predmeta pomoći u ocjeni ponašanja studenata, a logističkim modelom moglo bi se uz određenu točnost predvidjeti vrijednost varijable grade u svakom trenutku. MIPRO 2019/CE 601
Slika 4. Dijagrami s pravokutnikom prikazuju medijan, udio instanci u kvartilima i anomalije za vrijednosti PASS i FAIL za značajke labs, videos, selfassesm i quizzes Slika 5. Histogrami prikazuju frekvenciju značajki videos i selfassesment i otkrivaju anomalije: više od 25 puta pogledane video lekcije, više od 400 klikova u okviru samoprovjera 602 MIPRO 2019/CE
Slika 6. Dijagrami raspršenja prikazuju parove značajki uz prikaz izlazne varijable grade (crveni trokuti PASS, plavi krugovi - FAIL ) B. Logistička regresija Za učenje modela logističke regresije koristimo funkciju glm() za učenje općeg linearnog modela uz vrijednost parametra family=binomial (inače bi funkcija izvodila linearnu regresiju). Korelacija značajki skupa podataka je za određene skupove značajki prevelika da bi ih sve uključili u logistički model, jer bi njihova korelacija smanjila kvalitetu modela [13]. Isključivanjem značajke labs koja najviše korelira sa ostalim značajkama smanjit ćemo taj negativni učinak. Uz učenje modela logističke regresije izvodimo i evaluaciju modela logističke regresije postupkom unakrsnog vrednovanja pri čemu koristimo funkciju cv.glm() definiranu u R paketu boot (version 1.3-20) [15]. Postupak izvodimo za k=10 preklapanja. Inicijaliziramo generator slučajnih brojeva i vektor u koje će se pohraniti pogreške iz pojedinih iteracija vrednovanja modela (Slika 7). Slika 8 prikazuje pogreške za svih 10 iteracija postupka unakrsnog vrednovanja i konačnu pogrešku. Model logističke regresije naučen na skupu podataka EDU77 ima točnost 80%. Postupkom najveće vjerodostojnosti (engl. maximum likelihood) procijenjeni su koeficijenti β0 i β1 logističkog modela (2). Tablica II prikazuje procjenu koeficijenata i dodatne informacije o modelu logističke regresije za skup podataka EDU77. Zadatak modela je predviđanje vjerojatnosti za grade=pass na temelju navedenih prediktora: forum + videos + selfassesm + stabla1 + stabla2 + stog + red + kruzna + dinamicko. Prema stupnju značajnosti za zadatak predviđanja, model je ulazne značajke označio sa dvije i jednom zvjezdicom te točkom. F2=function() { set.seed(15) cv.error.10=rep(0,10) for (i in 1:10){ glm.fit=glm(grade ~ forum + videos + selfassesm + stabla1 + stabla2 + stog + red + kruzna + dinamicko, data = edu77, family = "binomial") cv.error.10[i]=cv.glm(edu77,glm.fit,k=10)$delta[1] } print(cv.error.10) print("prosjek greške: ") mean(cv.error.10) } summary(glm.fit) Slika 7. Učenje modela logističke regresije za skup podataka EDU77 uz izračun točnosti modela > print(cv.error.10) [1] 0.2046300 0.1978820 0.1916990 0.2035030 0.1997910 0.2177027 [7] 0.1876707 0.2075789 0.1875771 0.2107466 > mean(cv.error.10) [1] 0.2008781 Slika 8. Pogreška modela računa se unakrsnim vrednovanjem Gledanje video lekcija i samoprovjera su statistički značajni čime smo potvrdili hipotezu o njihovoj važnosti. Značajnije su od svih ostalih značajki koje predstavljaju aktivnosti predmeta koje se ne boduju (osim stabla2, dakle važno je pristupanje materijalima). MIPRO 2019/CE 603
TABLICA II. KARAKTERISTIKE MODELA LOGISTIČKE REGRESIJE D Coefficient Std.Error z value Pr(> z ) (Intercept) -1.613859 0.919375-1.755.07919. forum -1.141128 0.910228-1.254 0.20996 videos 0.079757 0.041039 1.943 0.05196. selfassesm 0.009336 0.002967 3.146 0.00165 ** stabla1-0.142393 0.922034-0.154 0.87727 stabla2 1.814746 0.844896 2.148 0.03172 * stog 1.155727 2.877952 0.402 0.68799 red 0.248721 2.932770 0.085 0.93241 kruzna - 2.265067 1.322486-1.713 0.08676. dinamicko 0.787115 0.976089 0.806 0.42001 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 V. ZAKLJUČAK Istraživačkom analizom podataka potvrđena je važnost dodatnih aktivnosti na predmetu, gledanja video lekcija i samoprovjera u otkrivanju atipičnih ponašanja studenata. Utvrđena je korelacija značajki skupa podataka, koja je u određenoj mjeri pomogla u odabiru značajki za učenje modela logističke regresije. Naučeni model je potvrdio umjereno značenje samoprovjere i gledanja video lekcija te je time početna hipoteza potvrđena. Smjernice za budući rad uključuju primjenu dodatnih postupaka za odabir značajki modela da bi povećali kvalitetu modela. VI. ZAHVALA Istraživanje je financirano iz projekta br. uniri-drustv- 18-122 i potpore 17.14.2.2.01. Sveučilišta u Rijeci. LITERATURA [1] D. Schwieger and Christine Ladwig, Reaching and Retaining the Next Generation: Adapting to the Expectations of Gen Z in the Classroom, Information Systems Education Journal, vol. 16, no. 3, pp. 45, 2018. [2] C. Romero and S. Ventura, Educational data mining: a review of the state of the art, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) vol. 40, no. 6, pp. 601-618, 2010. [3] A. Peña-Ayala, Educational data mining: A survey and a data mining-based analysis of recent works, Expert systems with applications, vol. 41, no. 4, pp. 1432-1462, 2014. [4] M. Matetic, M. Brkic Bakaric, and S. Sisovic, Association rule mining and visualization of introductory programming course activities, in Proceedings of the 16th International Conference on Computer Systems and Technologies, 2015, pp. 374-381. [5] S. Sisovic, M. Matetic, and M. Brkic Bakaric, Clustering of imbalanced moodle data for early alert of student failure, in 2016 IEEE 14th International Symposium on Applied Machine Intelligence and Informatics (SAMI), 2016, pp. 165-170. [6] P. Juric, M. Brkic Bakaric, and M. Matetic, Design and Implementation of Anonymized Social Network-based Mobile Game System for Learning Mathematics, International Journal of Emerging Technologies in Learning (ijet), vol. 13, no. 12, pp. 83-98, 2018. [7] C. Romero, P. Espejo, R. Romero, and S. Ventura, Web usage mining for predicting final marks of students that use Moodle courses, Computer Applications in Engineering Education, vol. 21, no. 1, pp. 135-146, 2013. [8] J. Bainbridge, J. Melitski, A. Zahradnik, E. J. Lauría, S. Jayaprakash, and J. Baron, Using learning analytics to predict atrisk students in online graduate public affairs and administration education, Journal of Public Affairs Education, vol. 21, no. 2 pp. 247-262, 2015. [9] A. Pardo, H. Feifei, and R. A. Ellis, Combining university student self-regulated learning indicators and engagement with online learning events to predict academic performance. IEEE Transactions on Learning Technologies, vol. 10, no. 1, pp. 82-92, 2017. [10] C. Mason, J. Twomey, D. Wright, and L. Whitman, Predicting engineering student attrition risk using a probabilistic neural network and comparing results with a backpropagation neural network and logistic regression, Research in Higher Education, vol. 59, no. 3, pp. 382-400, 2018. [11] A. R. Dalton, J. Beer, and S. Kommanapalli, Machine Learning to Predict College Course Success, SMU Data Science Review, vol. 1, no. 2 pp. 1, 2018. [12] D. T. Larose and C. D. Larose, Discovering knowledge in data: an introduction to data mining. John Wiley & Sons, 2014. [13] J. Gareth, D. Witten, T. Hastie, and R. Tibshirani. An introduction to statistical learning, vol. 112. New York: springer, 2013. [14] https://cran.r-project.org/web/packages/corrplot/index.html, Pristup 23.02.2019. [15] https://cran.r-project.org/web/packages/boot/boot.pdf, Pristup 23.02.2019. 604 MIPRO 2019/CE