10. GODINA HRVATSKOG ARHIVA WEBA Zagreb, 26. rujna 2014. ISKUSTVO ARHIVIRANJA WEBA NARODNE I SVEUČILIŠNE KNJIŽNICE SLOVENIJE Alenka Kavčič-Čolić, alenka.kavcic@nuk.uni-lj.si, Janko Klasinc, janko.klasinc@nuk.uni-lj.si Mitja Kovačič, mitja.kovacic@nuk.uni-lj.si Narodna i sveučilišna knjižnia, Ljubljana, Slovenija
Sadržaj 1. Kratka povijest slovenskog web arhiva 2. Slovenski web arhiv 3. Novosti u razvoju slovenskog web arhiva
1. Kratka povijest slovenskog web arhiva (1/2) 2002.-2004. Nacionalni projekt u suradnji sa Institutom Jožef Stefan (IJS) razvoj WebBirda, alata za prikupljanje weba. 2005.-2006. - europski projekt Web Cultural Heritage (program Culture) definicija kriterija selekcije publikacija na webu. 2005. Prihvaćanje strategije razvoja digitalne knjižnice NUK i osnivanje Jedinice za razvoj i upravljanje digitalne knjižnice.
1. Kratka povijest slovenskog web arhiva (2/2) 2006. prihvaćen Zakon o obveznom primjerku publikacija Krajem 2006. - NUK se je odlučio pridružiti konzorciju IIPC i testirati Heritrix. Tine Musek i Matjaž Kragelj iz NUKa su objavili instalacijski priručnik za Web Curator Tool v. 1.1 za Windowse (Web Curator Tool Installation Guide for Windows) na URL: http://webcurator.sourceforge.net/documentation.shtml/. 1. 4. 2007. - NUK postaje član IIPC 2007. - Matjaž Kragelj i Tine Musek izgrađuju SVAROG sučelje za ručnu predaju elektroničkih publikacija na webu u NUK
2. Slovenski web arhiv NUK je jedina organizacija u Sloveniji, koja sakuplja slovenski web. Kao članica međunarodne organizacije International Internet Preservation Consortium (IIPC) od 2007. godine, sudjeluje sa partnerima prilikom izrade oruđa za prikupljanje i dostup do weba te razmjenjuje iskustva na području preuzimanja građe na webu. Od 2008. godine NUK selektivno preuzima javno dostupne sadržaje na webu iz 12 različitih područja
2.1 Područja selektivnog prikupljanja: 1. Društvo 2. Ekonomija i industrija 3. Humanistika 4. Obrazovanje i istraživanje 5. Društveni mediji 6. Priroda i okolina 7. Prirodoslovlje i tehnologija 8. Slobodno vrijeme, turizam, putovanja 9. Sport i rekreacija 10. Umjetnost i kultura 11. Vlada, politika, pravo 12. Zdravlje i medicina 2012 oblikovan urednički odbor web arhiva NUK
2.2 Slovenski web arhiv danas http://arhiv.nuk.uni-lj.si/
2.3 Statistika slovenskog web arhiva Lipnja 2014. godine je slovenski web arhiv obuhvaćao oko 1138 različitih naslova sa ukupno 70 milijuna web stranica u veličini 10-11 TB. Količina uspješno prikupljene građe u 2013. godini: 2666 GB. Vrijeme korišteno za prikupljanje građe u 2013. godini: 11.578 sati Broj prikupljanja: 2517 Postotak uspješnosti: 77%
Število zajemov 2.4 Rezultati prikupljanja weba 2008.-2013. 3000 2500 2000 1500 1000 500 0 2008 2009 2010 2011 2012 2013 Uspešni zajemi 446 649 1071 1821 1629 1940 Neuspešni zajemi 73 144 386 535 226 577 Izvor: Godišnji izveštaj NUK za 2013. godinu
3. Novosti slovenskog web arhiva 1. Prikupljanje slovenskog Twittera 2. Domensko prikupljanje slovenskog weba 3. Novo sučelje 4. Razvoj prototipa Web Annotatora
3.1 Prikupljanje slovenskog Twittera U početku 2013. godine NUK je započeo preuzimati i zanimljivije stranice sa Twittera (stream feed). Pošto je Twitter, kao i Facebook dio weba 2.0, je njegovo prikupljanje mnogo teže (Java Script). Zato su informatičari NUK razvili posebno oruđe koje omogućuje jednostavnu integraciju sa WebCurator Tool. Oruđe je dostupno sa otvorenim kodom na web portalu GitHub. Trenutno prikupljamo 21 profila Twittera, posebice medijskih kuća, političara, političkih partija i popularnih športaša. Dostupne preko Wayback machine
3.2 Domensko prikupljanje (*.si) Travnja 2014. godine smo započeli sa prikupljanjem građe na webu u okviru domene *.si sa Heritrixom 1.14.4, koji se pokazao boljim rješenjem od NetArchive Suite. URL seeds: 105.000 URL sa domenom *.si (ARNES) 70.000 aktivnih domena, 35.000 bez odziva ping Prioriteta: domene, kojima uskoro istiće vrijeme važnosti (100-200 domena na dan) Prikupljanje do 3. razine u dubinu + ograničenje: 0,5 GB ili 10.000 URL Očekujemo da će trenutno prikupljanje u okviru domene *.si povečati web arhiv NUK za 2 TB
3.3 Novo sučelje slovenskog web arhiva Optimizirana indeksacija dupliciranih stranica i stranica u HTML brže pretraživanje
3.4 Razvoj prototipa: Web annotator U 2013. godini je NUK razvio prototip za širenje sučelja za pretraživanje weba pomoću Wayback machine. Oruđe ima funkcionalnosti weba 2.0 i omogućuje korisnicima dostup do sadržaja weba kao u živom okruženju. Prototip sučelja dodatno dopušta korisnicima dodavanje komentara i metapodataka, označavanje djelova stranica, stvaranje vlastitih tematskih zbirka i kategorizaciju određenih web stranica sa oznakama (tags)
HVALA NA PAŽNJI! PITANJA? Alenka Kavčič-Čolić, alenka.kavcic@nuk.uni-lj.si, Janko Klasinc, janko.klasinc@nuk.uni-lj.si, Mitja Kovačič, mitja.kovacic@nuk.uni-lj.si