Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce) provela je deseto pobiranje (harvestiranje) hrvatske nacionalne internetske domene. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i com.hr.

Od 111.357 aktivnih domena pobiranjem je preuzeto 19 TB sadržaja spremljenog u format WARC. Datoteke u ovom formatu komprimirane su te zauzimaju 11 TB diskovnog prostora, a korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila služba Hrvatske akademske i istraživačke mreže (CARNET) za upravljanje nacionalnom domenom Republike Hrvatske.

Pobiranje je provedeno pomoću alata otvorenog koda Heritrix, a robot koji je provodio pobiranje dolazi s IP adrese 61.53.3.11 i predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.x).

Sadržaji prikupljeni desetim pobiranjem hrvatske nacionalne internetske domene dostupni su na stranicama Hrvatskog arhiva weba, na kojima se mogu pregledavati i sadržaji pohranjeni u prethodnih devet pobiranja, kao i tematske zbirke te sadržaji prikupljeni selektivnim pobiranjima.

U tijeku prikupljanje mrežnih sadržaja o snažnom potresu u Petrinji, Glini i okolici

Budući da Hrvatski arhiv weba izgrađuje tematske zbirke koje brzo nestaju s weba, pokrenuto je i prikupljanje mrežnog sadržaja o potresima na području Sisačko-moslavačke županije.

Posljednjih nekoliko tjedana svjedoci smo silne količine mrežnog sadržaja o potresima u okolici Siska, Petrinje i Gline te njihovim posljedicama na području Sisačko-moslavačke, Karlovačke i Zagrebačke  županije. Internet je postao glavno mjesto pronalaženja korisnih informacija, poput uputa kako sudjelovati u prikupljanju novčanih sredstava za pomoć teško pogođenim područjima, ponude smještaja, hrane, higijenskih potrepština, odjeće i obuće, ali i prijeko potrebne medicinske i psihološke pomoći, govori Inge Rudomino, knjižničarska savjetnica u Hrvatskom arhivu weba, te dodaje kako će rezultati harvestiranja biti dostupni u sklopu tematske zbirke na stranicama HAW-a.

HAW poziva na prikupljanje sadržaja o koronavirusu

Na Hrvatskom arhivu weba do danas je objavljeno 17 tematskih zbirki o aktualnim temama ili događajima od nacionalnog značaja, među njima i tematska zbirka COVID-19.

Hrvatski arhiv weba prikuplja i trajno arhivira mrežne sadržaje o toj temi od početka globalne pandemije koronavirusa (SARS-CoV-2) i bolesti COVID-19. Prvo harvestiranje je provedeno od 15. do 17. svibnja 2020., a drugo od 10. do 14. studenoga 2020. godine i do sada je prikupljeno 4386 URL-ova ukupne veličine 294 GB.

Zbirka sadrži web-stranice i news portale koji pokrivaju teme o podrijetlu koronavirusa, načinu širenju zaraze, svjedočenja oboljelih, službene evidencije o broju žrtava i preporuke liječnika, političara i znanstvenika i stručnjaka. Također, pokriva medicinske, znanstvene, društvene, ekonomske i političke aspekte ove pandemije, objašnjava Inge Rudomino.

Budući da je pandemija bolesti COVID-19 i dalje u tijeku, zbirka će se uskoro proširiti s novim harvestiranjima, a kako bi se što sveobuhvatnije prikupio relevantan sadržaj, iz Hrvatskog arhiva weba pozivaju javnost da šalju svoje prijedloge mrežnih sadržaja putem obrasca dostupnog i na stranicama HAW-a.

Hrvatski arhiv weba dio međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings

Nacionalna i sveučilišna knjižnica u Zagrebu i Los Alamos National Laboratory (LANL) Research Library  u sklopu međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings rade na razvoju programskog rješenja za izradu Bloom filtera na primjeru sadržaja pohranjenih u Hrvatskom arhivu weba koji će se moći primijeniti i na druge arhive internetskog sadržaja u svijetu te omogućiti djelotvorniji i sigurniji pristup sadržajima ovakvih arhiva kao i izradu servisa za istodobno pretraživanje više arhiva odjednom.

Projekt se počeo provoditi početkom ove godine i financijski ga podupire Konzorcij za dugoročnu pohranu internetskog sadržaja (International Internet Preservation Consortium – IIPC), a kao partner NSK u razvoju i održavanju Hrvatskog arhiva weba na njemu će sudjelovati i Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).