Provedeno deseto harvestiranje nacionalne internetske domene: Napravljene tematske zbirke sadržaja o potresu i koronavirusu

Sadržaji prikupljeni desetim pobiranjem hrvatske nacionalne internetske domene dostupni su na stranicama Hrvatskog arhiva weba, na kojima se mogu pregledavati i sadržaji pohranjeni u prethodnih devet pobiranja, kao i tematske zbirke te sadržaji prikupljeni selektivnim pobiranjima.

Martina Čizmić | 04.02.2021. / 15:00 komentari
Slika nije dostupna (Foto: Zimo)

Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce) provela je deseto pobiranje (harvestiranje) hrvatske nacionalne internetske domene. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i com.hr.

tri vijesti o kojima se priča Vrijeme na Zemlji, ilustracija zemlja je poludjela Znanstvenici upozoravaju: Dolazi dan kakav čovječanstvo još nije doživjelo Protuzračni sustav Raven 70 posto učinkovitosti VIDEO Pogledajte protuzračni sustav koji su Britanci u 3 mjeseca sklepali za Ukrajinu i koji skida ruske dronove kao muhe s neba Kineski hipersonični projektili "Kill web" Amerikanci paničare jer Kina ima sustav za ciljanje zbog kojeg američke snage nisu sigurne ni na "sigurnoj" udaljenosti

Od 111.357 aktivnih domena pobiranjem je preuzeto 19 TB sadržaja spremljenog u format WARC. Datoteke u ovom formatu komprimirane su te zauzimaju 11 TB diskovnog prostora, a korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila služba Hrvatske akademske i istraživačke mreže (CARNET) za upravljanje nacionalnom domenom Republike Hrvatske.

Pobiranje je provedeno pomoću alata otvorenog koda Heritrix, a robot koji je provodio pobiranje dolazi s IP adrese 61.53.3.11 i predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.4.x).

Sadržaji prikupljeni desetim pobiranjem hrvatske nacionalne internetske domene dostupni su na stranicama Hrvatskog arhiva weba, na kojima se mogu pregledavati i sadržaji pohranjeni u prethodnih devet pobiranja, kao i tematske zbirke te sadržaji prikupljeni selektivnim pobiranjima.

U tijeku prikupljanje mrežnih sadržaja o snažnom potresu u Petrinji, Glini i okolici

Budući da Hrvatski arhiv weba izgrađuje tematske zbirke koje brzo nestaju s weba, pokrenuto je i prikupljanje mrežnog sadržaja o potresima na području Sisačko-moslavačke županije.

Posljednjih nekoliko tjedana svjedoci smo silne količine mrežnog sadržaja o potresima u okolici Siska, Petrinje i Gline te njihovim posljedicama na području Sisačko-moslavačke, Karlovačke i Zagrebačke  županije. Internet je postao glavno mjesto pronalaženja korisnih informacija, poput uputa kako sudjelovati u prikupljanju novčanih sredstava za pomoć teško pogođenim područjima, ponude smještaja, hrane, higijenskih potrepština, odjeće i obuće, ali i prijeko potrebne medicinske i psihološke pomoći, govori Inge Rudomino, knjižničarska savjetnica u Hrvatskom arhivu weba, te dodaje kako će rezultati harvestiranja biti dostupni u sklopu tematske zbirke na stranicama HAW-a.

HAW poziva na prikupljanje sadržaja o koronavirusu

Na Hrvatskom arhivu weba do danas je objavljeno 17 tematskih zbirki o aktualnim temama ili događajima od nacionalnog značaja, među njima i tematska zbirka COVID-19.

Hrvatski arhiv weba prikuplja i trajno arhivira mrežne sadržaje o toj temi od početka globalne pandemije koronavirusa (SARS-CoV-2) i bolesti COVID-19. Prvo harvestiranje je provedeno od 15. do 17. svibnja 2020., a drugo od 10. do 14. studenoga 2020. godine i do sada je prikupljeno 4386 URL-ova ukupne veličine 294 GB.

Zbirka sadrži web-stranice i news portale koji pokrivaju teme o podrijetlu koronavirusa, načinu širenju zaraze, svjedočenja oboljelih, službene evidencije o broju žrtava i preporuke liječnika, političara i znanstvenika i stručnjaka. Također, pokriva medicinske, znanstvene, društvene, ekonomske i političke aspekte ove pandemije, objašnjava Inge Rudomino.

Budući da je pandemija bolesti COVID-19 i dalje u tijeku, zbirka će se uskoro proširiti s novim harvestiranjima, a kako bi se što sveobuhvatnije prikupio relevantan sadržaj, iz Hrvatskog arhiva weba pozivaju javnost da šalju svoje prijedloge mrežnih sadržaja putem obrasca dostupnog i na stranicama HAW-a.

Hrvatski arhiv weba dio međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings

Nacionalna i sveučilišna knjižnica u Zagrebu i Los Alamos National Laboratory (LANL) Research Library  u sklopu međunarodnog projekta Developing Bloom Filters for Web Archives’ Holdings rade na razvoju programskog rješenja za izradu Bloom filtera na primjeru sadržaja pohranjenih u Hrvatskom arhivu weba koji će se moći primijeniti i na druge arhive internetskog sadržaja u svijetu te omogućiti djelotvorniji i sigurniji pristup sadržajima ovakvih arhiva kao i izradu servisa za istodobno pretraživanje više arhiva odjednom.

Projekt se počeo provoditi početkom ove godine i financijski ga podupire Konzorcij za dugoročnu pohranu internetskog sadržaja (International Internet Preservation Consortium – IIPC), a kao partner NSK u razvoju i održavanju Hrvatskog arhiva weba na njemu će sudjelovati i Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).

Vezane vijesti