zimo mobile logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
Upravljaj obavijestima
  • Prijavi se na newsletter
  • Imaš priču? Pošalji
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
Nova TV
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
  • zimo logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
  • Dnevnik.hr
  • Vijesti
  • Sport
  • Showbizz
  • Lifestyle
  • Putovanja
  • Zdravlje
  • Biznis
  • Zabava
  • Teen
  • Tv
Tehnologija

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

Saša Fišter
sasa@zimo.co | 28.06.2014. / 11:15 komentari

Podijeli

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

tri vijesti o kojima se priča Materijal od karbonskih vlakana, ilustracija Iskoristili nanotehnologiju Kinezi napravili neprobojni prsluk jači od Kevlara i debljine obične majice Elektronički strujni krug Pronađeno rješenje Zaboravljena tehnologija vraća se jača nego ikad i mogla bi spasiti planet od AI energetske krize Uzorak ledene jezge stare 6 milijuna godina pronađene na Antarktiku Nevjerojatno otkriće Drevni Zemljin zrak star 6 milijuna godina pronađen u antarktičkom ledu

Kao što ćete saznati iz detaljnog intervjua s gospodinom Dembitzom, ideja je krenula još početkom 70-ih godina prošlog stoljeća, da bi danas živjela na internetskim stranicama. Hascheck je danas nezaobilazan alat većini PR agencija, novinara, blogera, studenata, učenika i profesora, te svima onima koji trebaju provjeriti ispravnost napisanog teksta.

Ako biste nas pitali koji vam je najdraži alat za svakodnevni posao, odgovor bi svakako bio Hascheck.

Možete nam ukratko ispričati kako je nastao Hascheck?

Ideja se iznjedrila tijekom suradnje na Englesko-hrvatskom leksikografskom korpusu, prvom hrvatskom dvojezičnom megakorpusu koji je pokojni akademik Željko Bujas dao izraditi kao podlogu za svoju leksikografsku djelatnost. Kreiranje Korpusa započelo je početkom 70-tih godina prošloga stoljeća. Podaci su se unosili putem flexowritera, pisaćega stroja kojemu je izlaz bila bušena papirnata traka. Jasno je da ovakav unos podataka proizveo veliki broj grešaka, tako da je nakon prebacivanja Korpusa s papirnih na magnetsku traku trebalo obaviti njegovo čišćenje. To je bio krvav posao, koji je u razdoblju od rujna 1975. do konca veljače 1976. angažirao nekoliko desetaka korektora u punom radnom vremenu. Ja sam taj posao vodio s tehničke strane i, promatrajući korektorsku muku, počele su mi navirati ideje kako im posao olakšati putem tehnologije. No, put od zamisli do izvedbe bio je dug i trnovit.

Hascheck je zaživio davne 1993. godine kad još mnogi nisu imali internet. Koja je ideja bila u to vrijeme?

Već tada je bilo izvjesno da će se Internet naglo širiti i poprimati oblike sve primjerenije korisnicima. Kako se prirodni jezik uči cijeli život, tako i tehnološki alati, koji se bave prirodnim jezikom, moraju u sebi imati ugrađenu komponentu učenja. Internet je nudio jedinstvenu priliku da se putem interakcije korisnika i sustava izgradi sustav visoke jezične funkcionalnosti. Hascheckova funkcionalnost je već koncem 90-tih značajno nadmašila funkcionalnost konvencionalnih pravopisnih provjernika za hrvatski jezik. Kako je vrijeme dalje išlo, razlike su se povećavale u Hascheckovu korist.

U kojem se programskom jeziku napravio Hascheck?

Jezgreni dio sustava je modularan i stalno se dopunjava novim funkcijama (modulima), odnosno postojeći se moduli dorađuju. Zbog toga se u programiranju koriste uglavnom prototipni jezici (perl, awk i sed), jer se u njima jednom napisano lako mijenja i dopunjuje. Korisničko sučelje izvedeno je u Javascriptu.

U kratkim crtama, možete nam opisati kako funkcionira Hascheck?

Prvo se iz teksta izdvajaju sve poznanice, bile one riječi i već „prožvakane“ greške. Valja istaknuti da je opseg rječnika pogrešaka dvostruko veći od opsega rječnika valjanih riječi. Ostatak, odnosno nepoznanice, podvrgava se grafemskoj klasifikaciji i morfologizaciji, čiji je cilj utvrditi je li nepoznanica tvorbeno moguća u hrvatskome. Ako jest, označava se takvom i za nju se ne nude ispravci. Neoznačene nepoznanice i greške-poznanice podliježu postupku traženja najvjerojatnijih ispravaka prema bliskosti s riječima u pravopisnom rječniku.

Hascheck uči nove riječi iz tekstova svojih korisnika. Na koji način to funkcionira?

Na početku su sve nepoznanice prolazile evaluaciju radi li se o valjanim riječima ili pogreškama. Danas takav postupak prolaze samo označene nepoznanice, kao i nepoznanice za koje sustav ne može ponuditi ispravak. Premda je klasifikacija i morfologizacija vrlo pouzdana, zbog očuvanja visoke preciznosti rječnika nužan je ljudski nadzor nad onim što je sustav izdvojio kao potencijalno zanimljivo za učenje. U najnovije vrijeme, zbog poraslog opsega poslova oko održavanja sustava i razvoja novih aplikacija, učenje se zna preskočiti, ali se podatci pripremljeni za učenje pohranjuju za bolja vremena.

Ponekad Hascheck ne želi “probaviti” tekst. Radi li se o nekom bugu ili možda mi korisnici radimo nešto krivo?

To se zna dogoditi na sučelju http://hascheck.tel.fer.hr/ kada tekst sadrži neke „neprobavljive“ znakove, najčešće posebne znakove iz skupa UTF-8, no takvih je sve manje i manje. Ako se to dogodi, odnosno ako korisnik ne dobije odziv sustava u očekivanome vremenu, treba prijeći na http://hascheck.tel.fer.hr/stari/, koji će sigurno probaviti i neprobavljivo, ali neće upozoriti na moguće kontekstualne pogreške u tekstu. Ovaj problem je potakao izradu nove verzije sučelja na kojoj će se moći odabrati želi li se tekst kontekstualno provjeriti, što dulje traje, ili ne. Na novom sučelju problem s „probavljanjem“ teksta ne bi se smio pojavljivati.

Postoje dvije verzije Haschecka, koja se više koristi, starija ili novija?

Omjer korištenja novog (kontekstualnog) i starog (nekontekstualnog) sučelja je 7:3. 

Koliko je velika baza riječi u Haschecku?

U trenutku pisanja pravopisni rječnik je brojao ravno 2.096.191 različnicu. Od tog broja 52,9% pripada hrvatskom općejezičnom fondu, 43,7% hrvatskom posebnojezičnom, dominantno imenskom fondu, dok 3,4% pripada engleskom općejezičnom fondu. Engleski dio rječnika postoji zbog navade korisnika, posebno onih iz akademske zajednice, da u hrvatske tekstove ubacuju brojne engleske izraze. Na samome početku Hascheckov je rječnik brojao oko 100.000 različnica hrvatskog općejezičnog fonda.

Koliko posjeta ima stranica Haschecka i koliko korisnika trenutno postoji?

Glavna Hascheckova stranica bilježi između 3 i 4 tisuće posjeta dnevno. U lipnju 2014. dnevno se u prosjeku obrađivalo oko 8.000 tekstova, odnosno korpus od preko 2 milijuna pojavnica. Prema zabilježenim cookiejima procjenjujemo da je uslugu do sada koristilo oko pola milijuna korisnika diljem svijeta. Od 249 IP-domena, na koje je svijet danas podijeljen, njih 125 dalo je Hascheckove korisnike. Razmjeri korištenja u Hrvatskoj dadu se iskazati i putem zabilježenih IP-adresa s kojih su hrvatski korisnici do sada pristupali usluzi. Takvih je u trenutku pisanja bilo ravno 582.379, što je četvrtina svih IP-adresa dodijeljenih Hrvatskoj (https://www.maxmind.com/en/techinfo). 

Jeste li kad razmišljali o prodaji projekta?

Takva opcija nije isključena, no o tome ima smisla razgovarati ako pristigne ozbiljna ponuda za preuzimanje usluge. Nju do sada nismo zaprimili.

Koji su sljedeći koraci za ovaj servis? Može li se on razviti u jedan profitabilan projekt ili će zauvijek ostati ovako?

Hascheck se već pokazao vrlo profitabilnim projektom, ne u smislu kako to pitanje implicira, već na jedan puno bitniji način. Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika (vidi http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison) i da bi se to stanje u razumnom roku promijenilo nužna je podatkovna podloga u obliku bogate i pouzdane leksičke n-gramske infrastrukture, bez koje je suvremeno jezično modeliranje nezamislivo. Zahvaljujući Haschecku, hrvatski danas takvu podlogu ima, dapače po tom se pitanju može uspoređivati i s jezičnotehnološki najnaprednijim jezicima. Međutim, da bi se dobivena big data infrastruktura – radi se o milijardama leksičkih zapisa – na pravi način iskoristila, potrebna su ozbiljna ulaganja u opremu i ljude, što je za sada izostalo. Već smo pokazali uporabljivost n-gramske infrastrukture i bez lipe potpore. Hascheck je postao kontekstualni provjernik s omjerom 4:1 kod prijavljivanja konvencionalnih (zatipkovno-pravopisnih) i gramatičko-stilskih pogrešaka, što ga svrstava uz bok najboljih provjernika takve vrste u svijetu. Razvijeni su uporabljivi sustavi za strojnu tvorbu i strojno prepoznavanje hrvatskoga govora. U tijeku je projekt strojnoga prevođenja za francusko-hrvatski jezični par, u kojemu Francuzi besplatno ulažu svoj know-how, želeći tako promovirati svoj jezik putem tehnologije. No, sve su to početci, jer ni govorne tehnologija, ni strojno prevođenje, kao ni daljnje unapređivanje Haschecka nisu razvojno održivi bez gore spomenutih ulaganja. Hrvatska mora prepoznati da se jezik u internetskoj eri brani tehnologijom, jer u protivnome hrvatskom jeziku s vremenom prijeti opasnost gubljenja funkcionalnosti u svim njegovim pojavnim oblicima, što je put prema izumiranju.

Hoće li možda biti mobilne verzije ili aplikacije za tablet uređaje?

Da, u planu su obje verzije. Kako su u implementaciji dijelova usluge uvijek sudjelovali naši studenti, tako je i ovaj zadatak zadan kroz završne i diplomske  studentima preddiplomskog i diplomskog studija FER-a.

Hascheck će ostati besplatan ili postoji neka opcija naplate usluge?

U jezicima s relativno malim brojem korisnika, kakav je hrvatski, osnovni jezičnotehnološki alati moraju biti javno dobro. Svima je u interesu, i autorima i čitateljima, da tekstovi budu dobro uređeni, bez grešaka koje sramote prve a iritiraju druge. To je razlog zašto je Hascheck besplatna usluga za „male“ korisnike. Onima koji ga rabe u profesionalne svrhe već dulje naplaćujemo uslugu, jer im korištenje Haschecka podiže produktivnost i garantira kvalitetu proizvoda (teksta), što je vrijedno minimalne naknade. Profesionalni korisnici za tu naknadu dobivaju i skrb o leksici koju rabe putem nadziranoga učenja, što  „malim“ korisnicima danas zbog manjka ljudstva više ne možemo garantirati.


U nastavku možete pogledati staru emisiju eHrvatska u kojoj je također objašnjen Hascheck.

 

PODIJELJENO 0 PUTA

Podijeli

aktualno najčitanije
Musk i šefica signala kritizirali WhatsApp: Šef X-a upozorava na “ogromnu sigurnosnu ranjivost”
Kritike konkurencije
Musk i šefica signala kritizirali WhatsApp: Šef X-a upozorava na “ogromnu sigurnosnu ranjivost”
Vatrogascima u pomoć priskočio i "plavi heroj": Ide i gasi tamo gdje ljudi ne mogu
Domaća proizvodnja
Vatrogascima u pomoć priskočio i "plavi heroj": Ide i gasi tamo gdje ljudi ne mogu
Kako umjetna inteligencija i tehnologija mijenjaju poslovne strategije
20. Advanced Technology Days
Kako umjetna inteligencija i tehnologija mijenjaju poslovne strategije
Starlink je na prvoj liniji udara nepredvidljive prijetnje iz središta Sunčevog sustava
Više satelita - veća opasnost
Starlink je na prvoj liniji udara nepredvidljive prijetnje iz središta Sunčevog sustava
Mislio da ulaže u kriptovalute pa ostao bez velike svote novaca
Još jedna prevara
Mislio da ulaže u kriptovalute pa ostao bez velike svote novaca
Je li vam zaista potreban 4K ili 8K TV? Istraživanje pokazalo da viša rezolucija ne znači uvijek i bolju sliku
Evo na što treba paziti
Je li vam zaista potreban 4K ili 8K TV? Istraživanje pokazalo da viša rezolucija ne znači uvijek i bolju sliku
Bliži se kraj poznate kompanije čije robote u svojim kućanstvima imaju i mnogi Hrvati
Na rubu bankrota
Bliži se kraj poznate kompanije čije robote u svojim kućanstvima imaju i mnogi Hrvati
Zaboravljena tehnologija vraća se jača nego ikad i mogla bi spasiti planet od AI energetske krize
Pronađeno rješenje
Zaboravljena tehnologija vraća se jača nego ikad i mogla bi spasiti planet od AI energetske krize
Drevni Zemljin zrak star 6 milijuna godina pronađen u antarktičkom ledu
Nevjerojatno otkriće
Drevni Zemljin zrak star 6 milijuna godina pronađen u antarktičkom ledu
Kakvo bizarno objašnjenje šefa kompanije: Otpustili su 14 tisuća ljudi, ali ne zbog ušteda ili primjene AI-a
Vjerujete li im?
Kakvo bizarno objašnjenje šefa kompanije: Otpustili su 14 tisuća ljudi, ali ne zbog ušteda ili primjene AI-a
Kinezi napravili neprobojni prsluk jači od Kevlara i debljine obične majice
Iskoristili nanotehnologiju
Kinezi napravili neprobojni prsluk jači od Kevlara i debljine obične majice
On može zaustaviti AI: Tko je ovaj čovjek i kakva je njegova moć nad OpenAI-jem?
Sigurnost prije profita
On može zaustaviti AI: Tko je ovaj čovjek i kakva je njegova moć nad OpenAI-jem?

Vezane vijesti

Ne propustite ni ovo

vijesti
Gusti crni dim nad Svetom Nedeljom: Izbio požar u skladištu
Buktinja
VIDEO/FOTO Veliki požar kraj Zagreba, građanima stižu poruke: "Zatvorite prozore..."
Studentica u BiH zaražena davno iskorijenjenom bolešću: Oglasili se epidemiolozi
sprječavanje širenja zaraze
Studentica u BiH zaražena davno iskorijenjenom bolešću: Oglasili se epidemiolozi
Pobjegao opasni kriminalac iz psihijatrijske bolnice: Strahuje se da će ostvariti svoju grozomornu prijetnju
Drama u Njemačkoj
Opasan kriminalac pobjegao iz psihijatrijske bolnice: Strahuje se da će ostvariti svoju grozomornu prijetnju
show
Pojavio se video groba Dina Dvornika, njegova udovica Danijela Dvornik je ogorčena
''i tako svake godine...''
Na internetu se pojavila snimka groba Dina Dvornika, Danijela je zgrožena: ''Jad i primitivizam''
Cindy Šoštarić Hadžić otvorila dječju igraonicu, ljudi šokirani cijenama
previše ili realno?
Lavina komentara na cijene paketa dječje igraonice koju je otvorila supruga našeg influencera
Jakov Jozinović i Aleksandra Prijović zapjevali ''Ringišpil'' Đorđa Balaševića
spontani trenutak
Poslušajte kako to zvuči kada Prija i naš Vinkovčanin ukrste glasove!
zdravlje
Tko ima pravo na inkluzivni dodatak, a tko nema?
Financijska potpora
Tko ima pravo na inkluzivni dodatak, a tko nema?
Trbušni tifus: Kako se prenosi i koji su simptomi iskorijenjene bolesti koja se pojavila u susjedstvu?
Evo tko se treba cijepiti
Trbušni tifus: Kako se prenosi i koji su simptomi iskorijenjene bolesti koja se pojavila u susjedstvu?
Stupnjevi invaliditeta: Kako se određuju?
Piše liječnik
Stupnjevi invaliditeta: Kako se određuju?
zabava
Urnebesan meme o Berošu osvojio društvene mreže! Pogledajte zašto
Meme
Urnebesan meme o Berošu osvojio društvene mreže! Pogledajte zašto
Oglas za poklanjanje namještaja nasmijao publiku! Pogledajte što je dopisano
Urnebesno
Oglas za poklanjanje namještaja nasmijao publiku! Pogledajte što je dopisano
Nova turistička atrakcija u Vodicama! Pogledajte tko se šeće rivom
Novi posjetitelj
Nova turistička atrakcija u Vodicama! Pogledajte tko se šeće rivom
tech
Bliži se kraj poznate kompanije čije robote u svojim kućanstvima imaju i mnogi Hrvati
Na rubu bankrota
Bliži se kraj poznate kompanije čije robote u svojim kućanstvima imaju i mnogi Hrvati
Zaboravljena tehnologija vraća se jača nego ikad i mogla bi spasiti planet od AI energetske krize
Pronađeno rješenje
Zaboravljena tehnologija vraća se jača nego ikad i mogla bi spasiti planet od AI energetske krize
Kakvo bizarno objašnjenje šefa kompanije: Otpustili su 14 tisuća ljudi, ali ne zbog ušteda ili primjene AI-a
Vjerujete li im?
Kakvo bizarno objašnjenje šefa kompanije: Otpustili su 14 tisuća ljudi, ali ne zbog ušteda ili primjene AI-a
sport
HRVATSKA – FARSKI OTOCI Evo kad počinje prijenos, u akciji nova imena
NA NOVOJ TV I GOL.HR-U!
HRVATSKA – FARSKI OTOCI Evo kad počinje prijenos, u akciji nova imena
Rijeka promijenila ime stadiona: Više se neće zvati Rujevica
pala je odluka
Rijeka promijenila ime stadiona
Aleksandar Zorić oglasio se na društvenim mrežama nakon kontroverznog poraza Ante Delije u UFC-u
TKO JE PREKRŠIO PRAVILA?
Sudac broj 1 u regiji o skandalu UFC-a s Delijom: Evo tko je u pravu
tv
U dobru i zlu: Ne može izdržati ne reći joj istinu - hoće li popustiti?
U DOBRU I ZLU
U dobru i zlu: Ne može izdržati ne reći joj istinu - hoće li popustiti?
Kumovi: Ne mogu više izdržati razdvojenost - napokon su popustili ljubavi
KUMOVI
Ne mogu više izdržati razdvojenost - napokon su popustili ljubavi
MasterChef: Tatjana izbacila Selmu iz takta: "Osjećam se glupo jer ja ne vidim svoju svrhu!"
NAPETO!
Tatjana izbacila Selmu iz takta: "Osjećam se glupo jer ja ne vidim svoju svrhu!"
putovanja
Omiljeni recept Stjepana Vukadina: Savršenstvo okusa u samo 3 sastojka
Korak po korak
Omiljeni recept Stjepana Vukadina: Savršenstvo okusa u samo 3 sastojka
Jednostavna, ukusna i zdrava: Pita od naranče i čokolade koja se ne peče
Za 15 minuta
Jednostavna, ukusna i zdrava: Pita od naranče i čokolade koja se ne peče
Stabljike celera zašto su dobre za zdravlje
5 eura za kilogram
Bez ovog povrća nema niti jedne dobre juhe i variva, a čini čuda za zdravlje
novac
Mađarska ostaje bez ruske nafte - i sada se mora pomiriti s Hrvatskom
brak iz interesa
Mađarska ostaje bez ruske nafte - i sada se mora pomiriti s Hrvatskom
Direktori vodećih investicijskih banaka: Slijedi preokret, pripremite se na značajan pad dionica
Sudar sa stvarnošću
Direktori vodećih investicijskih banaka: Slijedi preokret, pripremite se na značajan pad dionica
Njemački Mercedes bugarskoj tvrtki oduzeo domenu Mercedes.hr
Nije im prvi put
Njemački Mercedes bugarskoj tvrtki oduzeo domenu Mercedes.hr
lifestyle
Tko ima pravo na inkluzivni dodatak, a tko nema?
Financijska potpora
Tko ima pravo na inkluzivni dodatak, a tko nema?
Najpopularnija imena za djevojčice i dječake u 2025. godini
Stigli podaci
Jeste li iznenađeni? Ovo su najpopularnija imena za dječake i djevojčice u 2025. godini
Elin Kostelić u maloj crnoj haljini i gležnjačama na premijeri filma 'Freedom'
Stajling za premijeru
Elin Kostelić: Mala crna haljina i obične gležnjače za izdanje koje slavi jednostavnu eleganciju
sve
Tko ima pravo na inkluzivni dodatak, a tko nema?
Financijska potpora
Tko ima pravo na inkluzivni dodatak, a tko nema?
HRVATSKA – FARSKI OTOCI Evo kad počinje prijenos, u akciji nova imena
NA NOVOJ TV I GOL.HR-U!
HRVATSKA – FARSKI OTOCI Evo kad počinje prijenos, u akciji nova imena
Omiljeni recept Stjepana Vukadina: Savršenstvo okusa u samo 3 sastojka
Korak po korak
Omiljeni recept Stjepana Vukadina: Savršenstvo okusa u samo 3 sastojka
 

Nastavi čitati

Tehnologija
Robot Ravnateljstva civilne zaštite
Domaća proizvodnja

Vatrogascima u pomoć priskočio i "plavi heroj": Ide i gasi tamo gdje ljudi ne mogu

piše Martina Čizmić
Tehnologija
Računalna prijevara, ilustracija
Još jedna prevara

Mislio da ulaže u kriptovalute pa ostao bez velike svote novaca

piše Hina
Tehnologija
Televizor, ilustracija
Evo na što treba paziti

Je li vam zaista potreban 4K ili 8K TV? Istraživanje pokazalo da viša rezolucija ne znači uvijek i bolju sliku

piše Hrvoje Jurman
Tehnologija
Konferencija Say HI to SPACE
Ambiciozni planovi

HISPACE i Infobip Startup Tribe udružili snage za razvoj hrvatske svemirske industrije

piše Martina Čizmić
Tehnologija
Mustafa Suleyman
Kratko i jasno

Šef umjetne inteligencije u Microsoftu poručio: Jednu stvar AI nikada neće imati

piše Hrvoje Jurman
Tehnologija
Ruska nuklearna podmornica Kabarovsk
Nova i nedavno porinuta

Ova ruska podmornica dizajnirana je isključivo za nošenje "oružja sudnjeg dana", evo što se dosad zna o njoj

piše Branimir Vorša
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Politika zaštite privatnosti
  • Politika o kolačićima
  • Dnevnik
  • Nova Plus
  • Gol.hr
  • Zadovoljna
  • Kreni Zdravo
  • NovaTV
  • DomaTV
Upravljaj obavijestima