zimo mobile logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
Upravljaj obavijestima
  • Prijavi se na newsletter
  • Imaš priču? Pošalji
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
Nova TV
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
  • zimo logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
  • Dnevnik.hr
  • Vijesti
  • Sport
  • Showbizz
  • Lifestyle
  • Putovanja
  • Zdravlje
  • Biznis
  • Zabava
  • Teen
  • Tv
Tehnologija

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

Saša Fišter
Saša Fišter | 28.06.2014. / 11:15 komentari

Podijeli

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

tri vijesti o kojima se priča Instagram, ilustracija Razmislite prije klikanja Jeste li i vi dobili ovakvu poruku u svoj inbox? Evo što trebate napraviti Pametni telefon, ilustracija Isključite je odmah! Ovu opciju vjerojatno ni ne znate da imate na svom telefonu, a mogla bi ugroziti vašu sigurnost Tempest Pokretno i superprecizno VIDEO Ukrajina ima novo i krajnje učinkovito oružje protiv najopasnijih ruskih dronova

Kao što ćete saznati iz detaljnog intervjua s gospodinom Dembitzom, ideja je krenula još početkom 70-ih godina prošlog stoljeća, da bi danas živjela na internetskim stranicama. Hascheck je danas nezaobilazan alat većini PR agencija, novinara, blogera, studenata, učenika i profesora, te svima onima koji trebaju provjeriti ispravnost napisanog teksta.

Ako biste nas pitali koji vam je najdraži alat za svakodnevni posao, odgovor bi svakako bio Hascheck.

Možete nam ukratko ispričati kako je nastao Hascheck?

Ideja se iznjedrila tijekom suradnje na Englesko-hrvatskom leksikografskom korpusu, prvom hrvatskom dvojezičnom megakorpusu koji je pokojni akademik Željko Bujas dao izraditi kao podlogu za svoju leksikografsku djelatnost. Kreiranje Korpusa započelo je početkom 70-tih godina prošloga stoljeća. Podaci su se unosili putem flexowritera, pisaćega stroja kojemu je izlaz bila bušena papirnata traka. Jasno je da ovakav unos podataka proizveo veliki broj grešaka, tako da je nakon prebacivanja Korpusa s papirnih na magnetsku traku trebalo obaviti njegovo čišćenje. To je bio krvav posao, koji je u razdoblju od rujna 1975. do konca veljače 1976. angažirao nekoliko desetaka korektora u punom radnom vremenu. Ja sam taj posao vodio s tehničke strane i, promatrajući korektorsku muku, počele su mi navirati ideje kako im posao olakšati putem tehnologije. No, put od zamisli do izvedbe bio je dug i trnovit.

Hascheck je zaživio davne 1993. godine kad još mnogi nisu imali internet. Koja je ideja bila u to vrijeme?

Već tada je bilo izvjesno da će se Internet naglo širiti i poprimati oblike sve primjerenije korisnicima. Kako se prirodni jezik uči cijeli život, tako i tehnološki alati, koji se bave prirodnim jezikom, moraju u sebi imati ugrađenu komponentu učenja. Internet je nudio jedinstvenu priliku da se putem interakcije korisnika i sustava izgradi sustav visoke jezične funkcionalnosti. Hascheckova funkcionalnost je već koncem 90-tih značajno nadmašila funkcionalnost konvencionalnih pravopisnih provjernika za hrvatski jezik. Kako je vrijeme dalje išlo, razlike su se povećavale u Hascheckovu korist.

U kojem se programskom jeziku napravio Hascheck?

Jezgreni dio sustava je modularan i stalno se dopunjava novim funkcijama (modulima), odnosno postojeći se moduli dorađuju. Zbog toga se u programiranju koriste uglavnom prototipni jezici (perl, awk i sed), jer se u njima jednom napisano lako mijenja i dopunjuje. Korisničko sučelje izvedeno je u Javascriptu.

U kratkim crtama, možete nam opisati kako funkcionira Hascheck?

Prvo se iz teksta izdvajaju sve poznanice, bile one riječi i već „prožvakane“ greške. Valja istaknuti da je opseg rječnika pogrešaka dvostruko veći od opsega rječnika valjanih riječi. Ostatak, odnosno nepoznanice, podvrgava se grafemskoj klasifikaciji i morfologizaciji, čiji je cilj utvrditi je li nepoznanica tvorbeno moguća u hrvatskome. Ako jest, označava se takvom i za nju se ne nude ispravci. Neoznačene nepoznanice i greške-poznanice podliježu postupku traženja najvjerojatnijih ispravaka prema bliskosti s riječima u pravopisnom rječniku.

Hascheck uči nove riječi iz tekstova svojih korisnika. Na koji način to funkcionira?

Na početku su sve nepoznanice prolazile evaluaciju radi li se o valjanim riječima ili pogreškama. Danas takav postupak prolaze samo označene nepoznanice, kao i nepoznanice za koje sustav ne može ponuditi ispravak. Premda je klasifikacija i morfologizacija vrlo pouzdana, zbog očuvanja visoke preciznosti rječnika nužan je ljudski nadzor nad onim što je sustav izdvojio kao potencijalno zanimljivo za učenje. U najnovije vrijeme, zbog poraslog opsega poslova oko održavanja sustava i razvoja novih aplikacija, učenje se zna preskočiti, ali se podatci pripremljeni za učenje pohranjuju za bolja vremena.

Ponekad Hascheck ne želi “probaviti” tekst. Radi li se o nekom bugu ili možda mi korisnici radimo nešto krivo?

To se zna dogoditi na sučelju http://hascheck.tel.fer.hr/ kada tekst sadrži neke „neprobavljive“ znakove, najčešće posebne znakove iz skupa UTF-8, no takvih je sve manje i manje. Ako se to dogodi, odnosno ako korisnik ne dobije odziv sustava u očekivanome vremenu, treba prijeći na http://hascheck.tel.fer.hr/stari/, koji će sigurno probaviti i neprobavljivo, ali neće upozoriti na moguće kontekstualne pogreške u tekstu. Ovaj problem je potakao izradu nove verzije sučelja na kojoj će se moći odabrati želi li se tekst kontekstualno provjeriti, što dulje traje, ili ne. Na novom sučelju problem s „probavljanjem“ teksta ne bi se smio pojavljivati.

Postoje dvije verzije Haschecka, koja se više koristi, starija ili novija?

Omjer korištenja novog (kontekstualnog) i starog (nekontekstualnog) sučelja je 7:3. 

Koliko je velika baza riječi u Haschecku?

U trenutku pisanja pravopisni rječnik je brojao ravno 2.096.191 različnicu. Od tog broja 52,9% pripada hrvatskom općejezičnom fondu, 43,7% hrvatskom posebnojezičnom, dominantno imenskom fondu, dok 3,4% pripada engleskom općejezičnom fondu. Engleski dio rječnika postoji zbog navade korisnika, posebno onih iz akademske zajednice, da u hrvatske tekstove ubacuju brojne engleske izraze. Na samome početku Hascheckov je rječnik brojao oko 100.000 različnica hrvatskog općejezičnog fonda.

Koliko posjeta ima stranica Haschecka i koliko korisnika trenutno postoji?

Glavna Hascheckova stranica bilježi između 3 i 4 tisuće posjeta dnevno. U lipnju 2014. dnevno se u prosjeku obrađivalo oko 8.000 tekstova, odnosno korpus od preko 2 milijuna pojavnica. Prema zabilježenim cookiejima procjenjujemo da je uslugu do sada koristilo oko pola milijuna korisnika diljem svijeta. Od 249 IP-domena, na koje je svijet danas podijeljen, njih 125 dalo je Hascheckove korisnike. Razmjeri korištenja u Hrvatskoj dadu se iskazati i putem zabilježenih IP-adresa s kojih su hrvatski korisnici do sada pristupali usluzi. Takvih je u trenutku pisanja bilo ravno 582.379, što je četvrtina svih IP-adresa dodijeljenih Hrvatskoj (https://www.maxmind.com/en/techinfo). 

Jeste li kad razmišljali o prodaji projekta?

Takva opcija nije isključena, no o tome ima smisla razgovarati ako pristigne ozbiljna ponuda za preuzimanje usluge. Nju do sada nismo zaprimili.

Koji su sljedeći koraci za ovaj servis? Može li se on razviti u jedan profitabilan projekt ili će zauvijek ostati ovako?

Hascheck se već pokazao vrlo profitabilnim projektom, ne u smislu kako to pitanje implicira, već na jedan puno bitniji način. Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika (vidi http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison) i da bi se to stanje u razumnom roku promijenilo nužna je podatkovna podloga u obliku bogate i pouzdane leksičke n-gramske infrastrukture, bez koje je suvremeno jezično modeliranje nezamislivo. Zahvaljujući Haschecku, hrvatski danas takvu podlogu ima, dapače po tom se pitanju može uspoređivati i s jezičnotehnološki najnaprednijim jezicima. Međutim, da bi se dobivena big data infrastruktura – radi se o milijardama leksičkih zapisa – na pravi način iskoristila, potrebna su ozbiljna ulaganja u opremu i ljude, što je za sada izostalo. Već smo pokazali uporabljivost n-gramske infrastrukture i bez lipe potpore. Hascheck je postao kontekstualni provjernik s omjerom 4:1 kod prijavljivanja konvencionalnih (zatipkovno-pravopisnih) i gramatičko-stilskih pogrešaka, što ga svrstava uz bok najboljih provjernika takve vrste u svijetu. Razvijeni su uporabljivi sustavi za strojnu tvorbu i strojno prepoznavanje hrvatskoga govora. U tijeku je projekt strojnoga prevođenja za francusko-hrvatski jezični par, u kojemu Francuzi besplatno ulažu svoj know-how, želeći tako promovirati svoj jezik putem tehnologije. No, sve su to početci, jer ni govorne tehnologija, ni strojno prevođenje, kao ni daljnje unapređivanje Haschecka nisu razvojno održivi bez gore spomenutih ulaganja. Hrvatska mora prepoznati da se jezik u internetskoj eri brani tehnologijom, jer u protivnome hrvatskom jeziku s vremenom prijeti opasnost gubljenja funkcionalnosti u svim njegovim pojavnim oblicima, što je put prema izumiranju.

Hoće li možda biti mobilne verzije ili aplikacije za tablet uređaje?

Da, u planu su obje verzije. Kako su u implementaciji dijelova usluge uvijek sudjelovali naši studenti, tako je i ovaj zadatak zadan kroz završne i diplomske  studentima preddiplomskog i diplomskog studija FER-a.

Hascheck će ostati besplatan ili postoji neka opcija naplate usluge?

U jezicima s relativno malim brojem korisnika, kakav je hrvatski, osnovni jezičnotehnološki alati moraju biti javno dobro. Svima je u interesu, i autorima i čitateljima, da tekstovi budu dobro uređeni, bez grešaka koje sramote prve a iritiraju druge. To je razlog zašto je Hascheck besplatna usluga za „male“ korisnike. Onima koji ga rabe u profesionalne svrhe već dulje naplaćujemo uslugu, jer im korištenje Haschecka podiže produktivnost i garantira kvalitetu proizvoda (teksta), što je vrijedno minimalne naknade. Profesionalni korisnici za tu naknadu dobivaju i skrb o leksici koju rabe putem nadziranoga učenja, što  „malim“ korisnicima danas zbog manjka ljudstva više ne možemo garantirati.


U nastavku možete pogledati staru emisiju eHrvatska u kojoj je također objašnjen Hascheck.

 

PODIJELJENO 0 PUTA

Podijeli

!Komentari su onemogućeni za ovaj članak.
aktualno najčitanije
Ukrajina očekuje isporuku čak 40.000 presretačkih dronova u siječnju, a sve iz vlastite industrije
Imaju jedinstven sustav razvoja
Ukrajina očekuje isporuku čak 40.000 presretačkih dronova u siječnju, a sve iz vlastite industrije
Upozorenje AI stručnjaka na potez SAD-a: To je kao da prodajete nuklearno oružje Sjevernoj Koreji
“Mislim da je to ludo”
Upozorenje AI stručnjaka na potez SAD-a: To je kao da prodajete nuklearno oružje Sjevernoj Koreji
Instagram testira novu promjenu - praćenja i pratitelji izlaze iz uporabe?
Što će reći influenceri?
Instagram testira novu promjenu - praćenja i pratitelji izlaze iz uporabe?
Tri dana bez punjenja: S ovim telefonom nećete morati nositi prijenosnu bateriju
Ogromna baterija
Tri dana bez punjenja: S ovim telefonom nećete morati nositi prijenosnu bateriju
Hladnoća nas neće učiniti bolesnima, a stručnjak objašnjava zašto uvijek vjerujemo da hoće
Priča koja se ponavlja svake zime
Hladnoća nas neće učiniti bolesnima, a stručnjak objašnjava zašto uvijek vjerujemo da hoće
OpenAI najavio veliki novitet: Uvode model za provjeru godina korisnika ChatGPT-a
Nije savršen i može pogriješiti
OpenAI najavio veliki novitet!
Jeste li i vi dobili ovakvu poruku u svoj inbox? Evo što trebate napraviti
Razmislite prije klikanja
Jeste li i vi dobili ovakvu poruku u svoj inbox? Evo što trebate napraviti
Ovu opciju vjerojatno ni ne znate da imate na svom telefonu, a mogla bi ugroziti vašu sigurnost
Isključite je odmah!
Ovu opciju vjerojatno ni ne znate da imate na svom telefonu, a mogla bi ugroziti vašu sigurnost
Dovoljno je tek 15 sekundi da vas hakeri počnu prisluškivati, evo kako to spriječiti
Sve zbog male greške u protokolu
Dovoljno je tek 15 sekundi da vas hakeri počnu prisluškivati, evo kako to spriječiti
Ukrajina razotkrila nove rupe u provođenju sankcija protiv Rusije, analizirajući ostatke ruskog drona Geran-5
Nije dobro
Ukrajina razotkrila nove rupe u provođenju sankcija protiv Rusije, analizirajući ostatke ruskog drona Geran-5
Marsov najveći i najdublji ocean protezao se diljem čitave sjeverne hemisfere, znanstvenici predstavili dokaze
Bome se plavio
Marsov najveći i najdublji ocean protezao se diljem čitave sjeverne hemisfere, znanstvenici predstavili dokaze
VIDEO Ukrajina ima novo i krajnje učinkovito oružje protiv najopasnijih ruskih dronova
Pokretno i superprecizno
VIDEO Ukrajina ima novo i krajnje učinkovito oružje protiv najopasnijih ruskih dronova

Vezane vijesti

Ne propustite ni ovo

vijesti
Vučić poslao poruku iz Davosa: "Hrvatska je podcjenjena"
Razgovarao s Plenkovićem
Vučićeva poruka iz Davosa: "Podcijenili smo ih prije 30 godina. Danas nismo glupi"
Tragedija u dječjem vrtiću u Berlinu: Vrata pritisnula dječaka (5) i ubila ga
Užas u Berlinu
Tragedija u dječjem vrtiću: Vrata pritisnula mališana i ubila ga
Agencija ostavila četvero djece na skijalištu na Kopaoniku u Srbiji
Skijanje na Kopaoniku
Četvero djece ostavljeno na skijalištu, agencija otišla bez njih: Odgovor im je bizaran
show
Preminula je Beti Đorđević
tužna vijest
Preminula je srbijanska pjevačica koju pamtimo po velikom hitu iz 70-ih
Zvijezda Kumova Ana Uršula Najev emotivnom objavom čestitala rođendan majci
ma koliko godina ima!?
Kako zgodna žena! Zvijezda Kumova pokazala svoju mamu, koja živi u dalekom Brazilu
Rebecca Loos stala je na stranu Brooklyna Beckhama u sukobu s roditeljima
"žao mi je jadne supruge..."
Bivša Beckhamova ljubavnica reagirala na obiteljski skandal: "Tako sam sretna što..."
zdravlje
Njemačka navika koja smanjuje plijesan, viruse i umor – a ne košta ništa!
Svi bismo je trebali prakticirati
Njemačka navika koja smanjuje plijesan, viruse i umor – a ne košta ništa!
Sirup od lovora protiv kašlja: Prirodni recept koji smiruje suhi kašalj već nakon prve žličice
Rado će ga piti i djeca
Sirup od lovora protiv kašlja: Prirodni recept koji smiruje suhi kašalj već nakon prve žličice
Popečci od pire krumpira: 5 recepata koji spašavaju ručak kad nemate ideje ni vremena
Po preporuci nutricionistice
Popečci od pire krumpira: 5 recepata koji spašavaju ručak kad nemate ideje ni vremena
zabava
Pas oduševio potezom i spasio dijete, ovako dobru dadilju teško je naći
Preslatko!
Pas oduševio potezom i spasio dijete, ovako dobru dadilju teško je naći
Čisti kriminal: Snimka iz Zagreba šokirala gledatelje, svi se pitaju gdje je policija
Jao…
Čisti kriminal: Snimka iz Zagreba šokirala gledatelje, svi se pitaju gdje je policija
Zaljubljeni par za dlaku izbjegao tragediju, kamera zabilježila šokantni trenutak
Čovječe!
Zaljubljeni par za dlaku izbjegao tragediju, kamera zabilježila šokantni trenutak
tech
Jeste li i vi dobili ovakvu poruku u svoj inbox? Evo što trebate napraviti
Razmislite prije klikanja
Jeste li i vi dobili ovakvu poruku u svoj inbox? Evo što trebate napraviti
Dovoljno je tek 15 sekundi da vas hakeri počnu prisluškivati, evo kako to spriječiti
Sve zbog male greške u protokolu
Dovoljno je tek 15 sekundi da vas hakeri počnu prisluškivati, evo kako to spriječiti
Ovu opciju vjerojatno ni ne znate da imate na svom telefonu, a mogla bi ugroziti vašu sigurnost
Isključite je odmah!
Ovu opciju vjerojatno ni ne znate da imate na svom telefonu, a mogla bi ugroziti vašu sigurnost
sport
Brat srpskog nogometaša Nemanje Vidića pronađen mrtav
Strašno
Užasne vijesti iz Beograda: Brat Nemanje Vidića pronađen mrtav!
Hrvatska doznala sva četiri suparnika u drugom krugu Europskog rukometnog prvenstva
Bit će borbe
Hrvatska doznala sva četiri suparnika u drugom krugu Europskog rukometnog prvenstva
Island ostao bez važnog igrača za drugi krug Europskog rukometnog prvenstva
Težak udarac
Zvijezda doznala užasne vijesti uoči Hrvatske: Više neće igrati na Euru!
tv
Daleki grad: Na monitoru se pojavila ravna linija
DALEKI GRAD
Na monitoru se pojavila ravna linija
Daleki grad: Žena koju je gnjavila svakoga dana, spasila je život njezinim sinovima
DALEKI GRAD
Daleki grad: Žena koju je gnjavila svakoga dana, spasila je život njezinim sinovima
Daleki grad: Je li mogla biti bolja majka?
DALEKI GRAD
Daleki grad: Je li mogla biti bolja majka?
putovanja
Bogati okusi siromašne kuhinje: Recept za omiljenu pikantnu pitu od jaja i krumpira
Slasna rafanata
Bogati okusi siromašne kuhinje: Recept za omiljenu pikantnu pitu od jaja i krumpira
Tjedni jelovnik jela od 30 minuta od 19.1. do 25.1. 2026.
Tjedni jelovnik
7 finih jela za svaki dan ovoga tjedna koje se mogu napraviti u 30 minuta, ili još manje od toga
Kako smanjiti nadutost i vjetrove kod graha
Mali trikovi majstora
U grahu se može uživati bez straha od nadutosti i plinova – treba samo napraviti ove tri stvari
novac
Zbrka oko udjela u Naftnoj industriji Srbije: Koliko će imati MOL, koliko Arapi, a koliko Srbija?
Prodaja dobra za JANAF
Zbrka oko udjela u Naftnoj industriji Srbije: Koliko će imati MOL, koliko Arapi, a koliko Srbija?
Milijarder Larry Ellison promijenio ime jahte kad je shvatio koje je njegovo prikriveno značenje
Ne podržava nacizam
Milijarder Larry Ellison promijenio ime jahte kad je shvatio koje je njegovo prikriveno značenje
ShoeBeDo outlet u Stupniku vrijedan 2,35 milijuna eura nakon stečaja našao kupca na aukciji
Aukcija završava danas
Nekad popularan outlet kraj Zagreba našao kupca na aukciji
lifestyle
Ulična moda Zagreb u bundi i minici
Savršen komplet
Gore glamur, a dolje - papuče: Izdanje mame iz Zagreba u minici koje viče - budi svoja
Pet boja koje će biti hit za 2026. prema Pinterestu
Odvažne i zanimljive
Pet boja koje će biti veliki hit: Pinterest ih obožava, a jasno je zašto
Recept za viralni cheesecake s grčkim jogurtom
Jako dobro
Potrebne su dvije sekunde i dva sastojka da pripremite viralni cheesecake s grčkim jogurtom
sve
Brat srpskog nogometaša Nemanje Vidića pronađen mrtav
Strašno
Užasne vijesti iz Beograda: Brat Nemanje Vidića pronađen mrtav!
Hrvatska doznala sva četiri suparnika u drugom krugu Europskog rukometnog prvenstva
Bit će borbe
Hrvatska doznala sva četiri suparnika u drugom krugu Europskog rukometnog prvenstva
Pas oduševio potezom i spasio dijete, ovako dobru dadilju teško je naći
Preslatko!
Pas oduševio potezom i spasio dijete, ovako dobru dadilju teško je naći
 

Nastavi čitati

Tehnologija
Ukrajinski dronovi presretači
Imaju jedinstven sustav razvoja

Ukrajina očekuje isporuku čak 40.000 presretačkih dronova u siječnju, a sve iz vlastite industrije

piše Branimir Vorša
Tehnologija
Dario Amodei, Anthropic
“Mislim da je to ludo”

Upozorenje AI stručnjaka na potez SAD-a: To je kao da prodajete nuklearno oružje Sjevernoj Koreji

piše Hrvoje Jurman
Tehnologija
Realme P4 Power
Ogromna baterija

Tri dana bez punjenja: S ovim telefonom nećete morati nositi prijenosnu bateriju

piše Hrvoje Jurman
Tehnologija
ChatGPT
Nije savršen i može pogriješiti

OpenAI najavio veliki novitet!

piše Hrvoje Jurman
Tehnologija
AI u školi, ilustracija
AI i obrazovanje

Umjetna inteligencija može pomoći djeci u učenju, ali ima i svoje negativne strane

piše Hina
Tehnologija
Kibernetička sigurnost, ilustracija
Novi paket

Komisija unosi izmjene u Akt o kibernetičkoj sigurnosti i NIS2: " važan korak u osiguravanju naše europske tehnološke suverenosti i veće sigurnosti"

piše Martina Čizmić
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Politika zaštite privatnosti
  • Politika o kolačićima
  • Dnevnik
  • Nova Plus
  • Gol.hr
  • Zadovoljna
  • Kreni Zdravo
  • NovaTV
  • DomaTV
Upravljaj obavijestima