zimo mobile logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
Upravljaj obavijestima
  • Prijavi se na newsletter
  • Imaš priču? Pošalji
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
Nova TV
  • Vijesti
  • Video
  • Zadovoljna
  • Tech
  • Blog
  • Nova TV
  • Doma TV
  • zimo logo
  • Tehnologija
  • Znanost
  • Društvene mreže
  • Esport
  • Business
Prati nas:
  • Dnevnik.hr
  • Vijesti
  • Sport
  • Showbizz
  • Lifestyle
  • Putovanja
  • Zdravlje
  • Biznis
  • Zabava
  • Teen
  • Tv
Tehnologija

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

Saša Fišter
sasa@zimo.co | 28.06.2014. / 11:15 komentari

Podijeli

Pričali smo sa Šandorom Dembitzom, pokretačem jednog od najstarijih web servisa u Hrvatskoj — Haschecka

U vrijeme kada internet još nije bio toliko aktualan u Hrvatskoj, čovjek impresivne titule izv. prof. dr. sc. Šandor Dembitz pokrenuo je projekt Hascheck, online strojnu provjeru pravopisa hrvatskog i engleskog jezika.

tri vijesti o kojima se priča Mišje nastambe na ISS Pomno ih prate Poslali miševe u svemir, a ono što se dogodilo moglo bi biti ključno za budućnost čovječanstva Amazonska prašuma Upozorenje znanstvenika Amazonska prašuma prelazi u stanje koje nije viđeno milijunima godina Supergravitacijsko polje ispod Sveučilišta Zhejiang CHIEF1900 Kinezi ruše rekorde u hipergravitaciji: Izgradili najjaču centrifugu na svijetu

Kao što ćete saznati iz detaljnog intervjua s gospodinom Dembitzom, ideja je krenula još početkom 70-ih godina prošlog stoljeća, da bi danas živjela na internetskim stranicama. Hascheck je danas nezaobilazan alat većini PR agencija, novinara, blogera, studenata, učenika i profesora, te svima onima koji trebaju provjeriti ispravnost napisanog teksta.

Ako biste nas pitali koji vam je najdraži alat za svakodnevni posao, odgovor bi svakako bio Hascheck.

Možete nam ukratko ispričati kako je nastao Hascheck?

Ideja se iznjedrila tijekom suradnje na Englesko-hrvatskom leksikografskom korpusu, prvom hrvatskom dvojezičnom megakorpusu koji je pokojni akademik Željko Bujas dao izraditi kao podlogu za svoju leksikografsku djelatnost. Kreiranje Korpusa započelo je početkom 70-tih godina prošloga stoljeća. Podaci su se unosili putem flexowritera, pisaćega stroja kojemu je izlaz bila bušena papirnata traka. Jasno je da ovakav unos podataka proizveo veliki broj grešaka, tako da je nakon prebacivanja Korpusa s papirnih na magnetsku traku trebalo obaviti njegovo čišćenje. To je bio krvav posao, koji je u razdoblju od rujna 1975. do konca veljače 1976. angažirao nekoliko desetaka korektora u punom radnom vremenu. Ja sam taj posao vodio s tehničke strane i, promatrajući korektorsku muku, počele su mi navirati ideje kako im posao olakšati putem tehnologije. No, put od zamisli do izvedbe bio je dug i trnovit.

Hascheck je zaživio davne 1993. godine kad još mnogi nisu imali internet. Koja je ideja bila u to vrijeme?

Već tada je bilo izvjesno da će se Internet naglo širiti i poprimati oblike sve primjerenije korisnicima. Kako se prirodni jezik uči cijeli život, tako i tehnološki alati, koji se bave prirodnim jezikom, moraju u sebi imati ugrađenu komponentu učenja. Internet je nudio jedinstvenu priliku da se putem interakcije korisnika i sustava izgradi sustav visoke jezične funkcionalnosti. Hascheckova funkcionalnost je već koncem 90-tih značajno nadmašila funkcionalnost konvencionalnih pravopisnih provjernika za hrvatski jezik. Kako je vrijeme dalje išlo, razlike su se povećavale u Hascheckovu korist.

U kojem se programskom jeziku napravio Hascheck?

Jezgreni dio sustava je modularan i stalno se dopunjava novim funkcijama (modulima), odnosno postojeći se moduli dorađuju. Zbog toga se u programiranju koriste uglavnom prototipni jezici (perl, awk i sed), jer se u njima jednom napisano lako mijenja i dopunjuje. Korisničko sučelje izvedeno je u Javascriptu.

U kratkim crtama, možete nam opisati kako funkcionira Hascheck?

Prvo se iz teksta izdvajaju sve poznanice, bile one riječi i već „prožvakane“ greške. Valja istaknuti da je opseg rječnika pogrešaka dvostruko veći od opsega rječnika valjanih riječi. Ostatak, odnosno nepoznanice, podvrgava se grafemskoj klasifikaciji i morfologizaciji, čiji je cilj utvrditi je li nepoznanica tvorbeno moguća u hrvatskome. Ako jest, označava se takvom i za nju se ne nude ispravci. Neoznačene nepoznanice i greške-poznanice podliježu postupku traženja najvjerojatnijih ispravaka prema bliskosti s riječima u pravopisnom rječniku.

Hascheck uči nove riječi iz tekstova svojih korisnika. Na koji način to funkcionira?

Na početku su sve nepoznanice prolazile evaluaciju radi li se o valjanim riječima ili pogreškama. Danas takav postupak prolaze samo označene nepoznanice, kao i nepoznanice za koje sustav ne može ponuditi ispravak. Premda je klasifikacija i morfologizacija vrlo pouzdana, zbog očuvanja visoke preciznosti rječnika nužan je ljudski nadzor nad onim što je sustav izdvojio kao potencijalno zanimljivo za učenje. U najnovije vrijeme, zbog poraslog opsega poslova oko održavanja sustava i razvoja novih aplikacija, učenje se zna preskočiti, ali se podatci pripremljeni za učenje pohranjuju za bolja vremena.

Ponekad Hascheck ne želi “probaviti” tekst. Radi li se o nekom bugu ili možda mi korisnici radimo nešto krivo?

To se zna dogoditi na sučelju http://hascheck.tel.fer.hr/ kada tekst sadrži neke „neprobavljive“ znakove, najčešće posebne znakove iz skupa UTF-8, no takvih je sve manje i manje. Ako se to dogodi, odnosno ako korisnik ne dobije odziv sustava u očekivanome vremenu, treba prijeći na http://hascheck.tel.fer.hr/stari/, koji će sigurno probaviti i neprobavljivo, ali neće upozoriti na moguće kontekstualne pogreške u tekstu. Ovaj problem je potakao izradu nove verzije sučelja na kojoj će se moći odabrati želi li se tekst kontekstualno provjeriti, što dulje traje, ili ne. Na novom sučelju problem s „probavljanjem“ teksta ne bi se smio pojavljivati.

Postoje dvije verzije Haschecka, koja se više koristi, starija ili novija?

Omjer korištenja novog (kontekstualnog) i starog (nekontekstualnog) sučelja je 7:3. 

Koliko je velika baza riječi u Haschecku?

U trenutku pisanja pravopisni rječnik je brojao ravno 2.096.191 različnicu. Od tog broja 52,9% pripada hrvatskom općejezičnom fondu, 43,7% hrvatskom posebnojezičnom, dominantno imenskom fondu, dok 3,4% pripada engleskom općejezičnom fondu. Engleski dio rječnika postoji zbog navade korisnika, posebno onih iz akademske zajednice, da u hrvatske tekstove ubacuju brojne engleske izraze. Na samome početku Hascheckov je rječnik brojao oko 100.000 različnica hrvatskog općejezičnog fonda.

Koliko posjeta ima stranica Haschecka i koliko korisnika trenutno postoji?

Glavna Hascheckova stranica bilježi između 3 i 4 tisuće posjeta dnevno. U lipnju 2014. dnevno se u prosjeku obrađivalo oko 8.000 tekstova, odnosno korpus od preko 2 milijuna pojavnica. Prema zabilježenim cookiejima procjenjujemo da je uslugu do sada koristilo oko pola milijuna korisnika diljem svijeta. Od 249 IP-domena, na koje je svijet danas podijeljen, njih 125 dalo je Hascheckove korisnike. Razmjeri korištenja u Hrvatskoj dadu se iskazati i putem zabilježenih IP-adresa s kojih su hrvatski korisnici do sada pristupali usluzi. Takvih je u trenutku pisanja bilo ravno 582.379, što je četvrtina svih IP-adresa dodijeljenih Hrvatskoj (https://www.maxmind.com/en/techinfo). 

Jeste li kad razmišljali o prodaji projekta?

Takva opcija nije isključena, no o tome ima smisla razgovarati ako pristigne ozbiljna ponuda za preuzimanje usluge. Nju do sada nismo zaprimili.

Koji su sljedeći koraci za ovaj servis? Može li se on razviti u jedan profitabilan projekt ili će zauvijek ostati ovako?

Hascheck se već pokazao vrlo profitabilnim projektom, ne u smislu kako to pitanje implicira, već na jedan puno bitniji način. Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika (vidi http://www.meta-net.eu/whitepapers/key-results-and-cross-language-comparison) i da bi se to stanje u razumnom roku promijenilo nužna je podatkovna podloga u obliku bogate i pouzdane leksičke n-gramske infrastrukture, bez koje je suvremeno jezično modeliranje nezamislivo. Zahvaljujući Haschecku, hrvatski danas takvu podlogu ima, dapače po tom se pitanju može uspoređivati i s jezičnotehnološki najnaprednijim jezicima. Međutim, da bi se dobivena big data infrastruktura – radi se o milijardama leksičkih zapisa – na pravi način iskoristila, potrebna su ozbiljna ulaganja u opremu i ljude, što je za sada izostalo. Već smo pokazali uporabljivost n-gramske infrastrukture i bez lipe potpore. Hascheck je postao kontekstualni provjernik s omjerom 4:1 kod prijavljivanja konvencionalnih (zatipkovno-pravopisnih) i gramatičko-stilskih pogrešaka, što ga svrstava uz bok najboljih provjernika takve vrste u svijetu. Razvijeni su uporabljivi sustavi za strojnu tvorbu i strojno prepoznavanje hrvatskoga govora. U tijeku je projekt strojnoga prevođenja za francusko-hrvatski jezični par, u kojemu Francuzi besplatno ulažu svoj know-how, želeći tako promovirati svoj jezik putem tehnologije. No, sve su to početci, jer ni govorne tehnologija, ni strojno prevođenje, kao ni daljnje unapređivanje Haschecka nisu razvojno održivi bez gore spomenutih ulaganja. Hrvatska mora prepoznati da se jezik u internetskoj eri brani tehnologijom, jer u protivnome hrvatskom jeziku s vremenom prijeti opasnost gubljenja funkcionalnosti u svim njegovim pojavnim oblicima, što je put prema izumiranju.

Hoće li možda biti mobilne verzije ili aplikacije za tablet uređaje?

Da, u planu su obje verzije. Kako su u implementaciji dijelova usluge uvijek sudjelovali naši studenti, tako je i ovaj zadatak zadan kroz završne i diplomske  studentima preddiplomskog i diplomskog studija FER-a.

Hascheck će ostati besplatan ili postoji neka opcija naplate usluge?

U jezicima s relativno malim brojem korisnika, kakav je hrvatski, osnovni jezičnotehnološki alati moraju biti javno dobro. Svima je u interesu, i autorima i čitateljima, da tekstovi budu dobro uređeni, bez grešaka koje sramote prve a iritiraju druge. To je razlog zašto je Hascheck besplatna usluga za „male“ korisnike. Onima koji ga rabe u profesionalne svrhe već dulje naplaćujemo uslugu, jer im korištenje Haschecka podiže produktivnost i garantira kvalitetu proizvoda (teksta), što je vrijedno minimalne naknade. Profesionalni korisnici za tu naknadu dobivaju i skrb o leksici koju rabe putem nadziranoga učenja, što  „malim“ korisnicima danas zbog manjka ljudstva više ne možemo garantirati.


U nastavku možete pogledati staru emisiju eHrvatska u kojoj je također objašnjen Hascheck.

 

PODIJELJENO 0 PUTA

Podijeli

!Komentari su onemogućeni za ovaj članak.
aktualno najčitanije
Stručnjak za kibernetičku sigurnost upozorava: "Europa je izgubila internet"
Sve više zaostaje
Stručnjak za kibernetičku sigurnost upozorava: "Europa je izgubila internet"
Trump blokirao akviziciju tvrtke koja proizvodi čipove zbog "kineskog utjecaja"
Dogovoreno još 2024.
Trump blokirao akviziciju tvrtke koja proizvodi čipove zbog "kineskog utjecaja"
Kad su ljudi prohodali na dvije noge? Znanstvenici misle da napokon znaju odgovor na to pitanje
Tajna skrivena milijunima godina
Kad su ljudi prohodali na dvije noge? Znanstvenici misle da napokon znaju odgovor na to pitanje
Grok ponovno u problemima: Pokrenuo trend koji bi sve trebao užasavati, ali očito neke samo dobro zabavlja
Nema reakcije iz xAI
Grok ponovno u problemima: Pokrenuo trend koji bi sve trebao užasavati, ali očito neke samo dobro zabavlja
HAKOM u 2026.: Nova kibernetička strategija i jači nadzor internetskih platformi
Osigurati provođenje propisa
HAKOM u 2026.: Nova kibernetička strategija i jači nadzor internetskih platformi
Starlink uvodi veliku promjenu: "Krećemo s velikom rekonfiguracijom naših konstelacija satelita"
Tijekom 2026.
Starlink uvodi veliku promjenu: "Krećemo s velikom rekonfiguracijom naših konstelacija satelita"
Poslali miševe u svemir, a ono što se dogodilo moglo bi biti ključno za budućnost čovječanstva
Pomno ih prate
Poslali miševe u svemir, a ono što se dogodilo moglo bi biti ključno za budućnost čovječanstva
Kinezi ruše rekorde u hipergravitaciji: Izgradili najjaču centrifugu na svijetu
CHIEF1900
Kinezi ruše rekorde u hipergravitaciji: Izgradili najjaču centrifugu na svijetu
Amazonska prašuma prelazi u stanje koje nije viđeno milijunima godina
Upozorenje znanstvenika
Amazonska prašuma prelazi u stanje koje nije viđeno milijunima godina
Kinezi od Nvidije naručili preko 2 milijuna čipova: Američka tvrtka u pregovorima o povećanju proizvodnje
Trljaju se ruke
Kinezi od Nvidije naručili preko 2 milijuna čipova: Američka tvrtka u pregovorima o povećanju proizvodnje
Kinezi su na pragu otkrića koje bi "stealth" tehnologiju moglo okrenuti naglavačke
Super pametan materijal
Kinezi su na pragu otkrića koje bi "stealth" tehnologiju moglo okrenuti naglavačke
Nude pola milijuna dolara i vlasnički udio osobi koja će se uhvatiti u koštac s ovim problemom
Malo ili puno?
Nude pola milijuna dolara i vlasnički udio osobi koja će se uhvatiti u koštac s ovim problemom

Vezane vijesti

Ne propustite ni ovo

vijesti
Djevojka (15) oteta dok je šetala psa: Otac locirao njezin mobitel i spasio je, poznato što se dogodilo
užas u SAD-u
Djevojka (15) oteta dok je šetala psa: Otac locirao njezin mobitel i spasio je, poznato što se dogodilo
Dvojica muškaraca se ugušila dimom u obiteljskoj kući u Glini
UŽAS U GLINI
Tijela dvojice muškaraca pronađena u obiteljskoj kući! Otkriven je uzrok tragedije
Luka Modrić želi kupiti rodnu kuću, hoće li mu uspijeti?
Otkrio želju
Ovo je postala najpoznatija kuća u Hrvatskoj: Luka Modrić je želi kupiti
show
Severina nastupala na dočeku u vodičkom hotelu
idealno za ples
Sevkina haljina za doček bila je pravo remek-djelo, publika je gledala samo u nju
Kako će biti raspodijeljeno bogatstvo Brigitte Bardot?
dugotrajni postupak
Kome će pripasti bogatstvo Brigitte Bardot? Nasljedstvo ikone je pod povećalom javnosti
Vjekoslava Bach proslavila Novu godinu s Antoniom Marićem
"I da sve nestane..."
Romantični bijeg domaće voditeljice i 25 godina mlađeg partnera: "Godina je bila teška, ali donijela mi je ljubav"
zdravlje
Imate nadutost i plinove? Ovaj čest uzrok mnogi potpuno ignoriraju
Neugodan probavni problem
Imate nadutost i plinove? Ovaj čest uzrok mnogi potpuno ignoriraju
Znanstvenici šokirani: Stari lijek za tlak mogao bi usporiti jedan od najopasnijih tumora mozga!
Koristi se desetljećima
Znanstvenici šokirani: Stari lijek za tlak mogao bi usporiti jedan od najopasnijih tumora mozga!
7 namirnica bogatih proteinima koje žene starije od 50 godina trebaju jesti svaki tjedan
Za očuvanje mišićne i koštane snage
7 namirnica bogatih proteinima koje žene starije od 50 godina trebaju jesti svaki tjedan
zabava
Mačka oduševila potezom, pogledajte kako je nasamarila vlasnike
Kako je lukava!
Mačka oduševila potezom, pogledajte kako je nasamarila vlasnike
Koliko zapravo znate? Samo genijalci bez greške prolaze ovaj opći kviz
Pokažite što znate!
Koliko zapravo znate? Samo genijalci bez greške prolaze ovaj opći kviz
Smeta vam krzno na kapuljačama? Zato što ga pogrešno koristite
Zanimljivo
Smeta vam krzno na kapuljačama? Zato što ga pogrešno koristite
tech
Poslali miševe u svemir, a ono što se dogodilo moglo bi biti ključno za budućnost čovječanstva
Pomno ih prate
Poslali miševe u svemir, a ono što se dogodilo moglo bi biti ključno za budućnost čovječanstva
Kinezi ruše rekorde u hipergravitaciji: Izgradili najjaču centrifugu na svijetu
CHIEF1900
Kinezi ruše rekorde u hipergravitaciji: Izgradili najjaču centrifugu na svijetu
Amazonska prašuma prelazi u stanje koje nije viđeno milijunima godina
Upozorenje znanstvenika
Amazonska prašuma prelazi u stanje koje nije viđeno milijunima godina
sport
VIDEO Pogledajte lukavi Modrićev slobodnjak: Bio je blizu drugog gola za Milan
Rossoneri izbili na vrh
VIDEO Pogledajte lukavi Modrićev slobodnjak: Bio je blizu drugog gola za Milan
Navijači u dva dana Hajduku uplatili nevjerojatan iznos novca: Ove brojke su čudesne
Pao lanjski rekord
Navijači u dva dana Hajduku uplatili nevjerojatan iznos novca: Ove brojke su čudesne
Svetina, Šikić i Šprajcer na sastanku s Mamićem u Bosni i Hercegovini
Nogometni šefovi
Mamić uhvaćen u zanimljivom društvu: Trojac iz Hrvatske na sastanku u BiH
tv
MasterChef: Otto Grundmann u intervjuu za novatv.hr nakon finala MasterChefa
SVE BI PONOVIO!
Emotivan Otto iskreno progovorio nakon napetog finala: "Najveći su problem bili ljudi!"
MasterChef: Antonija Rittuper u intervjuu za novatv.hr nakon eliminacije iz MasterChef kuhinje
SLAŽETE LI SE?
Evo u što Antonija i dalje ne može vjerovati nakon izlaska iz MasterChefa!
"Savršena meta": Iza kulisa akcijskog trilera koji je obilježio 2000-e
SAVRŠENA META
"Savršena meta": Iza kulisa akcijskog trilera koji je obilježio 2000-e
putovanja
Velike porcije, a cijene su bagatela: Gablec zbog kojeg vrijedi stati u Zlataru
Vinarija Zlatar
Velike porcije, a cijene su bagatela: Gablec zbog kojeg vrijedi stati u Zlataru
Pleme koje je nakon 500 godina izašlo iz izolacije kako bi upozorilo ostatak svijeta na veliku opasnost
Važna poruka
Pleme koje je nakon 500 godina izašlo iz izolacije kako bi upozorilo ostatak svijeta na veliku opasnost
Prvi ovogodišnji: Kviz općeg znanja za one koji su preživjeli slavlje
15 pitanja
Prvi ovogodišnji: Kviz općeg znanja za one koji su preživjeli slavlje
novac
Ovi glazbenici su najviše zaradili u 2025. godini
U zbroju 1,9 milijardi dolara
Ovi glazbenici su najviše zaradili u 2025. godini
Poznati proizvođač čizama zarađuje bogatstvo na nošenoj obući u SAD-u. Sada širi model i na Europu
Retro klasik
Poznati proizvođač čizama zarađuje bogatstvo na nošenoj obući u SAD-u. Sada širi model i na Europu
Zagreb nikako ne želi kineske autobuse. Izbačeni s natječaja zbog sitnica - pobijedio najskuplji MAN
milijuni eura razlike
Zagreb nikako ne želi kineske autobuse. Izbačeni s natječaja zbog sitnica - pobijedio najskuplji MAN
lifestyle
Debele zimske jakne na sniženju
Tople i praktične
Već od 20,99 eura: 12 debelih jakni na sniženju koje će vas spasiti na minusima i snijegu
Značenje imena prve bebe rođene u 2026. godini
DIVNO!
Prva beba u 2026.: Značenje imena koje je svojoj kćerkici dao pjevač Marko Škugor
Kako krvna grupa utječe na osobnost
Popularna teorija
U Japanu vjeruju da krvna grupa utječe na osobnost, evo što to govori o vama
sve
Severina nastupala na dočeku u vodičkom hotelu
idealno za ples
Sevkina haljina za doček bila je pravo remek-djelo, publika je gledala samo u nju
Velike porcije, a cijene su bagatela: Gablec zbog kojeg vrijedi stati u Zlataru
Vinarija Zlatar
Velike porcije, a cijene su bagatela: Gablec zbog kojeg vrijedi stati u Zlataru
Kako će biti raspodijeljeno bogatstvo Brigitte Bardot?
dugotrajni postupak
Kome će pripasti bogatstvo Brigitte Bardot? Nasljedstvo ikone je pod povećalom javnosti
 

Nastavi čitati

Tehnologija
Sateliti Starlink
Tijekom 2026.

Starlink uvodi veliku promjenu: "Krećemo s velikom rekonfiguracijom naših konstelacija satelita"

piše Martina Čizmić
Tehnologija
Električni automobil, ilustracija
Ruše rekorde

Veliki su proizvođač nafte, ali njihovi stanovnici zaljubljeni su u - električna vozila

piše Hina
Tehnologija
Neuralinkov implantant
Cilj je više od 1000 ugradnji

Muskovi planovi za Neuralink: Masovna proizvodnja, automatska ugradnja i spajanje "svijesti s umjetnom inteligencijom"

piše Martina Čizmić
Tehnologija
Zabrinuti muškarac, ilustracija
Utjecat će na većinu ljudi

Tehnološki lideri daju odgovor na jedno od najvažnijih pitanja godine, a možda i desetljeća

piše Hrvoje Jurman
Tehnologija
Xiaomi YU7
Prihvatili ih Europljani i Japanci

Nova pravila s istoka: Kinezi su ubrzali industriju električnih automobila

piše Hrvoje Jurman
Tehnologija
AI generirana glazba
Što mislite o tome?

Neki za to ne žele niti čuti, no u budućnosti bi se mogle pojaviti potpuno nove pjesme Michaela Jacksona i Elvisa

piše Hrvoje Jurman
  • Pišite nam
  • Uredništvo
  • Oglašavanje i marketing
  • Uvjeti korištenja
  • Politika zaštite privatnosti
  • Politika o kolačićima
  • Dnevnik
  • Nova Plus
  • Gol.hr
  • Zadovoljna
  • Kreni Zdravo
  • NovaTV
  • DomaTV
Upravljaj obavijestima