Om3ga Solutions u Sloveniji predstavlja 3.0 verziju "Daktilografa"

Foto: Privatna arhiva

U Sloveniji se naredne nedelje održava "EU Next Generation Innovators Summit - Next Round 21", koji će na jednom mestu okupiti najperspektivnije startape iz centralne i istočne Evrope i investitore iz celog sveta, koji će razgovarati o ulaganju dve milijarde evra u njihova inovativna rešenja. Jedan od retkih predstavnika Zapadnog Balkana u zvaničnom delu programa jeste i srpsko-crnogorski startap Om3ga Solutions, koji će na samitu predstaviti treću verziju "Daktilografa", softvera za pretvaranje glasa u tekst (speech-to-text).   

"Daktilograf" omogućava preciznu transkripciju južnoslovenskih jezika u realnom vremenu i nema ograničenja u broju reči koje prepoznaje, a ta tehnologija ima potencijalnu primenu i velikom broju oblasti. Stručnjaci za marketing tvrde da će do 2025. godine skoro sve aplikacije integrisati mogućnost za prepoznavanje glasovnih komandi.

Na "domaćem" terenu, najveće interesovanje ze rešenje Om3ga Solutions su pokazali mediji, kol centri, kao i veće IT kompanije. Uoči "EU Next Generation Innovators Summit", razgovarali smo sa osnivačima startapa Snježanom Gomilanović i Amilom Čengićem.

Da li je ex-YU tržište, sa svojom veličinom i prosečnim dohotkom, potencijalno atraktivno za tehnološke gigante koji razmišljaju u ovom pravcu? Da li je takvim velikim kompanijama, kao što su Gugl i Epl, jednostavnije da razviju svoja lokalizovana rešenja za prepoznavanje glasa, ili da ostvare saradnju sa lokalnim igračima?

Amil Čengić: Divovi iz Silicijumske doline su već razvili svoja "speech-to-text" rešenja, ali su ona znatno skuplje nego naša, pa nisu dostupna svakome. Sa njihovom tehnologijom im se, dakle, ulazak na tržište Zapadnog Balkana ne isplati, previše je malo. Od velikih kompanija, jedino je kod nas ulagao Huawei, koji je glasovne komande primenio samo na TV "daljince". Tržista na koja mi ciljamo su jugoistočna i istočna Evropa, kao i region. 

Snježana Gomilanović: Na ruskom tržištu posluje Yandex, koji je orijentisan na business-to-consumer (B2C) segment i na cloud resenje. Trenutno "Daktilograf" učimo da propriča i ruski, pa ćemo na tom tržištu nuditi business-to-business (B2B) i "on-premises" (autonomnog) rešenje.

Koje su specifičnosti južnoslovenskih jezika, u odnosu na engleski, odnosno koje probleme treba savladati u primeni te tehnologije u našem regionu?

SG: Velike globalne kompanije su se uhvatile u koštac sa izazovom prepoznavanja glasa i govora, ubrzano razvijaju svoja rešenja za engleski jezik, međutim zemlje sa slovenskog govornog područja, zbog specifične morfologije i fonetike, zaostaju u procesu digitalizacije na polju "speech-to-text industrije". Zbog toga je primena mašinskog učenja na njima znatno teži.

AČ: Razvoj ovakve tehnologije za naš jezik je stoga i dalje skup i dugotrajan izazov, koji je od nas zahtevao puno ulaganja. Kada na to dodamo i sporiju digitalizaciju u regionu, nizak stepen usvajanja naprednih tehnologija u javnom sektoru, vidimo da još ima prostora za širenje u budućnosti.

Naredne nedelje predstavljate treću verziju svog sistema. Koje nove opcije su implementirane u poslednjoj verziji?

AČ: U verziji 3.0 su primenjene nove tehnologije, ne samo u proizvodu već i u načinu rada i pripreme. Osnovni element "Daktilografa" je autorski endžin, u novoj verziji ga pokreću Guglovov "TensorFlow" i 'Deep Learning' tehnologije (tehnologija koja simulira učenje ljudskog mozga, prim. aut.), a koje brišu sve limite koje su postojale u prethodnim tehnologijma.

Savremeni pristup koji koristimo nam omogućavaju veću preciznost, veće brzine, sa manje hardverski zahevnoj infrastrukturi, sa smanjenim troškovima za klijente. Naše trenutno rešenje može da radi i onlajn i oflajn i može da se implementira na svim operativnim sistemima, svim programskim jezicima i svim uređajima. 

Uz podršku nVidia CUDA tehnologije (Compute Unified Device Architecture) transkripcija je moguća za 20 odsto vremenskog trajanja snimka, dakle za petinu realnog vremena snimka. 

Tu su i jezički i CTC (Connectionist Temporal Classification) moduli., trenirani putem našeg endžina, tako da može da se koristi za treniranje svih jezika bez ograničenja. "Treniramo" ga najviše na južnoslovenskim jezicima, ali i na ruskom, rumunskom, engleskom, latinskom, kineskom....  a testiran je i za poljski, nemački, francuski, španski, danski i arapski. 

SG: Modul koji se bazira na punoj verziji "TensorFlow"-a nam omogućava implementaciju sistema koji istovremeno može da transkribuje veliki broj audio kanala, što znači da je skaliranje rešenja neograničeno.  Na istom sistemu može da se vrši i transkripcija različitih jezika, različite vrste materijala, različitih formata, odnosno i video i audio snimaka. 

CTC nam omogućava izradu visoko preciznih jezičkih dodataka, što je poželjno u bučnim sredinama. Ista tehnologija nam omogućava izradu preciznih modela za ispravljanje i dopunjavanje akustičnog modela, koji povećava preciznost transkripcije, a služi se opširnom treniranom bazom znanja i 6-n gram jezičkim modelom.

Koje su sve potencijalne primene ove tehnologije?

AČ: Minimalni hardverski zahtevi za specijalne modele nam omogućavaju implementaciju glasovnih komandi u "Internet of Things" (IoT) sisteme, dakle uređaje za svakopdnevnu upotrebu, a upotrebom "TensorFlow Lite" omogućava transkripciju glasa visoke preciznosti na mobilnim uređajima, čak i kada nisu povezani sa internetom.

SG: Autonomni "speech-to-text" softver je moguće integrisati u širok spektar proizvoda, s obzirom na to da može da funkcioniše oflajn. Neke od industrija u kojima se "Daktilograf" može primeniti su mediji, sudstvo, IoT, obrazovni sektor, automatizacija, digitalizacija tradicionalnih industrija, automobilski sistemi, i mnogi drugi. 

Da li Daktilograf razmišlja o "nadogradnji" svog rešenja, proširenju usluga i na druge jezike?

AČ: Druge jezike već treniramo, ali je za to potrebno vreme. Uspešno smo trenirali sistem da glas prepoznaje iako je zvuk prepun pozadinskih šumova, buke ili muzike, detekciju više govornika istovremeno. Ostaje nam samo da unapredimo tehnologiju, a radimo na povećanju preciznosti za televizijske materijale, telefonske pozive, radio materijale i sve druge "zaprljane" audio materijale. Detekcija govora u uslovima visoke "zaprljanosti" je veliki globalni problem, a mi smo zadovoljni našim trenutnim uspjehom na ovom polju,

Sada radimo na sistemu detekcije i odvajanja pojedinačnih govornika, kako bismo od starta imali rešenje tog problema. Imamo mogućnost detekcije emocije u glasu govornika, naravno možemo da detektujemo starost i pol osobe.

SG: Osim glasa moguća je detekcija pesama, reklama i džinglova kao i detekcija specificnih zvukova, postoji test koji je rađen sa prepoznavanjem vrste ptice prema njenom zvuku. Kako bismo ove dodatne opcije mogli da sprovedemo u delo van testnog okruženja, potrebne su nam dodatne investicije za trening opremu i dodatni razvoj.

Ko su vaši sadašnji partneri?

AČ: Trenutno sarađujemo sa jednim domaćim sistem integratorom, koji želi ekskluzivna prava na tehnologiju, i trenutno radimo na ispunjenju uslova potrebnih za realizaciju tog ugovora. 

SG: Naš najveći uspeh je dokaz koncepta sa "on-premises" rešenjem verzije 3.0 "Daktilografa, kao i podrska Inovacionog fonda SCV i ICT Hub Venture. Projekat finansira Fond za inovacionu delatnost iz budžeta Republike Srbije sa razdela Ministarstva prosvete, nauke i tehnološkog razvoja, a kroz Projekat za unapređenje konkurentnosti i zapošljavanja (sporazum o zajmu sa Svetskom bankom). 


Preuzimanje delova teksta je dozvoljeno, ali uz obavezno navođenje izvora i uz postavljanje linka ka izvornom tekstu na novaekonomija.rs

Novu ekonomiju možete pratiti na mrežama:

pošaljite komentar

Nema komentara

Prijavite se za njuzleter Nove ekonomije.

Ova stranica je zaštićena sa reCAPTCHA i primenjuju se Google Politika privatnosti i Uslovi korišćenja usluge

Nema pravih poslovnih i životnih odluka bez dobrih informacija.
Vaša email adresa će biti korišćena isključivo za potrebe slanja newslettera, a u skladu sa Politikom privatnosti.