Svet
U Sloveniji se naredne nedelje održava "EU Next Generation Innovators Summit", koji će na jednom mestu okupiti najperspektivnije startape iz centralne i istočne Evrope i investitore iz celog sveta, koji će razgovarati o ulaganju dve milijarde evra u njihova inovativna rešenja. Jedan od retkih predstavnika Zapadnog Balkana u zvaničnom delu programa jeste i srpsko-crnogorski startap Om3ga Solutions, koji će na samitu predstaviti treću verziju "Daktilografa", softvera za pretvaranje glasa u teks (speech-to-text). "Daktilograf" omogućava preciznu transkripciju južnoslovenskih jezika u realnom vremenu i nema ograničenja u broju reči koje prepoznaje, a ta tehnologija jedinstvena tehnologija pruža pomoć velikom broju ljudi, ali su se vremenom kao najzainteresovaniji klijenti pokazali mediji, call centri, kao i veće IT Solutions kompanije.Regionalni startap Om3ga SolutionsStručnjaci za marketing u najrazvijenijim zemljama tvrde da će tehnologije za prepoznavanje glasa revloucionarizovati digitalne tehnologije. Procenjuju da će do 2025. godine skoro sve aplikacije integrisati mogućnost za prepoznavanje glasovnih komandi. Da li je ex-YU tržište, sa svojom veličinom i prosečnim dohotkom, potencijalno atraktivno za tehnološke gigante koji razmišljaju u ovom pravcu?Huawei Da li je takvim velikim kompanijama, kao što su Gugl i Epl, jednostavnije da razviju svoja lokalizovana rešenja za speech tehnologiju, ili da ostvare saradnju sa lokalnim igračima?Razvili su vecSkuplje je od nas, nije dostupno svakome…. Ne isplati im se nase trziste i previse je malo. Na ruskom trzistu imamo yandex, koji je otrjentisan na b2c, i na cloud resenje. Trzista na koja mi ciljano su jugoistocna i istocna evropa, kao i zemlje zapadnog balkana. Za rusko trziste mi nudimo b2b on premises resenje. Koje su specifičnosti južnoslovenskih jezika, u odnosu na engleski, odnosno koje probleme treba savladati u primeni te tehnologije na našim prostorima?Velike globalne kompanije su se uhvatile u koštac sa izazovom prepoznavanja glasa i govora i ubrzano razvijaju svoja rešenja za engleski jezik, medjutim zemlje sa slovenskog govornog područja, zbog specifične morfologije i fonetike, zaostaju u procesu digitalizacije na polju speech to text industrije.Slovenske jezike karakteriše visok stepen infleksije, koji otežava proces mašinskog učenja, te je razvoj ovakve tehnologije za naš jezik i dalje skup i dugotrajan izazov, koji je od nas zahtevao puno ulaganja. ..spora digitalizacija , nizak tech adoption u b2g sektoru Daktilograf sada kreira (predstavlja/pokreće/završava?) treću verziju svog sistema. Koje nove opcije su implementirane u poslednjoj iteraciji?U verziji tri su primenjene nove tehnologije ne samo u proizvodu već i u načinu rada i pripreme proizvoda. Proizvod se sastoji od više elemenata, osnovni element je engine i njega u novoj verziji pokreću TensorFlow i Deep Learning tehnologije koje brišu sve limite koje su postojale u prethodnim tehnologijam, te otvaraju širok spektar mogućnosti za razvoj i primenu.Savremeni pristup i tehnologije koje koristimo nam omogućavaju veću preciznost, veće brzine a sve to na manje hardverski zahevnoj infrastrukturi, sa smanjenim troškovima za klijente. Naše trenutno rešenje može da radi online i offline i ima mogućnost da se implementira na svim operativnim sistemima, svim programskim jezicima i svim uređajima. Modul koji se bazira na punoj verziji TensorFlow-a nam omogućava implementaciju sistema koji simultano može da transkribuje veliki broj audio kanala, a skaliranje rešenja je neograničeno. Na istom sistemu može da se vrši i transkripcija različitih jezika, različite vrste materijala, različitih formata fajlova (audio ili video). Uz podršku CUDA tehnologije i podržanog hardware-a, transkripcija je moguća za 20% vremenskog trajanja audio fajla - dakle brža od realnog vremena. Osim engine-a tu su i jezički i CTC moduli. Jezički modul je memory maped modul treniran putem našeg Trening engine-a koji smo razvili tako da može da se koristi za treniranje svih jezika bez limita, koristimo ga kako za trening južnoslovenskih jezika tako i za trening Ruskog, engleskog, latinskog, kineskog, slovenačkog a testiran je i za poljski, nemački, francuski, španski, danski i arapski. CTC (Connectionist Temporal Classification) modul nam omogućava izradu visoko preciznih jezičkih dodataka koji mogu da se koriste u IoT kao tačno definisane komande gde se upotrebom definiše količina reči koja je u upotrebi, što je pogotovo poželjno za upotrebu u bučnim sredinama. Ista tehnologija nam omogućava izradu preciznih modela za ispravljanje i dopunjavanje akustičnog modela koji povećava preciznost transkripcije a služi se opširnom treniranom bazom znanja i 6-n gram jezičkim modelom. Koje su sve potencijalne primene ove tehnologije? Minimalni hardverski zahtevi za specijalne modele nam omogućavaju implementaciju glasovnih komandi u IoT sisteme, a upotrebom TensorFlow Lite verzije možemo da obezbedimo transkripciju glasa visoke preciznosti na mobilnim uredjajima i to sve bez potrebe za internet konekcijom.On premises speech to text softver je moguće integrisati u širok spektar industrija i proizvoda, s obzirom na to da može da funkcioniše oflajn, kao i da ima mogućnost integracije u druge sisteme. Neke od industrija u kojima se Daktilograf može primeniti su mediji, sudstvo, IoT, obrazovni sektor, automatizacija, digitalizacija tradicionalnih industrija, automobilski sistemi, i mnogi drugi. Da li Daktilograf razmišlja o "nadogradnji" svog rešenja, proširenju usluga i na druge jezike? Uspješno smo trenirali detekciju pozadinskih šumova, buke i muzike, detekciju više govornika istovremeno. Ostaje nam unapređivanje ove tehnologije kao osnove detekcije govora u svim zadatim uslovima. Radimo na povećanju preciznosti za televizijske materijale, telefonske pozive, radio materijale i sve druge zaprljane audio materijale. Detekcija govora u uslovima visoke zaprljanosti je veliki globalni problem, mi smo zadovoljni našim trenutnim uspjehom na ovom polju, mi zapravo uz treniranje jezika treniramo i detekciu šumova pa takvim pristupom će rješenje svakim danom biti sve bolje.Radimo na sistemu detekcije i odvajanja indiividualnih govornika, kako smo od starta imali rješenje ovog najvećeg globalnog problema na umu tako smo i citav engine izgradili sa prioritetom detekcije govora, trenutno mogu samo a kažem da pratimo 7 parametara glasa i na osnovu njih možemo da detektujemo ne samo različite govornike već možemo da identifikujemo govornika po potrebi npr javne ličnosti i slično. Imamo mogućnost detekcije emocije u glasu govornika, naravno možemo da detektujemo starost i pol osobe.Osim glasa moguća je detekcija pjesama, reklama i džinglova kao i detekcija specificnih zvukova, postoji test koji je rađen sa detekcijom verste ptice prema njenom zvuku. Kako bi ovu tehnologiju mogli da sprovedemo u djelo van testnog okruženja potrebne su nam dodatne investicije za trening opremu i dodatni razvoj. (Ko su vaši sadašnji partneri?) Trenutno sarađujemo sa jednim domaćim sistem integratorom, koji želi ekskluzivna prava na tehnologiju, i trenutno radimo na ispunjenju uslova potrebnih za realizaciju tog ugovora. Naš najveći uspeh je dokaz koncepta sa on premises rešenjem Verzije tri daktilografa, kao i podrška investitora South Central Ventures i ICT Hub Venture.Projekat finansira Fond za inovacionu delatnost iz budžeta Republike Srbije sa razdela Ministarstva prosvete, nauke i tehnološkog razvoja, a kroz Projekat za unapređenje konkurentnosti i zapošljavanja (sporazum o zajmu sa Svetskom bankom). Naš najveći uspeh je dokaz koncepta sa on premises rešenjem Verzije tri daktilografa, kao i podrska Inovacionog fonda SCV i ICT Hub Venture.