Polacy tworzą zaawansowany mechanizm rozpoznawania mowy

Polacy tworzą zaawansowany mechanizm rozpoznawania mowy

Polacy tworzą zaawansowany mechanizm rozpoznawania mowy
Źródło zdjęć: © via Chip.pl
21.06.2012 12:27, aktualizacja: 21.06.2012 12:47

Dialog człowieka z automatyczną Infolinią? Wywoływanie rozmówcy po wypowiedzeniu jego nazwiska? To wszystko jest możliwe dzięki technologii rozpoznawania głosu, nad którą pracuje trójmiejska firma Voice Lab, członek Pomorskiego Parku Naukowo-Technologicznego w Gdyni.

Obecnie dzwoniąc do instytucji korzystających z systemów telefonicznych najczęściej jesteśmy proszeni o wybór numeru z dostępnego menu, któremu przypisany jest przewidywany temat rozmowy. Zanim połączymy się z konsultantem, wysłuchujemy nagranego wcześniej komunikatu, a poprzez naciśnięcie na aparacie odpowiedniego przycisku, zatwierdzamy nasz wybór. Firma Voice Lab opracowała rozwiązanie, dzięki któremu uzyskanie kontaktu z konsultantem będzie szybsze i naturalne, bo poprzez wydanie zwykłego polecenia głosowego.

Idea rozpoznawania głosu zainteresowała młodych trójmiejskich naukowców już podczas ich studiów na Politechnice Gdańskiej. Pierwsze badania i udane testy autorskiego algorytmu pozwoliły im z optymizmem patrzeć na przyszłość tego przedsięwzięcia.

Po czterech latach pracy stworzyli oprogramowanie, dzięki któremu głos ludzki jest przetwarzany cyfrowo, pozbawiany szumów i zakłóceń, a następnie zamieniany na tekst. Dalszy rozwój produktu oraz przygotowania do komercyjnego wprowadzenia na rynek swojego rozwiązania pod marką Voice Lab, młodzi biznesmeni zdecydowali się realizować w nowoczesnym otoczeniu Pomorskiego Parku Naukowo-Technologicznego. Jak mówią, technologia ta jest skuteczna, choć trudna w praktycznej implementacji - bariera ta została jednak już pokonana, właśnie poprzez kooperację z firmami działającymi w gdyńskim PPNT.

"_ W branży telekomunikacyjnej, w której stosuje się rozwiązania nowoczesnych central telefonicznych, istnieje wiele obszarów zastosowania technologii rozpoznawania mowy, takich jak wsparcie dla obsługi klienta np. podawanie głosowo numeru przesyłki, numeru klienta, odczytu licznika, numeru pesel itp.; prowadzenie z klientem prostego dialogu, opartego o zdefiniowane gramatyki, w ramach obsługi IVR (ang. Interacitve Voice Response), wyszukiwanie słów kluczowych w nagraniach rozmów rejestrowanych przez centralę np. w celach analizy marketingowej, czy przesłuchiwania określonych fragmentów nagrań zawierających określone sformułowania. _" - mówi Tomasz Szwelnik, Prezes Voica Lab. Technologia ta, poza telekomunikacją i środowiskiem biznesowym, znajduje zastosowanie również w życiu codziennym, w naszych domach. To, co jeszcze niedawno wydawało się nam dość futurystyczne i odległe, dzieje się już dziś. Interakcja człowiek-maszyna za pomocą głosu możliwa jest np. w telewizorach. Innowacja ta szczególnie istotna
stała się dla osób niepełnosprawnych ruchowo, które dzięki wydawanym komendom głosowym są w stanie komunikować się z komputerem.

Pomimo tego, że technologia została już zastosowana komercyjnie i można sprawdzić jej działanie dzwoniąc pod numery telefoniczne niektórych instytucji, Voice Lab zachęca wszystkich do pomocy w rozszerzaniu bazy danych rozpoznawanych polskich słów. Swój głos można nagrać korzystając z dostępnej na stronie internetowej www.nagrajsie.pl aplikacji. Wszystkie nagrania przechodzą kontrolę jakości, po czym te najlepsze zasilają słownik. Wśród uczestników nagrań prowadzone są konkursy z nagrodami.

Z technologii rozpoznawania głosu wdrażanej przez światowych dostawców, korzystają klienci obcojęzyczni. Voice Lab natomiast przybliża to rozwiązanie polskiemu użytkownikowi, oferując mu produkt obsługujący bogaty słownik języka polskiego. Firma planuje też prace nad innymi wersjami językowymi swego produktu. Polskie rozwiązanie udostępniane będzie klientom na zasadzie licencji, ale nie tylko. "_ Oferujemy sprzedaż produktu w oparciu o różne modele licencyjne, również takie, które wypracujemy wspólnie z naszymi klientami. _" - dodaje T. Szwelnik.

Działanie infolinii można sprawdzić pod numerem:

Firma Voice Lab znajduje się wśród nielicznych firm, które opracowały własny dekoder do rozpoznawania mowy ciągłej (zamiany mowy ciągłej na tekst). Rozwiązania tego typu są bardzo zaawansowane technologicznie i opracowują je wąskie grupy naukowców i specjalistów przez wiele lat. Można wymienić chociażby kilka rozwiązań budowanych na świecie przez zespoły ekspertów w tej dziedzinie np.: dekoder RASR grupy profesora Neya z Niemiec, Julius ? system stworzony przez instytuty badawcze w Japonii, Sphinx ? system stworzony przez naukowców z Carnegie Mellon University w USA, czy komercyjne Whisper firmy Microsoft czy Dragon firmy Nuance. Dzięki wieloletnim badaniom, grantowi przyznanemu przez Fundację na rzecz Nauki Polskiej, dofinansowaniu uzyskanemu w ramach Programu Operacyjnego Innowacyjna Gospodarka, firmie Voice Lab udało się stworzyć polskie rozwiązanie, które najwyraźniej dorównuje systemom, które są oferowane przez globalne koncerny informatyczne. Dzięki dekoderowi zamiany mowy na tekst firma stworzyła
aplikację do dyktowania SMS-ów, wypełniania formularzy na stronie internetowej za pomocą głosu, rozpoznawanie komend głosowych dedykowane dla linii telefonicznej oraz kiosków internetowych.

Polecamy w wydaniu internetowym chip.pl: Microsoft zmienił swoje logo. Zobacz jak wygląda nowe.

Oceń jakość naszego artykułuTwoja opinia pozwala nam tworzyć lepsze treści.
Wybrane dla Ciebie
Komentarze (0)