ROZPOZNAWANIE MOWY

Stanowi jedną z najbardziej pożądanych technologii w profesjonalnym zarządzaniu dokumentacją. Dostępna w coraz większej liczbie mobilnych aplikacji, umożliwiająca sterowanie funkcjami komputerów, a co najważniejsze pisanie dokumentów własnym głosem. Obiekt pożądania każdego studenta i nie jednej asystentki czy sekretarki. Kiedy jednak przychodzi do działania – rozpoznawanie mowy nie zawsze pracuje tak, jakbyśmy sobie tego życzyli…a ilość popełnianych błędów w tłumaczeniu znacząco wydłuża proces przepisywania, choć powinno być odwrotnie.

Od czego więc zależy dobre rozpoznawanie mowy?rozpoznawanie mowy

Odpowiedzi jest wiele, najpierw jednak warto spojrzeć na sam mechanizm działania. Profesjonalne rozpoznawanie mowy, wykorzystuje z reguły tzw. sieci neuronowe przy rozpoznawaniu konkretnych fragmentów wypowiedzi. Oznacza to, że w danej sekundzie system analizuje kilka słów jednocześnie i dobiera najbardziej prawdopodobną kombinację pasującą do kontekstu zdania. Konkretne kombinacje porównywane są ze słownikiem, który zawiera czasem nawet setki tysięcy słów dla danego języka.

WNIOSEK 1

Dla skutecznego rozpoznawania mowy niezbędny jest odpowiednio skonstruowany słownik, który będzie zawierał jak najlepiej dobrane pakiety słów i wyrażeń.

Niestety zbyt przeładowany słownik, zawierający zarówno potoczne jak i techniczne słownictwo, będzie przetwarzał zbyt dużo równie prawdopodobnych wyrażeń, a co za tym idzie nasza aplikacja rozpoznawania mowy, będzie się statystycznie częściej mylić…

WNIOSEK 2

Rozpoznawanie mowy jest tym bardziej skuteczne im bardziej profilowany pod daną specjalizację jest słownik.

Naturalnym czynnikiem jakości rozpoznawania mowy jest kwestia akustyki głosu osoby mówiącej. Część dostępnych aplikacji, zawiera uśrednione profile głosowe dla danej populacji. Jednak dla zwiększenia skuteczności rozpoznawania, najlepsze są rozwiązania, które tworzą indywidualne profile aktualizowane w trakcie mówienia. Oznacza to, że system rozpoznawania mowy nieustannie doskonali się w rozpoznawaniu głosu.

WNIOSEK 3

Im dłużej mówimy tym skuteczniejsze staje się rozpoznawanie.