komputerowa synteza mowy
Data: 6 kwiecień 2009
Identyfikator: 090521
Chociaż syntezatory mowy są na rynku już od dłuższego czasu, to komputer mówiący ludzkim głosem nadal wzbudza duże zainteresowanie. Programy pozwalające na naprawdę wierne odtwarzanie mowy człowieka pojawiły się jednak dopiero kilka lat temu. Co ciekawe, najlepsze z nich tworzą Polacy.
Strona 1 z 2
|
Lektor zamiast napisów
|
Polacy przyzwyczajeni przez telewizję do lektora niechętnie oglądają filmy w wersji z napisami. Dzięki programowi Expressivo, korzystającemu z silnika IVONA, który integruje się z odtwarzaczem AllPlayer, Best Player lub SubEdit Player, możemy sprawić, że plik tekstowy z dialogami będzie czytany przez syntezator mowy. Program można też wykorzystać do odczytywania zawartości stron WWW, poczty elektronicznej lub e-booków. Te ostatnie można też przekonwertować do formatu MP3 i słuchać ich na dowolnym odtwarzaczu. Niestety, rozwiązanie to nie jest darmowe – polski głos kosztuje 79 zł, w wersji pobranej z internetu. Dla osób, które chcą wypróbować możliwości syntezatora, producent przygotował wersję demonstracyjną. www.expressivo.com/pl/
|
W życiu codziennym można znaleźć wiele praktycznych zastosowań dla syntezatorów mowy. Jednym z bardziej użytecznych jest umożliwienie korzystania z komputerów osobom niewidomym i niedowidzącym – specjalny program odczyta komunikaty, dokumenty i treść serwisów internetowych.
Technologia sztucznej syntezy mowy służy także osobom zdrowym. Spotykamy się z nią w tramwajach, gdzie elektroniczny głos informuje nas o kolejnych przystankach, w automatycznych biurach obsługi abonentów telefonicznych oraz w różnych serwisach informacyjnych, np. rozkładach jazdy pociągów.
Ludzka mowa, trudna mowa
Dla przeciętnego człowieka szybkie wypowiedzenie zdania „Król Karol kupił królowej Karolinie korale koloru koralowego” sprawia najczęściej problemy objawiające się przekręcaniem brzmienia kolejnych słów. Komputer w takiej sytuacji nigdy się nie pomyli. Gorzej, jeśli chcemy, aby przeczytał liczbę (np. 1250), zaintonował znaki przestankowe czy odpowiednio zinterpretował wyjątki dla danego języka. Kiepsko napisany syntezator liczbę 1250 odczyta jako „jeden, dwa, pięć, zero”, dobry jako „jeden tysiąc dwieście pięćdziesiąt”, a bardzo dobry „tysiąc dwieście pięćdziesiąt”. Dodatkowym trudnym aspektem są liczby dziesiętne, ułamki zwykłe czy znaki matematyczne.
Język polski nie należy do najłatwiejszych i może szczególnie dać się we znaki aplikacji do syntezy. Jak bowiem zachowa się ona, napotykając taki wyjątek, jak słowo „marznąć”. Jeśli programista tego nie przewidział, usłyszymy „rz” zamienione na „ż” i słowo nie będzie brzmiało prawidłowo. Kolejnym problemem jest rozpoznawanie skrótów i zamiana ich podczas wymowy na pełne wyrażenie. Nie chodzi tu o np. PZU, który wystarczy przeliterować, ale o m.in. „inż” czy „nr”, które powinny zostać zamienione na pełną formę, czyli „inżynier” i „numer”.
Różne metody syntezy
Rozróżniamy kilka rodzajów syntezy komputerowej. Pierwsza, tzw. metoda formantowa, oparta jest na obliczeniach czysto matematycznych i pozwala na niezbyt naturalnie brzmiącą artykulację. Jej działanie opiera się na wykorzystaniu odpowiednich filtrów cyfrowych, których zadaniem jest generowanie dźwięku o częstotliwości jak najbardziej zbliżonej do poszczególnych głosek wypowiadanych przez człowieka.
Niestety, ta odmiana syntezy głosu generuje dźwięk o mało naturalnej, metalicznie brzmiącej barwie. Znacznie lepszym sposobem jest zastosowanie metody artykulacyjnej. Tutaj do wymodelowania brzmienia każdej głoski wykorzystywanych jest kilkadziesiąt różnych parametrów. Tworzenie głosu w tym przypadku jest jednak bardzo skomplikowane, a tworzenie głosek poprzez tzw. analog elektromagnetyczny jest zbliżone do generowania mowy przez człowieka.
Z pomocą lektora
Obecnie najbardziej popularną i przyszłościową metodą jest synteza konkatenacyjna. Polega ona na inteligentnym łączeniu ze sobą elementów naturalnej mowy lektora, która wcześniej jest dzielona na takie elementy, jak fony, difony, trifony oraz sylaby. Największe zalety tej technologii to bardzo naturalnie odwzorowywana mowa ludzka oraz prosty i przejrzysty sposób tworzenia oprogramowania syntezującego.
Dzięki zastosowaniu łączenia pojedynczych jednostek akustycznych nie ma potrzeby przechowywania w bazie całych wyrazów i zdań. Przedkłada się to na niewielkie jej rozmiary, co pozwala uzyskać szybką syntezę przy wykorzystaniu niewielkiej mocy obliczeniowej i zasobów sprzętowych. Dodatkowo generowanie mowy na podstawie jedynie całych wyrazów mija się z celem, gdyż przejścia pomiędzy nimi nie będą brzmieć naturalnie. Wykorzystanie samych sylab daje znacznie lepszy efekt, ale ze względu na ich olbrzymią liczbę nie jest też optymalnym rozwiązaniem. Dlatego najczęściej korzysta się z wyodrębnionej części zgłoski, czyli difonu, a mówiąc obrazowo, z dźwięku stworzonego przez połączenie drugiej połowy zgłoski poprzedzającej z pierwszą połową głoski następnej.
Dzięki zastosowaniu łączenia pojedynczych jednostek akustycznych nie ma potrzeby przechowywania w bazie całych wyrazów i zdań. Przedkłada się to na niewielkie jej rozmiary, co pozwala uzyskać szybką syntezę przy wykorzystaniu niewielkiej mocy obliczeniowej i zasobów sprzętowych. Dodatkowo generowanie mowy na podstawie jedynie całych wyrazów mija się z celem, gdyż przejścia pomiędzy nimi nie będą brzmieć naturalnie. Wykorzystanie samych sylab daje znacznie lepszy efekt, ale ze względu na ich olbrzymią liczbę nie jest też optymalnym rozwiązaniem. Dlatego najczęściej korzysta się z wyodrębnionej części zgłoski, czyli difonu, a mówiąc obrazowo, z dźwięku stworzonego przez połączenie drugiej połowy zgłoski poprzedzającej z pierwszą połową głoski następnej.
Ocena: 



(aby ocenić, musisz się zalogować w serwisie)
Podobne artykuły: