Język maszynowy: jak Siri podnosi swój głos?
Makradar Technologii / / December 19, 2019
Google, Apple, Microsoft, Amazon, a nawet aktywnie rozwija swoje usługi głosowe. Świeżo upieczony na iOS 7 jest taki sam Siri, tylko nowe funkcje i... głos. Czy zastanawiasz się, jak to jest proces? Jak komputery są nauczane mowę? to prawdziwa sztuka.
Dla każdego z głosów Siri - Twój aktora. Po jej zakończeniu jego rolę w artykulacji, praca dopiero się zaczyna... głosie kontynuuje swoją podróż. Historia tej podróży, zarówno mężczyzny i robot - jeden z najbardziej skomplikowanych procesów technologicznych, które nie mogły być prowadzone dziesięć lat temu.
Zapoznajmy się z dyrektorem projektowania i rozwoju głosu Nuance, jest to jeden z największych niezależnych firm na świecie zajmujących się rozpoznawaniem mowy i tekstu na mowę. Brant Ward (J. Brant Ward) kiedyś kompozytor komponować partię dla kwartetów smyczkowych na syntezatorach, a teraz komponuje go za pomocą syntetycznych brzmień. Pracuje w przemyśle syntezy mowy w Dolinie Krzemowej przez ponad dekadę.
Text To Speech - bardzo konkurencyjnej branży i jej pracowników jest bardzo skryty. Choć na świecie i jest przekonany, że Nuance tworzy głosu Siri dla Ward i jego kolega David Vasquez (David Vazquez) uniknąć bezpośredniej odpowiedzi. Niemniej jednak, zgodzili się wyjaśnić, przynajmniej w ogólnym zarysie, jak wygląda proces tworzenia niesamowitych głosów maszynowych.
Rzecz jasna, nie trzeba wyartykułować i napisać każde słowo ze słownika. Ale kiedy przychodzi do wniosku, który należy czytać żadnych wiadomości w biuletynie, lub wybrać coś dla siebie w Internecie, to jest po prostu obowiązek mówić każde słowo w słowniku.
Większość propozycji wybrano na „fonetyki bogactwo” - to znaczy, zawierają wiele różnych kombinacji fonemów. „Faktem jest, że im więcej danych mamy, tym bardziej realistyczny wynik będzie” - mówi Ward.
Po tekst jest nagrany na żywo aktora głosowego (a żmudny proces, który może potrwać kilka miesięcy), zaczyna bardzo ciężka praca. Słowa i zdania są analizowane, podzielone według kategorii i rejestrowane w dużej bazie danych. W tej skomplikowanej pracy zaangażowany zespół dedykowanych językoznawców, a także korzystać z własnego oprogramowania językową.
Kiedy to wszystko jest zrobione, jednostka Nuance przetłumaczyć tekst na mowę tworzy bitowych słów i fraz, że aktor może I nigdy nie wypowiedział, ale brzmi bardzo podobny do wypowiedzi aktora, bo technicznie to jest głos aktor.
mówiąc proces utraty przytomności. Robimy to bez myślenia o tym, jak odbywa się ten proces: sytuacja, w której jest nasz język, który relacje budowane są między fonemów, i tak dalej - łatwo i skutecznie wyrazić złożonych idei i emocje. Ale w porządku, że komputer odebrał dźwięk ludzkich głosów, wszystkie te czynniki muszą być brane pod uwagę. Jako jeden profesora lingwistyki, jest zadaniem „Titanica”.
Nie powinno się myśleć: „Mówię do komputera.” Zazwyczaj nie trzeba o tym myśleć.
„Moje dzieci interakcji z Siri, jak gdyby był żywym stworzeniem... Oni nie czują różnicę” - mówi Ward.
Do tej pory, i przyjaźni między ludźmi a robotami - jak u ludzi. Wiele osób chciałoby go jeśli Siri może rozpoznać stan emocjonalny mówiącego, i jakoś reagować na to (na przykład, obejmować kojący trybu głosowego). Wyobraź sobie - mówić do robota, który jest moralnie poklepać cię po głowie. Może Nuance już myśli o tym ...