Wczoraj, na blogu Machine Learning Journal, Apple opublikowało trzy nowe artykuły naukowe. Tym razem ich autorem jest zespół odpowiedzialny za rozwój Siri.

Tekst zatytułowany „Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis” przedstawia rozwój Siri aż do iOS 11 oraz wykorzystywany przez Apple proces syntezy mowy. Zawarto w nim pliki dźwiękowe prezentujące różnice w syntezie mowy Siri w iOS 9 i iOS 11. W najnowszym systemie Apple zdecydowało się zmienić podstawowy głos kobiecy w wersji angielskiej. W tym celu przetestowano setki kandydatek zanim wybrano tą właściwą, która nagrała w sumie 20 godzin materiału. Na podstawie tych nagrań stworzono nowy system syntezy dźwięku TTS (ang. text-to-speech), bazując na nowych metodach uczenia maszynowego. Różnica jest wyraźna. W przypadku nowej metody syntezy głosu bazującej na nagraniach innej lektorki nie słychać zniekształceń, które występowały w syntezie głosu w Siri w iOS 9.

Drugi z artykułów, zatytułowany „Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization”, poświęcony jest tworzeniu nowych modelów akustycznych przy wprowadzaniu kolejnych języków lub rozszerzaniu zakresu częstotliwości audio, z wykorzystaniem tych już istniejących dla innych języków i częstotliwości. Opisane w artykule techniki, wykorzystujące sieci neuronowe, pozwalają Apple na znaczne poprawienie działania Siri we właśnie wprowadzonym nowym języku.

Z kolei trzeci, zatytułowany „Inverse Text Normalization as a Labeling Problem”, to artykuł poświęcony przedstawianiu różnego rodzaju danych znormalizowanych, jak dat, czasu, adresów czy różnego rodzaju wartości. Wykorzystywany jest do tego proces ITN (ang. inverse text normalization), który pozwala na przetworzenie zapisu tekstowego w znormalizowaną formę.

Warto wspomnieć, że wszystkie teksty to artykuły naukowe, skierowane dla profesjonalistów w danej dziedzinie. Warto jednak przejrzeć je nawet pobieżnie, by zrozumieć, jakie procesy wykorzystywane są w komunikacji pomiędzy Siri a użytkownikiem.

Wspomnieć też wypada, że członkowie zespołu Siri biorą udział w odbywającej się w Sztokholmie konferencji Interspeech 2017.