Na blogu Machine Learning Journal pojawił się nowy artykuł dotyczący działania asystenta głosowego Siri. Jego autorzy opisują działanie funkcji „Hey Siri” podkreślając przy tym współdziałanie sprzętu, oprogramowania i usług internetowych.

Jednym z elementów systemu odpowiedzialnego za tę funkcję jest detektor mowy, który stanowi część koprocesora wykorzystywanego w urządzeniach Apple. Jest on cały czas aktywny, a jego zadaniem jest „wsłuchiwanie się” w otoczenie. Po wykryciu słów „hey siri”, aktywowany jest asystent głosowy, który traktuje kolejne słowa jako polecenie lub zapytanie.

Detektor korzysta z technologii opartej na sieciach neuronowych aby określić stopień dopasowania usłyszanego głosu do zapisanego wzoru. Jeśli wynik obliczeń jest odpowiedni, tzn. poziom dopasowania głosu mieści się w zadanej tolerancji to Siri zostaje aktywowana.

Jeśli wynik spadnie poniżej dolnego progu tolerancji, detektor staje się na chwilę bardziej „wrażliwy”. Oznacza to, że jeśli użytkownik ponownie wypowie frazę „hey siri”, to ma większe szanse na aktywowanie asystenta głosowego. Nie dzieje się tak w przypadku, gdy wynik przekroczy górny próg tolerancji. Ten tak zwany „mechanizm drugiej szansy” znacznie poprawia użyteczność tej funkcji, bez obniżania bezpieczeństwa użytkownika.

Co więcej, aby zmniejszyć prawdopodobieństwo aktywowania Siri przez niepowołaną osobę, ustanowiony został proces autoryzacji głosu polegający na pięciokrotnym powtórzeniu frazy „hey siri”. Testy tego procesu przeprowadzane były w różnych środowiskach z wykorzystaniem native speakerów wielu języków na całym świecie.

Więcej szczegółów technicznych dotyczących sposobu działania "Hey Siri" przeczytać można na stronie Apple w artykule „Hey Siri: An On-device DNN-powered Voice Trigger for Apple’s Personal Assistant”.

Źródło: MacRumors