Компьютеры учатся читать по губам
Голосовые помощники вроде Siri или Alexa уже научились вполне достоверно распознавать нашу речь. Но технологии не стоят на месте — новейшее исследование, представленное на Международной конференции по акустике и обработке речевых сигналов в Шанхае, говорит о том, что уже в недалёком будущем появятся машины, читающие по губам.

Сразу после анонса исследования экспертное сообщество разделилось на два лагеря. Одни увидели в этом пугающие перспективы очередного вторжения в личную жизнь. Их оппоненты, напротив, не увидели в новой технологии злого умысла и предложили использовать её, например, для совершенствования кинодубляжа.

На самом деле научить машину понимать речь человека по губам – задача очень сложная. Дело в том, что человек в процессе разговора воспроизводит губами всего лишь 14 мимических выражений, которые сопровождают около 50 различных звуков. Это означает, что, к примеру, звуки «p» и «b» со стороны «выглядят» одинаково, а произносятся по-разному.

Группа исследователей Университета Восточной Англии под руководством Хелен Бир разработала новый алгоритм, который поможет машинам различать подобные звуки. Для этого были использованы видео и аудиозаписи 12 человек, произносящих 200 предложений. Учёные научили компьютер выделять несколько звуков, соответствующих определённой мимике рта.

Затем с помощью тренировок программа научилась различать похожие слова с разными первыми звуками и определять по контексту нужное слово. Пока точность алгоритма еще далеко от идеальной — совсем без ошибок он распознает только 25 % речи. Однако это намного эффективнее существующих разработок.

По материалам techcult