В последнее время искусственный интеллект Google DeepMind с поразительной быстротой обучается все новым и новым функциям. Он уже начал развлекаться, играя в видеоигры, да и вообще, для самообучения уже практически не нуждается в человеке. Однако нет предела совершенству, и не так давно ИИ приобрел еще один новый навык: чтение по губам.
Правда, в данном случае без участия человека обойтись не удалось. Ученым пришлось инсталлировать в нейросеть продвинутый алгоритм распознавания мимики, после чего DeepMind предстояло «посмотреть» 5 тысяч часов шоу ВВС, таких как BBC Breakfast, Newsnight и Question Time, в которых содержалось около 120 тысяч предложений. В результате этого ИИ научился «читать по губам» даже в тех случаях, когда человек «проглатывает» части слов. После этого началась самая интересная фаза эксперимента. Специалисту по распознаванию речи и искусственному разуму дали возможность посмотреть 200 не связанных между собой фрагментов. В итоге профессионал верно распознал лишь 12,5% слов, в то время как ИИ не ошибся в 46,8% случаев.
Такого эффекта удалось добиться благодаря тому, что в процессе обучения алгоритм распознавания мимики, на который опиралась машина, был основан на достаточно продвинутой системе чтения по губам под названием LipNet, разработанной в Оксфордском университете. В данный момент специалисты из Google совместно с разработчиками LipNet готовят интернет-площадку со свободным доступом для разработчиков, занимающихся созданием систем автоматического чтения по губам для того, чтобы были созданы еще более совершенные механизмы распознавания. Как утверждает один из авторов эксперимента доктор Женьг Жоу,
«Все это является огромным шагом на пути к созданию полностью автоматических систем чтения по губам. Это стало возможным только благодаря огромному набору исходных данных, на которых эта система была обучена».
Нет комментарий