Компания Baidu, которую нередко называют «китайским Google», опубликовала технический документ, в котором рассказывается о последних наработках в сфере искусственного интеллекта (ИИ). Система, работающая на базе нейронной сети, способна клонировать человеческий голос на основе анализа даже очень короткого фрагмента исходного материала. Программа не только весьма неплохо имитирует человеческую речь, но еще и способна вносить в нее свои особенности вроде акцента.
С примерами имитации человеческих голосов нейронной сетью можно ознакомиться, пройдя по этой ссылке.
Предыдущие версии данной технологии позволяли создавать имитацию человеческой речи на основе анализа более продолжительных образцов. В 2017 году команда инженеров из Baidu Deep Voice представила технологию, способную имитировать речь человека на основе 30-минутного исходного материала. Конкурентные разработки в этой сфере, в свою очередь, справлялись несколько быстрее. Например, программа VoCo от компании Adobe могла имитировать человеческую речь на основе всего 20-минутного демо. А разработка Lyrebird канадского стартапа демонстрировала еще более удивительную возможность – ей хватало всего минуты оригинального семпла человеческого голоса, чтобы создать его имитацию. Новая же разработка Baidu пошла еще дальше – ей достаточно всего лишь несколько секунд исходного материала.
На первый взгляд может показаться, что в подобных технологиях нет никакой практической пользы – так, одно баловство. Но это большое заблуждение. В будущем эти технологии определенно найдут свою сферу использования. Представьте себе человека, утратившего возможность говорить и вновь ее обретшего, пусть даже и посредством машины. Или неспокойного ребенка, не желающего ложиться в кровать, пока не услышит вашего голоса, читающего сказку, в то время как вы находитесь очень далеко и у вас просто нет физической возможности ему позвонить. Это лишь самая незначительная часть тех возможностей, которые могут открыться перед этой технологией.
Помимо этого, данная технология может использоваться, например, для создания персонализированных цифровых ассистентов, способных разговаривать с вами настоящим человеческим, а не компьютерным голосом.
Но, как и у любой другой технологии, здесь тоже есть своя обратная сторона медали. Мы можем столкнуться с ее злоупотреблением и использованием в не совсем законных целях. Портал New Scientist сообщает, что текущая версия программы смогла создать один тип голоса, который при проверке системой распознавания голоса в 95 процентах случаев смог ее обмануть. А люди так вообще оценили качество клонированных образцов на 3,16 балла из 4. Такими темпами рано или поздно мы можем столкнуться со случаями мошенничества с использованием искусственного интеллекта, отмечают журналисты.
В мире уже существуют программы, которые при помощи нейронных сетей способны изменять или даже имитировать человеческие лица на видео. Например, сейчас Интернет захлестнула волна порнороликов, в которых лица моделей заменяются на лица знаменитостей. Конечно, все это выглядит пока лишь обычной шалостью, но в скором времени, в сочетании с технологией, способной очень точно имитировать тот или иной голос, мы можем столкнуться с очередной волной «фейковых новостей», в которых видные деятели из различных сфер и политики будут говорить те вещи, которые они никогда бы не сказали на самом деле.
Многих людей уже сейчас можно обмануть, используя, казалось бы, такие обычные программы, как Photoshop. Представьте себе, с какими проблемами мы можем столкнуться, когда за дело возьмется попавший не в те руки искусственный интеллект, в миллиарды раз превосходящий возможности того же фотошопа.
Нет комментарий