Нейросеть научили «оживлять» портреты на основе всего одного статичного изображения

Российские специалисты из Центра искусственного интеллекта Samsung AI Center-Moscow в сотрудничестве с инженерами из Сколковского института науки и технологий разработали систему, способную создавать реалистичные анимированные изображения лиц людей на основе всего нескольких статичных кадров человека. Обычно в таком случае требуется использование больших баз данных изображений, однако в представленном разработчиками примере, систему обучили создавать анимированное изображение лица человека всего из восьми статичных кадров, а в некоторых случаях оказалось достаточно и одного. Более подробно о разработке сообщается в статье, опубликованной в онлайн-репозитории ArXiv.org.

Как правило, воспроизводить фотореалистичную персонализированную модуль лица человека довольно сложно из-за высокой фотометрической, геометрической и кинематической сложности воспроизведения человеческой головы. Объясняется это не только сложностью моделирования лица в целом (для этого существует большое количество подходов к моделированию), но также и сложностью моделирования определенных черт: полости рта, волос и так далее. Вторым усложняющим фактором является наша предрасположенность улавливать даже незначительные недоработки в готовой модели человеческих голов. Такая низкая толерантность к ошибкам моделирования объясняет нынешнюю распространенность нефотореалистичных аватаров, использующихся в телеконференциях.

По словам авторов, система, получившая название Fewshot learning, способна создать очень реалистичные модели говорящих голов людей и даже портретных картин. Алгоритмы производят синтез изображения головы одного и того же человека с линиями ориентира лица, взятых из другого фрагмента видео, или с использованием ориентиров лица другого человека. В качестве источника материала для обучения системы разработчики использовали обширную базу данных видеоизображений знаменитостей. Чтобы получить максимально точную «говорящую голову», системе необходимо использовать более 32 изображений.

Для создания более реалистичных анимированных изображений лиц разработчики использовали предыдущие наработки в генеративно-состязательном моделировании (GAN, где нейросеть додумывает детали изображения, фактически становясь художником), а также подход машинного мета-обучения, где каждый элемент системы обучен и предназначен для решения какой-то конкретной задачи.

Схема мета-обучения

Для обработки статичных изображений голов людей и превращения их в анимированные использовались три нейросети: Embedder (сеть внедрения), Generator (сеть генерации) и Discriminator (сеть дискримитатор). Первая разделяет изображения головы (с примерными лицевыми ориентирами) на векторы внедрения, которые содержат независимую от позы информацию, вторая сеть использует полученные сетью внедрения ориентиры лица и генерирует на их основе новые данных через набор сверточных слоев, которые обеспечивают устойчивость к изменениям масштаба, смещениям, поворотам, смене ракурса и прочим искажениям исходного изображения лица. А сеть дискриминатор используется для оценки качества и подлинности работы двух других сетей. В результате система превращает ориентиры лица человека в реалистично выглядящие персонализированные фотографии.

Разработчики особо подчеркивают, что их система способна инициализировать параметры как сети генератора, так и сети дискриминатора индивидуально для каждого человека на снимке, поэтому процесс обучения может быть основан всего на нескольких изображениях, что повышает его скорость, несмотря необходимость подбора десятков миллионов параметров.

По материалам hi-news

Нет комментарий

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

katechin
→ Как позвонить с iPhone на добавочный номер, набрав его сразу
Спасибо за простую и подробную инструкцию 🔥
id801793684
→ Эти часы Huawei Watch Ultimate даже лучше чем Apple Watch Ultra
это пока что лучший ответ яблочной ультре, я бы даже сказал сокрушительный. и вид лучше и заряд держат дольше на много
Мирон Миронов
→ В разработке находится видеокарта NVIDIA GeForce GTX TITAN LE
это конечно мега большая радость что сказать еще бы майнить перестали даркнет совсем и все тогда прост топ бы было. я пользовался предыдущей все было огонь брал тут rnega.sb ссылка.…
Vlad Savitskii
→ Лучшие приложения для торговли криптовалютой на Android
В статье представлены неплохие приложения но моим фаворитом все же остается это приложение для торговли криптовалютой
id673772679
→ Чем заменить WhatsApp, если его заблокируют в России
Вообще не понимаю смысла подобных блоикровок, особенно, когда есть обходные пути + альтернативы, которые невозможно заблокировать. Например, Utopia p2p https://u.is/ru которая к тому же обеспечивает полную анонимность пользователей. Там есть…

хайтек агрегатор

новости интернета и современных технологий

Нейросеть научили «оживлять» портреты на основе всего одного статичного изображения

Нет комментарий

Оставить комментарий Отменить ответ

В автомобилях Tesla появится аналог Google Play с играми и приложениями

видео | NVIDIA обновила вышедший 25 лет назад Quake II. Но сыграть в него смогут не все

Илон Маск представил такси без педалей и руля. И вы сможете на этом заработать

Создатель ChatGPT предсказал ближайшее будущее: мы будем жить как в раю?

Роботы-койоты будут защищать базы ВВС США от птиц и диких животных

Строительный робот CivDot работает в 8 раз быстрее бригады людей

Нейросеть научили «оживлять» портреты на основе всего одного статичного изображения

Вперед Российский электромобиль от Zetta будет стоить 450 000 рублей. Как тебе такое?

Назад Как удалить данные о вашем старом смартфоне из Google Play

Нет комментарий

Оставить комментарий Отменить ответ