Компьютерное зрение практически идеально распознает объекты на статичных изображениях, и на данный момент проблемы в основном возникают только с видеороликами. Тем не менее разработчики продолжают создавать нейронные сети для распознавания разнообразных действий на видео, и одной из последних и самых интересных проектов является работа сотрудника Netflix Амира Зиая. Используя базу из 100 голливудских фильмов он обучил нейронную сеть распознавать сцены с поцелуями, при этом избегая чрезмерно откровенных сцен.
Нейронная сеть распознает поцелуи, ориентируясь на движениях губ актеров и звуках прикосновений. Чтобы показать нейронной сети, на что она должна обращать внимание, Амир Зиай собственноручно пометил сцены с поцелуями в выборке из сотен голливудских фильмов. Среди обработанных им кинокартин оказались Анна Каренина (1935), Призрак (1990) и Казино Рояль (2006). Разработчик не стал расширять базу обучающих фильмов, потому что нейросеть перестала «умнеть» уже после восьмидесятого фильма. В конечном итоге Амир выделил 263 сцены с поцелуями и 363 сцены без поцелуев.
Нейронная сеть научилась распознавать поцелуи
Созданная система распознавания поцелуев состоит из двух частей. Первая анализирует односекундные отрывки видео и называется бинарным классификатором — в нее входит сверточная нейросеть ResNet для анализа визуальных данных, и нейросеть VGG для изучения аудио. Вторая часть системы, сегментатор, отбирает фрагменты с поцелуями и выдает их таким образом, чтобы они не повторялись.
Получив видеофрагмент, система изучает его на наличие сцен с поцелуями и выдает их в виде отрывков. Тестирование показало, что нейронная сеть справляется со своей задачей с 95% точностью. Однако, было замечено, что система часто допускает ошибку в некоторых сценах, где поцелуи происходят на фоне обширных пейзажей, или где поцелуи происходят слишком быстро.
Зачем нужна такая нейросеть?
Хоть Амир Зиай и является сотрудником Netflix, созданная им нейронная сеть не имеет никакого отношения к сервису. А зря — функция распознавания поцелуев может быть очень полезна в стриминговых сервисах, а также в Facebook, Instagram и TikTok. Как минимум, слегка изменив алгоритм, можно создать систему сортировки излишне откровенных сцен. Также такая система может автоматически сортировать видео по тематическим папкам.
На тему нейронных сетей рекомендуем почитать о ее возможности оживлять статичные портреты. Благодаря труду специалистов из Центра искусственного интеллекта Samsung, портреты Достоевского, Мона Лизы и Альберта Эйнштейна буквально ожили — посмотреть на них можно в нашем материале.
Нет комментарий