195176, г. Санкт-Петербург,
Пискаревский пр. д.25,
литер А пом. 8Н.
info@armkllc.ru
   +7 (812) 748-51-31

Speech2Face: а кто это сказал?

Дата публикации: 2019-06-03 12:34:00

«Я возвращаю ваш портрет…»

Необъятные поля перспектив использования искусственного интеллекта (artificial intelligence, AI) дали новый урожай возможностей. Это пока маленький, но довольно любопытный росток: экспериментаторы из лаборатории MIT (Массачусетский технологический институт) решили попробовать не просто создать картинку из звука, а сделать портреты людей по короткой записи их голоса. 

Однако в официальной статье об исследовании и его результатах учёные пишут: «Обратите внимание, что наша цель состоит не в том, чтобы восстановить точное изображение человека, а скорее в том, чтобы восстановить характерные физические особенности, которые коррелируют с вводной речью».

Для выполнения этой задачи была создана нейронная сеть. Методом глубокого обучения ею усвоена и проанализирована информация из миллионов видеофрагментов с говорящими людьми. Так как мы с вами все разные, чтобы система могла изучить каждый тип наших самых заметных отличительных черт (ведь мы имеем и много общего), видео- и аудиосоставляющие обрабатывались как совместно, так и по-отдельности. Сначала репрезентативные кадры, то есть исходные изображения из отрывков, обрабатывались для большей локализации и изоляции лица человека от фоновой информации окружающей среды, где снимались видеоматериалы. Проще говоря, вокруг героя ролика было обрезано всё лишнее. Затем, изучив обучающие фрагменты, декодер VGG-Face произвёл нормализованные по освещению реконструкции лиц фигурантов видеороликов в фас. А уже после алгоритм Speech2Face запомнил закономерности в анализируемых аудио и видео и применял их к изображениям, построенным функцией VGG-Face. Именно так во время обучения нейронная модель изучала соотношение аудиовизуальных изменений и голосовые особенности, впоследствии позволившие ей создавать портреты, с основными физическими параметрами говорящих. Сюда входят возраст, пол и этническая принадлежность. Происходило это самоконтролируемым образом, благодаря естественности совпадений, и без необходимости явного моделирования каких-либо критериев.

Пока что VGG-Face справляется с задачей создания обобщённого облика лучше, но – на основе видеоматериала. Что же касается Speech2Face, то можно предположить, что на основе найденных точек соприкосновения, в будущем он сможет «рисовать» лица более корректно. Тем более, что в ходе эксперимента, нейросети «скармливали» отрывки реплик по три и шесть секунд длинной. И разница в результатах весьма велика, что позволяет предположить гораздо лучшее поведение алгоритма при более выгодных условиях и большей базе знаний. Например, музыканты тоже долго тренируют слух, чтобы сходу отличать друг от друга ноты ми и фа, у которых разница всего лишь полутон. Но это перспективы, а сейчас специалисты MIT разбирают причины неудач. Это вообще одна из любимейших забав учёного люда.   

Неравномерность данных.

Так получилось, что более точно алгоритм воспроизводит европейские черты. Однако удачи и промахи в итогах исследования объясняются статистикой: сама модель изучает соотношение и частоту корреляций, которые существуют между особенностями лиц и голосов в данных обучения. А сами данные представляют собой коллекцию обучающих роликов с YouTube, потому что именно в подобных «лекционных» видео фигурирует один человек, что очень удобно для обучения нейромодели. И так получается, что статистически эти материалы далеко не в равной степени представляют многообразие мирового населения. Например, если определённый язык не использовался в обучающих блоках, реконструкции не будут хорошо отражать черты лица, которые могут ассоциироваться с этим языком. Строго говоря, неравномерность распределения данных есть то самое условие для погрешности в обучении и результатах деятельности любой нейронной сети, благодаря которому и мы ошибаемся, заблуждаемся или испытываем уверенность в чём-либо.

В отчётной статье так же замечается, что некоторые особенности воссозданных лиц (такие, как цвет волос) могут не быть связаны с речью. Просто в наборе обучающих материалов многие объекты, говорящие со сходной манерой (например, на одном и том же языке), могут иметь некоторые общие визуальные черты (например, общий цвет волос или стиль). Такими эти визуальные детали и могут проявляться в создаваемых портретах.

Что имеем?

Как уже было сказано, длительность речевого фрагмента для исследования заметно влияет на эффективность метода. Кроме того, можно сделать вывод, что наилучшим образом алгоритм распознаёт гендерную принадлежность, до 98% удач. Правда, мужской высокий голос (например, мальчишеский) может привести к изображению с женскими чертами. И, кстати, выяснилось, что по разговорному языку труднее определить этническую принадлежность.

Также стоит отметить согласованность результатов реконструкции лица из разных сегментов речи одного человека, взятых из разных частей одного видео. Но самое интересное в том, что эта согласованность наблюдается и в анализе аудио одного фигуранта из различных видеоматериалов.

Исследователи попробовали пройтись и в обратном порядке: не воссоздать облик говорящего, а найти этого человека в списке кандидатов на входящий голос. Запрашивалась база из 5000 изображений. Далее следовало сравнение прогноза Speech2Face со всеми результирующими образов, вычисленных из самих исходных лиц алгоритмом VGG-Face. Эта «угадайка» даёт, пусть и приближённые, но далеко не плохие результаты. Когда система будет отработана, криминалистам будет явно полегче.

И закончить хочется на забавной ноте: с восстановленных по аудиофрагментам портретов можно нарисовать мультяшные эмодзи и аватарки с использованием уже существующих сторонних мобильных приложений и инструментов. Мультипликаторы аплодируют стоя.


 

По материалам IEEE Конференция по компьютерному зрению и распознаванию образов (CVPR) 2019