NIMA: анализ нейронного изображения

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]

CNN, это не только название новостного канала, но и технологии из нашего ближайшего будущего.

Сверхточная нейронная сеть (CNN или ConvNet) представляет собой класс глубоких искусственных нейронных сетей с прямой связью, которые были успешно применены для анализа визуальных образов. CNN используют относительно небольшую предварительную обработку данных, по сравнению с другими алгоритмами классификации изображений.

Оценка качества изображения и эстетики была давней проблемой в обработке изображений и компьютерном видении. В то время как оценка технического качества связана с измерением деградации уровня пикселей, например: шумом, размытием, артефактами сжатия и т. д., эстетическая оценка отражает характеристики семантического уровня, связанные с эмоциями и красотой изображений. В последнее время нейронные сети (CNN), обучающиеся данными, помеченными (проверенными) человеком, использовались для решения субъективного характера качества изображения для определенных классов изображений, таких как ландшафты. Однако эти подходы могут быть ограничены по своему охвату, поскольку они обычно классифицируют изображения на два класса низкого и высокого качества. Предлагаемый нами метод предсказывает распределение рейтингов. Это приводит к более точному прогнозированию качества с более высокой корреляцией с номинальными оценками истины и это применимо к общим изображениям.

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]

В «NIMA: Neural Image Assessment» авторы представляют «глубокий» CNN, который обучен прогнозировать, какие изображения «типичный пользователь» оценил бы как выглядящие хорошо (технически) или привлекательный (эстетически). NIMA опирается на успех самых современных сетей распознавания объектов, основываясь на их способности понимать общие категории объектов, несмотря на множество вариаций. Предлагаемая сеть может использоваться не только для надежной оценки изображений и высокой корреляции с восприятием человека, но также и для разнообразных трудоемких и субъективных задач, таких как интеллектуальное редактирование фотографий, оптимизация качества изображения для увеличения пользовательского взаимодействия.

NIMA. Типичные методы эстетического прогнозирования классифицируют изображения как низкое / высокое качество. Это несмотря на то, что каждый образ данных обучения связан с гистограммой человеческих рейтингов, а не с одним бинарным счетом. Гистограмма рейтингов является показателем общего качества изображения, а также соглашений между оценщиками. В нашем подходе вместо классификации изображений низкий / высокий балл или регрессирование до среднего балла, модель NIMA дает распределение рейтингов для любого заданного изображения — по шкале от 1 до 10, NIMA присваивает вероятности каждому из возможных баллов , Это более точно соответствует тому, как обычно фиксируются данные о тренировках, и, как оказалось, он является лучшим предиктором предпочтений человека при измерении по сравнению с другими подходами. (оригинал статьи)

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]

 Гистограмма средних баллов

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]
Гистограмма стандартных отклонений
[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]
Совместная гистограмма среднего и стандартного отклонения

Различные функции вектора NIMA (например, среднее) могут затем использоваться для ранжирования фотографий эстетически. Ниже приведены некоторые тестовые фотографии из базы данных крупномасштабной базы данных для набора данных эстетического визуального анализа (AVA), которая оценивается по NIMA. Каждая фотография AVA оценивается в среднем 200 человек в ответ на фотоконкурсы. После тренировки эстетическое ранжирование этих фотографий NIMA близко соответствует средним значениям, полученным людьми. Авторы предполагают, что NIMA одинаково хорошо работает на других наборах данных, с прогнозируемыми показателями качества, близкими к рейтингам людей.

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]

AVA — Набор данных, содержит около 255 000 изображений, оцененных на основе эстетических качеств любительских фотографов. Фото оценивается в среднем 200 человек, в рамках фотоконкурсов. Каждое изображение связано с 
тематическим заданием AVA. Оценки изображений варьируются от 1 до 10, при этом 10 являются наивысший эстетический признак, связанный с изображением. 

TID2013 — База данных изображений 2013 (TID2013), используется для оценки восприятия качества изображения. База содержит 3000 изображений, 120 искаженных изображения для каждого опорного изображения; включая различные типы
искажения, такие как артефакты: сжатия, шум, размытие и цвет артефакты.

Оценки NIMA также могут использоваться для сравнения качества изображений одного и того же предмета, которые могут быть искажены различными способами. Изображения, показанные в следующем примере, являются частью тестового набора TID2013, которые содержат различные типы и уровни искажений.

[siteorigin_widget class=»SiteOrigin_Widget_Image_Widget»][/siteorigin_widget]
 
 
Пример изображений из набора данных TID2013 с оценкой качества μ (± σ), где μ и σ представляют собой средние и стандартные отклонение оценки, соответственно. Здесь показаны чистые изображения и 5 уровней искажений изменения контраста. (a) чистое изображение, (b) контрастное изменение искажения уровня 1, μ = 5,67, σ = 0,10, (c) искажение контрастности уровня 2, μ = 6,80, σ = 0,18, (d) контрастное изменение искажения уровня 3, μ = 4.83, σ = 0.16, (e) искажение контраста уровня 4, μ = 6,69, σ = 0,29, (f) искажение контрастного изменения уровня 5, μ = 3,88, σ = 0,18.
 
 
NIMA предполагает, что модели оценки качества, основанные на машинном обучении, могут быть способны выполнять широкий спектр полезных функций. Например, позволить пользователям легко находить лучшие снимки среди многих; или даже обеспечить улучшенную визуализацию с обратной связью в реальном времени с пользователем. На стороне последующей обработки эти модели могут использоваться для того, чтобы направлять операторов для получения перцепционно превосходящих результатов. В прямом смысле сеть NIMA (и другие подобные ей) могут действовать как разумные, хотя и несовершенные, прокси для человеческого вкуса на фотографиях и, возможно, видео. 
Авторы: инженер-программист Hossein Talebi и исследователь Peyman Milanfar 
опубликовано на: Google Research Blog

Добавить комментарий