Относителни атрибути

Оригинална статия: https://faculty.cc.gatech.edu/~parikh/relative.html

Победител в наградата Marr (награда за най-добра публикация), ICCV 2011 г

Деви Парих и Кристен Грауман

"Кой в дъгата може да начертае линията, където свършва виолетовият оттенък и започва оранжевият оттенък? Ясно виждаме разликата в цветовете, но къде точно единият се смесва първо в другия? Така и с разума и лудостта."

-- Херман Мелвил, Били Бъд

[хартия] [данни] [код] [демонстрации] [слайдове] [разговор (видео)] [плакат] [преводи]

Резюме

Наименуваните от човека визуални „атрибути“ могат да бъдат от полза за различни задачи за разпознаване. Съществуващите техники обаче ограничават тези свойства до категорични етикети (например, човек се „усмихва“ или не, сцената е „суха“ или не) и по този начин не успяват да уловят по-общи семантични връзки. Ние предлагаме да се моделират относителни атрибути. Като се имат предвид данни за обучение, посочващи как категориите обект/сцена се отнасят според различни атрибути, ние научаваме функция за класиране за всеки атрибут. Научените функции за класиране предвиждат относителната сила на всяко свойство в нови изображения. След това изграждаме генеративен модел върху съвместното пространство на резултатите за класиране на атрибути и предлагаме нова форма на обучение с нулев удар, в която ръководителят се свързвакатегорията невиждани обекти към вече виждани обекти чрез атрибути (например „мечките са по-кожасти от жирафите“). Освен това показваме как предложените относителни атрибути позволяват по-богати текстови описания за нови изображения, които на практика са по-точни за човешка интерпретация. Ние демонстрираме подхода върху набори от данни за лица и природни сцени и показваме неговите ясни предимства пред традиционното предсказване на двоични атрибути за тези нови задачи.

Мотивация

Двоичните атрибути са ограничителни и могат да бъдат неестествени. В горните примери, докато изображението в горния ляв и горния десен ъгъл може да се характеризира съответно като естествено и създадено от човека, какво бихте описали като изображение в горния център? Единственият смислен начин да го характеризираме е по отношение на другите изображения: той е по-малко естествен от изображението вляво, но повече от изображението вдясно.

Предложение

В тази работа предлагаме да моделираме относителни атрибути. За разлика от предвиждането на наличието на атрибут, относителният атрибут показва силата на атрибут в изображение по отношение на други изображения. Освен че са по-естествени, относителните атрибути предлагат по-богат начин на комуникация, като по този начин позволяват достъп до по-подробен човешки надзор (и така потенциално по-висока точност на разпознаване), както и способността за генериране на по-информативни описания на нови изображения.

Ние измисляме подход, който научава функция за класиране за всеки атрибут, като се имат предвид ограничения за относителна прилика на двойки примери (или по-общо частично подреждане на някои примери). Научената функция за класиране може да оцени реално оценен ранг за изображения, показващи относителната сила на присъствието на атрибут в тях.

Ние въвеждаме нови форми на обучение с нулев изстрел и описание на изображения, които използват прогнозите на относителните атрибути.

Приближаване

Заучаване на относителни атрибути: Всеки относителен атрибут се научава чрез формулировка за обучение за класиране, като се дава сравнителен надзор, както е показано по-долу:

Разлика между изучаването на функция за класиране с широк марж (вдясно), която налага желаното подреждане на точките за обучение (1-6), и двоичен класификатор с широк марж (вляво), който разделя само двата класа (+ и -) и прави не е задължително да се запази желаното подреждане на точките е показано по-долу:

Ново обучение с нулев удар : Проучваме следната настройка

  • N общо категории: S видяни категории (налични са свързани изображения) + U невиждани категории (няма налични изображения за тези категории)
  • Видените категории са описани една спрямо друга чрез атрибути (не е необходимо всички двойки категории да са свързани за всички атрибути)
  • U невидимите категории са описани спрямо (подмножество от) наблюдавани категории по отношение на (подмножество от) атрибути.

Първо обучаваме набор от относителни атрибути, като използваме наблюдението, осигурено за видяните категории. Тези атрибути също могат да бъдат предварително обучени от външни данни. След това изграждаме генеративен модел (Gaussian) за всяка видяна категория, използвайки отговорите на относителните атрибути на изображенията от видяните категории. След това извеждаме параметрите на генеративните модели на невидими категории, като използваме техните относителни описания по отношение на видимите категории. Визуализация на простия подход, който използваме за това, е показана по-долу:

Тестово изображение се присвоява на категорията с максимална вероятност.

Автоматично генериране на относителни текстови описания на изображения: При дадено изображение I, което трябва да бъде описано, ние оценяваме всички научени функции за класиране на I. За всеки атрибут ние идентифицираме две референтни изображения, разположени от двете страни на I и не са твърде далеч или твърде близо до I. След това се описва изображение I спрямо тези две референтни изображения, както е показано по-долу:

Както се вижда по-горе, в допълнение към описанието на изображение спрямо други изображения, нашият подход може също да опише изображение спрямо други категории, което води до чисто текстово описание. Ясно е, че относителните описания са по-точни и информативни от конвенционалното двоично описание.

Експерименти и резултати

Провеждаме експерименти върху два набора от данни:

  1. Разпознаване на сцена на открито (OSR), съдържащо 2688 изображения от 8 категории: крайбрежие C, гора F, магистрала H, вътре в града I, планина M, открита местност O, улица S и високи сгради T. Ние използваме основни характеристики, за да представим изображения.
  2. Подгрупа от базата данни за лица на публични фигури (PubFig), съдържаща 772 изображения от 8 категории: Алекс Родригес А, Клайв Оуен С, Хю Лори Х, Джаред Лето Дж, Майли Сайръс М, Скарлет Йохансон С, Виго Мортенсен В и Зак Efron Z. Ние използваме свързани същност и цветови характеристики, за да представим изображенията.

Списъкът с атрибути, използвани за всеки набор от данни, заедно с анотациите на двоични и относителни атрибути са показани по-долу:

Zero-shot обучение:

Сравняваме предложения от нас подход с две базови линии. Първият е базирани на резултат относителни атрибути (SRA). Тази базова линия е същата като нашия подход, с изключение на това, че използва резултатите на двоичен класификатор (двоични атрибути) вместо резултатите на функция за класиране. Тази базова линия помага да се оцени необходимостта от функция за класиране за най-добро моделиране на относителни атрибути. Нашата втора базова линия е моделът за директно предсказване на атрибути (DAP), въведен от Lampert et al. в CVPR 2009. Тази базова линия помага да се оценят ползите от относителното третиране на атрибутите, за разлика от категоричното. Ние оценяваме тези подходи за различен брой невидими категории, различни количества данни, използвани за обучение на атрибутите, различен брой атрибути, използвани за описание на невидимите категории, и различни нива на „разхлабеност“ в описанието на невидимите категории. Подробности за експерименталната настройка могат да бъдат намерени в нашия документ. Резултатите са показани по-долу:

Автоматично генерирани описания на изображения:

За да оценим качеството на нашите относителни описания на изображения към двоичните двоични копия, ние проведохме изследване с хора. Ние генерирахме описание на изображение, използвайки нашия подход, както и базовите двоични атрибути. Представихме субектите с това описание, заедно с три изображения. Едно от трите изображения беше описаното изображение. Задачата на субектите беше да класират трите изображения въз основа на това кое според тях е най-вероятно да бъде описаното. Колкото по-точно е описанието, толкова по-добри са шансовете субектите да идентифицират правилното изображение. По-долу е показана илюстрация на задача, представена на участниците:

Резултатите от изследването са показани по-долу. Виждаме, че субектите могат да идентифицират правилното изображение по-точно, използвайки нашите предложени относителни атрибути, в сравнение с двоичните атрибути.

Примерни двоични описания на изображения, както и описания, свързани с категории, са показани по-долу:

Изображение

Двоични описания

Относителни описания

не е естествено,

не е отворена

перспектива

по-естествено от висока сграда, по-малко естествено от гора,

по-отворено от висока сграда, по-малко отворено от брега,

по-перспективно от висока сграда

не е естествено,

не е отворена

перспектива

по-естествено от вътрешността на града, по-малко естествено от магистралата

, по-отворено от улицата, по-малко отворено от брега,

по-перспективно от магистралата, по-малко перспективно от вътрешността на града

естествена

отворена

перспектива

по-естествено от високата сграда, по-малко естествено от планината,

по-отворено от планината,

по-малко перспективно от отворената страна

Бяло

не се усмихва

Видимо чело

по-бял от AlexRodriguez

по-усмихнат от JaredLeto , по-малко усмихнат от ZacEfron

повече VisibleForehead от JaredLeto , по-малко VisibleForehead от MileyCyrus

Бяло

не се усмихва,

не се вижда челото

по-бяла от Алекс Родригес , по-малко бяла от Майли Сайръс По-малко усмихната от ХюЛори по-видимо чело от ЗакЕфрон , по-малко видимо чело от Майли Сайръс

не Young

BushyEyebrows

RoundFace

по-млади от КлайвОуен , по-малко млади от Скарлет Йохансон

, по-гъсти вежди от ЗакЕфрон , по-малко гъсти вежди от Алекс Родригес , повече кръгло лице от КлайвОуен , по-малко кръгло лице от ЗакЕфрон

Данни

Предоставяме научени относителни атрибути и техните прогнози за двата набора от данни, използвани в нашата статия: разпознаване на сцена на открито (OSR) и подмножество от базата данни за лица на обществени фигури (PubFig).

ПРОЧЕТИ МЕ

Изтегляне (v2)

Набор от данни за относителни атрибути на лица . Той съдържа анотации за 29 относителни атрибута в 60 категории от базата данни за лица на публични фигури (PubFig).

Код

Ние модифицирахме изпълнението на RankSVM на Olivier Chappelle, за да обучим относителни атрибути с ограничения за подобие. Нашият модифициран код може да бъде намерен тук.

Ако използвате нашия код, моля, цитирайте следния документ:

Д. Парих и К. Грауман

Относителни атрибути

Международна конференция по компютърно зрение (ICCV), 2011 г.

Демонстрации

Демонстрации на различни приложения на относителни атрибути можете да намерите тук. Описание на тези приложения можете да намерите в документите тук.

Публикации

Д. Парих и К. Грауман

Относителни атрибути

Международна конференция по компютърно зрение (ICCV), 2011 г. (устен)

Победител в наградата Marr (награда за най-добър документ).

[ слайдове ] [ беседа (видео) ] [ постер ] [ демонстрация на относителни описания ]

Следват другите ни документи, които използват относителни атрибути:

А. Бисвас и Д. Парих

Едновременно активно обучение на класификатори и атрибути чрез относителна обратна връзка

Конференция на IEEE за компютърно зрение и разпознаване на образи (CVPR), 2013 г

[ страница на проекта и данни ] [постер] [ демонстрация ]

А. Паркаш и Д. Парих

Атрибути за обратна връзка на класификатора

Европейска конференция по компютърно зрение (ECCV), 2012 (устен)

[ слайдове ] [ беседа (видео) ] [ страница на проекта и данни ] [ демонстрация ]

А. Ковашка , Д . Парих и К. Грауман
WhittleSearch: Търсене на изображения с обратна връзка с относителни атрибути
IEEE конференция за компютърно зрение и разпознаване на образи (CVPR), 2012
[ страница на проекта ] [ постер ] [ демонстрация ]

Д. _ Парих , А . Ковашка , А. Паркаши К. Грауман
Относителни атрибути за подобрена комуникация човек-машина (документ с покана)
Конференция на AAAI за изкуствен интелект (AAAI), 2012 (устен)