Origineel artikel: https://faculty.cc.gatech.edu/~parikh/relative.html
Winnaar Marr-prijs (Best Paper Award), ICCV 2011
Devi Parikh en Kristen Grauman
"Wie in de regenboog kan de lijn trekken waar de violette tint ophoudt en de oranje tint begint? We zien duidelijk het verschil tussen de kleuren, maar waar gaat het een precies voor het eerst over in het ander? Dus met gezond verstand en waanzin."
-- Herman Melville, Billy Budd
[papier] [data] [code] [demo's] [slides] [talk (video)] [poster] [vertalingen]
Abstract
Door mensen te benoemen visuele "attributen" kunnen verschillende herkenningstaken ten goede komen. Bestaande technieken beperken deze eigenschappen echter tot categorische labels (een persoon 'glimlacht' bijvoorbeeld of niet, een scène is 'droog' of niet) en slagen er dus niet in om meer algemene semantische relaties vast te leggen. We stellen voor om relatieve attributen te modelleren. Gegeven trainingsgegevens die aangeven hoe object-/scènecategorieën zich verhouden volgens verschillende attributen, leren we een rangschikkingsfunctie per attribuut. De geleerde rangschikkingsfuncties voorspellen de relatieve sterkte van elke eigenschap in nieuwe afbeeldingen. Vervolgens bouwen we een generatief model over de gezamenlijke ruimte van de resultaten van de rangschikking van attributen, en stellen we een nieuwe vorm van zero-shot learning voor waarin de supervisor relaties legtde onzichtbare objectcategorie naar eerder geziene objecten via attributen (bijvoorbeeld 'beren zijn bonter dan giraffen'). We laten verder zien hoe de voorgestelde relatieve attributen rijkere tekstuele beschrijvingen voor nieuwe afbeeldingen mogelijk maken, die in de praktijk nauwkeuriger zijn voor menselijke interpretatie. We demonstreren de aanpak op datasets van gezichten en natuurlijke scènes, en laten de duidelijke voordelen zien ten opzichte van traditionele binaire attribuutvoorspelling voor deze nieuwe taken.
Motivatie
Binaire attributen zijn beperkend en kunnen onnatuurlijk zijn. Hoe zou u in de bovenstaande voorbeelden de afbeelding linksboven en rechtsboven omschrijven als respectievelijk natuurlijk en door de mens gemaakt? De enige zinvolle manier om het te karakteriseren is ten opzichte van de andere beelden: het is minder natuurlijk dan het beeld links, maar meer dan het beeld rechts.
Voorstel
In dit werk stellen we voor om relatieve attributen te modelleren. In tegenstelling tot het voorspellen van de aanwezigheid van een attribuut, geeft een relatief attribuut de sterkte van een attribuut in een afbeelding aan ten opzichte van andere afbeeldingen. Naast dat ze natuurlijker zijn, bieden relatieve attributen een rijkere manier van communiceren, waardoor ze toegang bieden tot gedetailleerder menselijk toezicht (en dus potentieel een hogere herkenningsnauwkeurigheid), evenals de mogelijkheid om meer informatieve beschrijvingen van nieuwe afbeeldingen te genereren.
We bedenken een aanpak die voor elk attribuut een rangschikkingsfunctie leert , gegeven de relatieve gelijkenisbeperkingen voor paren voorbeelden (of algemener een gedeeltelijke ordening voor sommige voorbeelden). De geleerde classificatiefunctie kan een reëel gewaardeerde rangschikking voor afbeeldingen schatten, die de relatieve sterkte van de aanwezigheid van het attribuut daarin aangeeft.
We introduceren nieuwe vormen van zero-shot learning en beeldbeschrijving die gebruik maken van de relatieve attribuutvoorspellingen.
Benadering
Relatieve attributen leren: Elk relatief attribuut wordt geleerd via een formulering voor het leren rangschikken, onder vergelijkend toezicht, zoals hieronder weergegeven:
Onderscheid tussen het leren van een rangschikkingsfunctie met brede marge (rechts) die de gewenste volgorde op trainingspunten afdwingt (1-6), en een binaire classificator met brede marge (links) die alleen de twee klassen (+ en -) scheidt, en dat ook doet niet noodzakelijkerwijs een gewenste volgorde op de punten behouden, wordt hieronder weergegeven:
Nieuw zero-shot-leren : We bestuderen de volgende opstelling
- N totale categorieën: S geziene categorieën (bijbehorende afbeeldingen zijn beschikbaar) + U ongeziene categorieën (voor deze categorieën zijn geen afbeeldingen beschikbaar)
- Alle geziene categorieën worden relatief ten opzichte van elkaar beschreven via attributen (niet alle paren categorieën hoeven voor alle attributen gerelateerd te zijn)
- Ongeziene categorieën worden beschreven ten opzichte van (een subset van) zichtbare categorieën in termen van (een subset van) attributen.
We trainen eerst een reeks relatieve kenmerken met behulp van de supervisie die op de geziene categorieën wordt gegeven. Deze attributen kunnen ook vooraf worden getraind op basis van externe gegevens. Vervolgens bouwen we voor elke geziene categorie een generatief model (Gaussiaans) met behulp van de reacties van de relatieve attributen op de afbeeldingen uit de geziene categorieën. Vervolgens leiden we de parameters af van de generatieve modellen van onzichtbare categorieën door gebruik te maken van hun relatieve beschrijvingen met betrekking tot zichtbare categorieën. Hieronder ziet u een visualisatie van de eenvoudige aanpak die wij hiervoor hanteren:
Er wordt een testbeeld toegewezen aan de categorie met de grootste waarschijnlijkheid.
Automatisch relatieve tekstuele beschrijvingen van afbeeldingen genereren: Gegeven een beeld I dat moet worden beschreven, evalueren we alle geleerde rangschikkingsfuncties op I. Voor elk attribuut identificeren we twee referentiebeelden die aan weerszijden van I liggen en niet te ver van of te dicht bij I liggen. Vervolgens wordt beeld I beschreven ten opzichte van deze twee referentieafbeeldingen, zoals hieronder weergegeven:
Zoals hierboven gezien kan onze aanpak, naast het beschrijven van een afbeelding ten opzichte van andere afbeeldingen, ook een afbeelding beschrijven ten opzichte van andere categorieën, wat resulteert in een puur tekstuele beschrijving. Het is duidelijk dat de relatieve beschrijvingen nauwkeuriger en informatiever zijn dan de conventionele binaire beschrijving.
Experimenten en resultaten
We voeren experimenten uit op twee datasets:
- Outdoor Scene Recognition (OSR) met 2688 afbeeldingen uit 8 categorieën: kust C, bos F, snelweg H, binnenstad I, berg M, open terrein O, straat S en hoge gebouwen T. We gebruiken kernkenmerken om de afbeeldingen.
- Een subset van de Public Figures Face Database (PubFig) met 772 afbeeldingen uit 8 categorieën: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V en Zac Efron Z. We gebruiken aaneengeschakelde kern- en kleurkenmerken om de afbeeldingen weer te geven.
De lijst met attributen die voor elke dataset worden gebruikt, samen met de binaire en relatieve attribuutannotaties, wordt hieronder weergegeven:
Zero-shot-leren:
We vergelijken onze voorgestelde aanpak met twee basislijnen. De eerste is op scores gebaseerde relatieve kenmerken (SRA). Deze basislijn is hetzelfde als onze aanpak, behalve dat deze de scores van een binaire classificator (binaire attributen) gebruikt in plaats van de scores van een rangschikkingsfunctie. Deze basislijn helpt bij het evalueren van de noodzaak van een rangschikkingsfunctie om relatieve attributen het beste te modelleren. Onze tweede basislijn is het Direct Attribute Prediction (DAP)-model geïntroduceerd door Lampert et al. in CVPR 2009. Deze basislijn helpt bij het evalueren van de voordelen van relatieve behandeling van kenmerken, in tegenstelling tot categorische behandeling. We evalueren deze benaderingen voor variërende aantallen onzichtbare categorieën, variërende hoeveelheden gegevens die worden gebruikt om de attributen te trainen, variërende aantallen attributen die worden gebruikt om de onzichtbare categorieën te beschrijven, en variërende niveaus van 'losheid' in de beschrijving van onzichtbare categorieën. Details van de experimentele opzet zijn te vinden in ons artikel. De resultaten worden hieronder weergegeven:
Automatisch gegenereerde afbeeldingsbeschrijvingen:
Om de kwaliteit van onze relatieve beeldbeschrijvingen ten opzichte van de binaire tegenhangers te evalueren, hebben we een onderzoek op mensen uitgevoerd. We hebben een beschrijving van een afbeelding gegenereerd met behulp van onze aanpak, evenals de binaire basisattributen. Wij presenteerden de proefpersonen deze beschrijving, samen met drie afbeeldingen. Eén van de drie afbeeldingen was de afbeelding die werd beschreven. De taak van de proefpersonen was om de drie afbeeldingen te rangschikken op basis van de afbeelding waarvan zij dachten dat deze het meest waarschijnlijk zou worden beschreven. Hoe nauwkeuriger de beschrijving, hoe groter de kans dat proefpersonen het juiste beeld identificeren. Hieronder ziet u een illustratie van een taak die aan proefpersonen wordt gepresenteerd:
De resultaten van het onderzoek worden hieronder weergegeven. We zien dat proefpersonen het juiste beeld nauwkeuriger kunnen identificeren met behulp van onze voorgestelde relatieve attributen, vergeleken met de binaire attributen.
Voorbeelden van binaire beschrijvingen van afbeeldingen en beschrijvingen met betrekking tot categorieën worden hieronder weergegeven:
Afbeelding | Binaire beschrijvingen | Relatieve beschrijvingen |
niet natuurlijk, geen open perspectief | natuurlijker dan hoge gebouwen, minder natuurlijk dan bos, meer open dan hoge gebouwen, minder open dan kust, meer perspectief dan hoge gebouwen | |
niet natuurlijk, geen open perspectief | natuurlijker dan insidecity, minder natuurlijk dan snelweg opener dan straat, minder open dan kust meer perspectief dan snelweg, minder perspectief dan insidecity | |
natuurlijk open perspectief | natuurlijker dan hoge gebouwen, minder natuurlijk dan bergen, meer open dan bergen, minder perspectief dan open terrein | |
Wit, niet glimlachend, zichtbaar voorhoofd | meer blank dan AlexRodriguez meer glimlachend dan JaredLeto, minder glimlachend dan ZacEfron meer zichtbaar voorhoofd dan JaredLeto, minder zichtbaar voorhoofd dan MileyCyrus | |
Wit niet glimlachend niet zichtbaarVoorhoofd | meer blank dan AlexRodriguez, minder blank dan MileyCyrus minder glimlachend dan HughLaurie meer zichtbaar voorhoofd dan ZacEfron, minder zichtbaar voorhoofd dan MileyCyrus | |
niet jonge borstelige wenkbrauwen rond gezicht | jonger dan CliveOwen, minder jong dan ScarlettJohansson meer borstelige wenkbrauwen dan ZacEfron, minder borstelige wenkbrauwen dan AlexRodriguez meer RoundFace dan CliveOwen, minder RoundFace dan ZacEfron |
Gegevens
We bieden de geleerde relatieve kenmerken en hun voorspellingen voor de twee datasets die in ons artikel worden gebruikt: Outdoor Scene Recognition (OSR) en een subset van de Public Figures Face Database (PubFig).
Gegevensset relatieve gezichtskenmerken. Het bevat annotaties voor 29 relatieve attributen in 60 categorieën uit de Public Figures Face Database (PubFig).
Code
We hebben de RankSVM-implementatie van Olivier Chappelle aangepast om relatieve kenmerken met overeenkomstenbeperkingen te trainen. Onze aangepaste code vindt u hier.
Als u onze code gebruikt, citeer dan het volgende document:
D. Parikh en K. Grauman
Relatieve attributen
Internationale conferentie over computervisie (ICCV), 2011.
Demo's
Demo's van verschillende toepassingen van relatieve attributen kunt u hier vinden. Een beschrijving van deze toepassingen vindt u hier in de papieren.
Publicaties
Internationale conferentie over computervisie (ICCV), 2011. (mondeling)
Winnaar van de Marr-prijs (Best Paper Award).
[dia's] [lezing (video)] [poster] [relatieve beschrijvingen demo]
Hieronder volgen onze andere artikelen waarin relatieve kenmerken worden gebruikt:
A. Biswas en D. Parikh
Gelijktijdig actief leren van classificaties en attributen via relatieve feedback
IEEE-conferentie over computervisie en patroonherkenning (CVPR), 2013
[projectpagina en gegevens] [poster] [demo]
A. Parkash en D. Parikh
Kenmerken voor classificatiefeedback
Europese conferentie over computervisie (ECCV), 2012 (mondeling)
[slides] [talk (video)] [projectpagina en data] [demo]
A. Kovashka, D. Parikh en K. GraumanWhittleSearch: zoeken naar afbeeldingen met relatieve attribuutfeedbackIEEE-conferentie over computervisie en patroonherkenning (CVPR), 2012
[projectpagina] [poster] [demo]
D. Parikh , A. Kovashka, A. Parkashen K. GraumanRelatieve kenmerken voor verbeterde mens-machinecommunicatie (paper op uitnodiging)
AAAI-conferentie over kunstmatige intelligentie (AAAI), 2012 (mondeling)
Let professional writers deal with your paper, quickly and efficiently.
Write My Paper