
Die Ăbersetzung des Artikels wurde fĂŒr Studenten des Kurses "Mathematik fĂŒr Datenwissenschaften" vorbereitet.
Anmerkung
Dieser Artikel beschreibt die Aufgabe, Gesichtskonturen fĂŒr ein einzelnes Bild zu finden. Wir zeigen, wie das Ensemble von RegressionsbĂ€umen verwendet werden kann, um die Position von Gesichtskonturen direkt aus einer verstreuten Teilmenge von PixelintensitĂ€ten vorherzusagen und mit hochqualitativen Vorhersagen in Echtzeit eine Superleistung zu erzielen. Wir prĂ€sentieren eine allgemeine Struktur, die auf GradientenverstĂ€rkung basiert, um ein Ensemble von RegressionsbĂ€umen zu untersuchen, das die Summe der quadratischen Verluste optimiert und natĂŒrlich fehlende oder teilweise markierte Daten verarbeitet. Wir werden zeigen, wie die Verwendung geeigneter Verteilungen, die die Struktur von Bilddaten berĂŒcksichtigen, bei der effizienten Auswahl von Konturen hilft. Verschiedene Regularisierungsstrategien und ihre Bedeutung im Kampf gegen Umschulungen werden ebenfalls untersucht. DarĂŒber hinaus analysieren wir die Auswirkung der Menge an Trainingsdaten auf die Genauigkeit von Vorhersagen und untersuchen die Auswirkung der Datenerhöhung anhand synthetisierter Daten.
1. Einleitung
In diesem Artikel stellen wir einen neuen Algorithmus vor, der in Millisekunden nach Gesichtskonturen sucht und eine Genauigkeit erzielt, die modernen Methoden fĂŒr StandarddatensĂ€tze ĂŒberlegen oder mit diesen vergleichbar ist. Die Erhöhung der Geschwindigkeit im Vergleich zu den vorherigen Methoden ist eine Folge der Identifizierung der Hauptkomponenten der vorherigen Algorithmen fĂŒr die Suche nach Gesichtskonturen und ihrer anschlieĂenden Aufnahme in eine optimierte Form in die Kaskade von Regressionsmodellen mit hohem Durchsatz, die mithilfe der GradientenverstĂ€rkung konfiguriert wurden.
Wir zeigen, wie bereits zuvor [8, 2], dass die Suche nach Gesichtskonturen mit einer Kaskade von Regressionsmodellen durchgefĂŒhrt werden kann. In unserem Fall sagt jedes Regressionsmodell in der Kaskade die Form des Gesichts basierend auf der anfĂ€nglichen Vorhersage und der IntensitĂ€t des spĂ€rlichen Satzes von Pixeln, die relativ zu dieser anfĂ€nglichen Vorhersage indiziert sind, effektiv voraus. Unsere Arbeit basiert auf einer Vielzahl von Studien, die im letzten Jahrzehnt durchgefĂŒhrt wurden und zu erheblichen Fortschritten bei der Suche nach Gesichtskonturen gefĂŒhrt haben [9, 4, 13, 7, 15, 1, 16, 18, 3, 6, 19]. Insbesondere haben wir in unsere abgestimmten Regressionsmodelle zwei SchlĂŒsselelemente aufgenommen, die in mehreren der folgenden erfolgreichen Algorithmen vorhanden sind, und jetzt werden diese Elemente detailliert beschrieben.

Abbildung 1. AusgewÀhlte Ergebnisse im HELEN-Datensatz. Um 194 wichtige Punkte (Landmarken) auf dem Gesicht in einem Bild in einer Millisekunde zu erkennen, wird ein Ensemble randomisierter RegressionsbÀume verwendet.
Die erste dreht sich um die Indexierung der PixelintensitĂ€t relativ zur aktuellen Vorhersage der Gesichtsform. Die unterscheidbaren Merkmale in der Vektordarstellung des Gesichtsbildes können aufgrund der Verformung der Form und aufgrund von Störfaktoren wie Ănderungen der LichtverhĂ€ltnisse stark variieren. Dies macht es schwierig, die Form unter Verwendung dieser Funktionen genau vorherzusagen. Das Dilemma besteht darin, dass wir zuverlĂ€ssige Zeichen benötigen, um die Form genau vorherzusagen, und andererseits benötigen wir eine genaue Vorhersage der Form, um zuverlĂ€ssige Zeichen zu extrahieren. In der vorherigen Arbeit [4, 9, 5, 8] sowie in dieser Arbeit wird ein iterativer Ansatz (Kaskade) verwendet, um dieses Problem zu lösen. Anstatt die Formparameter basierend auf den im globalen Bildkoordinatensystem extrahierten Merkmalen zu regressieren, wird das Bild basierend auf der aktuellen Formvorhersage in ein normalisiertes Koordinatensystem konvertiert, und dann werden Zeichen extrahiert, um den Aktualisierungsvektor fĂŒr die Formparameter vorherzusagen. Dieser Vorgang wird normalerweise mehrmals bis zur Konvergenz wiederholt.
Im zweiten Teil wird untersucht, wie mit der KomplexitĂ€t des ErklĂ€rungs- / Vorhersageproblems umgegangen werden soll. WĂ€hrend des Tests sollte der Kontursuchalgorithmus die Form des Gesichts vorhersagen - ein hochdimensionaler Vektor, der am besten mit den Bilddaten und unserem Formmodell ĂŒbereinstimmt. Das Problem ist bei vielen lokalen Optima nicht konvex. Erfolgreiche Algorithmen [4, 9] lösen dieses Problem unter der Annahme, dass die vorhergesagte Form in einem linearen Unterraum liegen sollte, der beispielsweise durch Auffinden der Hauptkomponenten der Trainingsformen erkannt werden kann. Diese Annahme reduziert die Anzahl potenzieller Formen, die bei der ErklĂ€rung berĂŒcksichtigt werden, erheblich und kann dazu beitragen, lokale Optima zu vermeiden.
Eine kĂŒrzlich erschienene Arbeit [8, 11, 2] nutzt die Tatsache aus, dass eine bestimmte Klasse von Regressoren garantiert Vorhersagen erstellt, die in dem durch Lernformen definierten linearen Unterraum liegen, und dass keine zusĂ€tzlichen EinschrĂ€nkungen erforderlich sind. Es ist wichtig, dass unsere Regressionsmodelle diese beiden Elemente aufweisen.
Diese beiden Faktoren hĂ€ngen mit unserem effektiven Training im Regressionsmodell zusammen. Wir optimieren die entsprechende Verlustfunktion und fĂŒhren die Merkmalsauswahl anhand von Daten durch. Insbesondere trainieren wir jeden Regressor mit GradientenverstĂ€rkung [10] unter Verwendung der quadratischen Verlustfunktion, der gleichen Verlustfunktion, die wir wĂ€hrend des Tests minimieren möchten. Der Satz von spĂ€rlichen Pixeln, der als Eingabe in den Regressor verwendet wird, wird unter Verwendung einer Kombination des GradientenverstĂ€rkungsalgorithmus und der a priori-Wahrscheinlichkeit der AbstĂ€nde zwischen Paaren von Eingabepixeln ausgewĂ€hlt. Eine A-priori-Verteilung ermöglicht es dem Boosting-Algorithmus, eine groĂe Anzahl relevanter Merkmale effizient zu untersuchen. Das Ergebnis ist eine Kaskade von Regressoren, die Gesichtsmarkierungen lokalisieren können, wenn sie von vorne initialisiert werden.
Die HauptbeitrÀge dieses Artikels sind:
- Eine neue Methode zum Finden von Gesichtskonturen, basierend auf einem Ensemble von RegressionsbĂ€umen (EntscheidungsbĂ€umen), die die Auswahl invarianter Merkmale des Formulars durchfĂŒhrt und gleichzeitig die gleiche Verlustfunktion wĂ€hrend des Trainings minimiert, die wir wĂ€hrend des Tests minimieren möchten.
- Wir prĂ€sentieren eine natĂŒrliche Erweiterung unserer Methode, die fehlende oder undefinierte Labels verarbeitet.
- Es werden quantitative und qualitative Ergebnisse prÀsentiert, die bestÀtigen, dass unsere Methode qualitativ hochwertige Prognosen liefert und viel effektiver ist als die beste vorherige Methode (Abbildung 1).
- Der Einfluss der Menge an Trainingsdaten, der Verwendung von teilweise gekennzeichneten Daten und verallgemeinerten Daten auf die QualitÀt von Prognosen wird analysiert.
2. Methode
In diesem Artikel wird ein Algorithmus zur genauen Beurteilung der Position von Gesichtspunkten (SchlĂŒsselpunkten) im Hinblick auf die Recheneffizienz vorgestellt. Wie in frĂŒheren Arbeiten [8, 2] wird in unserer Methode die Kaskade der Regressoren verwendet. Im Rest dieses Abschnitts beschreiben wir die Details der Form der einzelnen Komponenten der Kaskade und wie wir das Training durchfĂŒhren.
2.1. Regressionskaskade
Zuerst fĂŒhren wir eine Notation ein. Lass
, y-Koordinaten des i-ten Orientierungspunkts des Gesichts im Bild I. Dann der Vektor
bezeichnet die Koordinaten aller p FlÀchen in I. Oft nennen wir in diesem Artikel den Vektor S eine Form. Wir benutzen
um unsere aktuelle Bewertung S anzuzeigen. Jeder Regressor
(·, ·) In der Kaskade sagt der Aktualisierungsvektor aus dem Bild und voraus
Dies wird zur aktuellen Formularbewertung hinzugefĂŒgt
So verbessern Sie die Bewertung:
) (1)
Der entscheidende Punkt der Kaskade ist, dass der Regressor
Die Prognosen basieren auf Attributen wie PixelintensitÀten, die von I berechnet und relativ zur aktuellen FormschÀtzung indiziert werden
. Dies fĂŒhrt eine Art geometrische Invarianz in den Prozess ein, und wĂ€hrend Sie die Kaskade durchlaufen, können Sie sicherer sein, dass die genaue semantische Position auf dem Gesicht indiziert ist. Wir werden spĂ€ter beschreiben, wie diese Indizierung durchgefĂŒhrt wird.
Bitte beachten Sie, dass der vom Ensemble erweiterte Ausgabebereich bei der anfÀnglichen SchÀtzung garantiert im linearen Unterraum der Trainingsdaten liegt
gehört zu diesem Raum. Daher mĂŒssen wir keine zusĂ€tzlichen EinschrĂ€nkungen fĂŒr die Vorhersagen einfĂŒhren, was unsere Methode erheblich vereinfacht. Die Anfangsform kann einfach als mittlere Form von Trainingsdaten ausgewĂ€hlt, zentriert und entsprechend der Ausgabe des Begrenzungsrahmens des allgemeinen Gesichtsdetektors skaliert werden.
Alle erziehen
Wir verwenden den GradientenverstĂ€rkungsalgorithmus fĂŒr BĂ€ume mit der Summe der quadratischen Verluste, wie in [10] beschrieben. Jetzt werden wir detaillierte Details dieses Prozesses geben.
2.2. Trainiere jeden Regressor in einer Kaskade
Angenommen, wir haben Trainingsdaten
wo alle
ist ein Gesichtsbild und
sein Formvektor. Um die erste Regressionsfunktion herauszufinden
In der Kaskade erstellen wir aus unseren Trainingsdaten Tripletts des Gesichtsbildes, der anfÀnglichen Formvorhersage und des Zielaktualisierungsschritts, d.h.
) wo
(2)
(3) und
(4)
fĂŒr i = 1, ..., N.
Wir setzen die Gesamtzahl dieser Tripletts auf N = nR, wobei R die Anzahl der auf Bild Ii verwendeten Initialisierungen ist. Jede anfĂ€ngliche Formvorhersage fĂŒr das Bild wird gleichmĂ€Ăig aus ausgewĂ€hlt
ohne Ersatz.
Anhand dieser Daten trainieren wir die Regressionsfunktion
(siehe Algorithmus 1) Verwenden der GradientenverstÀrkung von BÀumen mit der Summe der quadratischen Verluste. Der Trainings-Triplett-Satz wird dann aktualisiert, um Trainingsdaten bereitzustellen.
% 20) fĂŒr den nĂ€chsten Regressor
in der Kaskade durch Setzen (mit t = 0).
% 20) (5)
(6)
Dieser Vorgang wird wiederholt, bis eine Kaskade von T-Regressoren trainiert ist.
die in Kombination ein ausreichendes MaĂ an Genauigkeit bieten.
Wie angegeben, jeder Regressor
lernt mit dem Gradientenbaum-Boosting-Algorithmus. Es ist zu beachten, dass die quadratische Verlustfunktion verwendet wird und die in der inneren Schleife berechneten Residuen dem Gradienten dieser Verlustfunktion entsprechen, der in jeder Trainingsprobe geschĂ€tzt wird. Die Formulierung des Algorithmus enthĂ€lt den Lernratenparameter 0 <Μ †1, auch als Regularisierungskoeffizient bekannt. Das Setzen von Μ <1 hilft bei der BekĂ€mpfung der Rekonfiguration und fĂŒhrt normalerweise zu Regressoren, die viel besser verallgemeinern als diejenigen, die mit Μ = 1 trainiert wurden [10].
Lernalgorithmus 1
in Kaskade
Wir haben Trainingsdaten
und Lernrate (Regularisierungskoeffizient) 0 <Μ <1
- Initialisieren

- fĂŒr k = 1, ..., K:
a) wir setzen auf i = 1, ...,

b) Wir passen den Regressionsbaum an das Ziel an
mit schwacher Regressionsfunktion
.
c) Aktualisieren 
- Fazit

2.3. Baumregressor
Im Zentrum jeder RT-Regressionsfunktion stehen baumartige Regressoren, die fĂŒr Restziele wĂ€hrend des GradientenverstĂ€rkungsalgorithmus geeignet sind. Jetzt werden wir uns die wichtigsten Implementierungsdetails fĂŒr das Training jedes Regressionsbaums ansehen.
An jedem Trennknoten im Regressionsbaum treffen wir eine Entscheidung basierend auf dem Schwellenwert der Differenz zwischen den IntensitĂ€ten von zwei Pixeln. Die im Test verwendeten Pixel befinden sich an den Positionen u und v, wenn sie im Koordinatensystem der mittleren Form definiert sind. FĂŒr ein Bild eines Gesichts mit einer beliebigen Form möchten wir Punkte indizieren, die relativ zu ihrer Form dieselbe Position wie u und v haben, fĂŒr die durchschnittliche Form. Zu diesem Zweck kann das Bild vor dem Extrahieren der Elemente basierend auf der aktuellen FormschĂ€tzung in die mittlere Form deformiert werden. Da wir nur eine sehr spĂ€rliche Darstellung des Bildes verwenden, ist es viel effizienter, die Anordnung der Punkte zu verformen als das gesamte Bild. DarĂŒber hinaus kann eine grobe AnnĂ€herung an die Verformung vorgenommen werden, indem zusĂ€tzlich zu den in [2] vorgeschlagenen globalen Verschiebungen nur die globale Ăhnlichkeitstransformation verwendet wird.
Die genauen Details sind wie folgt. Lass
Ist der Index des Orientierungspunkts auf dem Gesicht in der mittleren Form am nÀchsten an u und definiert seine Verschiebung von u als
.
Dann fĂŒr die im Bild definierte Form Si
Position in
, das u im Bild einer mittleren Form qualitativ Àhnlich ist, ist definiert als
(7)
wo
und
- Skalierungs- und Rotationsmatrix der Ăhnlichkeitstransformation, die transformiert
in
mittlere Form.
Skalierung und Rotation minimieren
(8)
die Summe der Quadrate zwischen den Orientierungspunkten der mittleren Form,
und Point Warp.
Ă€hnlich definiert.
Formal ist jede Division eine Lösung, die 3 Parameter Ξ = (Ï, u, v) enthĂ€lt und auf jedes Trainings- und Testbeispiel als angewendet wird
(9)
wo
und
werden unter Verwendung der Skala und der Rotationsmatrix bestimmt, die sich am besten verformen
in
gemÀà Gleichung (7). In der Praxis werden Aufgaben und lokale Verschiebungen in der Trainingsphase festgelegt. Die Berechnung der Ăhnlichkeitstransformation wĂ€hrend des Testens des teuersten Teils dieses Prozesses wird auf jeder Ebene der Kaskade nur einmal durchgefĂŒhrt.
2.3.2 Auswahl der Knotenpartitionen
FĂŒr jeden Regressionsbaum approximieren wir die Grundfunktion durch eine stĂŒckweise lineare Funktion, wobei ein konstanter Vektor fĂŒr jeden endlichen Knoten geeignet ist. Um den Regressionsbaum zu trainieren, erzeugen wir zufĂ€llig einen Satz geeigneter Partitionen, dh Ξ, in jedem Knoten. Dann wĂ€hlen wir eifrig Ξ * aus diesen Kandidaten aus, was die Summe des quadratischen Fehlers minimiert. Wenn Q ein Satz von Indizes von Trainingsbeispielen in einem Knoten ist, entspricht dies einer Minimierung
(10)
wo
- Indizes von Beispielen, die aufgrund der Entscheidung Ξ an den linken Knoten gesendet werden,
Ist der Vektor aller Residuen, die fĂŒr das Bild i im GradientenverstĂ€rkungsalgorithmus berechnet wurden, und
fĂŒr
(11)
Die optimale Partition kann sehr effizient gefunden werden, denn wenn wir Gleichung (10) transformieren und von Ξ unabhÀngige Faktoren weglassen, können wir das sehen

Hier mĂŒssen wir nur berechnen
bei der Auswertung verschiedener Ξs, da
kann aus den durchschnittlichen Zielen im Elternknoten ” und berechnet werden
wie folgt:

2.3.3 Auswahl der Merkmale
Die Lösung an jedem Knoten basiert auf einem Schwellenwert der Differenz der IntensitĂ€tswerte in einem Pixelpaar. Dies ist ein ziemlich einfacher Test, der jedoch aufgrund seiner relativen Unempfindlichkeit gegenĂŒber Ănderungen der globalen Beleuchtung viel effektiver ist als ein Schwellenwert mit einer einzelnen IntensitĂ€t. Leider besteht der Nachteil der Verwendung von Pixeldifferenzen darin, dass die Anzahl potenzieller Trennungskandidaten (Merkmal) in Bezug auf die Anzahl von Pixeln im Durchschnittsbild quadratisch ist. Dies macht es schwierig, gute Ξs zu finden, ohne nach einer sehr groĂen Anzahl von ihnen zu suchen. Dieser begrenzende Faktor kann jedoch unter BerĂŒcksichtigung der Struktur der Bilddaten etwas abgeschwĂ€cht werden.
Wir fĂŒhren die Exponentialverteilung ein
(12)
durch den Abstand zwischen den Pixeln, die bei der Aufteilung verwendet werden, um die Auswahl engerer Pixelpaare zu fördern.
Wir haben festgestellt, dass die Verwendung dieser einfachen Verteilung den Vorhersagefehler fĂŒr eine Reihe von GesichtsdatensĂ€tzen reduziert. In Abbildung 4 werden die mit und ohne Features ausgewĂ€hlten Features verglichen, wobei die GröĂe des Objektpools in beiden FĂ€llen auf 20 festgelegt ist.
2.4. Umgang mit fehlenden Tags
Das Problem von Gleichung (10) kann leicht erweitert werden, um den Fall zu behandeln, in dem einige Orientierungspunkte auf einigen Trainingsbildern nicht markiert sind (oder wir haben ein MaĂ fĂŒr die Unsicherheit fĂŒr jeden Orientierungspunkt). Variable eingeben
[0, 1] fĂŒr jedes Trainingsbild i und jeden Orientierungspunkt j . Installation
Ein Wert von 0 zeigt an, dass der Orientierungspunkt j im i- ten Bild nicht markiert ist, und eine Einstellung von 1 zeigt an, dass er markiert ist. Dann kann Gleichung (10) wie folgt dargestellt werden

wo
- Diagonalmatrix mit Vektor
auf ihrer Diagonale und
fĂŒr
(13)
Der GradientenverstĂ€rkungsalgorithmus muss ebenfalls modifiziert werden, um diese Gewichte zu berĂŒcksichtigen. Dies kann erreicht werden, indem einfach das Ensemble-Modell mit dem gewichteten Durchschnittswert der Ziele initialisiert und die RegressionsbĂ€ume wie folgt an die gewichteten Residuen in Algorithmus 1 angepasst werden
(14)
3. Experimente
Grundlagen: Um die Leistung unserer vorgeschlagenen Methode, dem Ensemble von RegressionsbĂ€umen (ERT), genau zu bewerten, haben wir zwei weitere Grundlagen erstellt. Der erste basiert auf zufĂ€lligen Farnen (zufĂ€lligen Farnen) mit einer zufĂ€lligen Auswahl von Merkmalen (EF), und der andere ist eine fortgeschrittenere Version dieses Ansatzes mit der Auswahl von Merkmalen basierend auf Korrelation (EF + CB), was unsere neue Implementierung ist [2]. Alle Parameter sind fĂŒr alle drei AnsĂ€tze festgelegt.
EF nutzt die direkte Implementierung von zufĂ€lligen Farnen als schwache Regressoren im Ensemble und ist die schnellste fĂŒr das Training. Wir verwenden dieselbe Regularisierungsmethode wie in [2] fĂŒr die Regularisierung von Farnen vorgeschlagen.
EF + CB verwendet eine korrelationsbasierte Objektauswahlmethode, die Ausgabewerte projiziert.
's in eine zufĂ€llige Richtung w und wĂ€hlt Zeichenpaare (u, v) aus, fĂŒr die
.
, . rt T = 10,
K = 500
. ( ),
, F = 5. P = 400 . , P , (9). S = 20 , . , R = 20 .

2. , Viola & Jones [17]. .
O (TKF). O (NDTKF S), N â , D â . HELEN [12], .
, , HELEN [12], , , . 2330 , 194 . 2000 , .
LFPW [1], 1432 . , 778 216 , , .
Vergleich
1 . (Active Shape Models) â STASM [14] CompASM [12].

1. HELEN. â . . , . , . .
, , . 3 , , ERT , . , EF + CB . , EF + CB , .
LFPW [1] ( 2). EF + CB , [2]. ( , .) , , .

2. LFPW. 1.
4 (12) , , . λ 0,1 .
. 4 .

3. . , , . (12).
, . , . â . Μ 1 ( Μ = 0.1). . ,
, , Μ = 1. (10 ) . ( .)

3. HELEN (a) LFPW (b). EF â , EF + CB â , . (5 10), [2]. , (ERT), , , .

4. , . , .
, . , .

4. HELEN . .
, . , , , , .
. . 5 . , , [8, 2] ( 10 Ă 400 .)

5. .
Trainingsdaten
Um die Wirksamkeit unserer Methode in Bezug auf die Anzahl der Trainingsbilder zu testen, haben wir verschiedene Modelle aus verschiedenen Teilmengen von Trainingsdaten trainiert. Tabelle 6 fasst die Endergebnisse zusammen, und Abbildung 5 zeigt eine grafische Darstellung der Fehler auf jeder Ebene der Kaskade. Die Verwendung vieler Ebenen von Regressoren ist am nĂŒtzlichsten, wenn wir eine groĂe Anzahl von Trainingsbeispielen haben.
Wir wiederholten dieselben Experimente mit einer festen Gesamtzahl erweiterter Beispiele, Ànderten jedoch die Kombination der Anfangsformen, die zur Erstellung des Trainingsbeispiels verwendet wurden, aus einem markierten Beispiel des Gesichts und einer Reihe kommentierter Bilder, die zur Untersuchung der Kaskade verwendet wurden (Tabelle 7).

Tabelle 6. Die endgĂŒltige Fehlerrate fĂŒr die Anzahl der Trainingsbeispiele. Bei der Erstellung von Trainingsdaten fĂŒr das Studium kaskadierender Regressoren wurden aus jedem markierten Gesichtsbild 20 Trainingsbeispiele generiert, wobei 20 verschiedene markierte Gesichter als erste Annahme ĂŒber die Gesichtsform verwendet wurden.

Abbildung 5. Der durchschnittliche Fehler auf jeder Ebene der Kaskade wird in AbhĂ€ngigkeit von der Anzahl der verwendeten Trainingsbeispiele dargestellt. Die Verwendung vieler Ebenen von Regressoren ist am nĂŒtzlichsten, wenn die Anzahl der Trainingsbeispiele groĂ ist.

Tabelle 7. Hier ist die effektive Anzahl von Trainingsbeispielen festgelegt, wir verwenden jedoch verschiedene Kombinationen aus der Anzahl von Trainingsbildern und der Anzahl von Anfangsformen, die fĂŒr jedes markierte Gesichtsbild verwendet werden.
Durch das Erhöhen der Trainingsdaten mithilfe einer Vielzahl von Anfangsformularen wird der Datensatz in Bezug auf die Form erweitert. Unsere Ergebnisse zeigen, dass diese Art der ErgÀnzung das Fehlen kommentierter Trainingsbilder nicht vollstÀndig kompensiert. Obwohl die Verbesserungsrate, die durch Erhöhen der Anzahl von Trainingsbildern erhalten wird, nach den ersten paar hundert Bildern schnell abnimmt.
Teilanmerkungen
Tabelle 8 zeigt die Ergebnisse der Verwendung von teilweise kommentierten Daten. 200 Fallstudien sind vollstÀndig und der Rest nur teilweise kommentiert.

Tabelle 8. Ergebnisse unter Verwendung teilweise beschrifteter Daten. 200 Beispiele sind immer vollstÀndig kommentiert. Die Werte in Klammern geben den Prozentsatz der beobachteten Orientierungspunkte an.
Die Ergebnisse zeigen, dass wir mit teilweise gekennzeichneten Daten eine signifikante Verbesserung erzielen können. Die angezeigte Verbesserung ist jedoch möglicherweise nicht gesĂ€ttigt, da wir wissen, dass die BasisgröĂe der Formparameter viel geringer ist als die GröĂe der Orientierungspunkte (194 Ă 2). Folglich besteht das Potenzial fĂŒr eine signifikantere Verbesserung bei Teilmarkierungen, wenn Sie die Korrelation zwischen der Position der Landmarken explizit verwenden. Bitte beachten Sie, dass das in diesem Artikel beschriebene Verfahren zur Erhöhung des Gradienten keine Korrelation zwischen Orientierungspunkten verwendet. Dieses Problem kann in zukĂŒnftigen Arbeiten gelöst werden.
4. Fazit
Wir haben beschrieben, wie ein Ensemble von RegressionsbĂ€umen verwendet werden kann, um die Position von Gesichtsmarkierungen aus einer gestreuten Teilmenge von IntensitĂ€tswerten, die aus dem Eingabebild extrahiert wurden, zu regressieren. Die dargestellte Struktur reduziert Fehler schneller als die vorherige Arbeit und kann auch teilweise oder undefinierte Markierungen verarbeiten. WĂ€hrend die Hauptkomponenten unseres Algorithmus verschiedene Zielmessungen als unabhĂ€ngige Variablen betrachten, wird die natĂŒrliche Fortsetzung dieser Arbeit die Verwendung der Korrelation von Formularparametern fĂŒr ein effektiveres Training und eine bessere Verwendung von Teilbeschriftungen sein.

Abbildung 6. Endergebnisse in der HELEN-Datenbank.
Danksagung
Diese Arbeit wurde von der schwedischen Stiftung fĂŒr strategische Forschung im Rahmen des VINST-Projekts finanziert.
Gebrauchte Literatur
[1] PN Belhumeur, DW Jacobs, DJ Kriegman und N. Kumar. Lokalisierung von Gesichtsteilen anhand eines Konsenses von Exemplaren. In CVPR, Seiten 545â552, 2011. 1, 5
[2] X. Cao, Y. Wei, F. Wen und J. Sun. Gesichtsausrichtung durch explizite Formregression. In CVPR, Seiten 2887â2894, 2012. 1, 2, 3, 4, 5, 6
[3] TF Cootes, M. Ionita, C. Lindner und P. Sauer. Robuste und genaue Anpassung des Formmodells durch zufÀllige Waldregressionsabstimmung. In ECCV, 2012.1
[4] TF Cootes, CJ Taylor, DH Cooper und J. Graham. Aktive Formmodelle - ihre Ausbildung und Anwendung. Computer Vision and Image Understanding, 61 (1): 38â59, 1995.1, 2
[5] D. Cristinacce und TF Cootes. Modelle fĂŒr aktive Regressionsformen. In BMVC, Seiten 79.1â79.10, 2007.1
[6] M. Dantone, J. Gall, G. Fanelli und LV Gool. Erkennung von Gesichtsmerkmalen in Echtzeit mithilfe von bedingten RegressionswÀldern. In CVPR, 2012.1
[7] L. Ding und AM MartŽınez. PrĂ€zise detaillierte Erkennung von Gesichtern und GesichtszĂŒgen. In CVPR, 2008.1
[8] P. Dollar, P. Welinder und P. Perona. Kaskadierte Posenregression. In CVPR, Seiten 1078â1085, 2010. 1, 2, 6
[9] GJ Edwards, TF Cootes und CJ Taylor. Fortschritte bei aktiven Erscheinungsmodellen. In ICCV, Seiten 137â142, 1999. 1, 2
[10] T. Hastie, R. Tibshirani und JH Friedman. Die Elemente des statistischen Lernens: Data Mining, Inferenz und Vorhersage. New York: Springer-Verlag, 2001.2.3
[11] V. Kazemi und J. Sullivan. Gesichtsausrichtung mit teilbasierter Modellierung. In BMVC, Seiten 27.1â27.10, 2011.2
[12] V. Le, J. Brandt, Z. Lin, LD Bourdev und TS Huang. Interaktive Lokalisierung von Gesichtsmerkmalen. In [13] L. Liang, R. Xiao, F. Wen und J. Sun. Gesichtsausrichtung ĂŒber komponentenbasierte diskriminative Suche. In ECCV, Seiten 72â85, 2008. 1ECCV, Seiten 679â692, 2012.5
[14] S. Milborrow und F. Nicolls. Lokalisieren von Gesichtsmerkmalen mit einem erweiterten aktiven Formmodell. In ECCV, Seiten 504â513, 2008.5
[15] J. Saragih, S. Lucey und J. Cohn. Verformbare Modellanpassung durch regulierte Mittelwertverschiebungen. Internation Journal of Computer Vision, 91: 200â215, 2010.1
[16] BM Smith und L. Zhang. Ausrichtung der GelenkflĂ€che mit nichtparametrischen Formmodellen. In ECCV, Seiten 43â56, 2012.1
[17] PA Viola und MJ Jones. Robuste Gesichtserkennung in Echtzeit. In ICCV, Seite 747, 2001.5
[18] X. Zhao, X. Chai und S. Shan. Gelenkgesichtsausrichtung: Retten Sie schlechte Ausrichtungen durch gute durch regelmĂ€Ăige Neuanpassung. In ECCV, 2012.1
[19] X. Zhu und D. Ramanan. Gesichtserkennung, PosenschĂ€tzung und Lokalisierung von Orientierungspunkten in freier Wildbahn. In CVPR, Seiten 2879â2886, 2012.1