Die biometrische Identifizierung einer Person ist eine der Ă€ltesten Ideen zur Erkennung von Personen, die sie im Allgemeinen technisch umzusetzen versuchten. Passwörter können gestohlen, ausspioniert, vergessen, SchlĂŒssel gefĂ€lscht werden. Aber die einzigartigen Eigenschaften der Person selbst sind viel schwieriger zu fĂ€lschen und zu verlieren. Dies können FingerabdrĂŒcke, Stimme, Zeichnen der GefĂ€Ăe der Netzhaut, Gang und mehr sein.

NatĂŒrlich versuchen biometrische Systeme zu tĂ€uschen! DarĂŒber werden wir heute sprechen. Wie Angreifer versuchen, Gesichtserkennungssysteme zu umgehen, indem sie sich als eine andere Person ausgeben, und wie dies erkannt werden kann.
Sie können hier eine Videoversion dieser Geschichte ansehen, und diejenigen, die lieber lesen als ansehen, laden Sie ein, fortzufahren
Nach den Vorstellungen von Hollywood-Regisseuren und Science-Fiction-Autoren ist es recht einfach, die biometrische Identifizierung zu tĂ€uschen. Es ist nur notwendig, dem System die âerforderlichen Teileâ des realen Benutzers entweder einzeln oder als Geisel zu prĂ€sentieren. Oder Sie können die Maske einer anderen Person auf sich selbst setzen, z. B. mit einer physischen Transplantationsmaske oder im Allgemeinen mit falschen genetischen Zeichen
Im wirklichen Leben versuchen Angreifer auch, sich als jemand anderes vorzustellen. Rauben Sie beispielsweise eine Bank aus, indem Sie eine schwarze MĂ€nnermaske tragen, wie im Bild unten dargestellt.

Die Gesichtserkennung scheint ein vielversprechender Bereich fĂŒr den Einsatz im Mobilbereich zu sein. Wenn jeder schon lange daran gewöhnt ist, FingerabdrĂŒcke zu verwenden, und sich die Sprachtechnologie allmĂ€hlich und ziemlich vorhersehbar entwickelt, hat sich die Situation mit der Identifizierung anhand des Gesichts eher ungewöhnlich entwickelt und verdient einen kleinen Exkurs in die Geschichte des Problems.
Wie alles begann oder von der Fiktion zur RealitÀt
Die heutigen Erkennungssysteme weisen eine enorme Genauigkeit auf. Mit dem Aufkommen groĂer Datenmengen und komplexer Architekturen wurde es möglich, eine Gesichtserkennungsgenauigkeit von bis zu 0,000001 (ein Fehler pro Million!) Zu erreichen. Sie sind jetzt fĂŒr die Ăbertragung auf mobile Plattformen geeignet. Der Engpass war ihre Verwundbarkeit.
Um sich in unserer technischen RealitÀt und nicht im Film als eine andere Person auszugeben, werden am hÀufigsten Masken verwendet. Sie versuchen auch, das Computersystem zu tÀuschen, indem sie jemand anderem anstelle ihres Gesichts prÀsentieren. Masken können von völlig anderer QualitÀt sein, vom Foto einer anderen Person, die vor dem auf dem Drucker gedruckten Gesicht gedruckt wird, bis zu sehr komplexen dreidimensionalen Masken mit ErwÀrmung. Masken können separat in Form eines Blattes oder Bildschirms prÀsentiert oder am Kopf getragen werden.
Viel Aufmerksamkeit wurde auf das Thema gelenkt, als erfolgreich versucht wurde, das Face ID-System auf dem iPhone X mit einer ziemlich komplizierten Maske aus Steinpulver mit speziellen EinsÀtzen um die Augen zu tÀuschen, die die WÀrme eines lebenden Gesichts mithilfe von Infrarotstrahlung imitieren.

Es wird vermutet, dass mit einer solchen Maske die Gesichtserkennung auf dem iPhone X getÀuscht werden konnte. Video und Text finden Sie hier
Das Vorhandensein solcher SicherheitslĂŒcken ist fĂŒr Banken oder staatliche Systeme sehr gefĂ€hrlich, um einen Benutzer von Angesicht zu Angesicht zu authentifizieren, wenn das Eindringen eines Angreifers erhebliche Verluste mit sich bringt.
Terminologie
Das Forschungsgebiet des Gesichts-Anti-Spoofing ist recht neu und kann sich noch nicht einmal der vorherrschenden Terminologie rĂŒhmen.
Lassen Sie uns zustimmen, einen Versuch zu nennen, das Identifikationssystem zu tÀuschen, indem wir ihm einen gefÀlschten biometrischen Parameter (in diesem Fall eine Person) als Spoofing-Angriff prÀsentieren .
Dementsprechend wird eine Reihe von SchutzmaĂnahmen zur BekĂ€mpfung einer solchen TĂ€uschung als Anti-Spoofing bezeichnet . Es kann in Form einer Vielzahl von Technologien und Algorithmen implementiert werden, die in den Förderer eines Identifikationssystems eingebaut sind.
Die ISO bietet eine leicht erweiterte Terminologie mit Begriffen wie PrĂ€sentationsangriff - Versuche, das System dazu zu bringen, den Benutzer falsch zu identifizieren oder ihm zu ermöglichen, die Identifizierung durch Demonstration eines Bildes, eines aufgezeichneten Videos usw. zu vermeiden. Normal (Bona Fide) - entspricht dem ĂŒblichen Algorithmus des Systems, dh alles, was KEIN Angriff ist. PrĂ€sentationsangriffsinstrument bedeutet ein Angriffsmittel, zum Beispiel einen kĂŒnstlich hergestellten Körperteil. Und schlieĂlich die Erkennung von PrĂ€sentationsangriffen - automatisierte Mittel zur Erkennung solcher Angriffe. Die Standards selbst befinden sich jedoch noch in der Entwicklung, sodass es unmöglich ist, ĂŒber etablierte Konzepte zu sprechen. Die russische Terminologie fehlt fast vollstĂ€ndig.
Um die QualitĂ€t der Arbeit zu bestimmen, verwenden Systeme hĂ€ufig die HTER- Metrik (Half-Total Error Rate - die HĂ€lfte des Gesamtfehlers), die als Summe der Koeffizienten von fĂ€lschlicherweise zulĂ€ssigen Identifikationen (FAR - False Acceptance Rate) und irrtĂŒmlich verbotenen Identifikationen (FRR - False Rejection Rate) berechnet wird in zwei HĂ€lften.
HTER = (FAR + FRR) / 2
Es ist erwĂ€hnenswert, dass in biometrischen Systemen FAR normalerweise die gröĂte Aufmerksamkeit geschenkt wird, um alles zu tun, um zu verhindern, dass ein Angreifer in das System eindringt. Und sie machen hier gute Fortschritte (erinnern Sie sich an das Millionstel vom Anfang des Artikels?). Die Kehrseite ist die unvermeidliche Zunahme der FRR - die Anzahl der normalen Benutzer, die fĂ€lschlicherweise als Eindringlinge eingestuft werden. Wenn dies fĂŒr Staat, Verteidigung und andere Ă€hnliche Systeme geopfert werden kann, reagieren mobile Technologien, die mit ihrer enormen GröĂe, einer Vielzahl von TeilnehmergerĂ€ten und im Allgemeinen auf Benutzerperspektiven ausgerichteten GerĂ€ten arbeiten, sehr empfindlich auf Faktoren, die dazu fĂŒhren können, dass Benutzer Dienste ablehnen. Wenn Sie die Anzahl der nach der zehnten Verweigerung der Identifizierung in Folge gegen die Wand geschlagenen Telefone verringern möchten, sollten Sie auf FRR achten!
Arten von Angriffen. Cheat-System

Lassen Sie uns endlich genau herausfinden, wie die Angreifer das Erkennungssystem betrĂŒgen und wie dies bekĂ€mpft werden kann.
Die beliebtesten Mittel zum BetrĂŒgen sind Masken. Es gibt nichts Offensichtlicheres, als die Maske einer anderen Person aufzusetzen und Ihr Gesicht einem Identifikationssystem zu prĂ€sentieren (oft als Maskenangriff bezeichnet).

Sie können auch ein Foto von sich selbst oder einer anderen Person auf ein Blatt Papier drucken und zur Kamera bringen (nennen wir diese Art von Angriff Gedruckte Attacke).

Etwas komplizierter ist der Wiederholungsangriff, wenn dem System der Bildschirm eines anderen GerĂ€ts angezeigt wird, auf dem ein zuvor aufgenommenes Video mit einer anderen Person abgespielt wird. Die KomplexitĂ€t der AusfĂŒhrung wird durch die hohe Effizienz eines solchen Angriffs kompensiert, da Steuerungssysteme hĂ€ufig Zeichen verwenden, die auf der Analyse von Zeitsequenzen basieren, z. B. Verfolgen von Blinzeln, Mikrobewegungen des Kopfes, Vorhandensein von GesichtsausdrĂŒcken, Atmung usw. All dies kann leicht auf Video reproduziert werden.

Beide Arten von Angriffen weisen eine Reihe charakteristischer Merkmale auf, die es ermöglichen, sie zu erkennen und so einen Tablet-Bildschirm oder ein Blatt Papier von einer realen Person zu unterscheiden.
Wir fassen die charakteristischen Merkmale, mit denen wir diese beiden Arten von Angriffen identifizieren können, in einer Tabelle zusammen:
Angriffserkennungsalgorithmen. Guter alter Klassiker

Einer der Ă€ltesten AnsĂ€tze (2007, 2008) basiert auf der Erkennung menschlicher Blinzel durch Analyse des Bildes mit einer Maske. Der Punkt ist, eine Art binĂ€ren Klassifikator zu erstellen, mit dem Sie Bilder mit offenen und geschlossenen Augen in einer Folge von Frames auswĂ€hlen können. Dies kann eine Analyse des Videostreams unter Verwendung der Identifizierung von Gesichtsteilen (Landmark Detection) oder die Verwendung eines einfachen neuronalen Netzwerks sein. Und heute wird diese Methode am hĂ€ufigsten angewendet; Der Benutzer wird aufgefordert, eine Reihe von Aktionen auszufĂŒhren: Kopf drehen, zwinkern, lĂ€cheln und mehr. Wenn die Sequenz zufĂ€llig ist, ist es fĂŒr einen Angreifer nicht einfach, sich im Voraus darauf vorzubereiten. Leider ist diese Suche fĂŒr einen ehrlichen Benutzer auch nicht immer ĂŒberwindbar, und das Engagement nimmt stark ab.

Sie können auch die Merkmale einer Verschlechterung der BildqualitĂ€t beim Drucken oder Abspielen auf dem Bildschirm verwenden. Höchstwahrscheinlich werden sogar einige lokale Muster, die fĂŒr das Auge schwer zu erkennen sind, im Bild erkannt. Dies kann beispielsweise durch ZĂ€hlen lokaler BinĂ€rmuster (LBP, lokales BinĂ€rmuster) fĂŒr verschiedene Bereiche des Gesichts nach Auswahl aus dem Rahmen ( PDF ) erfolgen. Das beschriebene System kann als BegrĂŒnder der auf Bildanalyse basierenden Anti-Spoofing-Algorithmen fĂŒr die gesamte Richtung des Gesichts angesehen werden. Kurz gesagt, bei der Berechnung des LBP werden fĂŒr jedes Pixel im Bild acht seiner Nachbarn nacheinander aufgenommen und ihre IntensitĂ€t verglichen. Wenn die IntensitĂ€t gröĂer als auf dem zentralen Pixel ist, wird eins, wenn weniger, Null zugewiesen. Somit wird fĂŒr jedes Pixel eine 8-Bit-Sequenz erhalten. Basierend auf den erhaltenen Sequenzen wird ein Histogramm pro Pixel erstellt, das dem Eingang des SVM-Klassifikators zugefĂŒhrt wird.

Lokale binĂ€re Muster, Histogramm und SVM. Hier können Sie sich den zeitlosen Klassikern anschlieĂen
Der HTER-Effizienzindikator betrĂ€gt âbis zuâ 15% und bedeutet, dass ein erheblicher Teil der Angreifer den Schutz ohne groĂen Aufwand ĂŒberwindet, obwohl anerkannt werden sollte, dass viel beseitigt wird. Der Algorithmus wurde am IDIAP Replay-Attack- Datensatz getestet, der aus 1200 kurzen Videos von 50 Befragten und drei Arten von Angriffen besteht - gedruckte Angriffe, mobile Angriffe, hochauflösende Angriffe.
Ideen zur Analyse der Bildtextur wurden fortgesetzt. Im Jahr 2015 entwickelte Bukinafit einen Algorithmus zum alternativen Aufteilen des Bildes in KanĂ€le zusĂ€tzlich zu herkömmlichem RGB, fĂŒr dessen Ergebnisse erneut lokale BinĂ€rmuster berechnet wurden, die wie bei der vorherigen Methode dem Eingang des SVN-Klassifikators zugefĂŒhrt wurden. Die HTER-Genauigkeit, berechnet anhand der CASIA- und Replay-Attack-DatensĂ€tze, war zu diesem Zeitpunkt beeindruckend 3%.

Gleichzeitig wurde an der Entdeckung von MoirĂ© gearbeitet. Patel veröffentlichte einen Artikel, in dem er vorschlug, nach Bildartefakten in Form eines periodischen Musters zu suchen, das durch die Ăberlappung zweier Scans verursacht wird. Der Ansatz erwies sich als praktikabel und zeigte, dass HTER in den IDIAP-, CASIA- und RAFS-DatensĂ€tzen etwa 6% betrĂ€gt. Es war auch der erste Versuch, die Leistung eines Algorithmus fĂŒr verschiedene DatensĂ€tze zu vergleichen.

Periodisches Muster im Bild, das durch Overlay-Sweeps verursacht wird
Um Versuche zu erkennen, Fotos zu prĂ€sentieren, bestand die logische Lösung darin, nicht ein Bild, sondern deren Sequenz aus dem Videostream zu analysieren. Zum Beispiel schlugen Anjos und Kollegen vor, Merkmale aus dem optischen Strom in benachbarten Rahmenpaaren zu isolieren, den binĂ€ren Klassifikator der Eingabe zuzufĂŒhren und die Ergebnisse zu mitteln. Der Ansatz erwies sich als recht effektiv und zeigte einen HTER von 1,52% fĂŒr den eigenen Datensatz.

Eine interessante Methode zur Verfolgung von Bewegungen, die sich von herkömmlichen AnsĂ€tzen etwas unterscheidet. Da 2013 das Prinzip âAnwenden eines Rohbildes auf die Eingabe des Faltungsnetzwerks und Anpassen der Gitterschichten, um das Ergebnis zu erhaltenâ fĂŒr moderne Projekte im Bereich des tiefen Lernens nicht ĂŒblich war, wandte Bharadzha konsequent komplexere vorlĂ€ufige Transformationen an. Insbesondere verwendete er den Eulerschen VideovergröĂerungsalgorithmus , der fĂŒr die Arbeit von Wissenschaftlern des MIT bekannt ist und der erfolgreich zur Analyse von FarbverĂ€nderungen in der Haut in AbhĂ€ngigkeit vom Puls eingesetzt wurde. Ich habe LBP durch HOOF (Histogramme der optischen Flussrichtungen) ersetzt, nachdem ich richtig festgestellt habe, dass wir, da wir Bewegungen verfolgen möchten, die entsprechenden Zeichen und nicht nur die Texturanalyse benötigen. Trotzdem wurde die damals traditionelle SVM als Klassifikator verwendet. Der Algorithmus zeigte Ă€uĂerst beeindruckende Ergebnisse bei Print Attack- (0%) und Replay Attack- (1,25%) DatensĂ€tzen.

Lass uns schon das Gitter lernen!

Irgendwann wurde klar, dass der Ăbergang zum tiefen Lernen gereift war. Die berĂŒchtigte âDeep Learning Revolutionâ ĂŒberholte das Anti-Spoofing.
Die âerste Schwalbeâ kann als Methode zur Analyse von Tiefenkarten in einzelnen Abschnitten (âPatchesâ) des Bildes angesehen werden. Offensichtlich ist eine Tiefenkarte ein sehr gutes Zeichen fĂŒr die Bestimmung der Ebene, in der sich das Bild befindet. Schon allein deshalb, weil das Bild auf dem Blatt Papier per Definition keine âTiefeâ hat. In Ataums Arbeit im Jahr 2017 wurden viele separate kleine Abschnitte aus dem Bild extrahiert, fĂŒr die Tiefenkarten berechnet wurden, die dann mit der Tiefenkarte des Hauptbildes zusammengefĂŒhrt wurden. Es wurde darauf hingewiesen, dass zehn zufĂ€llige Gesichtsbild-Patches ausreichen, um Printed Attack zuverlĂ€ssig zu identifizieren. DarĂŒber hinaus haben die Autoren die Ergebnisse zweier Faltungsnetzwerke zusammengestellt, von denen das erste Tiefenkarten fĂŒr Patches und das zweite fĂŒr das gesamte Bild berechnet hat. Beim Training von DatensĂ€tzen wurde die Printed Attack-Klasse einer Tiefenkarte von Null und einem dreidimensionalen Modell des Gesichts sowie einer Reihe zufĂ€llig ausgewĂ€hlter Abschnitte zugeordnet. Im GroĂen und Ganzen war die Tiefenkarte selbst nicht so wichtig, es wurde nur eine bestimmte Indikatorfunktion verwendet, die die âTiefe des Abschnittsâ kennzeichnet. Der Algorithmus zeigte einen HTER-Wert von 3,78%. FĂŒr das Training wurden drei öffentliche DatensĂ€tze verwendet - CASIA-MFSD, MSU-USSA und Replay-Attack.

Leider hat die VerfĂŒgbarkeit einer groĂen Anzahl exzellenter Frameworks fĂŒr Deep Learning zur Entstehung einer groĂen Anzahl von Entwicklern gefĂŒhrt, die "frontal" versuchen, das Problem des Antispoofing von Gesichtern auf eine bekannte Art und Weise beim Aufbau neuronaler Netze zu lösen. Normalerweise sieht es aus wie ein Stapel von Feature-Maps an den AusgĂ€ngen mehrerer Netzwerke, die auf einem weit verbreiteten Datensatz vorab trainiert wurden, der einem binĂ€ren Klassifikator zugefĂŒhrt wird.

Generell ist der Schluss zu ziehen, dass bis heute einige Werke veröffentlicht wurden, die im Allgemeinen gute Ergebnisse zeigen und nur ein kleines âAberâ vereinen. Alle diese Ergebnisse werden in einem bestimmten Datensatz demonstriert! Die Situation wird durch die begrenzte VerfĂŒgbarkeit von DatensĂ€tzen verschĂ€rft, und zum Beispiel beim berĂŒchtigten Replay-Attack ist es fĂŒr HTER 0% keine Ăberraschung. All dies fĂŒhrt zur Entstehung sehr komplexer Architekturen wie dieser , die verschiedene ausgeklĂŒgelte Merkmale, auf dem Stapel zusammengestellte Hilfsalgorithmen mit mehreren Klassifizierern, deren Ergebnisse gemittelt werden, usw. verwenden. Die Autoren erhalten HTER = 0,04% am Ausgang!

Dies deutet darauf hin, dass das Anti-Spoofing-Problem im Gesicht innerhalb eines bestimmten Datensatzes gelöst wurde. Lassen Sie uns verschiedene moderne Methoden auf den Tisch bringen, die auf neuronalen Netzen basieren. Es ist leicht zu erkennen, dass die "Referenzergebnisse" mit sehr unterschiedlichen Methoden erzielt wurden, die nur in den fragenden Köpfen der Entwickler entstanden sind.

Vergleichsergebnisse verschiedener Algorithmen. Der Tisch ist von hier genommen .
Leider verletzt der gleiche âkleineâ Faktor das gute Bild des Kampfes um Zehntel Prozent. Wenn Sie versuchen, das neuronale Netzwerk auf einen Datensatz zu trainieren und auf einen anderen anzuwenden, sind die Ergebnisse ... nicht so optimistisch. Schlimmer noch, Versuche, Klassifikatoren im wirklichen Leben anzuwenden, lassen ĂŒberhaupt keine Hoffnung.
Als Beispiel nehmen wir die Daten aus dem Jahr 2015, bei denen eine Metrik ihrer QualitĂ€t verwendet wurde, um die AuthentizitĂ€t des dargestellten Bildes zu bestimmen. Ăberzeugen Sie sich selbst:

Mit anderen Worten, ein Algorithmus, der auf Idiap-Daten trainiert, aber auf MSU angewendet wird, ergibt eine wirklich positive Erkennungsrate von 90,5%. Wenn Sie das Gegenteil tun (auf MSU trainieren und auf Idiap testen), können nur 47,2 korrekt bestimmt werden % (!) Bei anderen Kombinationen verschlechtert sich die Situation noch mehr. Wenn Sie beispielsweise den Algorithmus auf MSU trainieren und auf CASIA ĂŒberprĂŒfen, betrĂ€gt der TPR 10,8%! Dies bedeutet, dass den Angreifern fĂ€lschlicherweise eine groĂe Anzahl ehrlicher Benutzer zugewiesen wurde, was nur bedrĂŒckend sein kann. Selbst datenbankĂŒbergreifendes Training konnte die Situation nicht umkehren, was ein durchaus vernĂŒnftiger Ausweg zu sein scheint.
Mal sehen mehr. Die im Artikel von Patel 2016 vorgestellten Ergebnisse zeigen, dass selbst bei ausreichend komplexen Verarbeitungspipelines und der Auswahl zuverlÀssiger Merkmale wie Blinken und Textur die Ergebnisse unbekannter DatensÀtze nicht als zufriedenstellend angesehen werden können. Irgendwann wurde klar, dass die vorgeschlagenen Methoden nicht ausreichten, um die Ergebnisse zusammenzufassen.

Und wenn Sie einen Wettbewerb arrangieren ...
NatĂŒrlich war Anti-Spoofing auf dem Gebiet des Gesichts nicht ohne Konkurrenz. Im Jahr 2017 fand an der UniversitĂ€t von Oulu in Finnland ein Wettbewerb zu einem eigenen neuen Datensatz mit interessanten Protokollen statt, der speziell auf den Einsatz im Bereich mobiler Anwendungen ausgerichtet war.
- Protokoll 1: Es gibt einen Unterschied in Beleuchtung und Hintergrund. DatensÀtze werden an verschiedenen Orten aufgezeichnet und unterscheiden sich in Hintergrund und Beleuchtung.
-Protokoll 2: Verschiedene Modelle von Druckern und Bildschirmen wurden fĂŒr Angriffe verwendet. Daher wird im Verifizierungsdatensatz eine Technik verwendet, die im Trainingssatz nicht enthalten ist
Protokoll 3: Austauschbarkeit von Sensoren. Echte Benutzervideos und Angriffe werden auf fĂŒnf verschiedenen Smartphones aufgezeichnet und in einem Trainingsdatensatz verwendet. , .
- 4: .
. , , , - . , , 10%. :
GRADIENT
- ( HSV YCbCr), .
- .
- HSV YCbCr, . ROI (region-of-interest) 160Ă160 ..
- ROI 3Ă3 5Ă5 , LBP , 6018.
- (Recursive Feature Elimination) 6018 1000.
- SVM .|
SZCVI
Recod
- SqueezeNet Imagenet
- Transfer learning : CASIA UVAD
- 224Ă224 pixels. , , , CNN.
- .
CPqD
- Inception-v3, ImageNet
- C
- , , 224Ă224 RGB |
, . LBP, , , .. GRADIANT , , , . .
. , . -, ( 15 NUAA 1140 MSU-USSA) , , , , . , , , , . -, . , CASIA , . , , , , ⊠, , , .

30 . , , . , .
, , « ». . , (rPPG â remote photoplethysmography), . , , -, â . . , , , . , , . , , , .


Die Arbeit zeigte einen HTER-Wert von etwa 10%, was die grundsÀtzliche Anwendbarkeit der Methode bestÀtigt. Es gibt mehrere Arbeiten, die die Aussichten dieses Ansatzes bestÀtigen.
(CVPR 2018) JH-Ortega et al. Zeitanalyse von pulsbasiertem Gesichts-Anti-Spoofing in Visible und NIR
(2016) X. Li. et al. Allgemeines Gesichts-Anti-Spoofing durch Erkennen von Impulsen aus Gesichtsvideos
(2016) J. Chen et al. Realsense = echte Herzfrequenz: Beleuchtungsinvariante HerzfrequenzschÀtzung aus Videos
(2014) HE Tasli et al. Remote PPG-basierte Vitalzeichenmessung mit adaptiven Gesichtsregionen
Im Jahr 2018 schlugen Liu und Kollegen von der University of Michigan vor , die binĂ€re Klassifikation zugunsten des von ihnen als âbinĂ€re Ăberwachungâ bezeichneten Ansatzes aufzugeben , dh eine komplexere SchĂ€tzung auf der Grundlage von Tiefenkarten und Entfernungsphotoplethysmographie zu verwenden. FĂŒr jedes dieser Gesichtsbilder wurde ein dreidimensionales Modell unter Verwendung eines neuronalen Netzwerks rekonstruiert und mit einer Tiefenkarte benannt. GefĂ€lschten Bildern wurde eine Tiefenkarte zugewiesen, die aus Nullen besteht. Am Ende ist es nur ein StĂŒck Papier oder ein GerĂ€tebildschirm! Diese Eigenschaften wurden als âWahrheitâ angesehen, neuronale Netze wurden auf ihrem eigenen SiW-Datensatz trainiert. Dann wurde dem Eingabebild eine dreidimensionale Gesichtsmaske ĂŒberlagert, eine Tiefenkarte und ein Impuls wurden dafĂŒr berechnet, und all dies wurde in einem ziemlich komplizierten Förderer zusammengebunden. Infolgedessen zeigte die Methode eine Genauigkeit von etwa 10 Prozent im OULU-Wettbewerbsdatensatz. Interessanterweise baute der Gewinner des von der UniversitĂ€t von Oulu organisierten Wettbewerbs den Algorithmus auf binĂ€ren Klassifizierungsmustern, blinkendem Tracking und anderen von Hand entworfenen Zeichen auf, und seine Lösung hatte auch eine Genauigkeit von etwa 10%. Der Gewinn betrug nur etwa ein halbes Prozent! Die neue kombinierte Technologie wird durch die Tatsache unterstĂŒtzt, dass der Algorithmus auf seinem eigenen Datensatz trainiert und auf OULU getestet wurde, um das Ergebnis des Gewinners zu verbessern. Dies weist auf eine gewisse PortabilitĂ€t der Ergebnisse vom Datensatz zum Datensatz hin, und was zum Teufel nicht scherzt, ist fĂŒr das wirkliche Leben möglich. Beim Versuch, ein Training fĂŒr andere DatensĂ€tze durchzufĂŒhren - CASIA und ReplayAttack - lag das Ergebnis jedoch erneut bei etwa 28%. Dies ĂŒbertrifft natĂŒrlich die Leistung anderer Algorithmen beim Training mit verschiedenen DatensĂ€tzen, aber bei solchen Genauigkeitswerten kann von keiner industriellen Verwendung gesprochen werden!

Ein anderer Ansatz wurde von Wang und Kollegen in einer kĂŒrzlich erschienenen Arbeit von 2019 vorgeschlagen. Es wurde festgestellt, dass bei der Analyse der Mikrobewegung im Gesicht Rotationen und Verschiebungen des Kopfes erkennbar sind, was zu einer charakteristischen Ănderung der Winkel und relativen AbstĂ€nde zwischen den Zeichen im Gesicht fĂŒhrt. Wenn das Gesicht horizontal verschoben wird, vergröĂert sich der Winkel zwischen Nase und Ohr. Wenn Sie jedoch ein Blatt Papier mit einem Bild auf die gleiche Weise verschieben, verringert sich der Winkel! Zur Veranschaulichung lohnt es sich, eine Zeichnung aus der Arbeit zu zitieren.

Nach diesem Prinzip bauten die Autoren eine ganze Lerneinheit zum Ăbertragen von Daten zwischen Schichten eines neuronalen Netzwerks auf. Dabei wurden âfalsche Offsetsâ fĂŒr jeden Frame in einer Folge von zwei Frames berĂŒcksichtigt, sodass die Ergebnisse im nĂ€chsten Block der LangzeitabhĂ€ngigkeitsanalyse auf der Grundlage der GRU Gated Recurrent Unit verwendet werden konnten . Dann wurden alle Zeichen verkettet, die Verlustfunktion berechnet und die endgĂŒltige Klassifizierung durchgefĂŒhrt. Dies ermöglichte es uns, das Ergebnis des OULU-Datensatzes leicht zu verbessern, aber das Problem der AbhĂ€ngigkeit von den Trainingsdaten blieb bestehen, da die Indikatoren fĂŒr das CASIA-MFSD- und das Replay-Attack-Paar 17,5 bzw. 24 Prozent betrugen.
Gegen Ende ist die Arbeit von Tencent-Experten erwĂ€hnenswert, die vorgeschlagen haben, die Art und Weise zu Ă€ndern, in der das Quellvideobild empfangen wird. Anstatt die Szene passiv zu beobachten, schlugen sie vor, das Gesicht dynamisch zu beleuchten und Reflexionen zu lesen. Das Prinzip der aktiven Bestrahlung eines Objekts wird seit langem in Ortungssystemen verschiedener Art angewendet, daher erscheint seine Verwendung zur Untersuchung des Gesichts sehr logisch. Offensichtlich gibt es fĂŒr eine zuverlĂ€ssige Identifizierung im Bild selbst nicht genĂŒgend Zeichen, und das Beleuchten des Telefon- oder Tablet-Bildschirms mit einer Folge von Lichtsymbolen (Licht CAPTCHA gemÀà der Terminologie der Autoren) kann sehr hilfreich sein. Als nĂ€chstes wird der Unterschied in Streuung und Reflexion ĂŒber ein Rahmenpaar bestimmt, und die Ergebnisse werden einem neuronalen Multitask-Netzwerk zur weiteren Verarbeitung auf der Tiefenkarte und zur Berechnung verschiedener Verlustfunktionen zugefĂŒhrt. Am Ende wird eine Regression der normalisierten Lichtrahmen durchgefĂŒhrt. Die Autoren analysierten nicht die GeneralisierungsfĂ€higkeit ihres Algorithmus fĂŒr andere DatensĂ€tze und trainierten ihn fĂŒr ihren eigenen privaten Datensatz. Das Ergebnis liegt bei etwa 1% und es wird berichtet, dass das Modell bereits fĂŒr den tatsĂ€chlichen Gebrauch bereitgestellt wurde.

Bis 2017 war der Gesichts-Anti-Spoofing-Bereich nicht sehr aktiv. Aber 2019 hat bereits eine ganze Reihe von Arbeiten vorgestellt, die mit der aggressiven Förderung mobiler Gesichtsidentifikationstechnologien, vor allem von Apple, verbunden sind. DarĂŒber hinaus interessieren sich Banken fĂŒr Gesichtserkennungstechnologien. Viele neue Leute sind in die Branche gekommen, was uns erlaubt, auf schnelle Fortschritte zu hoffen. Trotz der schönen Titel von Veröffentlichungen bleibt die VerallgemeinerungsfĂ€higkeit der Algorithmen bislang sehr schwach und erlaubt es uns nicht, ĂŒber eine Eignung fĂŒr den praktischen Gebrauch zu sprechen.
Fazit Und zum Schluss sage ich das ...
- Lokale binĂ€re Muster, Verfolgung von Blinken, Atmung, Bewegungen und andere manuell gestaltete Zeichen haben ihre Bedeutung ĂŒberhaupt nicht verloren. Dies liegt vor allem daran, dass tiefes Training im Bereich Gesichts-Anti-Spoofing noch sehr naiv ist.
- Es ist klar, dass in der âgleichenâ Lösung mehrere Methoden zusammengefĂŒhrt werden. Die Analyse von Reflexions-, Streu- und Tiefenkarten sollte zusammen verwendet werden. Höchstwahrscheinlich hilft das HinzufĂŒgen eines zusĂ€tzlichen Datenkanals beispielsweise bei der Sprachaufzeichnung und bei einigen SystemansĂ€tzen, mit denen Sie mehrere Technologien in einem einzigen System sammeln können
- Fast alle fĂŒr die Gesichtserkennung verwendeten Technologien finden Anwendung beim Gesichts-Anti-Spoofing (Cap!). Alles, was in der einen oder anderen Form fĂŒr die Gesichtserkennung entwickelt wurde, hat Anwendung fĂŒr die Angriffsanalyse gefunden
- Bestehende DatensĂ€tze haben die SĂ€ttigung erreicht. Von zehn BasisdatensĂ€tzen in fĂŒnf wurde ein Fehler von Null erreicht. Dies spricht zum Beispiel bereits fĂŒr die Effizienz von Methoden, die auf Tiefenkarten basieren, erlaubt jedoch keine Verbesserung der GeneralisierungsfĂ€higkeit. Wir brauchen neue Daten und neue Experimente dazu
- Es besteht ein deutliches Ungleichgewicht zwischen dem Grad der Entwicklung der Gesichtserkennung und dem Antispoofing des Gesichts. Erkennungstechnologien sind Schutzsystemen deutlich voraus. DarĂŒber hinaus ist es das Fehlen zuverlĂ€ssiger Schutzsysteme, das den praktischen Einsatz von Gesichtserkennungssystemen behindert. Es kam vor, dass das Hauptaugenmerk speziell auf die Gesichtserkennung gelegt wurde und die Angriffserkennungssysteme etwas zurĂŒckhaltend blieben
- Es besteht ein starker Bedarf an einem systematischen Ansatz im Bereich des Gesichts-Anti-Spoofing. Der vergangene Wettbewerb der UniversitÀt von Oulu hat gezeigt, dass es bei Verwendung eines nicht reprÀsentativen Datensatzes durchaus möglich ist, die etablierten Lösungen mit einer einfachen kompetenten Anpassung zu besiegen, ohne neue zu entwickeln. Vielleicht kann ein neuer Wettbewerb das Blatt wenden
- Mit zunehmendem Interesse an dem Thema und der EinfĂŒhrung von Gesichtserkennungstechnologien durch groĂe Akteure ergaben sich fĂŒr neue ehrgeizige Teams âZeitfensterâ, da auf architektonischer Ebene ein ernsthafter Bedarf an einer neuen Lösung besteht