MARKmobilAktuell (Videoauschnitt über KI und Deepfakes in Deutschland)
Deepfakes stellen eine ernstzunehmende Herausforderung dar, die sowohl technologische als auch gesellschaftliche Fragen aufwirft. Deshalb entwickeln Forschende am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin Methoden, mit denen Deepfakes verlässlich erkannt werden, um Menschen mit den nötigen Warnungen und Richtigstellungen erreichen zu können. „News-Polygraph“ heißt das ambitionierte Projekt, das im Katz-und-Maus-Spiel zwischen den Erzeugnissen von generativen Modellen und Erkennungstechnologien den entscheidenden Vorteil bringen soll.
Der Begriff DeepFake ist eine Wortkombination aus „Deep“, was auf Deep Learning, einer KI-Technik mit zugrunde liegenden künstlichen neuronalen Netzen hinweist und „Fake“ für Fälschung. Als DeepFakes bezeichnet man grundsätzlich mit Methoden der Künstlichen Intelligenz manipulierte Medieninhalte wie Audio, Photo, Video in einer Qualität, die nicht ohne Weiteres oder gar nicht als Fake, also als Fälschung zu erkennen sind.
Die wohl bekannteste Variante von DeepFakes ist das sogenannte Face-Swap. Das meint den Austausch des Gesichts einer Quellperson mit dem Gesicht einer Zielperson in einem Bild oder einem Video. Damit (und in Kombination mit Audio-Ansätzen) können Aussagen und Handlungen vorgetäuscht werden, die die betreffenden Personen nie gesagt oder ausgeführt haben.
Wie werden solche DeepFakes gestaltet und programmiert?
KI-Systeme zur Erzeugung von Face-Swaps perfektionieren durch den Einsatz von DeepLearning-Methoden mit künstlichen neuronalen Netzen den Fake inkrementell. Dabei liest und lernt ein sogenannter Encoder das Gesicht einer Person, indem er Bildmaterial anhand diverser biometrischer Parameter analysiert und in Merkmalsvektoren zerlegt. Diese werden dann schichtweise zu einem Modell zusammengefügt. Durch das permanente Abgleichen des vom Encoder erzeugten Modells des Gesichts mit dem Original optimiert das KI-System nach und nach das Ergebnis. Hierbei werden oft sogenannte GAN-Ansätze (Generative Adversarial Networks) eingesetzt, bei der zwei neuronale Netze sozusagen im Wettstreit das Ergebnis nach und nach optimieren. Die Trainings umfassen bei wirklich guten Fälschungen dabei 50.000 Iterationen und mehr. Der Decoder erzeugt nun das gefälschte Bild bzw. Video, indem er das Modell des Gesichts in das Zielformat einsetzt.
Im Bereich Audio sind KI-Technologien wie „Text-to-Speech“ (TTS), ein Teilbereich von „Natural Language Processing“ (NLP), schon sehr weit, Stimmen immer realistischer nachzuahmen, sodass synthetischen Stimmen menschlichen immer ähnlicher werden. Schon jetzt gibt es verschiedene verfügbare KI-Anwendungen („Voice Mimicry“, „Lyrebird“, „Voice Cloning“…), die zum Beispiel Stimmen existierender Personen täuschend echt imitieren und die jeder zu Hause ausprobieren kann.
Wie kann man DeepFakes erkennen?
Im technisch forensischen Bereich gilt grundsätzlich: Je höher aufgelöst ein gefaktes Bild oder Video ist, desto eher kann der Mensch die Fälschung anhand minimaler Artefakte und kleinster Fehler ohne Unterstützung eines Computers quasi mit eigenen Augen und Ohren erkennen. Im Bereich Social Media allerdings, in dem DeepFakes hauptsächlich verbreitet werden, handelt es sich in der Regel um Videos und Bilder mit relativ schlechter Qualität. Wenn überhaupt sind diese eher niedrigaufgelösten Medieninhalte wiederum nur durch den Einsatz von speziellen KI-Systemen als Fälschung zu entlarven, die genau darauf trainiert sind. Systeme wie etwa „Reality Defender“ (AI Foundation) oder „FaceForensics“ (TU München) sind starke Assistenzsysteme für Medienforensiker, die dann zusätzlich weitere Parameter und Metadaten wie räumliche Umgebung, Stimme, Zeitpunkt und Ort der Veröffentlichung etc. in ihre Prüfung mit einbeziehen. Ergebnisse solcher Detektionsverfahren könnten allerdings in nächsten Stufen wiederum mit in die Generation der Fakes einbezogen werden, sodass sich das Feld bereits jetzt in einem „Rüstungswettlauf“ befindet.
Unabhängig davon sollten Medien nicht passiv und leichtgläubig konsumiert werden, sondern jeder sollte Inhalte mitlaufend auf ihre kulturell-faktische Plausibilität prüfen.
Quelle: Dfki Deutsches Forschungszentrum für Künstliche Intelligenz ai German Research Center for Artificial Intelligence