Fakultät Medien

Kreativität, kritisches Denken und gesellschaftliche Verantwortung - das ist die Fakultät Medien!
 

Wenn das Gehör sich täuscht

|

Prof. Dr. Andreas Schaad und Studierende haben in einem Projekt aufgezeigt, wie leicht sich „echte“ Stimmen künstlich erzeugen lassen.

Studierende vor Bildschirm
© Hochschule Offenburg

Dass Bilder oder Videos manipuliert werden können, davon haben die meisten wohl schon einmal gehört. Die Bandbreite dabei reicht von wegretuschierten Fettpölsterchen oder Falten über reinmontierte Menschen oder Motive bis hin zum Austausch von Gesichtern und Mimik bei Personen. Doch was noch nicht so bekannt ist: Mittlerweile lassen sich auch „echte“ Stimmen künstlich erzeugen. Erst Mitte Mai machte ein Werbespot Schlagzeilen in dem ein Angela-Merkel-Double in nahezu perfekter Bundeskanzlerinnen-Tonlage Sätze sagte, die die Regierungschefin so wohl kaum in der Öffentlichkeit sagen würde.

Grundlage dafür ist ein enormer Fortschritt in der Text-zu-Sprache-Synthese. Dieser ermöglicht einerseits die Entwicklung neuer oder die Verbesserung bestehender Produkte wie Sprachassistenten, Navigationssysteme oder Zugangssysteme für sehbehinderte Menschen. Andererseits lässt sich die Stimme einer Person so auch künstlich erzeugen, sofern genügend Sprachmaterial dieser Person vorhanden ist, um ein neuronales Netz zu trainieren. Dies kann dazu führen, dass Kriminelle synthetische Stimmen verwenden, um zu betrügen oder politisch aktiv zu werden. In letzterem Fall könnten diese sogenannten Deepfakes – Medieninhalte, die durch den Einsatz von Künstlicher Intelligenz gezielt und völlig automatisiert manipuliert wurden – Wahlausgänge beeinflussen oder gar Kriege auslösen.

„Die Daten, die es braucht um die KI entsprechend auf die Stimme zu trainieren, lassen sich überall, wo Menschen digital kommunizieren, extrahieren“, erklärt Prof. Dr. Andreas Schaad. Im Master-Studiengang Enterprise and IT Security hat er gemeinsam mit den Studierenden Vanessa Barnekow, Dominik Binder, Niclas Kromrey, Pascal Munaretto und Felix Schmieder daher in einem Projekt einmal ausprobiert, wie viel oder besser wie wenig eine computer- oder informatik-versierte Person braucht, um mit einem vertretbaren Aufwand, mit begrenzten Rechenressourcen und ohne Vorwissen auf dem Gebiet der Sprachsynthese einen Audio-Klon zu erzeugen. Das Prepint zu diesem Projekt gibt es unter folgendem Link https://arxiv.org/abs/2108.01469. Als Testperson stellte sich dabei der Professor selbst zur Verfügung. „Schon weniger als drei Stunden qualitativ hochwertigen Audio-Materials aus meinen Online-Vorlesungen reichten aus, um die KI zu trainieren“, staunte Andreas Schaad selbst, wie ausgereift die Technik inzwischen ist. In einer anschließenden Studie mit 102 Probanden konnten nur knapp 40 Prozent seine echte von der gefakten Stimme unterscheiden.

Das Projektteam besorgte sich zunächst Audioclips mit einer Länge von mindestens einer halben und höchsten 30 bis 40 Sekunden. Diese wandelte es in geschriebene Texte um beziehungsweise nutzte die an die Audioclips bereits angehängten Transkriptionen. Aus diesen entfernten die Beteiligten unerwünschte Zeichen, wandelten alle anderen in Kleinbuchstaben um, schrieben alle Zahlen aus, ersetzten alle Abkürzungen durch das vollständige Wort und fügten wo nötig die phonemische Orthographie ein, bei der ein geschriebenes Symbol dem tatsächlich gesprochenen Laut entspricht. Außerdem fügten sie teilweise Sätze ein, die so nie gesagt wurden zum Beispiel „schicken Sie alle Prüfungsunterlagen an …“ oder „Bitte tragen Sie bei Herrn Müller eine Eins ein“. Anschließend wurde das neuronale Netz mit den Audioclips auf die Stimmcharakteristika sowie mit den Transkriptionen inklusive der Einfügungen auf den zu sagenden Text trainiert und beides zu neuen Audioclips zusammengeführt. Danach wurden den Probanden sowohl die echten als auch die gefälschten Audioclips vorgespielt – mit dem bereits genannten Ergebnis.

Und so heißt es nun geeignete Mittel zur Erkennung von solchen Deepfakes zu finden. Eine Aufgabe bei der Prof. Dr. Janis Keuper am Institut for Machine Learning and Analytics (IMLA) der Hochschule Offenburg in Sachen Bild- und Videomaterial bereits viel geleistet hat. Prof. Dr. Andreas Schaad möchte es diesem nun für Audiomaterial gleichtun und hat daher gemeinsam unter anderem mit der Deutschen Presse Agentur (dpa) und New Work SE, dem Betreiber des sozialen Netzwerks Xing, einen entsprechenden Projektantrag gestellt.