Fakultät Medien

Im Gebäude der Medien-Fakultät konzentriert sich die komplette Fakultät mit Hörsälen, Laboren + Studios, alle mit modernster Technik ausgestattet, sowie Büros.
 

Mediatheken und Deepfakes

|

Als Deepfake bezeichnet man eine gefälschte Video- oder Audioaufnahme eines menschlichen Attributes. Das Ziel war, einen Deepfake von der Stimme von Olaf Scholz zu erstellen und herauszufinden, wie einfach dieses Vorhaben für Laien umsetzbar ist.

Echt oder Fake?
© M

Zunächst musste eine Transkription von Audiomaterial von Olaf Scholz erstellt werden. Dieser Prozess ist zeitaufwändig, insofern er nicht automatisiert wird. Abhilfe könnte hier Software sein. Dies war im Rahmen dieser Projektarbeit aus Datenschutzgründen nicht möglich. Mithilfe der transkribierten Materialien reichten schon wenige Stunden Training aus, um eine Stimme zu generieren, die der von Olaf Scholz ähnelt. Trotzdem wurde das Team auf ein Störgeräusch aufmerksam, welches die gefälschten Audios von den Originalen abhob. Dieser Eindruck lag nicht nur daran, dass das Team durch die intensive Beschäftigung vertraut mit den Originalen und den synthetisierten Audiomaterialien von Olaf Scholz war, wie die Umfrage bewies. In der Umfrage wurde die Mehrheit der Deepfakes von den Teilnehmenden richtig erkannt. In einem Fall hielt ein Großteil der Teilnehmenden ein echtes Audio von Olaf Scholz für einen Deepfake. Auch waren die Ergebnisse bei einigen Fragen nicht sehr eindeutig, woraus auf eine gewisse Authentizität des generierten Modells geschlossen werden kann. Das Team kam zu der Erkenntnis, dass das Erstellen eines Deepfakes ohne Vorkenntnisse durchaus möglich ist. Allerdings gibt es einige einschränkende Faktoren, die den Aufwand betreffen. Ohne Vorkenntnisse braucht es vor allem Zeit, um die nötigen Informationen zu recherchieren und Probleme zu beheben. Weiter ist das Level an Datenschutz eine Einschränkung. Spielt der Datenschutz keine Rolle, kann man auf ein großes Repertoire an Online-Tools zurückgreifen, welche das Vorhaben erleichtern und beschleunigen. Auch die hardwaretechnischen Einschränkungen lassen sich durch Cloud-Lösungen wie beispielsweise „Google Colab“ beheben. Außerdem kann auch das verfügbare Budget einschränken.

Die Technologie zum Erstellen einer Deepfake-Stimme ist, auch wenn noch nicht massentauglich, durchaus für Laien erlernbar. Hindernisse, die im Rahmen dieser Projektarbeit auftraten, wie beispielsweise datenschutzrechtliche Bedenken, spielen im privaten Gebrauch eher untergeordnete Rollen. Allerdings fehlen noch ausführliche Tutorials, die den Lernprozess erleichtern. Dies könnte eine große Hürde für die breite Bevölkerung darstellen. Dies könnte umgangen werden, wenn es eine benutzerfreundliche Oberfläche geben würde oder ein ausreichender Fundus an Foren mit gelösten Fragen und ausführlichen kostenfreien Tutorials im Internet. In diesem Zuge ist es vorstellbar, dass in naher Zukunft eine App entwickelt wird, welche eine Datenbank aus trainierten Modellen verschiedener Sprachen beinhält, auf die Benutzer*Innen zugreifen können. Aufgrund dessen wird jedoch die Tür für die missbräuchliche Nutzung dieser Technologie weiter geöffnet. Mit der Weiterentwicklung der Modelle wird es zudem schwieriger, echte Aussagen von gefälschten zu unterscheiden. Damit wächst die Sorge um Social-Engineering-Attacken und die Vertrauenswürdigkeit der Medienbeiträge sinkt. Ansätze für Technologien zur Erkennung von Deepfakes existieren zwar, können jedoch noch nicht als ausgereift bezeichnet werden. Man kann davon ausgehen, dass die Deepfake-Technologie an etwaige Erkennungsmaßnahmen angepasst werden wird. Zukünftig könnte ein Betrug durch einen Deepfake nur bei Kommunikation ohne technische Übertragung sicher ausgeschlossen werden.

Projektteam:
Benjamin Klinkebiel

Projektbetreuung:
Prof. Andreas Schaad