Geklaute Laute

Künstliche Intelligenz kann menschliche Stimmen täuschend echt nachahmen. Hat der Beruf des Synchronsprechers noch Zukunft?

Text:

Maya Luna Mendivil Jahnke

DATUM Ausgabe Mai 2025

Martin Keßler traut seinen Ohren nicht. Er starrt auf einen Handybildschirm, auf dem eine Instagram-Werbung für ein Automobilunternehmen zun hören ist. Aus den Handylautsprechern dröhnt eine tiefe, kraftvolle Stimme. Sie klingt nach quietschenden Reifen und rasenden Autos. Es ist die deutsche Stimme von Dominic Toretto aus ›Fast and Furious‹ – und damit auch seine eigene.

Martin Keßler ist Synchronsprecher. Seit über 20 Jahren verleiht er Hollywood-Stars wie Nicolas Cage und Vin Diesel eine deutsche Stimme. Auch im deutschsprachigen Star-Wars-Universum kennt man ihn: als Boba Fett und die Stimme aller Klone. In Filmen oder in Werbespots die eigene Stimme zu hören, ist für den 65-jährigen Sprecher und Synchronregisseur also nichts Ungewöhnliches. Die Instagram-Werbung hat er jedoch nie eingesprochen. Und doch hört es sich frappierend nach ihm an, inklusive der winzigen, für Keßler typischen sprachlichen Eigenheiten. Lediglich die Betonung und Aussprache der Werbestimme unterscheidet sie von seiner eigenen. Alle Endungen werden unnatürlich deutlich ausgesprochen. Keßler weiß: So spricht kein Mensch, nicht einmal ein professioneller Sprecher. Schon gar nicht er selbst. Er ist sich sicher: Seine Stimme wurde ohne sein Einverständnis geklont. Man könnte sogar sagen: Sie wurde geklaut. Denn während das Unternehmen kommerziell von seiner Stimme profitiert, geht er leer aus.

Lange Zeit waren Stimmen untrennbar mit den Menschen verbunden, die sie tragen. Heute aber lassen sie sich mithilfe künstlicher Intelligenz klonen und beliebig reproduzieren. Einen solchen KI-Klon seiner Stimme vermutet auch Keßler bei der Auto-Werbung. Der technologische Fortschritt wirft wichtige Fragen auf: Wie gut sind menschliche Stimmen rechtlich geschützt? Wie können Betroffene sich gegen den Diebstahl ihrer Stimmen wehren? Und wie kann dieser in Zukunft verhindert werden?

In der Theorie ist die menschliche Stimme sowohl in Österreich als auch in Deutschland, wo Keßler lebt und arbeitet, bereits jetzt juristisch geschützt. Ähnlich wie der Fingerabdruck ist die Stimme einer Person einzigartig. Als biometrisches Merkmal wird sie hierzulande durch das Persönlichkeitsrecht, vorwiegend aber durch die EU-weit geltende DSGVO geschützt. So lässt sich beispielsweise das Recht am eigenen Bild auch auf die Stimme übertragen.

›Da haben wir gegenüber Autorinnen und Illustratoren sogar einen kleinen Vorteil. Ihre Werke fallen nur unter das Urheberrecht‹, bemerkt Patrick Messe, Sprecher und KI-Beauftragter des österreichischen Sprecherverbands VOICE. Das Urheberrecht schützt das Werk, also beispielsweise ein Hörbuch oder den neuesten Fast-&-Furious-Film, nicht aber die Stimme an sich. Das Persönlichkeitsrecht hingegen sichert die Stimme als Teil der Identität. Grundsätzlich verfügt Österreich über wirksame Gesetze zum Schutz kreativer Arbeit. Die Realität zeigt jedoch, dass Sprecherinnen und Sprecher weniger Kontrolle über ihre Stimmen haben, als ihnen lieb ist.

Wie schwierig es ist, seine Rechte auch durchzusetzen, hat Martin Keßler am eigenen Leib erfahren. Zwei Jahre ist es nun her, dass er mit Unterstützung eines Medienanwalts Klage beim Landesgericht Berlin einreichte. Dieses sieht die Zuständigkeiten beim Landesgericht in Stuttgart, wo das angeklagte Automobilunternehmen seinen Sitz hat. In Stuttgart wiederum sieht man die Verantwortung in der Bundeshauptstadt. ›Das ist zum Kotzen‹, sagt Keßler, ›ich kann nur geduldig abwarten und hoffen, dass der Laden nicht vorher pleite geht.‹ Noch sei die KI nicht auf dem Niveau eines gut ausgebildeten Sprechers, aber wer weiß, wie lange das noch so sei, fügt er hinzu. Besonders ärgert der Sprecher sich darüber, dass die Verantwortlichen nicht rascher zur Rechenschaft gezogen werden können.

Um zu beweisen, dass die Stimme im Werbespot eigentlich Keßlers Stimme ist, bittet sein Anwalt ihn, den Werbespot, der mit klaren Anspielungen auf ›Fast and Furious‹ arbeitet, nachzusprechen. Mehrmals nimmt der Synchronsprecher die Werbung auf. Bis er das seiner Meinung nach schlechte Sprachniveau der KI trifft. Nach einigen Wochen schickt sein Anwalt ihm eine Nachricht: ›Wo ist die Aufnahme?‹ Keßlers Version ähnelt dem Original so sehr, dass die Mitarbeiterin des Tonstudios davon ausging, dass es sich bei der angehängten Datei um die KI-generierte Werbung handelte und sie zunächst nicht weiterleitete.

Denn auch, wenn die Aussprache der KI-Klone noch zu wünschen übrig lässt, können sie die Stimmfarbe einzelner Menschen täuschend echt nachahmen. Diese mache einen guten Sprecher allerdings nur zu höchstens 20 Prozent aus, erklärt Keßler. Wichtiger sei eine gute Technik. Und auch die kann die Künstliche Intelligenz nachahmen. Während die KI ihr Sprachhandwerk verbessert, beobachtet Keßler in der Sprecherbranche eine gegenteilige Tendenz: Unter dem wachsenden Kostendruck entstünden zunehmend mangelhafte Synchronfassungen. ›Da muss man sich auch fragen, ob es überhaupt eine KI braucht, um schlechte Synchronfassungen zu liefern.‹ Denn mit diesen könne die KI bereits mithalten.

Tatsächlich wird KI bereits jetzt in der Filmbranche verwendet. Teilweise, um die Leistungen echter Sprecher oder Schauspieler zu verbessern, teilweise, um ihren Job gänzlich zu übernehmen. So optimiert die Software ›Respeecher‹ im oscarprämierten Film ›Emilia Pérez‹ etwa die Ungarisch- oder die Gesangskünste der Hauptdarsteller. Andere KI-Tools wie ›Deepdub‹ können die Stimme von Schauspielerinnen und Schauspielern akzentfreies Deutsch sprechen lassen. Die Kölner ›Audio Innovation Lab GmbH‹ erstellt Synchronfassungen bereits ganz ohne echte Sprecher und sorgte damit für eine Premiere: Der chinesische Spielfilm ›Black Dog – Weggefährten‹ lief im Dezember 2024 als erster komplett künstlich synchronisierter Film in den heimischen Kinos.

Es scheint also, als bräuchte es jetzt schon keine Menschen mehr, um mit Stimmen zu arbeiten. Das ist aber nur bedingt wahr. Denn Künstliche Intelligenz basiert auf maschinellem Lernen und muss trainiert werden. Das passiert, indem ein Computeralgorithmus mit einer großen Menge an Daten gefüttert wird. Während textbasierte Modelle wie ChatGPT mit geschriebenen Texten trainiert werden, lernen Sprach-KIs, indem sie Sprachaufnahmen analysieren – also quasi durchs Zuhören. Für professionelle Sprecherinnen und Sprecher bedeutet das ein zusätzliches Risiko: Ihre Stimmen und Stimmaufnahmen werden häufig ohne ihre Zustimmung für KI-Trainingszwecke genutzt.

›Da kommt jemand, nimmt mir das weg, was ich mir über Jahre angeeignet habe und wovon ich lebe, und trainiert damit eine unschlagbar günstige Konkurrenz‹, beschreibt es Patrick Messe. Und bringt damit auf den Punkt, was viele in der Branche fürchten: Die unerlaubte Verwendung ihrer Stimme wird zur Grundlage eines Systems, das sie langfristig ersetzen könnte. ›KI-Firmen sind dazu bereit, für Technologie und Programmierung ihrer Software hunderte Milliarden auszugeben, aber nicht für den Erwerb der Trainingsdaten‹, sagt Messe. Dabei braucht es die Daten der Sprecher, damit das System überhaupt funktioniert.

Um kostengünstiges Trainingsmaterial zu beschaffen, verstoßen KI-Anbieter nicht selten gegen die DSGVO, das Persönlichkeits- und das Urheberrecht. Das Problem: Diese Verstöße sind schwer nachzuweisen. Betroffene bräuchten Beweise, dass genau ihre Stimme in einem riesigen Modell verarbeitet wurde, erklärt Jeanette Gorzala, KI-Rechtsexpertin und Mitglied des österreichischen KI-Regierungs-Beirats. Doch weil die Trainingsdaten oft nicht offengelegt werden, bleibt dieser Nachweis in der Praxis nahezu unmöglich.

In Zukunft soll der ›EU AI Act‹ mehr Transparenz ermöglichen. Die EU-weite Regulierung gibt vor, wie KI-Systeme zu entwickeln und zu nutzen sind, und ist weltweit die erste in dieser umfassenden Art. Grundsätzlich ist der Rechtsakt seit August 2024 in Kraft. Die einzelnen Bestimmungen werden schrittweise bis Sommer 2027 anwendbar. So gelten ab August 2025 die Pflichten für Entwickler von KI-Modellen. Künftig müssen diese eine Trainings-Content-Summary zur Verfügung stellen. Da es sich dabei jedoch lediglich um eine Zusammenfassung handeln wird, werden nicht alle verwendeten Trainingsdaten nachvollziehbar sein, betont Gorzala. Wurde nur eine Stimmdatei eines Sprechers genutzt, so taucht diese in der Summary womöglich gar nicht auf. Jeanette Gorzala begleitete den Gesetzwerdungsprozess des ›EU AI Acts‹ als damalige Vizepräsidentin des ›European AI Forum‹, der größten europäischen KI-Industrievertretung.

Da bestehende Rechte die Stimmen der Synchronsprecher nicht ausreichend schützen, müssen Sprecherinnen und Sprecher selbst zu technischen Schutzmaßnahmen für ihre Internetpräsenz greifen. Zum Beispiel durch einen maschinell lesbaren Nutzungsvorbehalt für Stimmdateien. Denn obwohl die Dateien unter die Urheberrechtsrichtlinie fallen, macht das Recht zwei Ausnahmen. Diese gelten zum einen für die Forschung, zum anderen fürs Text- und Data-Mining, also die massenhafte Analyse von Internetinhalten, um daraus neue Erkenntnisse zu gewinnen. Sogenannte Crawler extrahieren dafür Informationen von Webseiten, die häufig als Grundlage für das Training von KI-Systemen dienen. Erst ein Nutzungsvorbehalt macht diese Art der Datenerschließung rechtlich unzulässig. Die Crux: Einmal im System, können die Daten nicht mehr gelöscht werden, da die KI schon ›dazugelernt‹ hat.

Auch Patrick Messe rät Sprecherinnen und Sprechern zu einem solchen Vorbehalt, der auf vielen Websites fehlt. Dieser kann in einer sogenannten robot.txt-Datei auf Webseiten hinterlegt werden und verbietet den Crawlern, auf die Daten der Seite zuzugreifen. Messe weiß aber auch: ›Dass es diesen Vorbehalt gibt, heißt noch lange nicht, dass die Crawler sich daran halten.‹ Trotz gesetzlicher Regelungen sind Kreativschaffende auf die Fairness der KI-Anbieter angewiesen. ›Das macht das ganze System obsolet‹, findet Messe und fordert deshalb ein Opt-in-System: Das heißt, grundsätzlich dürften die Daten der Webseiten nicht verwendet werden, es sei denn, die Betreiber stimmen dem aktiv vorher zu.

Als KI-Beauftragter des Sprecherverbands gehört es zu Messes Aufgaben, österreichische Sprecher zu ihren Rechten gegenüber der KI zu beraten. So findet man auf der VOICE-Internetseite eine Rubrik, eigens für Vertragsbedingungen rund um das Thema ›Generative KI‹. Verträge sind oft so gestaltet, dass jegliche Verwertungsrechte an den Auftraggeber gehen, der die Audioaufnahmen seinerseits weiterverkaufen kann. Eine KI-Klausel soll die Sprecher absichern, damit ihre Stimmen nicht für KI-Trainingszwecke genutzt werden können. Oder aber, damit die Stimmen auf eine faire Art und Weise genutzt werden. Fair heißt: Ein digitales Abbild der Stimme darf nur mit ausdrücklicher Zustimmung und klar definiertem Zweck verwendet werden – zeitlich begrenzt und angemessen vergütet. Außerdem müssen Sprecher der Nutzung widersprechen und die Löschung ihrer Daten verlangen können. Da die eingespeisten Daten nicht mehr aus dem System herausgenommen werden können, fordert Messe, dass KI-Anbieter auch rückwirkend Genehmigungen einholen und Lizenzen zahlen.

Auf die Frage, warum er sich ehrenamtlich für KI-Aufklärung im Sprecherbereich engagiere, antwortet Patrick Messe, ohne lang zu überlegen: Er habe schnell gemerkt, dass KI potentiell ›überlebensgefährlich‹ sein könne. ›Ich liebe meine Arbeit. Ich möchte das auch die nächsten 30 Jahre noch machen können.‹ Außerdem liegt das Sprechen in der Familie. Seine achtjährige Tochter habe bereits einige Radiospots eingesprochen. Als Vater wünsche er sich, dass seine Tochter die Möglichkeit hat, in seine Fußstapfen zu treten. ›Auf jeden Fall möchte ich ihr eine Welt hinterlassen, in der kreative und künstlerische Dinge auch von echten Menschen geprägt werden und nicht automatisiert aus der Dose kommen.‹

Immerhin zeigt die psychologische Forschung: Unser Gehirn bevorzugt – zumindest bisher – natürliche Stimmen. Eine im vergangenen Jahr veröffentlichte Schweizer Studie kam zu dem Ergebnis, dass unsere Gehirne unterschiedlich auf echte und künstlich erzeugte Stimmen reagieren. Die Forschenden vermuten, dass das Gehirn auf die – eben noch nicht perfekte – Imitation reagiert und ein Gehirnareal versucht, fehlende akustische Signale auszugleichen. Besonders spannend: Ein Teil des Belohnungssystems im Gehirn zeigte beim Hören menschlicher Stimmen deutlich stärkere Aktivität als bei der KI-Version.

Patrick Messe und Martin Keßler wundert dieses Ergebnis nicht. ›Ich kann mir nicht vorstellen, dass der Zauber einer menschlichen Stimme vollumfänglich von der KI dargestellt werden kann‹, sagt Keßler. Ein weiterer Vorteil, den Patrick Messe in der Arbeit mit einem Sprecher sieht: ›Nur mit einem Menschen kann man ein besonders tolles, unvorhersehbares und kreatives Ergebnis erzielen.‹

Seit 2023 macht sich Patrick Messe nicht nur in Österreich, sondern weltweit für den Schutz menschlicher Sprecher stark. Er ist Gründungsmitglied der United Voice Artists (UVA), des ersten weltweiten Dachverbands für Sprecherinnen und Sprecher. Dieser vereint 42 Sprecherverbände, -gilden und -gewerkschaften aus aller Welt. Ursprünglich waren die UVA als europäische Initiative gedacht. Die Verantwortlichen merkten aber schnell, dass der internationale Fortschritt in Sachen Künstlicher Intelligenz eine weltweite Vernetzung erfordert. Wenn in der EU dafür lobbyiert wird, dass Gesetze die KI streng regulieren, dann hilft das auch den Kollegen in den USA, weiß Messe. Denn die KI-Anbieter würden keine unterschiedlichen Modelle für verschiedene Märkte programmieren. Stattdessen orientiere man sich an den strengsten Regulierungen.

Auch ohne neue Gesetze schätzt Martin Keßlers Anwalt seine Chancen in einem Prozess gut ein. Als einer der (nach eigenen Angaben) ersten Kläger im deutschsprachigen Raum wäre das ein Erfolg für die ganze Branche. Wenn auch nur zum Teil: Denn eigentlich wollte Keßler auch gegen die Entwickler der App, mit der die Kopie seiner Stimme mutmaßlich angefertigt wurde, klagen. Sein Anwalt riet ihm davon ab, denn das Unternehmen sitzt in Costa Rica. Für eine Klage müsste Keßler zwei weitere Anwälte bezahlen, einen englisch- und einen spanischsprachigen. Und wäre damit schnell mehrere tausend Euro los – bei ungewissem Ausgang des Prozesses. •

Sie können die gesamte Ausgabe, in der dieser Artikel erschien, als ePaper kaufen:

Diese Ausgabe als ePaper für € 6,00 kaufen

Geklaute Laute

›Die neuen Klimamodelle haben mich wirklich erschreckt‹

Gerecht geteilt?

Mit dem Latein am Ende