Podcast-Einführung und Haftungsausschluss
00:00:01
Speaker
Mic Rider Deep Talk Menschen, Business, Diskussionen. Der Mic Rider Podcast.
00:00:11
Speaker
Hallo und herzlich willkommen zu einer neuen Folge Mike Rider Deep Talk. Heute geht es um ein Dokument und zwar die AI Guidelines for Voice Work und dazu erstmal noch ein kurzer Hinweis. Also wir werden das Dokument durchsprechen und alles erklären, was es dazu zu erklären gibt. Das bedeutet aber nicht, dass wir euch empfehlen KI-Aufträge anzunehmen, sondern
00:00:32
Speaker
Wir geben auch keine Rechtsberatung.
Vorstellung von Florian Mehrländer und seiner Expertise
00:00:35
Speaker
Alles, was wir sagen, ist nur unsere persönliche Meinung und dieses Dokument soll eine Hilfestellung sein, bei möglichen KI-Anfragen die richtigen Gegenfragen stellen zu können oder soll helfen, damit ihr wisst, worauf ihr achten solltet zum Beispiel.
00:00:51
Speaker
Das Ganze werde ich besprechen mit dem lieben Florian Mehrländer, der heute bei mir zu Gast ist. Florian, schön,
Florian's Entscheidung zur Mitarbeit an den KI-Richtlinien
00:00:58
Speaker
dass du da bist. Patrick, hallo. Danke für die Einladung. Ja, wir zwei kennen uns ja schon, aber kurz, du bist Sprecher, kommst ursprünglich vom Film, warst ganz lange auch beim Deutschen Sprecherverband.
00:01:09
Speaker
im Vorstand. Darüber haben wir uns auch kennengelernt. Du warst auch mit beteiligt an der Erstellung des Gagenkompasses, wie er in seiner jetzigen Form existiert und bist auch einer der Mitbegründer von sprecherpreise.de.
00:01:22
Speaker
Das heißt, wir sind beide so ein bisschen Gagen-Hindseys. Ich habe mich ja quasi mit der UVA und einer Taskforce um den inhaltlichen Teil dieser Vertragsrichtlinien oder Empfehlungen gekümmert und du warst mein Robin der Strukturierung und der präzisen Wortwahl und das Dokument dann organisch zu kriegen im weitesten Sinne.
00:01:52
Speaker
Tue ich dir damit unrecht? Ich denke schon. Du hast mich gefragt, ob ich Lust habe, mit dir zusammen daran zu arbeiten und ich hatte Lust und nicht Lust gleichzeitig, weil ich das Thema nicht generell mich da drauf werfe und mich freue, mich damit beschäftigen zu dürfen. Ich finde das Thema sehr anstrengend und gleichzeitig dachte ich, es macht total Sinn, wenn ich da
00:02:13
Speaker
Input reingeben darf und wenn ich mit dir zusammen da Dinge erarbeiten
Komplexität und intuitive Herangehensweise bei den AI Guidelines
00:02:17
Speaker
darf. Und tatsächlich habe ich direkt glaube ich als erstes zu dir gesagt, ich bin dann so der nerdige Typ, der dann gerne nochmal und nochmal und nochmal eine Runde dreht, damit es wirklich zu Ende gedacht ist, soweit es möglich ist und damit es auch intuitiv verständlich ist und damit man so
00:02:33
Speaker
die ganzen Ecken, die etwas Komplexes kompliziert oder eben einfach machen können, wir im besten Falle durchdacht haben. Und das war glaube ich tatsächlich der Fokus, den ich primär draufgelegt habe. Dafür bin ich dir sehr dankbar. Sind wir dir alle sehr dankbar, weil es einfach nochmal eine neue Qualität bekommt im Vergleich zu
00:02:52
Speaker
fachchinesisch das sich einfach sehr hölzern ließ zum beispiel oder sehr vielleicht nicht kontra intuitiv angeordnet ist also wir haben ja auch man das das irre daran das war ja auch der der große kitzel dieser herausforderung ist dass wir ja hier absolutes neuland beackern durften
00:03:11
Speaker
Das heißt, du warst sehr hands-on, ich habe Lust, das zu machen. Du hattest ja durchaus auch Gegenwind, auch in den eigenen Reihen.
Regulierung von KI im Stimmsektor durch United Voice Artists
00:03:18
Speaker
Ich weiß nicht, ob das jetzt was ist, was wir vielleicht besprechen wollen oder nicht, aber es war jetzt nicht so, dass die ganze UVA gesagt hat, jippie, endlich geben wir ein Empfehlungsdokument raus.
00:03:28
Speaker
Und wir wussten ganz viel nicht. Das heißt, wir haben auch in super vielen Sessions gemeinsam, oder ich hab dich dann irgendwann mal zu später Stunde ankontaktet, hey, ist die und die Gage nicht eigentlich viel wichtiger als die und die Gage? Also wir haben sehr viel erarbeitet, obwohl wir natürlich auch schon einen Berg von Material über die UVA
00:03:46
Speaker
zur Erstellung des Dokuments bekommen haben. Also wir waren jetzt nicht die einzigen beiden, die dieses Dokument erstellt haben, aber wir waren schon so ein Inner Circle und ich hatte immer das Gefühl, ich kann dich im Hintergrund stützen und war total froh, dass ich nicht in die erste Reihe treten musste und die ganzen politischen Gespräche drum herum und die ganzen Verkaufsgespräche, sondern ich das mal führen musste. Dafür ein großes Dankeschön von allen.
00:04:08
Speaker
Tatsächlich vielleicht für den Zusammenhang oder für den Podcast zum ersten Mal hören die UVA, die United Voice Artists, sind der globale Dachverband der SprecherInnen mit inzwischen 36 nationalen Organisationen, die Teil davon sind und sich global vernetzt haben, um KI die Stirn zu bieten für eine strengere Regulierung, für Transparenz, für faire Behandlung unserer
Notwendigkeit und Wahrnehmung von KI-Richtlinien im Stimmsektor
00:04:39
Speaker
Die Sprecher fühlen sich alle bedroht durch KI, was total nachvollziehbar ist. Das heißt, man hat sich zusammengerottet auch auf eine Art. Genau. Und im Zuge dessen haben wir gemerkt, ein Standbein unserer Arbeit ist die Lobbyarbeit für eine strengere Regulierung. Das haben wir gemacht und ist jetzt
00:04:57
Speaker
Im AI Act findet sich das an der einen oder anderen Stelle wieder. Aber wir haben gleichzeitig gemerkt, das Bedürfnis der Industrie ist da und der Kundenwunsch, dieser diffuse, ich will irgendwas mit KI machen, aber ich weiß gar nicht so genau, wie das geht, aber irgendwie machen jetzt alle was mit KI. Dagegen hilft natürlich so ein Gesetz nicht. Und deshalb haben wir uns entschieden, eben Handlungsanweisungen oder Richtlinien rauszubringen,
00:05:24
Speaker
die dem Einzelnen der Einzelnen helfen sollen, Anfragen in seriös, mittel und gar nicht einzuordnen, helfen sollen, zu schauen, worauf man achten soll.
Bedeutung von Branchenstandards gegenüber Tech-Unternehmen
00:05:35
Speaker
Und das war durchaus eine sehr kontroverse Diskussion. Das stimmt schon, weil manche Mitgliedstaaten haben halt gesagt, naja, wenn wir das jetzt rausbringen, wirkt das doch so, als würden wir das unterstützen, so als würden wir das endorsen quasi. Wenn wir empfehlen, macht
00:05:50
Speaker
doch nach diesen Regeln alle Verträge. Weil wir haben ja selber schon total Bock drauf, hier sind unsere... So und das ist natürlich eine legitime Meinung. Am Ende durchgesetzt hat sich die Mehrheitsmeinung, dass wir gesagt haben, wenn wir nicht schauen, dass wir Best Practice Beispiele oder quasi einen Industriestandard schaffen, wird nicht in unserem Sinne
00:06:16
Speaker
etabliert werden, weil er dann von der Produktionsseite, von der Tech-Seite kommt. Und wir wollten dem einerseits zuvorkommen und andererseits auch ein Gegengewicht schaffen zu den Bedürfnissen nach möglichst wenig Verantwortung, nach möglichst wenig Transparenz und natürlich auch möglichst wenig
00:06:35
Speaker
Vergütung und Einflussnahme der
Tipps und rechtliche Unterstützung für KI-Verträge
00:06:39
Speaker
Urheber. Wir haben halt gemerkt, dass es ein Vakuum gibt. Ich glaube, wir beide, du wahrscheinlich noch viel mehr als mit der Position in der UVA, die du innehast, haben Anrufe und E-Mails und Kontakte.
00:06:50
Speaker
bekommen, wo uns gesagt wurde, ich habe eine Anfrage hier, ich habe das jetzt mal mit 2000 Euro kalkuliert und wir beide haben so, oh Gott, oh Gott, das ist ja schrecklich, wenn aus Nichtwissen einfach schlechte Angebote abgegeben werden und das Bedürfnis zu sagen, wir müssen eine Liste aufschreiben, worauf man überhaupt achten muss, wenn solche Anfragen kommen.
00:07:14
Speaker
Wir müssen vordenken, damit alle sich wohlfühlen und Orientierungen bekommen. Das war, glaube ich, einfach wirklich ein Bedürfnis, was wir beide gespürt haben. Und da finde ich, ist ein ganz spannender Aspekt auch der, dass wir ursprünglich, als du mich gefragt hast, hast du Lust mit mir dran zu arbeiten, waren wir beide, glaube ich, auf dem Trip, dass wir sagen, da stehen ganz viele Zahlen drin, da stehen Rabattmodelle drin, wenn es so und so viele Auswertungen gibt, wie groß und was kann man entgegenkommen.
00:07:41
Speaker
Was darf das kosten? Was darf das kosten? Ist das vierstellig? Ist das fünfstellig? Und im Laufe der Erarbeitung haben wir eigentlich gemerkt, das Thema ist so komplex, dass wir natürlich Einordnungen geben können, dass wir Gewichtungen, dass wir auch sagen können, denkt da, da, da und daran zur generellen Absicherung und habt das auf jeden Fall im Hinterkopf und willigt dem niemals ein, dass wir aber gar nicht so sehr einen echten
00:08:07
Speaker
eine echte Gagenempfehlung geben können. Und deswegen heißt das Dokument jetzt ja auch KI Gagen Kompass und Vertragsrichtlinien. Und ehrlich gesagt sind die Vertragsrichtlinien das, was jetzt viel präsenter in diesem Dokument stattfindet. Alles andere wäre, glaube ich, auch eine gewisse Verdummung des Themas.
Neue Terminologien und Systematiken für KI-Arbeit im Stimmsektor
00:08:24
Speaker
Also wenn wir jetzt wirklich geschrieben haben, das kostet 50 Euro, das kostet 2000 Euro, dann würden wir nie damit die Wahrheit abbilden können.
00:08:32
Speaker
Genau. Es geht am Ende des Tages ja auch darum, dass es sich technisch völlig unterscheidet von allem, was wir bisher kennen. Ob jetzt Kampagne oder auch von mir aus Text to Speech oder so, was man vielleicht schon mal gemacht oder gehört hat. Es ist einfach völliges Neuland und wir haben gemerkt, wir brauchen neue Begriffe, wie wir das einordnen. Wir brauchen
00:08:57
Speaker
eine neue Systemik dahinter. Es ist eben nicht damit getan, zu sagen, das ist jetzt wie Kampagne nur ein bisschen anders. Und so hat sich das in den letzten sechs, sieben Monaten entwickelt. Natürlich auch mit ganz viel Input von vielen internationalen Playern, die ihre Erfahrungen mit einfließen haben lassen in das ganze Ding. Und jetzt am Ende, finde ich, ist ein schönes Dokument herausgekommen,
00:09:25
Speaker
Das wichtigste abdeckt, wenn man das alles bedenkt oder alles mit einbezieht, dann hat man auf jeden Fall sehr gute Karten, dass man
Struktur der KI-Richtlinien: Prinzipien von Kreation, Nutzung und Vertrag
00:09:35
Speaker
gut und fair und anständig aus der Nummer rauskommt und sich nicht sein eigenes Grab schaufelt. Und das war uns wichtig. Ich glaube, das ist vielleicht der perfekte Moment, einmal darauf hinzuweisen. Ich könnte mir vorstellen, der ein oder andere landet vielleicht jetzt in diesem Gespräch zwischen uns beiden, um zu sagen, hey, cut to the chase, ich hab die Anfrage, worauf muss ich jetzt achten, sagt mir endlich die Hardfacts. Und eigentlich war von Anfang an klar, und das ist etwas, was wir immer mehr unterstreichen wollten,
00:10:04
Speaker
Wenn, und was auch jeder Sprecherverband weltweit, was alle Sprecherverbände, glaube ich, irgendwo immer hingeschrieben haben, wenn jemand eine Anfrage bekommt im Bereich KI, wenn die irgendwie KI im Gepäck hat, dann ist man schlagartig raus aus dem täglichen Business. Wir alle als Sprecher kennen das, dass wir tägliche Anfragen bekommen. Kannst du mir mal sagen, was kostest du denn für die und die Kampagne? Wir wollen 17 Motive, vielleicht wollen wir sogar irgendwann mal 30 Motive. Wie weit kannst du uns entgegenkommen?
00:10:33
Speaker
Oder wir wollen einen Image filmen, was auch immer. Das kennt jeder, das sind normale Sprechanfragen, mit denen wir umgehen. Wenn eine KI-Anfrage kommt, ist man versucht zu sagen, okay, ich habe doch so schön gelernt über die vielen Jahre, es gibt ganz klare nachlesbare Zahlen, die ich jetzt hier ansetzen kann. Eine KI-Anfrage ist immer viel, viel, viel größer, als jede einzelne Sprechanfrage sein kann. Eine KI-Anfrage lässt sich immer ins Unendliche skalieren. Und das muss man denken, das heißt,
00:11:02
Speaker
Eine KI-Anfrage sollte niemals ähnlich leichtfüßig beantwortet werden wie eine klassische Sprechanfrage. Eine KI-Anfrage sollte immer entweder sehr unverbindlich formuliert werden. In dem Moment, bevor man verbindlich wird, sollte sie auch nicht nach gut dünken. Ja, ich glaube vielleicht ist 50.000, passt schon? Nein.
00:11:22
Speaker
Nehmt euch dieses Dokument, beschäftigt euch damit. Die Aufgaben, die die Leute bekommen, wenn sie so eine KI-Anfrage bekommen, sind groß. Die Chance hoffentlich auf eine gute Gage auf der anderen Seite ebenso. Und man braucht einen Anwalt. Absolut, das wollte ich gerade sagen. Dieses Dokument ersetzt auch keine anwältliche Unterstützung. Das ist eine erste Hilfestellung, um mal die grundsätzlichen
00:11:44
Speaker
Gegebenheiten und Konditionen auszuloten und mal das Spielfeld so zu umreißen, auf dem man sich bewegt. Aber es ist dann immer noch höchst individuell und eben auch sehr komplex, dann am Ende den Vertrag wirklich
00:11:59
Speaker
zu definieren. Und dann sollte man sich eine rechtliche, anwaltliche Unterstützung holen, bevor man den dann tatsächlich auch unterschreibt. Das ist quasi ein Anwaltsvorspiel, wenn man so will. Aber ja, lass uns doch einfach mal
Aktive Einwilligung in KI-Stimmverträge
00:12:14
Speaker
losgehen, oder? Genau. Ich würde ganz kurz darauf hinweisen, dass wir quasi zwei Dokumente haben, nur dass man einen Überblick hat. Das Englische und das Deutsche. Und vielleicht sollten wir kurz darauf eingehen, wie die zueinander stehen.
00:12:24
Speaker
Du hast recht, ja. Also das Englische ist der globale Mindestkonsens, wenn man so will.
00:12:30
Speaker
entstanden aus der Idee, dass wenn, egal wo man nach KI mit Sprache, in Verbindung mit Sprache oder Stimme fragt, man dieselben Fragen gestellt bekommt, man ungefähr dieselben Bedingungen erfüllen muss und man so einen gewissen Herdenschutz erhält. Dass quasi alle SprecherInnen weltweit, im besten Falle, in einer perfekten Welt, tatsächlich mit einer Stimme sprechen, wenn KI an Fragen kommen.
00:12:59
Speaker
Das ist das UVA-Dokument, wo wirklich alle am Ende gesagt haben, okay, wir unterschreiben das jetzt. Genau. Und für die deutsche Version, die haben wir zusammen mit dem Schweizer Verband und dem Deutschen Sprecherinnenverband weiterentwickelt und sind an einigen Stellen noch konkreter geworden.
00:13:14
Speaker
was im globalen Mindestkonsens mit so vielen unterschiedlichen Meinungen und Positionen dazu einfach nicht möglich war. Aber das ist zumindest einheitlich für den deutschen Sprachraum, sodass der deutsche Sprachraum nicht untereinander, gegeneinander ausgespielt werden kann.
00:13:31
Speaker
Perfekten. Und technisch gesehen haben wir eine deutsche Version, die aber in drei Dateien vorliegt. Das heißt, es gibt eine aus Deutschland, eine aus Österreich und eine aus der Schweiz. Aber wir haben jetzt hier die Österreichische, die uns vorliegt, weil wir hier auch gerade in Wien sind. Aber die sind inhaltlich identisch. Die sind von der Form ein bisschen abgewandelt, weil jeder natürlich seine eigene Logo draufklebt und so was. Aber wir haben einen deutschsprachigen Entwurf, der rausgeht. Ganz genau.
00:13:59
Speaker
Wir nehmen jetzt also den österreichischen KI-Gaschenkompass und Vertragsrichtungen in den Dach, der aber eben wie das Wort heißt, für den Dachraum gilt. Genau. Super. Okay. Der gliedert sich so in vier grundsätzliche Bereiche. Das sind einmal die allgemeinen Vertragsgrundsätze, das sind Prinzipien, Denkanstöße, die in jedem Vertrag dann
00:14:24
Speaker
vertraglich ausformuliert vorkommen sollten. Das sind auch quasi, wo wir gesagt haben bei der Entwicklung, das sind so die wichtigsten Gedanken, die man nicht, die man auf jeden Fall, die stehen ganz am Anfang, die dich auch schützen, die jeden, der so einen Vertrag entwirft und verhandelt, schützen, dass er nicht hinter sagt, warum habe ich das denn unterschrieben, warum habe ich denn daran nicht gedacht. Das sind einfach, das sind Prinzipien, die man, die man sich
Vergütung und Verwendungsrechte in KI-Verträgen
00:14:49
Speaker
zu Gemüte führen sollte. Dann geht es um die Creation, also um die Erstellung eines digitalen Stimmmodells. Was gibt es da zu beachten? Wenn die Stimme digitalisiert wird. Ganz genau. Und dann natürlich, das ist der bekanntere Teil oder der vielleicht vertrautere Teil, die Nutzung des Outputs. Also man hat jetzt ein digitales Stimmmodell und man hat sich geeinigt, wie die rechtlichen und die Sicherheitsvorkehrungen sind und so weiter. Und daraus wird jetzt
00:15:18
Speaker
Was auch immer generiert. Ganz viele Telefonansagen oder ganz viele Werbespots oder so. Das heißt, das nächste Kapitel ist quasi, das Generierte möchte jetzt natürlich der Auftraggeber nutzen. Was kostet das? Genau. Das ist das, was wir am ehesten schon kennen mit Nutzungsrecht und Verwertung. Nutzungsrecht, genau. Genau. Dann nochmal zurück zum Abschluss zu den vertraglichen Aspekten, die man bedenken sollte.
00:15:42
Speaker
Genau und da vielleicht ist ganz interessant, eigentlich ist der Punkt der vertraglichen Grundprinzipien und der letzte Punkt, der Amuse-Gueil, bevor man dann vielleicht noch eine Käseplatte am Ende reinschiebt, sind eigentlich beides so einzelne Punkte, gehen wir ja auch gleich durch, worauf ist zu achten. Und da noch einmal der Hinweis, diese Vertragsprinzipien oder die AI-Prinzipien sind aus unserer Sicht so die großen generellen Gedanken, die man im Gepäck haben sollte.
00:16:10
Speaker
Der letzte Punkt, auch einzelne kleine Bullet Points sind aber dann eher so ganz klassische Vertragsprinzipien, die man auch teilweise oder an ganz vielen Stellen schon aus anderen Verträgen kennt. Trotzdem noch einmal aufgeführt, ein bisschen wie so eine Checkliste. Ganz genau.
00:16:24
Speaker
Ja Flo, lass uns vielleicht starten mit den allgemeinen Vertragsgrundsätzen. Die am Anfang stehen müssen, die ganz wichtig sind, dass sie am Anfang stehen. Wir überblättern die Präambel. Wie würdest du die Vertragsgrundsätze so zusammenfassen oder was ist dir da ein wichtiger
00:16:42
Speaker
Also wir haben, ich glaube der wichtigste Gedanke bei den Vertragsgrundsätzen ist, dass wir uns immer überlegt haben, was sind denn eigentlich so Versicherungen. Und da gibt es jetzt, es macht vielleicht Sinn, dass wir jeden Punkt ganz kurz einmal ansprechen, wobei die sind teilweise sehr selbsterklärend, aber für mich ist eigentlich der wichtigste sind dann so die Beschränkungsideen, weil
00:17:03
Speaker
Ich als Sprecher sichere mich in dem Moment ab, wo ich nicht unterschreibe, okay, ihr dürft meine Stimme nehmen und sie synthetisieren und ich kriege dann viel Geld und ihr dürft sie dann immer benutzen, egal in welchem Land, egal in welchem Medium, egal für wie viel Outputs. Also diese Unbeschränkung, die ist unser größter Feind, sage ich mal, weil die natürlich bis ins Unendliche skalierbar ist und ausgenutzt werden kann und wir vielleicht irgendwann mal sagen, oh fuck, wieso habe ich das unterschrieben? Und die uns auch überlebt.
00:17:33
Speaker
Die uns auch überlebt, genau, wobei dann könnte es uns wurscht sein, aber auch die uns natürlich jeglicher, also die stellt die größte Gefahr da, unsere komplette Existenzgrundlage als SprecherInnen uns zu rauben.
Einschränkungen der Nutzung: Schutz der Sprecherrechte
00:17:44
Speaker
Das heißt, das ist für mich so einer der wichtigsten Gedanken, aber ich schlage fast vor, wir gehen einmal schnell die einzelnen Punkte durch. Gerne, vielleicht der allerwichtigste Punkt auch wie im echten Leben ist,
00:17:54
Speaker
Active informed consent, nicht irgendwo in den... Wir dachten, das wäre doch okay, weil du hast ja auch... Du hast auch das andere mit hingeklickt, nein, sondern wirklich eine allgemeine, grundsätzliche, informierte Zustimmung. Total wichtig.
00:18:11
Speaker
Und in Europa zum Glück ist die Stimme geschützt. Das heißt, es ist auch einfach gar nicht erlaubt. Es ist durch die Persönlichkeitsrechte geschützt. Es ist einfach gar nicht erlaubt, dass man einfach die Stimme von jemandem ins digitale Netz reinwirft und sagt, passt schon, das wird für den schon passen. Das heißt, das ist auch eine Straftat, wenn man dem zuwiderhandelt.
00:18:30
Speaker
Anfang von allem muss einmal klar gesagt sein, ich stimme zu, dass du das und das in den und den Parametern mit meiner Stimme machst. Auch wenn wir keine Anwälte sind, so viel kann man schon sagen, es ist nicht erlaubt, dass man die Stimme von jemand anderem einfach irgendwo hoch lädt, um mal auszuprobieren. Das passiert leider immer wieder. Und es ist schnell mit ein paar Kicks gemacht. Und ist aber tatsächlich nicht rechtens, weil die Stimme zu den biometrischen Daten gehört und dadurch eben besonders geschützt ist durch das Persönlichkeitsrecht.
00:19:00
Speaker
Und der Schaden beim neuronalen Lernen, der ist tatsächlich größer. Da kommen wir später noch dazu. Das ist nur kurz als Hinweis. Und das Zweite, was die allgemeinen Vertragsgrundsätze aufrufen, ist die der angepassten Vergütung und die Grundidee ist auch eigentlich intuitiv 100% logisch. Manchmal sagt man es doch eh klar, trotzdem macht es Sinn, dass es hier steht. Es geht darum, dass nicht einfach ein Betrag von Pauschal, wir wollen es ungefähr so nutzen, aber unterschreibt mal alles und der Betrag skaliert sich überhaupt nicht mehr danach, wie groß am Ende wirklich die Nutzung
00:19:30
Speaker
Das heißt, eine viel größere Nutzung erzwingt einen viel höheren Preis als eine kleinere Nutzung. Genau, es muss immer verhältnismäßig sein zur Nutzung oder zur Lizenzierung. Da kommen wir eigentlich auch schon zu Nutzungsbeschränkungen.
00:19:47
Speaker
Da kommen wir zu den Punkten, die ich eigentlich eben, das sind die nächsten beiden Punkte, die gehören zusammen. Der dritte Punkt ist die allgemeine Nutzungsbeschränkung und der vierte Punkt ist die zeitliche Nutzungsbeschränkung. Und ich glaube, das ist der beste
Opt-out Prinzip zur Vertragsbeendigung
00:19:59
Speaker
Moment. Einmal ganz kurz ein Missverständnis, was wir beide erst gelernt haben, dass es das gibt im Verlaufe der Arbeit an diesem Dokument. Als wir das auch nach draußen gegeben haben, Feedback eingeholt haben, recherchiert haben, haben wir gemerkt, es gibt ein
00:20:14
Speaker
neuen Stolperstein, der mit KI quasi neu zu uns gekommen ist, den es vorher gar nicht gab. Und zwar, welche Nutzungslizenzen gibt es? Es gibt nämlich, wie wir das schon kennen, die Nutzungslizenz an dem Image-Film, den die KI mit deiner Stimme erzeugt hat. Und dann wird dieser Image-Film halt, zum Beispiel verkaufst du die Rechte, dass der im Internet zeitlich unbegrenzt weltweit nicht geschaltet, aber hochgeladen sein darf.
00:20:39
Speaker
Das ist die Nutzung und die ist ja quasi unlimitiert für das Internet zeitlich weltweit. Das geht auch nach wie vor. Diese Option wollen wir damit gar nicht beschränken. Diese Einschränkung der Nutzung, um die es hier geht und die große Unterscheidung, die wir glaube ich immer machen müssen und die wir hier auch im Dokument irgendwann versucht haben ganz klar hinzubekommen ist,
00:21:01
Speaker
geht es um die Nutzung des Outputs, das heißt, dass der Imagefilm, der entstanden ist mit deiner Stimme, oder geht es um die Nutzung des Modells, dass ich deine Stimme überhaupt generieren darf. Meines digitalen Clones. Meines digitalen Clones. Das heißt, wenn ich jetzt sage, Patrick, ich möchte dich gerne digitalisieren, weil mir gefällt, dass deine Stimme untenrum so schön viel hat, dann sagst du, passt, kostet so und so viel Geld, und dann habe ich quasi die Möglichkeit, deine Stimme digital herzustellen.
00:21:29
Speaker
Wie umfangreich habe ich diese Möglichkeit? Wie lange darf ich etwas mit deiner Stimme herstellen? Wie viele Sachen darf ich herstellen? Und wofür dürfen diese Sachen passieren? Wie lang darf die sein? All sowas. Also langer Rede, kurzer Sinn. Gänzlich uneingeschränkte Nutzungsrechte können fatal sein.
00:21:46
Speaker
Bei der Herstellung über deine Stimme. Beim Modell. Beim Output. Aber nicht beim Output. Das heißt, wenn du sagst, da ist ein Motiv entstanden, das wollen wir dir jetzt alles abkaufen. Alles klar. Kostet ein bisschen Geld, aber passt. So wie auch bisher bekannt, man sagt, ich will diesen Werbespot, der ist so geil, den will ich auch in zehn Jahren noch schalten. Ich will die zeitlich unbegrenzten Nutzungsrechte. Ich will das Ding einfach haben. Aber nur die Nutzungsrechte an dieser einen Spotversion. Und nicht an deiner Stimme und alles, was die theoretisch herstellen kann.
00:22:14
Speaker
Genau, das ist der Begriff des Motivs bei uns. Das Motiv darf unbegrenzt sein, die Stimmerzeugung nicht. Genau. Der nächste Punkt ist das Opt-out-Prinzip und da geht es einfach nur darum, dass es keinen Vertrag geben darf aus unserer Sicht. Das sind ja Empfehlungen und Orientierungen unsererseits. Was ihr verhandelt, ist euer Ding, aber wir empfehlen,
00:22:39
Speaker
verhandelt keinen Vertrag, der nicht dir die Möglichkeit lässt, jeweils zum Ende der jeweiligen Vertraglaufzeit spätestens zu sagen, ich habe keine Lust mehr, ich möchte nicht mehr, dass das hier fortgesetzt wird, mir passt das nicht, ich möchte sogar, dass meine Daten gelöscht werden. Das hat zur Bedingung, dass man vorher eine beschränkte Nutzung ausgemacht hat, das geht natürlich nicht, wenn man vorher gesagt hat,
00:23:05
Speaker
Nach mir die Sintflut und über meinen Tod hinaus.
Globale und regionale Richtlinienabstimmung bei Narva
00:23:08
Speaker
Dann kann man nicht den Vertrag mitten in der Vertragslaufzeit legitim mal abkürzen. Es muss eine vereinbarte Vertragslaufzeit geben und jeder Sprecher, jede Sprecherin sollte die Möglichkeit haben zu diesem Ende zurücktreten zu können, aus welchen Gründen auch immer.
00:23:23
Speaker
Genau, das ist einfach wichtig. Das ist nicht... Das darf nicht eingeschränkt sein. Es klingt alles so nach Hausverstand und ja eh, aber wir müssen bedenken, die meisten dieser Vertragsvorlagen oder dieser Anfragen kommen aus dem US-amerikanischen Raum und da gibt es das vorherrschende Prinzip des Total Buyouts. Also wir zahlen dich einmal und dann wollen wir nie wieder was von dir hören. Wir sichern uns alle Rechte. Da gibt es eben auch nicht sowas wie das Persönlichkeitsrecht oder besondere Rechte an biometrischen
00:23:53
Speaker
Daten oder zumindest nur in einzelnen Staaten jetzt inzwischen, wie auch immer. Aber deswegen haben wir das hier vorne eingereiht, weil das eben nicht selbstverständlich ist bei diesen Anfragen. Und die amerikanischen Künstler schauen, soweit ich das mitbekomme, in den Medien, die ich konsumiere, auch etwas neidisch nach Europa und sagen, wie toll, dass die Europäer da diesen Schritt weiter vorangegangen
00:24:17
Speaker
Absolut, das war auch der Grund, weshalb aus einem europäischen Sprecherdachverband ein globaler Sprecherdachverband wurde, weil die Amerikaner uns kontaktiert haben und gesagt haben, hey, wir haben mitbekommen, was ihr da macht, cool, super, wir wären gern dabei und wir wissen, dass ihr in Europa viel besser geschützt seid, Urheberrecht, Persönlichkeitsrecht, DSGVO, da schielen alle sehr, sehr neidisch drauf jetzt, aber wir hätten gerne
00:24:44
Speaker
Quasi Best Practice Beispiele, die wir dann an unsere Senatoren und an unsere Gesetzgeber herantragen können, um zu zeigen, schau mal, so kann es doch auch gehen. Und das macht der US-amerikanische Verband sehr erfolgreich. Die sind an allen in den letzten ungefähr sechs Monaten, kamen jetzt einige
00:25:00
Speaker
Wenn ihr davon gelesen habt, gehört habt, da hatte immer auch der US-amerikanische Sprecherverband Narva seine Finger im Spiel. Die ja auch hier, auch dein enger Partner waren in der Kommunikation. Ja, die auch hier mitgearbeitet haben. Ich finde das ja spannend, weil
00:25:16
Speaker
So häufig gibt es ja bei uns in Europa oder auch im deutschsprachigen Raum das Narrativ. Ja, können wir das machen? Schickt sich das? Wie guckt man dann auf uns? Wenn wir da so limitierende Gesetze machen, dann hängen wir uns ab. Und das Gegenteil ist eben auch der Fall. Es gibt diesen Pull-Effekt. Wir gehen mit bestem Beispiel voran und andere sagen, die Europäer haben es aber cool gemacht.
00:25:39
Speaker
wie hoch die Kosten teilweise sind, wenn man Dinge sehr stark einschränkt, das steht auf dem anderen Blatt Papier. Aber wir gehen mit einem guten Beispiel voran und ich finde, das ist ein unglaublich wertvoller Gedanke einfach. Es geht ja auch gar nicht so sehr um die Kosten. Es geht erstmal nur darum, dass diese neue, sehr distruktive Technologie nicht gegen bereits geltendes etabliertes Recht verstößt. Nicht wahr? Ich weiß jetzt nicht, ob der Hund im Bild ist, aber sie beschließt, eine Runde zu gehen.
00:26:08
Speaker
Sie hat die Kamera nicht umgehauen. Das ist doch gut. Das ist wundervoll.
Morphing und Blended Voices: Neue Entwicklungen und Bedenken
00:26:12
Speaker
Wir sind noch an R. Genau. Gehen wir mal weiter, oder? Ja, genau. Das nächste ist Morphing, sagt man, oder Blended Voices, also gemischte Stimmen. Ich nehme jetzt Flo's digitalen Stimmdatensatz meinen und noch den von zehn anderen Männern oder vielleicht auch noch von der Frau oder so. Misch die alle zusammen, um eine neue Stimme entstehen zu lassen.
00:26:30
Speaker
Ist ja eigentlich das, wo ich auch dachte, wenn sich KI entwickelt mit Stimmen, dann wird irgendwann nur noch so ein großes Kuddelmuddel-Quadratatsch bei rumkommen und wir können gar nicht mehr sagen, da ist meine Stimme drin und da nicht. Und das ist natürlich für uns eine riesige Gefahr, weil wir zum einen überhaupt nicht mehr mitbekommen, wo ist meine Stimme eigentlich drin. Wie wollen wir das überwachen? Das können wir kaum noch überwachen.
00:26:52
Speaker
Und was kostet das dann? Da ist 0,4% Patricks Stimme drin. Ich möchte dir also auch nur 0,4% der Gage geben. Das sind ja nur 32 Cent. Ich habe das Gefühl, wir vergessen es einfach. Passt schon, Patrick, oder? Auch auf Spotify ein Album veröffentlicht für dasselbe Geld.
00:27:12
Speaker
Und das sind glaube ich tatsächlich die Gefahren, die im Stimmmorphing stecken, dass man damit die Türen öffnet für sowas. Ja und auch die Überprüfbarkeit von Richtigkeit sage ich jetzt mal. Wer entscheidet dann das?
00:27:29
Speaker
Da ein spanisches Spanisch vielleicht in Brasilien plötzlich ausgespielt wird, aber da sind zu viele klassisch-spanische Anteile drin, sodass es dann plötzlich einen Wegschaltimpuls erzeugt im brasilianischen Fernsehen. Aber aus Sprechersicht heißt das,
00:27:48
Speaker
finden Stimmmorphing nicht gut. Wir empfehlen es nicht. Wir empfehlen es nicht zu tun. Wir empfehlen niemanden, sich in dieser Praxis zur Verfügung zu stellen. Wenn aber doch, und damit bauen wir eine Hürde, weil manchmal sagt man, warum sollen wir besser wissen, was die Welt braucht als vielleicht der Auftraggeber. Ist ein bisschen überheblich. Ja, okay, wenn das hergestellt werden soll, dann, und meine Stimme wird irgendwie dafür hergenommen, dann möchte ich aber jedes Mal 100 Prozent der Gage und wenn ihr 70 Stimmen miteinander mischt,
00:28:17
Speaker
und ihr 70 mal 100 Prozent der Gage zahlt und ihr das wirklich machen wollt, weil ihr es für wichtig empfindet, dann unterschreibe ich euch das auch. Das ist so der Grundgedanke, der in diesem Prinzip steckt. Wenn, dann teuer, aber eigentlich lieber nein. Und aus Gründen der Nachvollziehbarkeit des Mitspracherechts, weil müssen dann alle 70 ihr Okay geben, wenn dann plötzlich politische Werbung daraus entstehen soll. Das ist unsexy, das wird kein Auftraggeber machen.
00:28:42
Speaker
Vielleicht möchte ich aber einfach nicht aus ethisch-moralischen Gründen an welchem Output auch immer beteiligt sein.
Wichtige Überlegungen bei Übersetzung und Qualität von Stimmen
00:28:49
Speaker
Und das wird dann sehr, sehr schwer bis nicht mehr umsetzbar, dieses Mitspracherecht. Ähnlich, ein bisschen anders, aber auch ähnlich, die Sprachtreue haben wir es genannt, also das Übersetzen in andere Sprachen.
00:29:01
Speaker
Empfehlen wir auch nicht, raten wir auch ganz stark davon ab. Kurz zu übersetzen in andere Sprachen heißt, du wirst digitalisiert, du bist jetzt ein deutschsprachiger Sprecher und die Techniker, ich nenne die jetzt mal die Techniker sagen, wir können übrigens sehr gut den Patrick auch Portugiesisch sprechen lassen und wir können ihn sogar Japanisch sprechen lassen und du sagst, ist ja faszinierend, lass doch mal hören,
00:29:22
Speaker
Du hast keine Ahnung, ob das gut klingt oder nicht. Aber das ist die Idee. Wie sollen wir damit umgehen, dass deine Sprache, die eigentlich eine andere Sprache ist, wiederum eine andere Sprache übersetzt werden kann? Ganz genau. Davon raten wir grundsätzlich ab, auch wieder aus Gründen der Nachvollziehbarkeit und der Qualitätskontrolle. Weil am Ende, wenn meine Stimme on Air geht in Japan und ich sage aber plötzlich Sumos haben alle so ein kleines Schnipi,
00:29:45
Speaker
ohne dass ich das weiß, dann fällt das trotzdem auf mich zurück, weil es meine Stimme ist. Aber ich hätte gerne... Entschuldigung, jetzt bin ich... Du hast dich selber einmal in so einen Loop begangen. Die Fantasie ist ein bisschen weitergegangen, aber die möchte ich euch ersparen. Da war gerade ein Schnitt und wenn ihr wissen wollt, was da passiert ist, wir sagen es euch nicht.
00:30:05
Speaker
Es geht aber auch um die Erhaltung des sprachlichen Kulturgutes. Ich glaube, das ist ein ganz tolles Aspekt. Der ist irgendwie so ganz weich und der hat einfach nur so einen Idealismus. Aber das Tolle an uns Sprechern, was ich so toll finde, ist, wir sind einerseits irgendwie Business-Leute und versuchen etwas zu verkaufen, nämlich unsere Sprache. Und gleichzeitig aber sind wir ja auch Künstler und wir sind alle aus meiner Sicht Anwälte und Anwältinnen der Sprache.
00:30:29
Speaker
Und das finde ich toll. Wir alle kennen das, glaube ich, wenn wir Texte lesen im Studio, dass trotz achtfacher Redikation des Textes wir trotzdem noch Fehler merken und sagen, Moment mal, oder müsste es nicht heißen, so und so, weil wir sind noch mal die allerletzten, die auch noch mal den Haken dran machen, passt alles.
00:30:46
Speaker
Ja, und wir übernehmen dafür dann auch die Verantwortung. Dafür stehen wir mit unserem Namen. Und übersetzte Stimmen, ich hab's gehört, irgendwo hab ich eine Sprachausgabe gehört, das war offensichtlich ein amerikanischer Sprecher, der Deutsch gesprochen hat. Ich hab alles verstanden, das war nicht das Problem, aber es hat sich so ein bisschen wie Akzent und...
00:31:05
Speaker
eigenartig angehört. Und irgendwie höre ich immer wieder von ganz vielen Leuten das Argument, ich finde es auch so schade mit dem Einzug von KI und Stimmen, dass so die Hörgewohnheiten so vor die Hunde gehen. Und ich glaube, das ist jetzt was, da kann man jetzt drüber jammern und das ist vielleicht auch was, was wir mit so einem Dokument auch nicht wirklich entgegen, da können wir nichts groß entgegnen, aber das ist ein Aspekt, der ist nicht unwichtig. Wir wollen
Faire Vergütung: Lokale und globale Perspektiven
00:31:28
Speaker
gerne, dass die Dinge Qualität haben. Absolut.
00:31:31
Speaker
Genau, ein letzter Punkt ist das Markt-Ort-Prinzip. Das ist ein aus der Wirtschaft schon etabliertes Prinzip. Da geht es darum, dass
00:31:40
Speaker
Bezahlung, der Lohn, das Gagenniveau, mindestens immer dem entsprechen muss, wo es dann eingesetzt wird, das Ergebnis. Genau, wo das Usage passiert. Also wenn das digitale Duplikat in Indien erstellt wird und auch der Server in Indien liegt, aber Werbespots für Deutschland produziert werden, dann muss nach deutschem Gagenniveau
00:32:04
Speaker
bezahlt werden. Das steht da dahinter. Genau, die Idee ist, dass man nicht günstige, also weil wir im KI immer international denken müssen und dass man nicht sagen kann, wir kaufen da ein, die Sprecher gagen da ein, wo ein ganz günstiges Gehaltsniveau ist und wir senden die Sachen aber da oder verwerten sie da, wo es viel teurer ist und damit haben wir uns 800 Prozent kostengespart. Das soll damit
00:32:27
Speaker
quasi einfach reglementiert werden. Ganz genau. Und es steht mir jetzt auch als ganz persönliches Beispiel, steht mir auch frei, wenn ich zum Beispiel zweisprachig native bin, rumänisch und deutsch und ein eigenes digitales Sprachmodell für rumänisch hätte als Gedankenspiel und eines für deutsch, dann bin ich jetzt natürlich nicht gezwungen zu den rumänischen Gagenverhältnissen zu arbeiten, weil ich ja nun mal in Österreich lebe und hier die Lebenshaltungskosten wesentlich höher sind.
00:32:57
Speaker
Ich bin, steht mir natürlich frei zu sagen, mache ich total gerne, aber zu österreichischen Gagenverhältnissen. Es bringt mir einfach nichts. Ich kann, das spiegelt meine Lebensrealität nicht wieder. Und das hilft auch, die einzelnen Märkte so ein bisschen zu schützen vor
00:33:20
Speaker
Ich darf den höherpreisigen Markt nicht durch den niederpreisigen Markt gegeneinander ausspielen. Weil ich dir zugehört habe und dann verstanden habe, was wir hier damals aufgeschrieben haben. Das sind die Vertragsprinzipien im Grunde. Viel ist dabei, wo man sagt ja eh, aber wichtig trotzdem die zu haben.
00:33:38
Speaker
Und noch einmal kurz, schon gesagt, aber noch einmal kurz, die stehen deshalb auch ganz am Anfang in Kapitel 1, weil wir sagen, das sind auch die Versicherungen. Und das ist ehrlich gesagt, wenn ihr einen Vertrag aushandelt mit Auftraggeberseite, Sprecherinnenseite, und hier mit diesen Vertragsrichtlinien wird von vornherein gesagt, ne, das ist doch Quatsch, ne, das können wir euch nicht anbieten, das ist ja eine irre, dann, oh Vorsicht. Also das sind so die Basics, wenn man sagt, eigentlich Basics der guten Zusammenarbeit. Dann kann man eigentlich auch schon sagen, danke, aber nein, danke.
Prozess der Stimm-Digitalisierung und Verwendungsprinzipien
00:34:08
Speaker
jetzt gar nicht weiter sich über die Synthetisierung zu unterhalten. Zu große Kompromisse schon direkt beim Durch die Tür gehen sozusagen.
00:34:18
Speaker
Wir blättern mal um und kommen jetzt so richtig faktisch zu dem Moment, wir sind uns über die Basics einig mit den Principles und jetzt geht es darum, was passiert denn in der Zusammenarbeit? Wir müssen deine Stimme erst mal digitalisieren und dann wollen wir sie auch nutzen. Und das sind eigentlich die beiden großen Komponenten, die am Ende des Tages jetzt auch die Gage, die ja gefunden werden muss, ausmachen. Diese beiden Komponenten, Stimme, also das System, was deine Stimme digital herstellen kann,
00:34:46
Speaker
Erzeugen und als zweites die Nutzung dessen. Und wir kommen jetzt also zum Erzeugen, zur Stimmsynthetisierung. Meine Frage, man hört ja immer, ach guck mal, ich kann ja schon mit zwei Minuten Material und jeder Sprecher von uns hat wahrscheinlich irgendwo seine zwei Minuten Material online, die man einfach so findet. Kann ich deine Stimme schon sehr gut nachmachen?
00:35:07
Speaker
fällt dann diese Stimmsintition eigentlich weg? Oder wie? Ich frage das jetzt. Ich weiß eigentlich insgeheim die Antwort. Eine Suggestivfrage. Natürlich ist es so, dass man heutzutage und in Zukunft wahrscheinlich noch viel weniger frisch eingesprochenes Material braucht.
00:35:23
Speaker
Es ist schon so, je mehr Material ein Modell gefüttert bekommt, desto besser und vielfältiger einsetzbar ist es und so weiter. Aber wenn man jetzt nur zum Spaß mal für einen Prankcall oder sowas, was man natürlich
00:35:39
Speaker
unbedingt lassen sollte. Das ist scheiße, aber so. Dann reichen auch zwei, drei Minuten eines YouTube-Clips oder so. Oder ein Hörbuch, was du eingelesen hast. Das heißt aber nicht, dass man
00:35:55
Speaker
wenn der Kunde sagt, das reicht mir aber diese Qualität. Wir brauchen dich nicht zu digitalisieren, du musst nicht ins Studio kommen. Die Gage für die Synthetisierung, für die Erstellung eines digitalen Duplikats, die richtet sich nicht nach der Zeit, die ich im Studio bin, ob ich ins Studio muss und nochmal extra Material aufnehmen muss oder nicht, sondern die kann
00:36:19
Speaker
die wird auch pauschal mit einem Mindestbetrag für die Erstellung dieses Duplikats verrechnet. Einfach nur, dass dieses Modell existiert, weil allein das dieses Modell existiert, birgt schon Risiken, Gefahren für euch, potenzielle Nachteile im Beruf selbst, wie auch in
00:36:41
Speaker
persönlichen Leben. Also die Stimm-Synthesisierung muss immer bezahlt werden, egal ob du aktiv daran mitgestaltest oder ob gesagt wird, du musst nicht ins Studio kommen, wir haben eigentlich alles. Trotzdem muss das Erlaubnis, dass deine Stimme digitalisiert wird, bezahlt werden. Genau und wir haben grundsätzlich die beide Optionen abgedeckt mit einem Tagessatz.
00:37:01
Speaker
der sich in einer Range bewegt von 1000 bis 1500 Euro, ist aber auch kein Muss. Es kommt
Verhandlungen und Gagen bei der Stimm-Digitalisierung
00:37:10
Speaker
mir nicht so viel vor. Es sind einfach übliche Tagessätze von Schauspieler und Sprechern, wo man sagt, okay, da sind jetzt aber auch noch gar keine Nutzungsrechte dabei, sondern nur, dass ich den Tag dort verbringe. Um das Material einzusprechen, damit das System von mir lernt. Genau. Und für eine Basissynthese haben wir pauschal empfohlen, das Fünffache davon zu nehmen, 5000 bis 7500 Euro.
00:37:30
Speaker
Es steht euch aber natürlich frei, wenn ihr ein Alleinstellungsmerkmal habt, wenn ihr gut verhandeln könnt, wenn ihr eine Promistimme seid, vielleicht da auch wesentlich mehr zu verlangen. Das ist natürlich, das ist nur eine Faustregel, um zu sagen, ja, also für 250 Euro brauche ich mich nicht digitalisieren lassen.
00:37:48
Speaker
Aber das heißt quasi, das was du gerade erklärt hast, das steht jetzt hier in dem Dokument welches wir gerade durchgehen, bei 2b Vergütung Basissynthese. Die Idee ist quasi, egal woher das Material kommt und egal ob ich ins Studio gehe, weil du bist ja jetzt schon bei Tagessätzen, es muss eine Pauschale geben oder einen Betrag geben, einen auszuhandelnden Betrag, dass überhaupt der Auftraggeber meine Stimme digitalisieren darf.
00:38:11
Speaker
Genau. Ich persönlich habe ja gar keine Interesse daran, die zu digitalisieren. Also es muss ja erstmal mich jetzt jemand überzeugen, warum ich das machen sollte. Ich mache meinen Beruf total gerne. Ich komme total gerne überall hin. Ich habe hier ein Studio, mit dem ich mich in die ganze Welt verbinden kann. Wir sprechen auch gerne. Wir sprechen super gerne. Das macht sehr viel Spaß.
00:38:29
Speaker
Aber das ist vielleicht, weil da ist ein potenzieller Knoten, der mich auch ein bisschen Zeit gekostet hat, bis ich ihn klar entknotet hatte. Wir sprechen von Tagessätzen, auch wenn wir null Tage Investment haben. Das heißt, dieser Tagessatz oder diese fünf Tagessätze, die wir als Mindestgage für die Basissynthese andenken. Hier ist ein großer Bär, der durchstieg.
00:38:50
Speaker
Diese Tagessätze, jetzt habe ich den Faden an der wichtigsten Stelle verloren, also die Tagessätze, die wir andenken, die sind quasi eigentlich nur eine Art Bemessungsgrundlage, weil wir sagen, es muss Geld fließen, das überhaupt digitalisiert werden darf und die sollte sein in Höhe von fünf Tagessätzen, egal ob die fünf Tagessätze ausgeschöpft sind oder nicht. Ganz genau.
00:39:11
Speaker
Das ist quasi die Idee. Und deswegen ist es hier so formuliert, fünf Tagessätze sind integriert in dem Preis. Wenn ihr die nicht braucht, gut. Wenn ihr mehr braucht, dann muss man eben mehr zahlen. Aber die müssen mindestens gezahlt werden, dass sie überhaupt digitalisieren dürfen. Ja, da auch noch ein Hinweis am Rande, der sich vielleicht
00:39:30
Speaker
der vielleicht nützlich ist. Wahrscheinlich wird es darauf hinauslaufen, dass man für jedes bekannte Genre einen eigenen Klon braucht. Das heißt, wenn ich jetzt Werbung und Hörbuch und Dokus und Games alles als Trainingsmaterial in ein digitales System verfüttere,
00:39:51
Speaker
und dann etwas versuche daraus zu generieren, dann wird das System, weil es nur ein maschineller Wahrscheinlichkeitsalgorithmus ist und nicht einordnen oder selbstständig denken kann, wird es immer einen Mittelwert daraus erstellen. Und dieser Mittelwert ist nicht Fisch, nicht Fleisch. Der ist nie ganz Trailer, der ist nie Werbung, der ist nie Hörbuch, sondern immer irgendeine Mischmasch daraus. Der kleinste gemeinsame Nenner könnte man fast sagen. Ganz genau.
00:40:19
Speaker
Und es kann durchaus, wenn ihr Brand-Voice seid für einen globalen Konzern, kann es durchaus sein, dass ihr fünf oder sechs verschiedene digitale Bilder von euch erstellen lassen müsst. Und zwar einen für die Telefonanlage, einen für die Erklärfilme. Nur so als food for thought, warum das auch wichtig ist, dass man sich da gleich am Anfang nicht zu billig verkauft und unter Wert verkauft am Ende des Tages.
00:40:47
Speaker
An der Stelle vielleicht auch ganz kurz der Einschub. Wir haben festgestellt, als wir das alles recherchiert haben, das ist ja nicht einfach von uns ausgedacht, sondern wir haben ja sehr viele Gespräche geführt und wir haben gemerkt, die Auftraggeberseite, gerade auch die großen internationalen Firmen, die haben versucht, uns Sprecher
Risiken und Vorteile der digitalen Stimmennutzung
00:41:06
Speaker
Das böse Wort wäre abzuspeisen, aber uns Sprecher quasi dazu zu animieren, zu sagen, hier, wir wollen dich gerne und wir bieten dir einen sehr hohen Tagessatz von, sagen wir mal, 4000 Euro an. Wir brauchen dich nur zwei Tage und damit passt dann aber alles. Damit sind wir fertig miteinander. Und was ab dann passiert, musst du uns hier einmal unterschreiben, dass wir dann machen dürfen, was wir wollen. Das ist natürlich schrecklich, dieser Tagessatz oder dieser Synthetisierungsprozess,
00:41:33
Speaker
Der ist ein Baustein für die Gagenfindung, bei weitem nicht der einzige Baustein. Und das ist wichtig, das wäre ein Versuch euch, ich sage es ganz blöd, euch über den Tisch zu ziehen. Also in dem Moment, wo ihr sagt, ich habe einen hohen Tagesatz genannt bekommen und ich darf fünf Tage und das ist richtig cool, da bin ich richtig gut bedient mit. Da habe ich 20.000 Euro verdient. Das ist glaube ich eine Gefahr und wir haben festgestellt, das wird von großen Playern versucht.
00:41:59
Speaker
Und wir haben festgestellt, nein, das ist keine seriöse Art, die Gage zu finden. Damit seid ihr am Ende eurer Karriere, auf gut Deutsch gesagt. Es gibt keinen Grund mehr, euch als Menschen dann noch zu buchen. Und wenn ihr dann auch sogar die komplett uneingeschränkte Nutzung des KI-Modells eingeht, dann können globaler Konzern X oder
00:42:23
Speaker
der das gekauft hat, das sogar ein Dritte weiterverkaufen und vermarkten und das werden sie auch tun. Also ihr schaufelt euch damit euer eigenes Grab, wenn ihr das nicht klar definiert. Und wenn man heute sagt so, okay, aber die Systeme klingen noch nicht hundert Prozent perfekt, vielleicht klingen sie in fünf Jahren hundert Prozent perfekt und das Material ist eingesprochen, ihr habt die Rechte abgegeben, dann wird halt mit dem Material neu digitalisiert und auf einmal ist alles wunderbar.
00:42:45
Speaker
Genau. Für den Auftraggeber. Ja. Genau. Und damit kommen wir eigentlich für meine Begriffe zum wichtigsten oder zum... Ja, ich finde zum wichtigsten Punkt muss man sagen. Das war eigentlich für mich der Augenöffner, als wir das alles entwickelt haben und versucht haben, okay, woran müssen wir denken, welche Gagenkomponenten gibt es, dass es plötzlich dieses eine Ding gab, das nennt sich nämlich Neural Learning Fee.
00:43:09
Speaker
wo ich zu dir gesagt habe, um Himmels willen, das ist ja total crazy, das muss ja Schweine teuer sein und wir haben dann alle gemeinsam, wir beide, aber auch noch mit dritten und vierten und ganz vielen Leuten gemeinsam überlegt und haben immer versucht, dem einen Preis zu geben und sind immer selbst erschrocken, das muss ja eigentlich unglaublich teuer sein, aber wir müssen glaube ich, bevor wir hier die Astronomie der Höhen, in die sich die Gage entwickeln kann,
00:43:34
Speaker
besprechen. Einmal ganz kurz umreißen, was ist das Neural Learning, was ist die Neural Learning Vie? Weil für mich ist das eigentlich eins der wichtigsten Aspekte beim Verhandeln mit der Auftraggeberseite. Genau. Beim Neural Learning geht es um Folgendes. Wir erstellen einen digitalen Klon von unserer Stimme und nutzen dafür in der Regel einen der
00:43:57
Speaker
großen Anbieter, weil die einfach die größten Modelle haben, die klingen am besten. Ich glaube, der Begriff ist Big Data, und da hast du so unglaublich viele Daten, die du gesammelt hast. Das gibt so eine Handvoll. Ihr kennt sie eh alle. Ich will jetzt den Namen nicht in den Mund nehmen, um nicht verklagt zu werden. Nein, um auch nicht jetzt unbedingt Werbung zu machen für einen. Aber was dahinter steckt oftmals, nicht immer, aber oftmals im Kleingedruckten, wenn du dem Vertrag
00:44:25
Speaker
den du mit dem Provider sozusagen, mit dem Anbieter dieser Digitalisierungssoftware eingehst, die sagen, ja, du kannst es gerne digitalisieren, kostet auch nichts, überhaupt kein Problem. Das Modell gehört dann auch dir und du hast die totale Einflussnahme darauf und die totale Kontrolle darüber. Aber wir behalten uns vor, das Material, das du hochlädst, bei uns in den Mutteralgorithmus als Trainingsmaterial einzuspeisen.
00:44:52
Speaker
Du verquickst jetzt gerade kurz, ich räume einmal ganz schnell ein bisschen was auf, du verquickst gerade zwei Gedanken. Der eine ist, der Sprecher, die Sprecherin kann natürlich selber der aktiv sich Digitalisierende sein und sich um sich vielleicht selber anzubieten. Das war gerade ein Gedanke, den du drin hattest, was vielleicht interessant ist, was ganz unabhängig, dann gibt es auf einmal keinen Auftraggeber mehr. Aber wo trotzdem die Frage des Neural Learnings eine Rolle spielt, nämlich wer
00:45:17
Speaker
nutzt dann wie deine Daten im Hintergrund. Und da geht es um die großen Datensätze, die quasi immer potenter werden wollen und die die Daten, die wir geben, wenn wir professionelle Sprache ins Mikrofon sprechen und das quasi abgeben, die diese Daten natürlich mit Goldhand nehmen, weil du kannst 100.000 YouTube-Videos von irgendwelchen nuschelnden freundlichen Menschen digitalisieren und du kannst aber auch vielleicht ein paar sehr
00:45:47
Speaker
gut professionell arbeitende Stimmen digitalisieren, und die sind Gold wert. Genau, das ist einer von zwei essentiellen Punkten dabei, nämlich es ist schon klar geworden, auch bei ChatGPT und egal, Osora, auch bei Video und so, sind sie überall schon drauf gekommen, dass das Trainingsmaterial das System nicht verbessert durch die Masse, sondern man hat jetzt schon das gesamte Internet da eingespeist und kommt jetzt so auf durchschnittliche, leicht überdurchschnittliche Ergebnisse.
00:46:17
Speaker
Was die jetzt brauchen, um richtig gute Outputs, Endergebnisse zu erzeugen, ist qualitativ hochwertiges Material von Profis, von handwerklich top ausgebildeten Leuten, die das schon ihr Leben lang machen. Die charismatische Stimme haben. Genau. Und diese Zwischentöne, diese Eigenschaften, die man sich im Laufe der Jahre angeeignet hat, wie man anlautet, wie man klingt, das Lächeln in der Stimme, wie man atmet,
00:46:44
Speaker
wo man die Zäsuren setzt und so weiter, dieses ganze, ich nenne es jetzt mal die Soft-Skills der Sprecherarbeit, die werden in das System eingespeist und können nicht mehr rausgelöscht werden. Das ist das Wichtige daran. Das heißt, das neuronale Netz funktioniert ja so, ist ja einem Gehirn nachempfunden und das Gehirn lernt,
00:47:07
Speaker
Das ist jetzt vielleicht ein sehr großer Vergleich, aber der wird ja immer wieder gemacht, aber das neuronale Netz lernt. Und du kannst zwar hinterher sagen, ich möchte gerne, ich habe 500 Files, weiß ich, sind reingeflossen in das Netz von mir. Ich möchte, dass er die wieder rausnimmt. Ja, du kannst die rausnehmen. Du kannst vielleicht sogar sagen, die spezifischen Parameter, die meine Stimme imitieren, mit den Formanten, wo liegen die,
00:47:29
Speaker
welche Frequenzen, wie sich, in welche Vokale, in welcher Tonhöhe sich wie verhalten. Ich kann die Imitation der eigenen Stimme löschen, dass auch einfach die Information nicht mehr da ist. Wie wurde, wie soll jetzt diese explizite Stimme klingen? Aber der Lerneffekt, der Lerneffekt, der Lernerfolg, der ist gemacht, das System hat durch dich gelernt. Und je professioneller das Angebot ist, desto mehr Schaden fügst du damit zu, weil
00:47:56
Speaker
das System dadurch einfach wahnsinnig wertvolle Materialien bekommt, du kriegst das nicht mehr raus. Genau, also verkürzt gesagt, ich kann machen, dass es nicht mehr so klingt wie ich, der Output, aber ich kann nicht machen für kein Geld der Welt, dass es
00:48:12
Speaker
dass das System das vergisst, was ich alles jemals gelernt habe und kann. Das ist drin. Du kannst höchstens das System zerstören und das ist utopisch. Da gibt es eine Black Mirror Folge übrigens zu, wie genau das passiert. Aber da sind wir dann in Black Mirror. Das wollen wir lieber nicht.
00:48:31
Speaker
Und das noch einmal ganz kurz, da geht es natürlich um unsere Expertise als SprecherInnen. Da geht es natürlich um, wie ist die Stimmführung von Patrick? Wie beatmet er und belüftet er seine Stimme? Wo geht er hoch, wickelt er runter? Wie schafft er im Phasen? Wie betont er? Wie all diese Dinge? Und dann kann man auch deinen Klang subtrahieren und sagen, ich möchte aber, dass das
00:48:53
Speaker
dass die Stimme viel höher klingt oder was auch immer. Das alles, aber auch so ganz weiche Dinge wie, wie erzeugst du Humor? Wie klingt deine Stimme, wenn du lächelst? Wie wird sie brüchig? Alles das, was uns auch so menschlich macht und das ist natürlich dein großes Kapital. Das ist deine Expertise. In dem Moment, wo du sagst, natürlich darf das System das alles lernen, wo muss ich unterschreiben, weil ihr bietet mir so schön viel Geld. In dem Moment verkaufen wir
00:49:18
Speaker
Uns, unser komplettes Können, unsere komplette Expertise, unsere komplette Berufserfahrung und auch über die Stimme unsere Persönlichkeit, weil Stimme ist Persönlichkeit, das wissen wir alle. Und damit, um die Klammer zu schließen oder um den Punkt abzuschließen, haben wir uns gedacht, eigentlich hat dieser Posten einen unermesslichen Wert. Eigentlich kann man den nicht bestimmen, weil ich kann es auch nicht sagen, weiß ich nicht, Dietmar Wunder,
00:49:44
Speaker
ist 500.000 wert und Florian Mehrländer ist 498.000 wert. Ich weiß es nicht. Aber was man machen kann, ist das kategorisch auszuschließen. Genau, weil es muss nicht ins neuronale Netz fließen. Genau. Das ist nämlich der große Knackpunkt oder zumindest wie wir jetzt. Heute stand Juli 2024.
00:50:09
Speaker
die beste Möglichkeit gefunden haben, damit umzugehen, weil wir eben nicht wollen, dass etwas unwiederbringlich eingeschweißt wird. Weil das so wahnsinnig irre, wertvoll ist und wir das eigentlich nicht weggeben wollen. Und um dem Ganzen einen Hebel zu geben, haben wir gesagt, denk an einen sechsstelligen Bereich, wenn du... Betrag. Betrag, genau, das wollte ich sagen. Denk an einen Betrag im sechsstelligen Bereich,
00:50:37
Speaker
wenn dein Auftraggeber sagt, nein, nein, wir wollen oder wir müssen das aber da schon einspeisen oder wir können es nicht ausschließen. Wir können es nicht ausschließen. Und das ist echt auch der Knackpunkt. Wir haben keine Einflussnahme darauf. Das ist immer ein Punkt, an dem man sagen kann, gut, sorry, dann halte ich mich. Wir glauben eigentlich, das Problem ist, es gibt Systeme, die funktionieren lokal.
00:50:57
Speaker
Und trotzdem braucht es natürlich auch eine unglaublich hohe Sorgfalt, zu sagen, dieses System haben wir so unter Kontrolle. Wir haben die Daten sicher bei uns auf dem Server. Wir achten sehr darauf, dass sie nicht rausgehen. Die werden niemals in das und das Netz einfließen. Der Traffic geht immer nur in die Richtung, nie in die Richtung. Und das ist eine Wissenschaft für sich. Da wird euch ein Auftraggeber auch nicht mal eben schnell sagen können, ne ne, unterschreibt mal, machen wir nicht. Wen das interessiert, da fand ich die Podcast-Episode mit Marco Manzo.
00:51:27
Speaker
ein Toningenieur von Studio Funk aus Düsseldorf. Wie heißt der Podcast von KI? Wir müssen sprechen von Anna-Sophia Lumpe und Sebastian Eck. Und die haben den Marco Manzo interviewt, genau zu dem Thema, falls sich da jemand noch weiter in die Tiefe bohren möchte, weil es ist spannend. Kolleginnen Podcast Empfehlung.
00:51:45
Speaker
Weil Studiefunk versucht genau das, die sagen, die nehmen unglaublich viele Ressourcen und unglaublich viel Energie, stecken sie dafür rein, dass sie sagen, wir, die haben eine sehr kompetente, gute IT-Abteilung zu sagen, wir achten genau darauf, dass diese Daten nicht rausgehen, weil wir wissen, dass das gefährlich ist, weil wir wissen, dass das wertvoll ist und weil wir das garantieren können müssen.
00:52:07
Speaker
Und das ist quasi in dem Moment, wo der Auftraggeber euch versichern kann, glaubwürdig versichern kann, diese Daten fließen nicht in die großen Systeme, ist diese Neural Learning Fee nicht interessant. Sobald das nicht ausgeschlossen werden kann oder sobald da Zweifel daran entstehen,
00:52:25
Speaker
ist das etwas, was sehr teuer ist und was ihr erkämpfen müsst, dass das nicht einfach mit unterschrieben wird. Und natürlich ist das nervig und natürlich denkt man, jetzt muss ich da mit dem Auftraggeber um einen sechsstelligen Betrag kämpfen. Ja, es geht um alles in dem Moment. Ja, und es geht auch darum, einen Referenzwert zu haben, wenn man diese vielen, es gibt ja jetzt auf den Pay2Pay-Plattformen gerade sehr, sehr verstärkt, von den großen Providern selbst, von
00:52:51
Speaker
Open AI von, wurscht, alle anderen kann man jetzt auch da an dieser Stelle einsetzen. Wir zahlen dir ein paar Hundert Dollar die Stunde, sogar echt räumlich, gar nicht so schlecht, dass du uns Sachen aufnimmst und so. Und das wird auch nur intern verwendet. Das ist genau das. Das ist genau das. Das ist genau das. Und da werden ein paar Hundert Dollar die Stunde dem einfach bei Gott nicht gerecht. Irgendjemand, da hab ich das neulich aufgeschnappt, du kriegst von uns einen Amazon-Gutschein. Oder 20 Dollar, wenn du eine Stunde so was nimmst. Hab ich irgendwo, ja.
00:53:20
Speaker
Naja, also das ist quasi, aus unserer Sicht ist das das Krasseste. Dieser riesige hohe Betrag, den das haben muss, den ihr da erkämpfen müsst, der ist unabhängig von der Vergütung-Basis-Synthese. Die Vergütung-Basis-Synthese ist einfach die generelle Eintrittskarte. Wir kommen zusammen ins Geschäft, ihr dürft meine Stimme
00:53:39
Speaker
digital herstellen, wenn ihr nicht ausschließen könnt, dass das Neural Learning passiert. Wir wollen, dass es ausgeschlossen
Wertschätzung und Geschäftsprinzipien für Sprecherstimmen in Datenbanken
00:53:46
Speaker
wird. Das ist übrigens so, wie wir am Anfang sagten, wir wollen euch nicht ermutigen, dass ihr KI-Aufträge annimmt. Wir wollen im besten Falle, dass alle ausschließen können, dass Neural Learning passiert, wenn es nicht ausgeschlossen werden kann.
00:53:57
Speaker
dann muss das sehr teuer sein. Und dann kommt das on top. Und dann gibt es witziger, ich glaube wir können weitergehen, wir haben uns jetzt sehr drauf rumgeritten, aber das muss drauf rumgeritten werden, weil witzigerweise gibt es jetzt unter dem gesamten Oberchapter Stimm-Synthetisierung, in dem wir uns ja noch aufhalten, einen dritten Punkt, der lustigerweise
00:54:18
Speaker
sich ganz anders verhält. Der ist nämlich ganz klein und der hat eher einen symbolischen Wert. Die stehen zwar einigermaßen gleichwertig nebeneinander, aber wo wir vom Neural Learning im sechsstelligen Bereich, Gagenbereich sprechen, da ist nämlich der Punkt listing fee, haben wir den genannt. Das ist eher der Gedanke, das muss nicht teuer sein, da geht es um die symbolische Kraft dieses Punktes.
00:54:41
Speaker
Genau, das ist eigentlich schon sehr schön gesagt. Und der Begriff listing fee sagt ja auch schon vieles oder das meiste aus. Es geht an dieser Stelle darum, dass aus KI oder aus der Möglichkeit durch KI einfach neue Geschäftsmodelle entstehen. Stimmagenturen zum Beispiel oder eben
00:55:02
Speaker
Studios, die sagen, wir synthetisieren. Wir beten 500 Stimmen an. Genau, lokalisiert und alles bpfein. Ich glaube, das ist ja auch das, was sich ganz viele denken, die KI wäre schon so weit. Auf welche Seite muss ich gehen, dass ich mir aus 500 Stimmen aussuchen kann, wie hört sich das mit der Stimme an? Ah, die Stimme nehme ich, die ist gut. Oder nehme ich doch die, wie klingt der Text mit der? Und dann klicke ich mich durch und gebe meinen Text in einen Editor ein und dann wird mir das mit Stimme 17 schön dargeboten.
00:55:30
Speaker
Und das sind natürlich unsere Stimmen, die da passieren. Und jetzt ist natürlich die Auftraggeberseite sagt, hey, möchtest du nicht auch, dass ich dich bei mir liste? Super cooles passives Einkommen, wenn ich deine da, weil ich habe super viel Traffic und dann gibt es immer Leute und da kommt echt, also mit deiner Stimme, da kommt bestimmt im Jahr 800 Euro mehr bei rum, überleg mal wie cool und du musst nichts machen, du musst nur einmal unterschreiben. Und wir sagen Moment, du möchtest meine Stimme anbieten,
00:56:00
Speaker
Kannst du, wenn alle Parameter drum herum zwischen uns ausverhandelt werden und passen, aber das kostet jährlich Geld. Weil wir wollen nicht, dass meine Stimme einfach überall angeboten werden darf. Genau, du hast es eigentlich eh schon schön gesagt. Eigentlich geht es darum, du willst was von mir. Ich habe überhaupt kein Bedürfnis. Ich habe bisher wunderbar gelebt und gearbeitet und du versuchst jetzt gerade ein neues Geschäftsmodell aufzubauen. Völlig legitim. Super. More power to you.
00:56:28
Speaker
Ich freue mich über das passive Einkommen, was du mir versprichst. Aber im Endeffekt bleibt, du brauchst etwas von mir, um überhaupt eine Daseinsberechtigung auf dem Markt zu haben. Und dazu kommt, dass jede Auslage, in der ich gestellt werde als Stimme, auch immer ein gewisses Risiko für mich
00:56:53
Speaker
birgt, wenn zum Beispiel Missbrauch betrieben wird, wenn der Server gehackt wird oder wenn... Je inflationärer meine Stimme angeboten werden kann, im Moment kann ich alleine nur meine Stimme herstellen. Und je inflationärer diese Stimme angeboten werden kann, desto weniger wert hat die auch.
00:57:09
Speaker
Ich glaube, das muss man einfach als Grundgedanken. Das heißt, das ist eine Vieh, die haben wir zusammen entwickelt, weil wir dachten, dieses Geschäftsmodell wird wahrscheinlich sich entwickeln, wird wahrscheinlich größer werden. Wie können wir damit umgehen? Und wir wollen, dass die Dinge einen Wert haben. Und sei es mal nur mal als Beispiel 120 Euro im Jahr, 10 Euro im Monat, sowas in dieser Größenordnung als symbolisches Beispiel, aber es muss halt einen Wert haben, dass meine Stimme in deinem System angeboten wird.
00:57:36
Speaker
Genau, und es soll ruhig auch für den Anbieter der Anreizeilen sich zu überlegen, möchte ich diese Stimme wirklich in meinem Portfolio haben. Weil was wir nicht wollen, ist so ein Stimmenfriedhof, eine Karteileiche zu sein aus 300.000 digitalisierten Stimmen.
00:57:54
Speaker
von der, wo ich dann eh nie zum Zug komme, aber ich habe alle Risiken und Nachteile einer... Digitalisierten Stimme. Danke, genau. Das ist der Hintergedanke zur Listing-Fee. Das muss gar nicht viel sein, da geht es nur um die Wertschätzung und um das böse Abhängigkeitsverhältnis. Und das ist nämlich eigentlich andersrum. Und wichtig, ganz, ganz, ganz wichtig bei dieser Sache, aber auch bei den anderen Creation-Komponenten, die wir gerade erklärt haben, ist,
00:58:21
Speaker
Die Gagen, die hier zwischen euch und dem Auftraggeber verhandelt werden, die sind nur für diese Creation bzw. bei der Listing-Feed dafür, dass es gelistet sein darf.
00:58:32
Speaker
die sind nicht Rechte zur Nutzung des Outputs. Ganz genau. Das heißt, in dem Moment, wo das passiert, und das steht auch im Gage und Kompass hier Vertragsrichtlinie mit drin, in dem Moment, wo so eine Listing-Fee ausgehandelt wird zwischen euch und dem Studio, sagen wir mal, was gerne 70 Stimmen anbieten können möchte, in dem Moment muss natürlich ein Vertrag aufgesetzt werden und der muss auch schon klären, wie wird es denn vergütet, wenn dann meine Stimme genutzt wird tatsächlich.
00:59:00
Speaker
Und da kommen wir jetzt, würde ich sagen, zur Nutzung. Da kommen wir zu dem zweiten großen Baustein. Das heißt, eins war überhaupt die General Principles. Zwei war jetzt die Herstellung der Stimme. Und drei ist, jetzt ist deine Stimme digitalisiert.
Regeln für KI-generierte Inhalte und menschliche Stimmen
00:59:15
Speaker
Jetzt hat ein Kunde die Möglichkeit, damit etwas herzustellen und schreibt einen Text und lässt sich generieren einen schönen Clip. Es ist wurscht, was er generiert. Am Ende des Tages, wenn
00:59:28
Speaker
die Qualität der Synthese ausreichend ist, um das Kundenbedürfnis zu befriedigen. Also gut genug, dass er es auf Sendung schickt im Falle von Werbung mit vielen tausenden Euro, teilweise hunderttausenden Euro an Schaltungskosten finanziert oder finanziell pusht.
00:59:46
Speaker
Dann bedeutet das auch, dass sich für mich bei der Vergabe von Nutzungs- und Lizenzrechten erstmal nichts ändert. Nutzung ist Nutzung. Genau, Nutzung ist Nutzung. Erstmal habe ich keinen Grund weniger zu verlangen, denn mein Geschäft ist nicht Zeit gegen Geld, sondern
01:00:02
Speaker
dass die vergabe von nutzungsvervielfältigungsrechten und lizenzen zur nutzung meiner stimme wenn du die nutz möchtest kostet das drei geld und ob die aus der dose kommt und weil die dose schon richtig richtig premium ist oder aus meiner kehle
01:00:17
Speaker
Ist eigentlich erstmal das Gleiche. Weil das müssen wir ganz kurz sagen, das war für uns auch eigentlich der größte Kurs. Wir waren natürlich selber unter Druck von gewissen Firmen, die gewisse Modelle irgendwie in den Raum gestellt haben, wo sie gesagt haben, ja die KI, die kostet dann 80 Prozent von dem, was ein echter Sprecher kostet. Und wir haben irgendwann mitbekommen, was ist denn das überhaupt für eine Denke, warum
01:00:42
Speaker
Soll die KI denn überhaupt erst mal weniger kosten? Ja klar, es gibt diese Fragen. Wenn unglaublich viel Output generiert wird, vielleicht sogar so viel, dass ich es nicht mehr präzise überwachen kann, da müssen wir Antworten für finden. Aber die Antwort kann nicht sein, dass wir generell uns erst mal rabattieren.
01:00:59
Speaker
Genau, es ging darum nicht mit vorauseilendem Gehorsam an die Sache der KI-Stimmnutzung heranzugehen und zu sagen, nur weil es synthetisch ist, ist es grundsätzlich billiger. Im individuellen Fall einer gigantischen Kampagne, einer Brand-Voice, einer Station-Voice, einer was auch immer, einer gigantischen Telefonanlage findet man natürlich, so wie man das jetzt auch schon macht.
01:01:21
Speaker
Aber genau in dem Verhältnis, wie wir das bisher auch schon machen, die einzelnen Verbände haben da unterschiedliche Rabattmodelle und an denen kann man sich erstmal orientieren. Aber wir wollten klarstellen, nur weil es KI ist, wenn es gut genug ist für den angestrebten Zweck. Aber das heißt, ganz faktisch, wir haben im Moment im deutschsprachigen Raum den VDS, das ist der Deutsche Sprecherverband, wir haben den Sprecherverband Voice aus Österreich und wir haben den VPS ASP aus der Schweiz.
01:01:51
Speaker
Die drei sind quasi auch mit, die haben an diesem Dokument auch mitgearbeitet, jetzt an dieser deutschen Version erst recht. Und das Dokument verweist auf die Webseiten der einzelnen Verwende, weil es Gagenempfehlungen gibt. Und nicht nur diese drei Länder haben Gagenempfehlungen, sondern wahrscheinlich hat ungefähr jedes Land weltweit irgendwie seine etablierten Listen. Und die sind erstmal die Grundlage, um herauszufinden, wie viel
01:02:19
Speaker
muss ich denn jetzt aufrufen als Nutzungsgase? Und selbst wenn euer Land zufällig keine Gageempfehlung hat, keine offizielle für euch der Hinweis oder der Anreiz, der Anstoß, einfach in eurem Preissegment erstmal zu bleiben, in dem was ihr bisher sonst auch dafür verrechnet.
01:02:36
Speaker
Ich muss, glaube ich, ganz klar sagen, das ist, glaube ich, auch der größte Frustmoment dieses Dokuments. Aber auch ganz bewusst, weil wir natürlich wissen, jeder, der eine KI-Anfrage bekommt, sagt so, oh, wo kriege ich Hilfe? Ich bin so lost mit all den Überlegungen, die ich habe. Ah, da gibt es ein Dokument, danke. Ich gucke mal, was soll das denn jetzt überhaupt kosten? Hier steht halt kein einziger Preis drin. Hier steht drin, guck in der Gartnuss, in der nach und die Preise sind unverändert. Das ist Frust, aber das ist einfach trotzdem die Realität, weil
01:03:06
Speaker
KI soll erstmal nicht günstiger sein als der normale Mensch. Hohe Volumen können günstiger sein, dafür gibt es auch schon jetzt Rabattmodelle. Und dafür kann natürlich jede einzelne Sprecherin, jede einzelne Sprecher was aushandeln. Aber wir können jetzt hier nicht sagen, ab dem 50. Motiv, was hergestellt wird, seid ihr 10% günstiger. Das wäre totaler Irrsinn, wenn wir das aufgeschrieben hätten.
01:03:29
Speaker
Ja, und noch ein Argument an die Hand für Kunden, die sagen, ja, aber irgendeinen Nutzen muss es ja haben. Ja, der Nutzen, den es hat, ist, dass die Produktion unfassbar beschleunigt wird. Das heißt, der normale Weg der Nahrungskette ist ja vom Kunden zu einer Werbeagentur, dann wird da was getextet, dann wird da eine Videoproduktionsfirma engagiert, ein Tonstudio, das und so, dann muss das erstmal gewinnt casten.
01:03:57
Speaker
Dann muss der gerade Zeit haben und nicht im Urlaub sein. Der Karsten. Genau. Und derjenige oder die Glückliche darf dann gerade keinen Durchfall haben. Dann kommt sie vielleicht zwei Wochen später rein. Dann muss das Ganze postproduziert werden und so weiter. Und die ganze Nahrungskette wieder hoch durchkonjugiert sozusagen. Und jetzt geht das einfach auf per Knopfdruck. Das geht, du schickst es heute raus. Die Vertragsbedingungen sind geklärt.
01:04:26
Speaker
Fine, dann drückt einer irgendwo aufs Knöpfchen und die Kampagne ist geschaffen. Oder ich kann hochgradig individualisieren, wo sonst wir vier Tage im Studio stehen müssten. Für alle 6000 Märkte der Supermarktkette deiner Wahl individuelle Angebote erstellen, wofür einfach der Sprecher wochenlang im Studio stehen müsste und man auch super viel Studiozeit.
01:04:47
Speaker
Und dafür muss man natürlich einen Preis finden, auch für Sprecher. Und da sind wir auch genau an der Stelle, wo man merkt, Nutzung ist Nutzung, ist zwar schön einfach gesagt, aber das lässt sich da schon nicht mehr hinskalieren. Natürlich, wie gehe ich damit um, wenn ich wirklich 6000 individualisierte Motive herstelle und mehr? Natürlich nicht 6000 mal 100%, das wissen wir alle, das wäre Irrwitz, aber
01:05:11
Speaker
An dieser Stelle mit diesem Dokument können wir nicht mehr machen, als zu sagen, Nutzung ist Nutzung, 100% ist es wert. Das muss eure Grundidee sein, von wo ihr losrechnet. Und ab da seid ihr freier Marktteilnehmer und bietet das an, was ihr anbieten wollt.
01:05:27
Speaker
Und diese Verhandlungen sind so individuell, dass wir, wer sind wir, für euch zu entscheiden, was das Wert ist in der und der Größenordnung. Aber, was wir dann schon gedacht haben, was wichtig wäre, wäre eine, das ist jetzt der nächste Punkt, Punkt 4, Mindestvertonungen live ist, heißt der, nämlich eine Grenze einzuziehen,
01:05:48
Speaker
unter der es überhaupt keinen Sinn macht, die Kiste anzuwerfen, weil das halten ja auch alle Tech-Konzerne immer hoch. KI soll ja den Menschen nicht ersetzen, sondern soll ein unterstützendes Werkzeug, ein Assistent... Das sagt der Deutsche Ethikratik.
01:06:03
Speaker
Der deutsche Ethikrat sagt aber auch, sagen aber auch alle, wenn du jetzt Sam Altman fragst, dann wird der auch sagen, nein KI wird keinen einzigen Job vernichten, es wird neue Jobs schaffen, weil es so toll unterstützt, die Produktivität verstärkt und so weiter. Wir haben uns trotzdem gedacht, Vertrauen ist gut, Kontrolle ist besser und haben eine Art Untergrenze eingeführt, eine Anzahl von
01:06:26
Speaker
Mindestvertonungen, die vom Menschen passieren müssen, damit man die eben beim Wort nimmt und sagt, wenn es ein Werkzeug sein soll, das mich unterstützt, dann möchte ich aber weiter in dem Bereich auch arbeiten und sagen zum Beispiel,
01:06:40
Speaker
Fünf Spot-Versionen der Werbekampagne möchte ich einfach selbst sprechen. Eine Hörbuchstunde, die erste Hörbuchstunde sollte vom Menschen gesprochen sein. Auf der Basis kann man dann gerne skaliert aufbauen und sagen, ja, okay, weiß ich nicht, Herr der Ringe hat 1500 Seiten.
01:06:57
Speaker
Alle drei Bände und Simarillion auch noch dazu. Das wäre sehr, sehr viel Studiozeit und Kosten und so weiter in der Produktion, aber die erste Stunde, so. Das soll aber gleichzeitig eben dazu dienen, dass man jetzt nicht hergeht und sagt, ich habe jetzt einen Erklärfilm.
01:07:14
Speaker
Dafür würde ich jetzt gerne ein digitales Stimmmodell erstellen und diesen ganzen Rechtswahnsinn in Wahrheit mit Vertrag und hin und her dieses ganze Paket aufreißen, wenn es nur eine kleine oder mittlere normale Werbekampagne ist, wenn es nur ein Imagefilm ist oder eine Stunde Games oder was auch immer.
01:07:34
Speaker
dann bitte ins Studio Mensch, dann ladet den Sprecher die Sprecherin ein und macht das und freut euch an der echten zwischenmenschlichen Kommunikation und alles was darüber hinaus geht, kann man sich dann darüber unterhalten, bei Bedarf die zu digitalisiert zu produzieren.
01:07:51
Speaker
Ich muss ja ganz persönlich einschieben, diese Idee kommt vielleicht, um den Credit auch sauber zu formulieren, diese Idee kommt vom Deutschen Sprecherverband VDS, die haben das entwickelt und als ich das als eines der vielen Komponenten, die wir ordnen mussten, um überhaupt so ein Dokument herzustellen, gehört habe, habe ich gedacht,
01:08:12
Speaker
Ist das praktikabel? Macht das Sinn? Ich habe da tatsächlich sehr viele Fragezeichen gehabt. Ist das für die Auftraggeberseite irgendwie attraktiv? Es geht ja auch immer darum, wie kommt man zusammen und so weiter. Und ich glaube, das ist das, was in meinem Kopf am meisten gewachsen ist. Wo ich da am Anfang eher abneigend war und dachte, was haben die denn da vor vom VDS?
01:08:34
Speaker
Und es ist, glaube ich, aus so einer ganz weichen Argumentation total wertvoll. Weil das ist die menschliche Komponente. Und es ist auch erklärbar, warum man das will. Man möchte gerne, dass die Dinge real bleiben. Dass nicht nur noch irgendwie Synthetik irgendwas herstellt. Und wenn wir jetzt zusammenarbeiten, du beauftragst mich, ich soll meine Stimme geben für deinen großen Business, dann gerne sage ich, machen wir gerne. Ich freue mich auch. Und ich freue mich auch, dass ihr viel vor habt.
01:09:02
Speaker
Aber es ist mir wichtig, dass die ersten acht, da könnt ihr hier dann ablesen, wieviel da empfohlen wird, die ersten so und so viele Motive, die ersten so und so viele Seiten, die ersten so und so viele Stunden von mir in echt gelesen werden. Und ich glaube, damit untermauern wir auch die Qualität des Ganzen, weil auch nach außen, ich meine, es ist ehrlich gesagt sogar ein Verkaufsargument, wenn ich etwas einschalte und ich höre, ah, das ist erstmal, hört sich das ganz natürlich an, und erst bei Stunde vier merke ich, oh, da hört sich das
01:09:29
Speaker
doch nicht ganz natürlich an. Ist da was drin? Ich merke in der ersten Stunde Hörbuch, die noch vom Menschen gesprochen ist, bin ich total wach bei der Sache und dabei. Und in der zweiten Stunde schalte ich plötzlich ab. Es klingt kaum unterscheidbar, aber es spricht unterschiedliche Areale in meinem Gehirn an. Das ist ja auch schon bewiesen, dass digitalisierte Stimmen tatsächlich die Amygdala ansprechen, die für Geräusche und Gefahrenzustände
01:09:52
Speaker
Aber das ist jetzt natürlich kein Argument, was die Auftraggeberseite für sich spannend findet. Nein, aber ich finde es wichtig zu wissen und mitschwingen zu lassen im Gespräch. Und deswegen ist das eigentlich, finde ich, ein ganz, ganz spannender Vorstoß, der bei mir lange Zeit gebraucht hat, bis ich ihn richtig schätzen gelernt habe. Ja, das darf auch sein. Man muss auch nicht mit einem einverstanden sein. Wir haben versucht, alles, was uns zum heutigen Zeitpunkt bewusst war, in ein Dokument zu packen.
01:10:23
Speaker
Und jetzt kommen wir zu den weiteren vertraglichen Aspekten. Was jetzt kommt, ist weniger ein KI-spezifisches Novum, sondern nimmt Bezug auf bereits etabliertes geltendes Recht oftmals. Deswegen ist es getrennt von den Prinzipien, die tatsächlich sehr stark auf die KI
01:10:43
Speaker
Und wir hatten anfangs all diese ganzen Punkte in einer großen, klare Sammlung, Brainstorming-Dokument. Und stimmt uns zu. Und haben es quasi auseinandersortiert. Die Principles sind so die große Versicherung für alle SprecherInnen. Und alles, was jetzt kommt, sind einfach vertragliche Punkte, die man auf jeden Fall beachten sollte.
01:11:05
Speaker
Genau. Und wir fangen einfach gleich direkt an mit dem Recht an der eigenen Stimme. Wir haben es ja eigentlich schon mehrfach getont. Das haben wir jetzt schon öfters erwähnt. Die Stimme ist Teil der biometrischen Daten und dadurch im Persönlichkeitsrecht besonders geschützt. Das ist das Recht an der eigenen Stimme in Europa. Da sind die Amerikaner tatsächlich sehr eifersüchtig auf uns und das kommt so langsam in einzelnen Staaten.
01:11:29
Speaker
Aber das bedeutet, ich muss als Sprecher, Sprecherin auch die Möglichkeit haben, eine Nutzung abzulehnen oder eine Verwendung vielleicht auch einen neuen Wert beizumessen, wenn die über den ursprünglich vereinbarten Zweck hinausgeht.
01:11:45
Speaker
Genau, das ist auch was, was später sogar noch einen eigenen Punkt erhält, dass ich einen Überblick darüber haben muss, was darf, wann darf ich auch nein sagen, was darf damit alles gemacht werden. Genau, genau. Ähnlich auch mit dem Urheberrecht und dem geistigen Eigentum, das ist auch wieder ein EU-Spezifikum, aber du kannst in der EU deine Stimme nicht
01:12:08
Speaker
verkaufen. Du kannst nur die Nutzungsrechte an deinem Werk, an deinem urheberrechtlich geschützten Werk verkaufen. Und du hast dann trotzdem noch das geistige Eigentum, dass das nicht übertragbar ist. Das ist ganz wichtig, weil oft in den amerikanischen Standardverträgen eben auch diese Rechte mit abgegolten.
01:12:31
Speaker
Sobald du das unterschreibst, hast du relativ schlechte Karten, das im Nachhinein wieder zurückzuholen oder zu fordern oder dafür irgendwie extra vergütet zu werden. Nur weil du dann im Nachhinein herausgefunden hast, aber Moment mal, da gibt es ja ein Gesetz, das mich noch zusätzlich schützt.
01:12:47
Speaker
Und das ist natürlich im KI-Kontext viel, also das ist etwas, was zum Beispiel in meinen allgemeinen Geschäftsbedingungen schon längst drin steht und wahrscheinlich bei ganz vielen, ich verkaufe nicht meine Stimme, ich verkaufe nicht das Aufgenommene als Produkt, sondern ich verkaufe euch die Rechte, dass ihr das nutzen dürft. Das ist ja eigentlich bei uns allen, glaube ich, gang und gäbe und trotzdem ist es im KI-Kontext natürlich deshalb so wichtig, weil es dann nicht mehr um diese drei Textblöcke geht, sondern es geht darum, dass ihr damit alles machen könnt und das besitzt ihr dann nicht.
01:13:15
Speaker
Auch die DSGVO, der nächste Punkt, der Datenschutz, könnte eines der schärfsten Schwerter sein, die wir in Zukunft haben werden, weil dieses Recht so sehr, danke schön, so sehr es alle wahrscheinlich hassen oder gehasst haben, weil man dann ständig auf alle Cookies akzeptieren, klicken muss und so. Dieses Recht ist sehr eindeutig formuliert, es ist sehr faktisch. Das Urheberrecht ist sehr interpretativ, ist sehr weich, ist sehr offen.
01:13:45
Speaker
Und Datenschutz ist super eindeutig und gar nicht wirklich anfechtbar. Das heißt, damit haben wir als Rechteinhaber, die ihre Rechte verkaufen, ein ganz scharfes Sch***. Ganz genau, da geht es eigentlich nur darum, dass man, wer jetzt vielleicht in Österreich oder auch im deutschsprachigen Raum diese Entwicklungen verfolgt, der gute Max Schrems mit seiner NGO,
01:14:07
Speaker
seiner NGO None of Your Business, der beruft sich schon seit Jahren, wenn er Meta klagt oder wenn er jetzt eben auch die Staaten zur Klage auffordert, er klagt sie ja nicht selber, sondern er verortet einen Missbrauch oder ein rechtswidriges Verhalten und hält dann, reicht dann eine Initiative quasi ein,
01:14:29
Speaker
dass die Anwaltschaften der Staaten dem bitte nachgehen sollen. Und das tun sie dann auch. Dazu sind sie verpflichtet, wenn man auf einen Rechtsbruch hingewiesen wird. Ich glaube, wir können auch, weil das tatsächlich ja alles teilweise auch selbsterklärende Punkte sind, schauen, wo wir jetzt sehr wichtig darauf hingehen. Zum Beispiel den nächsten Punkt, wir nennen ihn kurz, das ist der Gerichtsstand. Das kennt man schon jetzt aus allen möglichen Verträgen.
01:14:52
Speaker
Ja, da muss man jetzt nicht groß erklären, das gleiche auch mit dem Haftungsausschluss. Das liest man sich durch, das ist klar, das kennt jeder Jurist und da brauchen wir jetzt nicht ins Detail zu
Vertragliche Aspekte und fortlaufende Zustimmung bei neuen Nutzungen
01:15:02
Speaker
gehen. Wir kommen jetzt zu den vertraglichen Aspekten, so ist das hier gegliedert, das eben waren die rechtlichen Aspekte, jetzt die vertraglichen, das ist quasi, es geht einfach weiter mit weiteren Hinweisen, was noch zu beachten wäre, wenn ihr Verträge abschließt. Genau. Und da kommen wir zu der Zustimmung der neuen Nutzungsformen.
01:15:20
Speaker
Prinzipiell solltet ihr immer das Recht haben, zu einer neuen Nutzungsform eure Zustimmung geben zu dürfen. Das heißt, es geht um diese Klausel, die wir alle vielleicht schon kennen oder die einige von uns vielleicht kennen, wo drin steht, ich trete hiermit die Rechte ab an dem aufgenommenen Material, auch für bislang unbekannte Nutzungsarten. Das ist das.
01:15:42
Speaker
Vielleicht kommt ja was drittes irgendwann in der Zukunft, von dem wir nicht kennen, so wie AI, KI jetzt plötzlich. Das kann das sein, absolut richtig. Es kann aber auch sein, dass wir sagen, wir hatten bisher eigentlich nur die Telefonanlage unseres Konzerns, KI, gespielt. Jetzt hätten wir aber gerne eine Werbekampagne.
01:16:00
Speaker
oder einen, keine Ahnung, Avatar, der alle unsere E-Learnings macht oder so. Und es muss euch das Recht gestattet sein, dieser neuen Nutzungsformen zuzustimmen, sie aber auch abzulehnen aus Gründen. Ich möchte nicht, warum, was auch immer das dann für euch bedeutet, aber es
01:16:19
Speaker
Es heißt nicht nur, weil ihr einmal einen Vertrag unterschrieben habt, dass die euch dann ausquetschen können. Beziehungsweise im Rückkehrschluss könnte man ja auch sagen, eigentlich ist dieser ganze Punkt auch schon an anderer Stelle, im besten Falle vertraglich, ganz klar geklärt, dass immer für alle Outputs, die passieren müssen, ihr einen Konsent geben müsst. Also dass von vornherein gesagt wird, ihr müsst informiert werden darüber, wir wollen mit deiner Stimme jetzt die und die neue Kampagne machen und das und das und das und das.
01:16:48
Speaker
Wenn du damit nicht okay bist, dann sag uns bitte innerhalb von zwei Wochen Bescheid oder sowas. Also, dass man ganz klar definiert, was darf mit deiner Stimme überhaupt gemacht werden. Kann aber sein, dass man sich geeinigt hat, nee, Kampagnen dürft ihr machen, so viele ihr wollt. Habt ihr meinen Freibrief, wie auch immer. Aber das heißt nicht, dass ich jetzt plötzlich ein Computerspiel damit entwickeln darf und diese Stimme als Main Character einsetzen darf.
01:17:10
Speaker
Oder es ist vielleicht nicht groß drüber gesprochen worden und dann steht da irgendeine Wischi-Washi-Klausel drin, dann kann man sagen, Moment, jetzt klopfen wir mal ab, sind neue Nutzungsformen, das darf nicht generell alles möglich sein, das sollten wir im Vertrag formulieren. Neue Nutzungsformen müssen abgeklärt werden. Exklusivität ist auch etwas, was wir aus unserem Arbeitsalltag
01:17:28
Speaker
kennen, da geht es einfach nur darum, dass man auch weiterhin die Exklusivität sehr genau definieren muss, dass die was wert ist. Je breiter sie, je diffuser sie formuliert ist, desto mehr muss sie auch wert sein. Es ist für uns einfach auch ein Ausschluss, dann an anderer Stelle weiteres Einkommen haben zu können, Aufträge annehmen zu können. Und wie gesagt, auch das sind jetzt alles die meisten Sachen davon haben jetzt gar nicht so viel mit KI zu tun, sind einfach generelle Vertragspunkte. Auch die Exklusivität gibt es ja jetzt schon genauso.
01:17:57
Speaker
Genau, und im Zuge dessen auch das Verbot der Namensnennung, was oft passiert, wenn man zum Beispiel die neue Stimme eines großen Sprachassistenten wird oder so. Darf man da nicht sagen, ich bin übrigens der neue Alexander oder so was. Genau, so ist es. Und in vielen Märkten ist aber das Recht auf Namensnennung gesetzlich verankert.
01:18:18
Speaker
Und wenn ihr darauf eingeht, dass ihr von diesem Recht nicht Gebrauch macht, dann solltet ihr euch das gesondert vergüten lassen. Oder wenn ihr garantiert, dass ihr das niemandem sagt. Ganz genau. Das hängt auch zusammen mit der Frage der NDA, aber die kommt später. Aber da gibt es noch eine spannende Anekdote. Dann springen wir da später erst hin.
01:18:41
Speaker
Qualität der digitalen Nachbildung, da geht es natürlich jetzt wieder um was sehr KI-spezifisches. Die Idee dahinter ist eigentlich, ich finde die Idee ja schön, dass wir Anwälte der Qualität des gesprochenen Wortes sind. Nicht nur die Anbieter, sondern auch die Qualitätshüter.
01:18:56
Speaker
Und die Qualität der digitalen Nachbildung sollte natürlich im besten Falle gut sein und im besten Falle so gut sein, dass sich jeder Sprecher und jede Sprecherin, die ihre Stimme da haben digitalisieren lassen, auch wohl mitfühlen. Und hier geht es darum, dass man sagen kann, stopp Leute.
01:19:12
Speaker
Das war aber in dem kleinen Demo, was ihr mir vorgeführt habt, viel schöner. Wie klingt das denn? Das ist ja für mich rufschädigend. Man erkennt irgendwie, dass ich es bin oder es steht vielleicht sogar irgendwo drauf. Und dann klingt das so wie Krütze. Ich möchte gerne, dass das qualitativ besser gemacht werden kann. Es ist ja auch, wenn ihr im Studio live und in Farbe was aufnehmt, auch immer die Möglichkeit da zu sagen, nein, ich bin nicht damit zufrieden. Ich kann das besser. Ich habe das gerade so schlecht gesprochen. Bitte gibt mir noch einen Take. Mir gefällt das gar nicht. Im digitalen. Ganz einfach.
01:19:40
Speaker
Nächster Punkt, spezifische Produkte und Programme. Da geht es eigentlich so ähnlich, wie ich muss sagen können, was ich will und vor allem auch, was ich nicht will. Ganz genau. Geht es hier darum, dass ich sagen kann, ich möchte oder bin ich da gerade falsch gepolt, ich möchte nicht für Parteiverbung zum Beispiel. Zum Beispiel, genau. Es kann sein, dass ich sage, ihr könnt jede Form von Werbung mit mir machen, aber keine parteipolitische Werbung.
01:20:05
Speaker
Oder ihr könnt von mir aus alle eure Kühlschränke besprechen, aber keine Autos, weil ich mag keine Autos. Aber diese Form von Mitspracherecht muss gegeben sein. Oder ich mache Pizza-Werbung, aber keine neapolitanische Pizza, sondern nur sitzianische oder römische Pizza.
01:20:21
Speaker
Wichtig, würde ich sofort, wäre für mich eine große Frage. Das wäre auf jeden Fall ein Dealbreaker. Das wäre ein großer Deal. Ganz klar. Der nächste Punkt, Ausschluss von bestimmten Inhalten und Missbrauch. Genau. Ich bin lustigerweise, diese ganzen Punkte, die hier hinten stehen, die habe ich nicht so auf dem Schirm so sehr, deswegen gucke ich die immer so frank an und hoffe, dass du jetzt schnell die Antwort gibst, weil ich das immer gar nicht... Was ist das, Patrick?
01:20:44
Speaker
Naja, da geht es darum, dass ich prinzipiell von vornherein, bevor wir was auch immer für eine Zusammenarbeit starten, sagen, ich möchte keine erotischen Hörbücher von mir. Das existiert einfach nicht von mir. Das gibt es einfach nicht, weil das entspricht nicht meiner Wertvorstellungen.
01:21:02
Speaker
Ja, auch Sexualität. Im Grunde ist das speziell auch für die Computerspielbranche sehr interessant, weil es oft, wenn man einem Computerspielcharakter spricht, dann mit einer umfassenden Nutzungsrechteabtretung verbunden ist und dann gibt der Hersteller den Spielern die Möglichkeit in gewissen Mods
01:21:27
Speaker
selber Zusatzcontent zu dem Spiel zu erstellen und wie Menschen, nein, wie Männer, muss man leider so sagen an dieser Stelle, eine grundsätzliche Entschuldigung für unser Geschlecht nun mal so sind, sind viele dieser Mods pornografisch oder erotischer Natur und dann wird ohne den Eigentümer dieser Stimme zu fragen,
01:21:52
Speaker
Porno-Content für dieses Computerspiel erstellt. Das ist dann ein Missbrauch, der dann vom Hersteller geahndet werden muss, weil wir das vertraglich festgelegt haben. Du kannst gerne, also ich gebe diesem Character meine Stimme und du kannst damit alles machen, was du willst, aber ausgeschlossen ist erotischer Content. Aber sag mal, Patrick, das, was du jetzt erklärst, das ist doch das, was ich eben zu spezifische Produkte und Programme erklärt habe. Ich glaube, ich habe was Falsches erklärt. Kann das sein?
01:22:22
Speaker
Nein, das nicht wirklich, weil da geht es eben auch um den Missbrauch und um die Verantwortung, wer dem nachgehen und das aus der Welt schaffen muss. Spezifische Produkte, Programme bedeutet, ich darf nicht als Kunde einen digitalen Klon erstellen und sagen, ich halte mir aber offen, wofür ich den verwende. Ich weiß noch nicht genau, vielleicht mache ich Hörbücher, vielleicht mache ich aber auch sprechende Kühlschränke.
01:22:47
Speaker
Und ich hätte bitte gerne, dass du mir hier ein Blanko unterschreibst. Ich möchte das noch entscheiden können. Genau. Und bei Auslust von bestimmten Inhalten und Missbrauch geht es ganz klar darum. Ganz klar, aber kein Porno. Aber kein Porno. Und wenn doch Porno durch die Community, echt dumm gelaufen, scheiße, aber dann ist es nicht meine Verantwortung, das aus dem Netz zu nehmen, sondern die Verantwortung dessen, der
01:23:09
Speaker
das hergestellt hat. Genau, zum nächsten Punkt, die Gebühren-Transparenz heißt im Grunde nur, dass man an bestimmten vertraglich festgelegten Zeitpunkten die Möglichkeit haben sollte, die Gagen an Inflation oder veränderte Nutzungsbedingungen anzupassen. Eigentlich ein ganz klassisches Beispiel wäre, dass man sagt,
01:23:30
Speaker
Wir haben ja ganz vorne in den Principles stehen, dass es immer eine zeitlich limitierte Nutzung der Stimmherstellung sein muss und dass man dann vielleicht einen Vertrag schließt, wo drin steht. Es muss aber danach die Möglichkeit geben, den Vertrag zu verlängern zu den gleichen Konditionen.
01:23:46
Speaker
Dann sagt man, naja, das weiß ich nicht, ob ich das unterschreiben sollte, weil ich hab keine Ahnung, wie sich KI entwickelt, wie sich die Welt entwickelt, wie sich das Gagen-Niveau entwickelt und so weiter. Das ist auch meine Stimme in drei Jahren viel mehr wert, weil ich dann plötzlich den Riesen-Prestige-Gig gelandet habe oder so.
01:24:01
Speaker
Und das aus Fairnessgründen soll für beide Seiten die Möglichkeit geben, alle, wie auch immer, drei Jahre die Stellschrauben nach zu justieren.
Rechtskonformität und klare Vertragsgestaltung im KI-Kontext
01:24:12
Speaker
Aber jetzt kommen wir zum nächsten Punkt und das war auch einer, über den wir länger gesprochen haben, weil ich habe zu dir gesagt, ich verstehe dich nicht. Und ich glaube, das ist auch wirklich der einzige Punkt, den ich nicht ganz leicht finde zu verstehen, wenn ich das gesamte Dokument ist. Wir haben versucht, dass es intuitiv verständlich ist. Kannst du ihnen uns erklären, was, weil der ist wichtig.
01:24:31
Speaker
Sehr gerne. In diesem Punkt geht es im Grunde nur darum, dass man nicht leichtfertig seine Rechte, die einem laut der Datenschutzgrundverordnung zustehen,
01:24:43
Speaker
leichtfertig pauschal abtritt. Diese Klauseln sind oft versteckt in irgendwelchen Unterparagrafen oder so und dann wird man verführt dazu, das einfach zu unterschreiben, weil das ist eh so viel Legal-Sprech. Und DSGVO kriegt man ja auch ständig irgendwie einfach in Ordnung.
01:25:02
Speaker
Das ist nur der Reminder, dass da sehr viele eurer Rechte sehr faktisch und eindeutig beschrieben sind und ihr die immer in einem gesonderten Dokument mit einer gesonderten Vereinbarung, vielleicht einem Annex zum Hauptvertrag oder einem zusätzlichen Punkt in dem Vertrag klar definiert und eindeutig geregelt.
01:25:29
Speaker
abtreten solltet. Und zwar nur das, was auch wirklich notwendig ist für diese Zusammenarbeit. Das heißt, konkrete Vorstellungen eines Beispiels, der Auftraggeber sagt, so wir haben uns ja wirklich über jedes Detail jetzt hier schön auseinandergesetzt und der Rest ist nur so Vertragsfüllfangs, bitte hier einmal unterschreiben. Und dann steht da womöglich sowas drin wie, ich trete die DSGVO-Rechte ab,
01:25:52
Speaker
Warum trete ich die ab? Ja, weil haben wir ja da und da, tritt mal ab. Nein, die DSGVO ist ein riesiges Paket an Rechten. Oder auch so was wie, ich verzichte auf mein Recht des Opt-outs zur Nutzung für was auch immer. Oder ich verzichte darauf, die laut DSGVO mir zustehenden Rechte zu nutzen oder mich darauf zu berufen. Genau. Die DSGVO ist einfach
01:26:18
Speaker
wahnsinnig wertvoll für uns als KünstlerInnen und wir sollten sie nicht einfach mit einer Unterschrift quasi aushebeln. Das ist die Idee. Macht das Paket auf, guckt rein, da drin ist so viel drin, das muss man gesondert betrachten. Ja. Ja, alles klar. Das steht in diesem Punkt, weil ich finde, der ist am meisten Juristensprecher und am wenigsten mir selbst klar, was darum geht. Aber das passt. Das ist halt auch einfach juristisch sehr, sehr wichtig. Ja, genau.
01:26:44
Speaker
Wir kommen zum nächsten Punkt und wir sind auch demnächst durch mit dem Dokument. Wir haben es gleich geschafft, aber noch drei Punkte, Patrick. Der Umgang mit NDAs. Das NDAs ist Non-Disclosure Agreements, heißt das, soweit ich weiß. Das heißt Verschwiegenheitsabkommen. Dass ich sage, okay, du bist jetzt unsere neue Stimme und du kriegst auch
01:27:03
Speaker
aber du darfst es niemandem sagen oder du darfst vielleicht schon, wir würden gern mit dir verhandeln, aber bitte unterschreib mal gleich von vornherein, dass du mit niemandem, das wird übrigens gemacht, das habe ich schon häufiger gehört, das ist natürlich immer blöd. In dem Moment nimmt man sich auch das Recht, darüber mit Leuten zu sprechen, sich ordentlich beraten zu lassen und in dem Moment, wo ausversehen irgendwo eine Information durchsticht, weil ich spreche jetzt davon, weil es dieses Beispiel tatsächlich gab,
01:27:30
Speaker
kann es sein, dass man in Rechtfertigungsnot gerät, weil man sagen muss, nein, ich habe das aber niemandem gesagt und man auf einmal sagt, du hast dein NDA gebrochen. Das heißt, NDAs sollten im besten Falle, wenn sie geschlossen werden, nicht einfach pauschal dich komplett stumm machen und dir den Mund zu binden, sondern sollten dir ermöglichen, dass du trotzdem dich mit der Materie beschäftigst, dass du trotzdem auch darüber reden darfst, was gut läuft und was nicht so gut läuft vertraglich, dass vielleicht so Best Practice Verträge auch
01:27:57
Speaker
formuliert werden können und auch Worst Practice-Konditionen benannt werden dürfen und ein NDA bringt das natürlich zum Schweigen und das ist nicht in unserem Sinne. Schön zusammengefasst. Natürlich ist nichts hinzuzufügen. Vielleicht ein bekanntes Beispiel ist Stormy Daniels hat ein NDA unterschrieben, den sie dann gebrochen hat. Das trauen sich dann die Allermeisten nicht.
01:28:17
Speaker
Wenn man zu seinem Recht kommen will, muss man erstmal, ist man erstmal vor diese moralische Entscheidung gestellt, breche ich einen Vertrag, den ich unterschrieben habe. Und mach mich damit wahnsinnig angreifbar. Und mach mich wirklich angreifbar. Und das will niemand. Das bringt euch gar nicht erst in dieses System. Und es ist halt unglaublich übel und leider auch so schnell gemacht im Sinne von, hey, wir haben hier eine riesen Anfrage, ein riesen KI-Ding und da geht es auch um richtig viel Geld.
01:28:41
Speaker
Bitte nenn uns, wie viel du dafür haben willst. Also so pausch, das ist übrigens vollkommen schrecklich, aber das passiert. Sag uns mal in der Hausnummer, wie viel möchtest du, in welchem Bereich stellst du dir deine Gage generell vor? Kann man ja so gar nicht sagen. Und bitte, wenn du möchtest, dass wir dich ernsthaft weiter im Gespräch halten, bitte als erstes unterschreib uns mal diese NDA. Ist natürlich eine total schwierige Abwägung, wie gehe ich damit um, weil wir sind ganz oft nicht in der Position zu sagen, geht gar nicht. Ja, dann bist du halt nicht mehr im Rennen. Aber trotzdem, dieses Dokument sagt ganz klar,
01:29:12
Speaker
Vertragssprache und geltendes Recht. Auch jetzt schon in Verträgen ganz üblich, dass sowas drin steht. Genau, sollte immer eine euch, eine Sprache sein, der ihr mächtig seid und die euch verständlich ist. Also wenn das übersetzt werden muss, dann sollte auch der Auftraggeber die Kosten der Übersetzung aus dem wahrscheinlich Englischen ins Deutsche zum Beispiel übernehmen. Das ist nicht eure Aufgabe.
01:29:32
Speaker
zu Mutmaßen, was da drin stehen könnte, ein Übersetzungsprogramm zu nehmen, das eventuell juristische Freiheiten nicht adäquat übersetzen kann oder selbst jemanden zu bezahlen, in der Hoffnung, dass ihr vielleicht einen Auftrag abschließt. Wenn der Auftraggeber ernsthaft mit euch zusammenarbeiten möchte, sollte er diese Kosten übernehmen.
01:29:54
Speaker
Und wir kommen zum letzten Punkt, der ist verwandt mit dem Vorletzten. Das geht um die Kosten, um die Anwalts- und Gerichtskosten. Du hast mir das schon einmal erklärt und ich fand das so eine schöne Idee, dass ich von vornherein die Seite, mit der ich juristisch im Klinch liege, von vornherein aber mal abgesichert habe, dass die meine Anwaltskosten zahlen. Das gefällt mir. Aber das steht hier drin, richtig? Ganz genau. Das finde ich gut.
01:30:20
Speaker
In erster Linie sollte dir ausreichend Zeit gegeben werden, um das Dokument auf Herz und Nieren zu prüfen und dir eine zweite Meinung zu holen und so weiter. Das heißt, was oft leider Praxis ist in den Synchronstudios, man kommt zu Tür rein und bevor man zu Tür reinkommt, muss man erstmal so eine völlige rechte Abtretung unterschreiben, sonst kommt man gar nicht zur Tür rein.
01:30:40
Speaker
Das geht gar nicht eigentlich aus legistischer Sicht. Man sollte immer die Möglichkeit bekommen, sich externe Beratung zu holen. Die Kosten, die daraus entstehen, auch bei einem eventuellen Gerichtsverfahren, sind dabei immer vom Auftraggeber zu übernehmen.
01:30:58
Speaker
Wir wollen ja nichts von dem. Er erhofft sich eine Produktivitätssteigerung, eine Veränderung des Workflows, Verbesserung des was auch immer. Deswegen sollte er auch... Und man darf eins nicht vergessen, die potentiellen AuftraggeberInnen, die uns hier anfragen, sind ja mitunter möglicherweise
01:31:15
Speaker
riesige Firmen, richtig globale große Firmen und gegen die will niemand von uns vor Gericht ziehen und dann womöglich noch die juristischen Kosten tragen müssen. Also davor haben wir alle Angst. Nur ganz kurz, wir haben ja jetzt dieses ganze Dokument, ich glaube es klang mitunter vielleicht hier oder da so, als ob wir uns das einfach so ausgedacht hätten alles und das einfach mal so hingeschrieben haben.
01:31:38
Speaker
Das haben auch viele Anwälte gegengelesen und Anwältinnen. Absolut. Wir hatten mehrere Anwältinnen bei der Entwicklung mit dabei und auch die Anwältinnen der einzelnen nationalen Verbände haben da nochmal drüber geschaut und nochmal auf das spezifische lokal-nationale Recht abgeklopft. Nochmal der Hinweis, es ist trotzdem keine Rechtsberatung.
01:32:03
Speaker
Genau, wir vor allem sind in allem, was wir gesagt haben, vielleicht auch flapsig mal, wenn ich dann jetzt zum Beispiel neapolitanische Pizza gedisst habe, ist ich, wenn die mich verklagen will, ich habe nichts gegen neapolitanische Pizza. Ja, aber wichtig ist auf jeden Fall zu verdeutlichen, wir haben wirklich unser Möglichstes gegeben, ein solides, fundiertes Dokument zu schaffen.
01:32:25
Speaker
was aber keine Rechtsverbindlichkeit hat. Genau. Auch wenn es juristisch gut geprüft wurde, ist es wichtig, dass ihr einen Anwalt euch sucht, mit dem ihr zusammen diesen Weg einer Vertragsfindung geht. Genau. Und für euren individuellen Fall die Beratung bekommt.
01:32:43
Speaker
Ja, ihr könnt euch da nicht auf unsere Worte berufen. Ja, leider. Und noch einmal, also wenn ihr jetzt eine Anfrage habt und ihr seid bis hierhin, also erstmal, wenn ihr bis hierhin mit uns gegangen seid, hey, Puh, Nerd-Faktor 4. Vielen Dank, wirklich vielen Dank, dass ihr mit uns durchgehalten habt und uns beim Abnerden zugeschaut habt. Mir macht sowas schon auch ein bisschen Spaß inzwischen.
01:33:06
Speaker
Mir nur so heif. Ich finde das Thema schon echt auch wahnsinnig anstrengend. Deswegen danke ich dir nochmal umso mehr, dass du das mit mir gemacht hast. Ich habe das aber auch gern mit dir gemacht, weil ich das Gefühl hatte, wir erforschen da auch ein neues Gebiet. Und das Erschreckendste finde ich, und ich bin so froh, wir haben jetzt Juli 24 ich selber als Sprecher, habe zum Glück einige Aufträge, aber ich hatte noch nie eine KI-Anfrage und bin froh, weil ich genau weiß, ich möchte sie eigentlich am liebsten ablehnen.
01:33:34
Speaker
Aber wenn sie kommt und sie vielleicht hochpreisig daherkommt, lehne ich sie natürlich nicht einfach mal eben ab, sondern fange an, mich mit ihr zu beschäftigen und deswegen auch nochmal der Hinweis an alle Zuhörer, wenn ihr eine KI-Anfrage habt, eine, die
01:33:47
Speaker
Eine, die eh günstig ist, die kann man vielleicht ganz leicht ablehnen, aber wenn ihr sagt, ich möchte mich da jetzt auseinandersetzen, ja tut es, aber tut es niemals so leicht physisch wie mit einer normalen Anfrage. Holt euch Hilfe, beschäftigt euch damit, nerdet euch durch, leider. Das ist dann die Aufgabe, die ihr dann...
01:34:04
Speaker
Und auch noch eine Selbstverständlichkeit, aber auch dieser hier einmal erwähnt, das ist der Wissensstand, der Stand der Dinge Mitte Juli 2024. KI entwickelt sich so schnell. Uns ist bewusst, dass wir wahrscheinlich mindestens einmal im Jahr dieses Dokument updaten werden müssen.
01:34:22
Speaker
So wird es wahrscheinlich auch eine Fortsetzung dieser Folge geben, wenn es signifikante Änderungen in diesen Empfehlungen gibt. Bitte nagelt uns jetzt nicht darauf fest, wenn ihr diese Folge Mitte 2026 hört und die Informationen daraus überholt sind. Wir können nichts dafür. Wir können leider noch nicht in der Zeit zurückreisen. Und vielleicht muss man auch manche Dinge anders bewerten dann?
01:34:43
Speaker
Das kann auch sein. Und vielleicht gibt es auch neue Dinge, die plötzlich ganz groß sind. Und vielleicht gibt es auch das eine oder andere, was wir hier gerade groß gemacht haben, wo man in eineinhalb Jahren oder in drei Jahren sagt, total naiv, wie die das da aufgeschrieben haben, ist doch totaler Quatsch. Heutzutage sind wir doch wo ganz anders. Heutzutage kann man das, was wir da aufgeschrieben haben, glaube ich, ernst nehmen. So ist es. Irgendwo muss man anfangen. Wir haben unser Bestes gegeben. Ich danke dir, Patrick, für diese Arbeit. Das hat Spaß gemacht.
01:35:10
Speaker
Ja, mir auch. Danke euch auch nochmal, dass ihr dran geblieben seid, wirklich. Es freut mich sehr. Wer das jetzt hört, ist ziemlich cool. Oder irre uncool. Man weiß es nicht, eins von beiden. Nein. Nachrichten wie immer an deeptalk at mike-rider.com. Ich freue mich auf euren Input. Danke dir nochmal, Flor. Streiche die Schildkröte. Ich hab das gemacht. Ich danke dir. Das war's für heute. Bis zum nächsten Mal. Bis bald. Ciao.