Hallo,
mich interessiert schon lange eine solche Anwendung. Jetzt frage ich mich nur, wie sieht es mit dem Uhrheberrecht aus. Unterliegt ein Stimmmuster eines Sprechers bereits dem Uhrheberrecht? Ich meine, der Sprecher wird ja nie selber aktiv. Es gibt ja auch z.B. viele Youtube Videos in denen Wortteile eine ganz neue Bedeutung erfahren. Ich selber habe da jetzt nichts passendes gefunden. Wie seht ihr das?
DeepFake TTS-Anwendung
- grinseengel
- Establishment
- Beiträge: 885
- Registriert: 29.03.2011, 13:47
- Echter Name: Andreas
DeepFake TTS-Anwendung
Website: http://www.pchobbyspieleschmiede.de/
Discord: https://discord.gg/PHZFBptfxJ
Fertige Projekte: https://grinseengel.itch.io/
Discord: https://discord.gg/PHZFBptfxJ
Fertige Projekte: https://grinseengel.itch.io/
Re: DeepFake TTS-Anwendung
Deine Frage ist relativ waage -"DeepFakes", "Stimmmuster" und Tonaufnahmen sind 3 verschiedene Bereiche.
Generell am besten bei sowas immer einen Anwalt fragen.
Was ich so denke (ohne Gewähr):
Mit DeepFakes meint man normalerweise KI-Animierte Szenen (obwohl auch reine Tonaufnahmen darunter fallen können).
Bei Bildern/Videos ist das denke ich relativ eindeutig: § 22 KunstUrhG: "Bildnisse dürfen nur mit Einwilligung des Abgebildeten verbreitet oder öffentlich zur Schau gestellt werden." Das gilt auch für Videos/Clips/Deepfakes.
Außerdem könnte es unter "Verarbeitung personenbezogener Daten" nach der DSGVO fallen, wenn eine Person durch das Bildnis oder den Ton erkennbar ist - dann braucht man natürlich das zweckbezogene Einverständnis der entsprechenden Person.
Wenn es generell um "Fakes" geht, d.h. du willst jemand was sagen lassen, was er nie gesagt hat, dann könnten natürlich ggf. auch sowas wie Schadensersatzansprüche geltend gemacht werden.
Mit TTS denke ich mal, dass du Text-To-Speech meinst. Wie liegen denn die "Stimmmuster" vor? Vortrainierte Neuronale Netze oder KI-Datenbanken fallen ja generell schon unter das Urheberrecht, würde ich mal stark annehmen.
Generell am besten bei sowas immer einen Anwalt fragen.
Was ich so denke (ohne Gewähr):
Mit DeepFakes meint man normalerweise KI-Animierte Szenen (obwohl auch reine Tonaufnahmen darunter fallen können).
Bei Bildern/Videos ist das denke ich relativ eindeutig: § 22 KunstUrhG: "Bildnisse dürfen nur mit Einwilligung des Abgebildeten verbreitet oder öffentlich zur Schau gestellt werden." Das gilt auch für Videos/Clips/Deepfakes.
Außerdem könnte es unter "Verarbeitung personenbezogener Daten" nach der DSGVO fallen, wenn eine Person durch das Bildnis oder den Ton erkennbar ist - dann braucht man natürlich das zweckbezogene Einverständnis der entsprechenden Person.
Wenn es generell um "Fakes" geht, d.h. du willst jemand was sagen lassen, was er nie gesagt hat, dann könnten natürlich ggf. auch sowas wie Schadensersatzansprüche geltend gemacht werden.
Mit TTS denke ich mal, dass du Text-To-Speech meinst. Wie liegen denn die "Stimmmuster" vor? Vortrainierte Neuronale Netze oder KI-Datenbanken fallen ja generell schon unter das Urheberrecht, würde ich mal stark annehmen.
Re: DeepFake TTS-Anwendung
Ich hab keine Ahnung, ob es dazu schon Gerichtsurteile gibt, aber ansonsten würde ich mich sehr stark darauf verlassen, dass unsere Rechtssprechung nicht schnell genug ist und es dafür einfach noch keine konkreten Gesetze gibt. Ich meine, die scheinen ja nichtmal beim Urheberrecht für von Menschen erstellten Inhalten im 21 Jahrhundert angekommen zu sein...grinseengel hat geschrieben: ↑07.05.2022, 16:20 Hallo,
mich interessiert schon lange eine solche Anwendung. Jetzt frage ich mich nur, wie sieht es mit dem Uhrheberrecht aus. Unterliegt ein Stimmmuster eines Sprechers bereits dem Uhrheberrecht? Ich meine, der Sprecher wird ja nie selber aktiv. Es gibt ja auch z.B. viele Youtube Videos in denen Wortteile eine ganz neue Bedeutung erfahren. Ich selber habe da jetzt nichts passendes gefunden. Wie seht ihr das?
Letztendlich dürfte es darauf hinauslaufen, dass Richter Gesetze die für andere Dinge gemacht wurden irgendwie sinnvoll interpretieren / übertragen müssen - mit unvorhersehbaren Ergebnissen.
Ein paar Probleme die ich hier sehe: Das Urheberrecht ist für Künstler, d.h. Menschen gedacht. Wenn ein neuronales Netzwerk einen Noise-Vektor futtert und hinten ein Bild raus kommt, dann war daran kein Mensch beteiligt, also gibt es erstmal kein Urheberrecht. Das Problem ist vermutlich, dass man bei vielen Ansätzen ja mehr als Rauschen reingibt, z.B. wenn man ein einzelnes Sprachsampel nimmt um daraus die Stimme zu extrahieren und die Stimme dann einen anderen Satz sprechen lässt. Aber da kopiert und editiert man ja nicht wirklich die Eingabe - sondern extrahiert statistische Eigenschaften und baut daraus etwas neues. Kniffelig dürfte sein, dass das ein sehr gradueller Übergang ist, man könnte ja z.B. ganz ohne Deep Learning einfach ganz viele Aufnahmen nehmen und daraus die Worte zusammenstückeln und damit dann jeden beliebigen Text sprechen lassen - das dürfte dann eine Urheberrechtsverletzung sein, weil man die ursprünglichen Aufnahmen einfach neu zusammen setzt.
Ich würde denken, dass nur einzelne Werke Schutz genießen können, und nicht die generelle Art oder der generelle Stil eines Künstlers - und das ist es ja, was Netzwerke extrahieren können (wenn man jetzt mal an die ganzen Style-Transfer-GANs denkt). Man müsste ja den Klang seiner Stimme schützen lassen, aber was ist, wenn ein anderer Mensch eine ganz ganz ähnliche Stimme hat? Für so Dinge gibt es dann ja eher Konzepte wie Markenschutz oder Patente, die keine Werke sondern 'Konzepte' schützen aber halt entsprechend beantragt und genehmigt werden müssen.
Letztendlich ist für mich das Problem, dass das, was bei Deep-Fakes passiert ziemlich kompliziert ist und es philosophisch nicht klar ist, was da überhaupt passiert und wie die konkreten Regeln dafür sein sollten. Und der nächste Algorithmus könnte ja wieder subtil anders funktionieren, man kann also keine Gesetze machen, die zu konkret sind. Ich meine, es gibt ja auch so dumme Dinge wie Urheberrechtsabgaben für USB-Sticks weil man damit ja Musik kopieren kann - das hat man halt vor 10 Jahren gemacht, das macht heute kein Mensch mehr.
Zur DSGVO und personenbezogenen Sachen: Es dürfte sehr darauf ankommen, ob man behauptet, ein Text wäre von einer bestimmten Person, oder ob man einfach nur einen Text generiert der wie diese Person klingt. Also z.B. wenn man einen Schauspieler als Voice-Actor in seinem Spiel benutzen will, dann sollte man halt vielleicht nicht auf die Packung schreiben "mit der Stimme vom Bruce Willis". Das ist ja auch in anderen Bereichen längst gängige Praxis, wenn man Markenrechte umgehen will, dann hat man halt einen Charakter der ganz ähnlich aussieht aber einen leicht anderen Namen hat.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
https://jonathank.de/games/
Re: DeepFake TTS-Anwendung
Was ist eine Leistung die Schützenswert ist? Michael Jackson hatte eine tolle Stimme, aber was währe diese Stimme ohne sein künstlerisches Können? Es ist dann nur eine zufällige einander Reihung von biochemischen Ereignissen die dazu geführt haben das er sich so anhört. ist es dann Schützenswert? Ist doch keine Leistung. Es ist die Leistung seiner Gene oder Gott oder was auch immer, aber es wurde nicht bewusst herbeigeführt.
Was ist wenn ich eine sehr ähnliche Stimme habe wie der deutsche Sprecher von Bruce Willes. Darf ich dann keine Filme synchronisieren? Wen will man dafür zur Rechenschaft ziehen? Meine Gene, Gott oder die Natur?
Uhhhh ein schwieriges Thema weil viel Geld im Spiel ist. Keiner will vom Kuchen was abgeben. Interessant wird es nur wenn ich z.B. älter bin als der Synchronsprecher von der Stimmer von Bruce Willes und so gesehen als erster auf der Welt war....darf ich dann den Synchronsprecher von der Stimmer von Bruce Willes verbieten zu synchronisieren :D
Was ist wenn ich eine sehr ähnliche Stimme habe wie der deutsche Sprecher von Bruce Willes. Darf ich dann keine Filme synchronisieren? Wen will man dafür zur Rechenschaft ziehen? Meine Gene, Gott oder die Natur?
Uhhhh ein schwieriges Thema weil viel Geld im Spiel ist. Keiner will vom Kuchen was abgeben. Interessant wird es nur wenn ich z.B. älter bin als der Synchronsprecher von der Stimmer von Bruce Willes und so gesehen als erster auf der Welt war....darf ich dann den Synchronsprecher von der Stimmer von Bruce Willes verbieten zu synchronisieren :D
- MEIN AKTELLES PROJEKT -> FirstStrike (PLAY THE DEMO) -> NEUER ENDBOSS -> schau dir das Video an
- WAS ICH SONST SO MACHEN -> Grafik und Design
- KUGELN FÜR ALLE -> BulletEmitter für Unity
- ICH MACH MAL SCHNELL EINE 3D ENGINE -> oyname 3DEngine
Re: DeepFake TTS-Anwendung
Naja, Leistung ist vermutlich das, worauf man sich verständigt hat, das es Leistung ist. Ist ein bisschen wie das Konzept des Besitzes, das ist ja auch keine physikalisch ableitbare Größe, sondern etwas das nur existiert, weil man sich darauf verständigt hat, dass es existiert und sinnvoll ist.gombolo hat geschrieben: ↑08.05.2022, 13:13 Was ist eine Leistung die Schützenswert ist? Michael Jackson hatte eine tolle Stimme, aber was währe diese Stimme ohne sein künstlerisches Können? Es ist dann nur eine zufällige einander Reihung von biochemischen Ereignissen die dazu geführt haben das er sich so anhört. ist es dann Schützenswert? Ist doch keine Leistung. Es ist die Leistung seiner Gene oder Gott oder was auch immer, aber es wurde nicht bewusst herbeigeführt.
Geistiges Eigentum ist dann noch abstrakter, aber es ist ja schon jedem klar, dass es wirklich Arbeit ist, ein Spiel zu entwickeln oder ein Buch zu schreiben. Und wenn man das einfach so kopieren könnte, würde ja niemand mehr Dinge erschaffen. Außer wir schaffen es, den Kapitalismus zu überwinden und Künstler auf andere Art zu bezahlen, dann bräuchte man kein Urheberrecht mehr.
Aber wenn ein Netzwerk jetzt etwas 'neues' produziert, das so klingt wie etwas das du aufgenommen hast, dann hast du dafür ja nicht im Tonstudio gestanden und am Ende kein Geld bekommen. Dir wurde keine Arbeit geklaut. Aber du hast auch keinen guten Grund mehr, morgen für ein anderes Projekt im Tonstudio zu stehen, weil du halt Geld haben willst, die Maschine aber nicht. Dein Geschäftsmodell ist also trotzdem irgendwie kaputt.
Irgendwie klingt für mich weder komplett erlauben noch komplett verbieten sinnvoll. Andererseits kann man auch kaum einen Mittelweg finden, immerhin kann man generierte Inhalte ja auch beliebig interpolieren (zumindest ist das sehr gut vorstellbar), dann klingt die Stimme eben nur noch zu 70% wie Bruce Willis. Und noch alberner als eine dieser Extreme wäre es, irgendwo eine Grenze einführen zu wollen, weil wie soll man das bitteschön sinnvoll messen?
Das wird alles noch ziemlich spannend werden, denke ich.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
https://jonathank.de/games/
Re: DeepFake TTS-Anwendung
Update: Leute werden sauer, weil Coding-Tool mit OpenSource Code trainiert wurde:
https://www.golem.de/news/sfconservancy ... 66608.html
Finde ich ein wenig weit hergeholt, zumal ein Großteil der Lizenzen ja kein Copyleft oder ähnliches beinhaltet. Und der Aufruf die Plattform zu verlassen ist auch merkwürdig, github hätte für Copilot ja auch andere Quellen hernehmen können, hat es aber nur deshalb nicht gemacht, weil sie selber die größte sind (und weil es vermutlich sorum am einfachsten war).
Aber was ich halt daran interessant finde ist, dass es möglicherweise die Diskussion neu entfachen könnte und vielleicht gibt es ja auch demnächst mal ein Gerichtsurteil dazu.
https://www.golem.de/news/sfconservancy ... 66608.html
Finde ich ein wenig weit hergeholt, zumal ein Großteil der Lizenzen ja kein Copyleft oder ähnliches beinhaltet. Und der Aufruf die Plattform zu verlassen ist auch merkwürdig, github hätte für Copilot ja auch andere Quellen hernehmen können, hat es aber nur deshalb nicht gemacht, weil sie selber die größte sind (und weil es vermutlich sorum am einfachsten war).
Aber was ich halt daran interessant finde ist, dass es möglicherweise die Diskussion neu entfachen könnte und vielleicht gibt es ja auch demnächst mal ein Gerichtsurteil dazu.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
https://jonathank.de/games/
Re: DeepFake TTS-Anwendung
Update: Artikel auf heise zum Thema:
https://www.heise.de/meinung/KI-Generat ... 26226.html
Ich glaube ich bin immer pessimistischer was die Lösbarkeit des Problems angeht. Man könnte natürlich generatives ML komplett verbieten, aber die Erfahrung zeigt ja, dass sowas noch nie funktioniert hat (Radiomusik wurde auf Kassetten aufgenommen, sowas hat man dann mit der heutzutage komplett albernen Pauschalabgabe versucht zu lösen, etc. ihr kennt die Geschichte).
Gleich mehrere Probleme:
- Kann man beweisen, dass ein Bild oder ein Sprachgenerator mit bestimmten Daten trainiert wurde? Bei traditionellen Kopien ist das leicht, das Werk gab es vorher schon und man kann es vergleichen. Bei Trainingsdaten ist das quasi unmöglich, insbesondere wenn man keinen direkten Zugang zum Netzwerk hat.
- Was ist der Unterschied zwischen Inspiration und Kopie? Wenn ein Maler gerne rote Kreise als Stilmittel einbaut, dann ist das irgendwo eine triviale Information. Man muss seine Bilder nichtmal gesehen haben um den Stil imitieren zu können. Aber ab wann ist ein Stil dann eigentlich ein Stil?
Früher musste man zudem noch "von Hand" malen, da gab es keine exakte Kopie von Stilen, das Kodieren von Stilen selber ist ja erst ein Nebenprodukt von ML. Früher konnte man also höchstens einen Stil imitieren, heute kann man ihn "exakt" kopieren (für eine merkwürdige Definition von "exakt", e.g. irgendein ML Feature Vektor)
- Wenn man Stile beliebig mischen kann, und überhaupt frei zwischen Bildern etc. interpolieren kann, dann macht es kaum mehr Sinn über eine notwendige Neuartigkeit eines abgeleiteten Kunstwerks zu reden. Ziemlich ähnliche Werke müssten ja prinzipiell erlaubt sein, sonst hat der erste Autor quasi ein Patent auf einen ganzen Cluster an Kunstwerken, aber dann kann man einfach ein Epsilon unter dieser Ähnlichkeit bleiben (per Schieberegler). Mal ganz davon abgesehen, das man "Ähnlichkeit" sowieso kaum sinnvoll messen kann.
- Wenn ML Werke keinen Schutz genießen, aber oft nicht direkt von menschlichen Werken unterscheidbar sind, wie funktioniert in der Praxis der Nachweis, dass du dein Werk selber erstellt hast? (https://news.artnet.com/art-world/artis ... rt-2240795).
- Wo setzt man überhaupt die Grenze zu "ML generiert"? Eine Texteingabe in ein Bild umwandeln ist nicht kreativ genug, die Texteingabe mit einem zusätzlichen Bild für die grobe Struktur der Ausgabe anzureichern (wie man es bei Stable Diffusion z.B. tun kann), reicht auch noch nicht, aber ein ML Entrauschungsfilter zählt offensichtlich noch als Handarbeit. In ein paar Jahren sind die Grenzen komplett zerflossen, wie will man da überhaupt noch sinnvoll Handarbeit von Generiert unterscheiden?
Das sind alles irgendwie sehr prinzipielle Probleme, wo keine Art von neuem Gesetz sinnvoll erscheint. Wenn es keinen Kompromiss geben kann, dann bleibt nur noch ML komplett zu verbieten (siehe oben), oder das Urheberrecht komplett abzuschaffen. Was beides gleich albern klingt...
Und zum Schluss noch ein ganz anderer Punkt: Kunst ist ja eine Art von Kommunikation, jemand drückt seine persönlichen Gefühle und Erfahrungen in einem Werk aus, und wenn ich es betrachte, bin ich auf eine gewisse Art mit dem Künstler verbunden. Ich kann es ein stückweit nachempfinden. Aus diesem Grund würde ich mich betrogen fühlen, wenn KI Kunst als menschliche Kunst angepriesen wird. Ich könnte heute schon in ein Museum gehen und den ganzen Tag darin rumlaufen und Eindrücke sammeln und alles wäre eine Lüge, denn alles war nur generiert und nicht echt. Es gab nie einen Künstler. Das menschliche geht verloren, es ist nur noch eine stumpfe, mechanische Triebbefriedigung, es ist die Vorstufe zu "Ich bleib in meiner dreckigen Wohnung sitzen und spritz mir Endorphine, anstatt raus zu gehen und echten Spaß zu haben". Dafür bin ich doch nicht am leben. Ich will meine Zeit nicht mit generiertem Quatsch vergeuden.
https://www.heise.de/meinung/KI-Generat ... 26226.html
Ich glaube ich bin immer pessimistischer was die Lösbarkeit des Problems angeht. Man könnte natürlich generatives ML komplett verbieten, aber die Erfahrung zeigt ja, dass sowas noch nie funktioniert hat (Radiomusik wurde auf Kassetten aufgenommen, sowas hat man dann mit der heutzutage komplett albernen Pauschalabgabe versucht zu lösen, etc. ihr kennt die Geschichte).
Gleich mehrere Probleme:
- Kann man beweisen, dass ein Bild oder ein Sprachgenerator mit bestimmten Daten trainiert wurde? Bei traditionellen Kopien ist das leicht, das Werk gab es vorher schon und man kann es vergleichen. Bei Trainingsdaten ist das quasi unmöglich, insbesondere wenn man keinen direkten Zugang zum Netzwerk hat.
- Was ist der Unterschied zwischen Inspiration und Kopie? Wenn ein Maler gerne rote Kreise als Stilmittel einbaut, dann ist das irgendwo eine triviale Information. Man muss seine Bilder nichtmal gesehen haben um den Stil imitieren zu können. Aber ab wann ist ein Stil dann eigentlich ein Stil?
Früher musste man zudem noch "von Hand" malen, da gab es keine exakte Kopie von Stilen, das Kodieren von Stilen selber ist ja erst ein Nebenprodukt von ML. Früher konnte man also höchstens einen Stil imitieren, heute kann man ihn "exakt" kopieren (für eine merkwürdige Definition von "exakt", e.g. irgendein ML Feature Vektor)
- Wenn man Stile beliebig mischen kann, und überhaupt frei zwischen Bildern etc. interpolieren kann, dann macht es kaum mehr Sinn über eine notwendige Neuartigkeit eines abgeleiteten Kunstwerks zu reden. Ziemlich ähnliche Werke müssten ja prinzipiell erlaubt sein, sonst hat der erste Autor quasi ein Patent auf einen ganzen Cluster an Kunstwerken, aber dann kann man einfach ein Epsilon unter dieser Ähnlichkeit bleiben (per Schieberegler). Mal ganz davon abgesehen, das man "Ähnlichkeit" sowieso kaum sinnvoll messen kann.
- Wenn ML Werke keinen Schutz genießen, aber oft nicht direkt von menschlichen Werken unterscheidbar sind, wie funktioniert in der Praxis der Nachweis, dass du dein Werk selber erstellt hast? (https://news.artnet.com/art-world/artis ... rt-2240795).
- Wo setzt man überhaupt die Grenze zu "ML generiert"? Eine Texteingabe in ein Bild umwandeln ist nicht kreativ genug, die Texteingabe mit einem zusätzlichen Bild für die grobe Struktur der Ausgabe anzureichern (wie man es bei Stable Diffusion z.B. tun kann), reicht auch noch nicht, aber ein ML Entrauschungsfilter zählt offensichtlich noch als Handarbeit. In ein paar Jahren sind die Grenzen komplett zerflossen, wie will man da überhaupt noch sinnvoll Handarbeit von Generiert unterscheiden?
Das sind alles irgendwie sehr prinzipielle Probleme, wo keine Art von neuem Gesetz sinnvoll erscheint. Wenn es keinen Kompromiss geben kann, dann bleibt nur noch ML komplett zu verbieten (siehe oben), oder das Urheberrecht komplett abzuschaffen. Was beides gleich albern klingt...
Und zum Schluss noch ein ganz anderer Punkt: Kunst ist ja eine Art von Kommunikation, jemand drückt seine persönlichen Gefühle und Erfahrungen in einem Werk aus, und wenn ich es betrachte, bin ich auf eine gewisse Art mit dem Künstler verbunden. Ich kann es ein stückweit nachempfinden. Aus diesem Grund würde ich mich betrogen fühlen, wenn KI Kunst als menschliche Kunst angepriesen wird. Ich könnte heute schon in ein Museum gehen und den ganzen Tag darin rumlaufen und Eindrücke sammeln und alles wäre eine Lüge, denn alles war nur generiert und nicht echt. Es gab nie einen Künstler. Das menschliche geht verloren, es ist nur noch eine stumpfe, mechanische Triebbefriedigung, es ist die Vorstufe zu "Ich bleib in meiner dreckigen Wohnung sitzen und spritz mir Endorphine, anstatt raus zu gehen und echten Spaß zu haben". Dafür bin ich doch nicht am leben. Ich will meine Zeit nicht mit generiertem Quatsch vergeuden.
Lieber dumm fragen, als dumm bleiben!
https://jonathank.de/games/
https://jonathank.de/games/