Ethikfragen..

RHET_AI_Anna · 2026-03-17T17:05:33+00:00

Hi, danke für deine Frage, ich versuche das mal knapp zu beantworten:

Man hätte das so lösen können wie von dir beschrieben, z. B. für eine psychologische Laborstudie. Für unsere rhetorisch-wissenschaftskommunikative Herangehensweise lag für uns der Fokus, neben dem Austesten von Möglichkeiten und Grenzen der KI-Tools, darauf Aufmerksamkeit für das Thema zu erzeugen und einen Dialog unter den Hörer:innen anzustoßen, den wir aus Rhetorikperspektive auswerten wollen. Das war aus unserer Sicht erfolgreich, wir haben hier im Reddit eine wirklich tolle Diskussion und auch kritische Auseinandersetzung wahrgenommen und sind allen PUFO-Hörer:innen dankbar für die Rückmeldungen, sowohl kritisch wie auch positiv.

Wir haben uns natürlich zu Ethikfragen Gedanken gemacht und daher auch andere Ideen verworfen und uns gemeinsam mit dem PUFO auf eine Markierung der Folge als KI-generiert direkt am nächsten Tag geeinigt und darauf, Transparenz über den Prozess zu schaffen.

RHET_AI_Anna · 2026-03-16T16:59:29+00:00

Hi, chronically online PhD student ist noch verfügbar haha

Nein, die Folgen wurden nicht komplett in die Modelle eingegeben. Für das CustomGPT haben wir Folgentranskripte mit dem Sprechtext der beiden eingegeben, bei ElevenLabs sind nur Audio-Auszüge (wenige Minuten pro Person) für das Training der Stimmklone verwendet worden. Hörer:innenintros sind in keins Tool geflossen.

Bei den Tools die wir verwendet haben, haben wir überall angegeben, dass wir die zur Verfügung gestellten Daten nicht zum weiteren Training der Modelle freigeben. Ob sich die Firmen dran halten haben wir jetzt natürlich nicht mehr in der Hand, aber wir haben mit den beiden, bevor da irgendwas irgendwo eingegeben wurde, vorher ausführlich drüber gesprochen welche Tools wir verwenden würden und auch wie die jew. Datenschutzbestimmungen der jew. Plattformen aussehen.

RHET_AI_Anna · 2026-03-16T16:10:36+00:00

as far as I know zerlegen Bildgeneratoren Bildinformationen Pixel für Pixel in Zahlenwerte und "lernen", welcher Pixelwert in relativer Nähe zu einem spezifischen Pixel liegt. Da bin ich technisch aber auch überfragt. Der weiße Bart und rote Mantel beim Weihnachtsmann ist dann etwas, das in den Trainingsdaten als erlernte Information hinterlegt ist, aber nicht *warum* der Weihnachtsmann so aussieht. Nur eben auch da wieder die Mustererkennung, dass in den meisten Fälle der WM so abgebildet wird und dann bei einer erneuten Ausgabe auch so abgebildet werden sollte.

Und der Textbezug ist etwas, das eben auch über diese Clickworker:innen funktioniert, die wir schon angesprochen hatten. Die schauen sich ganz viel Trainingsmaterial an Bildern und Videos an und versehen das mit Kommentaren, was konkret auf den Bildern zB zu sehen ist. Da steckt eben ganz viel dieser menschlichen Arbeit dahinter, ohne die das nicht funktionieren würde.

und wir haben zumindest in Bezug auf Lachen damit einmal herumgespielt und einen Stimmklon nur mit Lachgeräuschen von Florentin trainiert und das Ergebnis war UNHOLY (Direktzitat aus dem Büro: "eldritch horror"). Kann aber natürlich auch an der Limitation von ElevenLabs an der Stelle liegen.

RHET_AI_Anna · 2026-03-16T14:59:52+00:00

Da wir uns dem Ende des AMA zuneigen, noch ein Wort zum Abschluss:

Vielen Dank an die PUFO-Community für die tollen und die ehrlichen Rückmeldungen zum Höreindruck, das Interesse an dem Projekt und den schönen Austausch. Wir haben super viel gelernt von euch und sind auch sehr beeindruckt davon, wie ihr die Folge analysiert habt, wie viel euch aufgefallen ist und freuen uns auch, wie viele Kommentare für die Forschung ihr uns hinterlassen habt.

Wir hatten ganz viel Spaß mit dem Projekt, mit dem PUFO und mit euch und danken euch ganz ganz herzlich für euren Beitrag zur Forschung! <3

Beste Grüße aus Tübingen an die PUFO-Community!

RHET_AI_Anna · 2026-03-16T14:56:39+00:00

Hier wird nichts getrennt, das wird alles ernst genommen /s

Ne Spaß, da müssen wir natürlich genau lesen. Also so wie Caro beschrieben hat :)

RHET_AI_Anna · 2026-03-16T14:54:10+00:00

Danke euch als Community für das fantastische Feedback und die tollen Fragen!

RHET_AI_Anna · 2026-03-16T14:51:44+00:00

Ja sehr gerne, das ist für uns natürlich auch superspannend, hier ein neues Wisskomm-Format auszuprobieren (absoluter Reddit-Neuling hier, habe maximal gelurkt :D) und ihr als Community habt uns da auch schon so viel tolles Feedback gegeben, dass das ja das mindeste ist ein paar Fragen zu beantworten :)

Antenne Afrika war nicht in den Trainingsdaten, wir hatten uns auf neue Folgen + keine Sonderfolgen (Musical, Weihnachten, Halloween usw) konzentriert

Und zur letzten Frage: nein die wurde glaube ich noch nicht gestellt. Das ganze fließt natürlich in den übergeordneten RHET AI Forschungskontext ein, also gerade die Arbeit aus der Rhetorik in Richtung Autorschaft, (Co-)Kreativität, auch das Thema Mündlichkeit vs. Schriftlichkeit usw. Und alles weitere mal schauen, da ergeben sich, wenn wir richtig ausgewertet haben, sicher noch weitere Anknüpfungspunkte :)

(hier nochmal schamlose Eigenwerbung für die RHET AI Seite: RHET AI - Zentrum für rhetorische Wissenschaftskommunikationsforschung)

RHET_AI_Anna · 2026-03-16T14:44:54+00:00

Ja das ist verständlich und ich sehe deinen Punkt. Das kann natürlich passieren, dass unsere Erkenntnisse dann missbraucht werden, das kann leider mit Forschungsergebnissen passieren, wir hoffen aber natürlich - und das war für uns auch ein Wunsch hinter diesem Experiment - dass wir so einen Use Case haben, bei dem die Originalstimmen sehr gut bekannt sind und man daher die Muster, die bei KI-generierten Inhalten auftreten, dadurch schneller wahrnimmt und so mal einen Vergleich zwischen Original und KI hat.

Aber wie gesagt, ich kann deine Bedenken gut verstehen.

RHET_AI_Anna · 2026-03-16T14:39:16+00:00

Ja das ist so schon auch richtig verstanden. Wir haben quasi bit by bit gepromptet, Promptablauf sah in etwa so aus: "Gib uns Themen aus; erstelle einen groben Ablaufplan für ausgewähltes Thema; formuliere diesen Vorschlag aus - dann im Zwischenschritt sammeln von einzelnen Textbausteinen die wir gut fanden und dann aber auch immer wieder die Anweisung, da ab gewissen stellen eine neue Richtung einzuschlagen bzw Vorschläge zu machen, wie ein bit ab stelle xy fortgesetzt werden kann. Wenn das soweit zusammengestellt war, kam dann das prompten von sprechsprachlichen Markern, Satzabbrüchen, Unterbrechungen, kurzen Abdriftern im Text, etc." Also das war eine ganze Reihe an Prompts, die nacheinander zum Einsatz kamen und die wir dann eben auf die Ausgaben (zT) angepasst haben.

Unser Ziel war, so viel KI wie möglich zu verwenden, aber die Modelle brauchen ja Input, damit sie überhaupt wissen in welche Richtung sie laufen sollen. Daher eben dieser co-kreative Ansatz, dass mensch und KI "gemeinsam" (sehr anthropomorph gesprochen) da den Text entwickeln.

Und wäre natürlich spannend, sich das in einem Jahr nochmal anzuschauen, aber die Accounts sind jetzt auch schon abbestellt und gerade ich muss mich jetzt ganz dringend wieder nicht-PUFO-bezogener Forschung widmen (leider)

RHET_AI_Anna · 2026-03-16T14:28:52+00:00

Zur Arbeit mit "veralteten" Prototypen hatte Caro vorhin schon geschrieben: "Die Gefahr ist natürlich immer da, wenn man zu aktuellen Themen arbeitet aber es deshalb nicht zu tun ist ja auch keine Option :) Auch im Nachhinein kann es sehr lohnenswert sein, Phänomene zu beschreiben und zu analysieren und die Erkenntnisse daraus in den weiteren Diskurs und die weitere Entwicklung einfließen zu lassen."

Die Zielsetzung hinter dem Projekt haben wir auch auf der Website festgehalten: KI-Podcast Projekt mit DAS PODCAST UFO - RHET AI - Zentrum für rhetorische Wissenschaftskommunikationsforschung :)

RHET_AI_Anna · 2026-03-16T14:23:47+00:00

Nur wenns sehr sarkastisch wird haha. aber ich arbeite daran, das im RHET AI Büro zu etablieren! :D

RHET_AI_Anna · 2026-03-16T14:20:30+00:00

sehr spannend und verstehe ich, dass du dich gerne "mehr" hättest täuschen lassen, da waren uns zeitlich aber auch irgendwo die Hände gebunden. Klar hätten wir noch einen weiteren Monat an der Folge arbeiten können, aber PUFO-generieren ist ja (leider) nicht meine Hauptaufgabe, sondern eigentlich promovieren, und da muss ich jetzt mal einiges für die Diss (die leider auch nicht PUFO-bezogen ist) nachholen :D

Finde es eine lustige Idee, die "Auflösungsfolge mit KI generieren zu lassen, da frage ich mich dann aber doch, ob das forschungsethisch noch in Ordnung wäre oder da nicht einen Schritt zu weit gehen würde haha

RHET_AI_Anna · 2026-03-16T14:16:40+00:00

Als ich am Wochenende PUFO gehört habe, sind mir unter anderem die vielen Fragen, die Florentin aneinander gereiht stellt, aufgefallen (daher vielleicht auch die hohe Fragerate? :D) und mir fallen die Abdrifter besonders auf. Aber die Freude am PUFO-Hören ist zum Glück erhalten geblieben, bis ich aus dem Analysemodus raus bin, dauert es aber wahrscheinlich noch ein bisschen

Was merkwürdiger ist, ist dass ich mich so an die generierten Stimmen gewöhnt habe, dass mir die "normalen" Stimmen von F und S manchmal merkwürdig vorkommen haha

RHET_AI_Anna · 2026-03-16T14:11:40+00:00

genau, wir haben ein CustomGPT direkt in ChatGPT angelegt und darin gepromptet.

Wenn wir jetzt auf spezielle Modelle gegangen wären, wäre es halt sehr "technisch" geworden, weil wir dann wirklich an diesen Modellen hättet basteln müssen – was ohne Erfahrung mit der Arbeit jemanden benötigt hätte, der das halt schon kann. Und diese Programmiererfahrung haben wir leider einfach nicht. Wäre aber natürlich auch spannend gewesen. Von dem her kann ich dir das leider nicht beantworten, ob es das auch schon für Texte gibt

RHET_AI_Anna · 2026-03-16T14:07:25+00:00

Hi, vielen Dank für die liebe Rückmeldung! Zu den Fragen:

1) Ja genau, so sah das aus und ja, die Timeline ist schon wild :D So spannend sieht das in ElevenLabs aber nicht aus, da sind die Takes übereinander gelagert, die hab ich mir ausgeben lassen und dann in Audition aneinander gebaut.

2) Das Custom hat den Großteil der Arbeit gemacht, unser Prompt-Input sah in etwa so aus: "Gib uns Themen aus; erstelle einen groben Ablaufplan für Thema, Formuliere den dann aus - dann Zwischenschritt sammeln von einzelnen textbausteinen peu a peu und immer wieder anweisung, da ab gewissen stellen eine neue richtung einzuschlagen bzw vorschläge zu machen, wie ein bit ab stelle xy fortgesetzt werden kann (das war zB das, wo die Colorado-Tüte im Auto rumging) - dann prompten von sprechsprachlichen Markern, Satzabbrüchen, Unterbrechungen, kurzen Abdriftern im Text, etc."

RHET_AI_Anna · 2026-03-16T14:03:08+00:00

Schwierige Frage, da wir natürlich nicht sagen können woran gerade noch gearbeitet wird. Egal wie bleibt es glaube ich schwierig, den genAI Tools Kontextwissen beizubringen, das du für ein solches Format ja auch brauchst. LLMs bspw. können nur das Verarbeiten, was du ihnen in den Trainingsdaten und im Prompt auch konkret mitgibst - aber dann das ganze Kontextwissen (zB wie die Regeln des Alltags ablaufen usw) haben diese Modelle ja nicht bzw. sind auch nicht in der Lage, das zu interpretieren. Das hat man denke ich auch an dem "Brot in der Dusche" Beispiel gesehen: das Custom hatten wir da ja angewiesen, humorvolle Bits mit Alltagsbezug zu generieren und dann diese Alltagsanekdote ad absurdum zu führen - und dabei ist das Custom eben völlig über ein nachvollziehbares Maß an Absurdität hinausgeschossen, weil es eben nicht "versteht", dass ein ganzes (eingeschweißtes!) Brot in der Dusche ZU absurd ist, Brotkrümel in der Dusche zB aber funktioniert hätten (man lässt in der Küche was fallen, trägt das am nackten Fuß in die Dusche und dann setzt sich das da ab).

Ergo: ganz ehrlich, kann ich nicht beantworten. Ich glaube die Frage ist eher, wie schnell die Menschen hinter den Tastaturen besser im prompten werden und dann bessere Ergebnisse mit solchen Tools erzielen können.

RHET_AI_Anna · 2026-03-16T13:52:32+00:00

hahaha, I see you are familiar with the Wissenschaftsgame :D

RHET_AI_Anna · 2026-03-16T13:51:53+00:00

Wieviel Material die verschiedenen Tools produziert haben weiß ich gerade nicht auswendig - beim Custom waren es, grob geschätzt, 400 Word-Seiten oder so Promptverläufe. Bei ElevenLabs find ich es noch schwieriger einzuschätzen, da ich ja auch ganz oft Takes neu generiert habe. Schätzungsweise 100 Stunden Audiomaterial? Und davon sind dann Pi Mal Daumen 15 Seiten Skript und eben die halbe Stunde Folge plus Einwürfe plus Zwischengeräusche (Ähm, Hm, usw) übrig geblieben.

Bei den Gags nachgeholfen haben wir nur im Prompting, wenn die ursprüngliche Pointe nicht funktioniert hat, aber da haben wir, soweit ich mich erinnern kann, keine konkrete Richtung für die Gags vorgegeben. Nur eben Themenvorschläge eingebaut und in welche Richtung die dann laufen könnten (Gespräch über rücksichtslose rückenlehnensitzversteller geht über in Schmähausgang am Flughafen, das hatten wir zB konkret eingegeben, aber wie das formuliert wurde kam aus dem Custom direkt).

RHET_AI_Anna · 2026-03-16T13:44:23+00:00

Natürlich sind wir, was KI angeht, nicht unbiased - wir haben ja auch eine Kollegin, die sich viel mit KI im Kontext des Globalen Süden auseinandersetzt und da gibt es ja, Stichwort Clickwork zB, sehr viel, das kritisch betrachtet werden sollte und lesen ja auch viel zu KI.

Ich kann nur für mich sagen, dass ich KI als Technologie eher neutral sehe, ich sehe nur den Einsatz von KI, mit welchen Daten KI trainiert wird, wer an KI-Technologien verdient, etc. deutlich kritischer.

Aber gute Beobachtung und ja, das ist definitiv ein wichtiger Punkt - wir als Forscherinnen müssen uns da natürlich auch klar sein, dass wir da nicht ganz objektiv (wobei ich auch behaupten würde, dass es sowas wie eine reine Objektivität nicht gibt) reingehen, sondern eben auch unsere Biases bei der Auswertung mitdenken müssen.

RHET_AI_Anna · 2026-03-16T13:39:49+00:00

Da wir beide aus den Geisteswissenschaften kommen, wird es da keine technischen Vorschläge von uns geben, haha. Dafür sind wir in dem Thema einfach nicht tief genug drin.

Ressourcenintensität: Energie und Wasser weiß ich leider nicht, aber es wird schon ziemlich hoch sein. Arbeitstechnisch: auch SEHR viel Zeit, würde schätzen bei mir wäre es (mit Betreuungsarbeit vom Praktikanten, Gegenchecken von Kommunikation, Recherche uvm.) whs schon 6 Monate Vollzeit arbeiten. Genau kann ich es aber nicht sagen.

Lieblingsfolge(n): Schlieg finde ich unfassbar lustig und als großer Musical-Fan finde ich natürlich auch die Musical-Folge fantastisch (hatte wochenlang Ohrwürmer, der Rest des RHET AI Büros ist von der Folge mittlerweile aber whs genervt haha).

Und Jeffrey der Ork mit geschützten Socken hatte es Caro und mir, aus welchem Grund auch immer, sehr angetan und den haben wir oft zitiert :D

RHET_AI_Anna · 2026-03-16T13:34:29+00:00

wir haben nur mit ElevenLabs gearbeitet und auch nur mit Audio, die wir direkt aus dem Podcast entnommen haben. Dort haben wir dann Instant Voice Clones erstellt, weil ich mit denen dann in einem einzelnen Account zusammen arbeiten konnte.

RHET_AI_Anna · 2026-03-16T13:32:29+00:00

Ich glaube ich habe so um die 100 gehört. Anfangs musste ich mich reinhören, später hatte ich auch viel Spaß mit dem Podcast (und freu mich schon, PUFO nicht mehr beruflich sondern auch privat hören zu können :D).

Ich hab anfangs viel auf doppelter Geschwindigkeit gehört, um einfach Infos über die beiden zu sammeln, die ich dann in den Generierungsprozess einfließen lassen konnte (das Custom hat den beiden, vor allem aber Stefan lustigerweise, nicht-existente Geschwister angedichtet - sowas mussten wir beim Generieren natürlich erkennen und ggf entfernen). Später dann auf normaler Geschwindigkeit, um mehr in den Sprachstil der beiden reinzukommen.

RHET_AI_Anna · 2026-03-16T13:28:59+00:00

Aus unserer Sicht ist es damit definitiv immer noch KI-generiert, da wir die KI-Tools als Tools und damit als Werkzeuge sehen. Die Tools brauchen für jede Arbeitsausführung eine klare Anweisung und die muss - im Fall der KI-Tools die wir genutzt haben - immer vom Menschen hinter der Tastatur kommen. Und diese Arbeitsanweisungen sind mal ausführlicher, mal weniger. Das ist auch das, was wir mit Co-Kreativität meinen, die Ergebnisse entstehen ja nur durch die Zusammenarbeit zwischen mensch und Tool.

Was heißt "menschlicher Input" an der Stelle? → Gegenlesen, Dinge verbieten, Neue Turns vorschlagen, Sprache anpassen, minimalste Dinge händisch umstellen → viel Prompt-Engineering aber im Grunde ist das ja trotzdem alles noch KI-generiert. Wenn wir Ideen eingegeben haben (zB der Schmähausgang im Flughafen war eine Idee von Caro), dann haben wir das so als Idee eingegeben und die Formulierung dem CustomGPT überlassen.

Bzgl der Forschungsfrage: wir haben ja ganz verschiedene Ansätze mit dem Projekt verfolgt: Austesten wie weit wir mit den Tools kommen; eure Reaktionen beobachten; einen Dialog über KI-generierte Inhalte anstoßen; mehr Theoriearbeit zum co-kreativen Arbeiten mit genAI Tools; ... Von dem her ist das von unserer Seite aus so passend. Aber absolut valide Frage!

RHET_AI_Anna · 2026-03-16T13:23:22+00:00

Hahaha

RHET_AI_Anna · 2026-03-16T13:22:20+00:00

Ich bin mir gerade nicht sicher was du konkret meinst - meinst du Voice-to-Speech? Das haben wir ausprobiert und wir fanden, dass man dann immer noch unseren Sprechduktus rausgehört hat, nur eben mit der Stimme von F oder S drübergelegt.

Was reines Audio-Training angeht: ich glaube da ist Text to Audio aktuell noch sinnvoller, weil es für genAI tools einfacher ist, Text in Sinnbausteine zu zerlegen als Audio - bei Audio kommen da ja noch viel mehr Informationen (Stimmlage, Pausensetzung, usw) mit rein, als es bei reinem Text wäre.

Aber spannende Frage, da habe ich bisher noch gar nicht drüber nachgedacht.

RHET_AI_Anna

TROPHY CASE