Methodisches Vorgehen beim Monitoring (MATR Nr. 7)
1. Zur Genese der Telegram-Netzwerke
Das Monitoring der Forschungsstelle auf Telegram geht von einem akteursbasierten Ansatz aus. Das heißt, dass relevante digitale Sphären für demokratiefeindliche Kommunikation über eine Vorklassifizierung von identifizierbaren Akteuren eingegrenzt werden. Sie dienen als Startpunkte für die Sichtung breiterer Dynamiken und als Knotenpunkte für Protestmobilisierung. Ausgehend von einem Set von 269 qualitativ durch zwei Expert*innen klassifizierten Akteuren, die im öffentlichen Diskurs durch ihre Agitation Sichtbarkeit erhalten haben, wurden Charakteristika wie ideologische Ausrichtung auf Grundlage des Kommunikationsverhaltens und der bekannten Offline-Positionierungen der Akteure sowie Formen der Organisierung festgelegt, um das Feld zu sondieren. Zudem wurde die Verbindung zu breiteren Netzwerken markiert, bspw. im Falle von reichweitenstarken Accounts, die für breitere Bewegungen sprechen. Ausgehend von dieser manuellen Einordnung, die durch eine externe Expertise von Karolin Schwarz vorgenommen und von den Mitarbeitenden der Forschungsstelle geprüft worden ist, wurde ein automatisiertes, mehrstufiges Snowball-Sampling auf der Plattform Telegram durchgeführt.
1.a. Klassifizierung der Akteure
Aus dem Snowball-Sampling wurden für die Plattform Telegram 4.584 öffentlich kommunizierende Kanäle und Gruppen – im folgenden beides unter »Accounts« zusammengefasst – aufgenommen, die sich durch Weiterleitungen von plattforminternen Beiträgen in das Netzwerk einfügen. Bei Telegram haben Kanäle eine einseitige Richtung der Kommunikation (One-to-Many-Kommunikation), während in Gruppen sich jede mit jedem per Chat austauschen kann. Letztere sind in ihrer Ausrichtung divers, weswegen sie zur besseren Analyse ein weiteres Mal klassifiziert wurden, um eine Einordnung über die ideologische Ausrichtung und Verschiebung ihrer Positionierung im Diskurs treffen zu können. Hierzu wurden Accounts anhand ihrer Subscriber und Zentralität im Netzwerk sortiert und die ersten 1.400 auf ihr Kommunikationsverhalten geprüft. Hinzu kommen weitere Accounts, welche im journalistischen oder wissenschaftlichen Diskurs bereits behandelt wurden. Die qualitative Einordnung der Accounts in zuvor definierte Kategorien (s.u.) umfasste den Einblick in die letzten 20 Posts und die 20 zuletzt geteilten Links des Kanals und wurde durch das Fachwissen der Expert*innen der Forschungsstelle abgeglichen. Zudem wurden Kanäle, die sich in ihrer Selbstbeschreibung oder über die Nutzung einschlägiger Codes der Querdenken-Bewegung oder dem QAnon-Verschwörungskult zuordnen, in die jeweiligen Kategorien eingeordnet. Ähnliches gilt für Reichsbürger, die einen markanten Außenauftritt haben. Die Klassifizierung soll in der Zukunft weiter ausgebaut werden. Bezugnehmend auf bestehende Forschungsliteratur wurden in einer idealtypischen Klassifizierung die folgenden Ober- und Unterkategorien unterschieden:
Rechtsextremismus:
- Neonazismus: Dessen Anhänger*innen zeichnen sich durch einen positiven Bezug auf den Nationalsozialismus und ein rassistisch strukturiertes Weltbild aus. Viele Anhänger sind Teil von Subkulturen, in denen über Musik, Kampfsport und Hooliganismus ein Zugang zu neonazistischem Gedankengut geliefert wird.
- Reichsbürger: Eine Gruppe von Menschen, die davon ausgeht, dass das Deutsche Reich nie aufgelöst wurde und die immer noch bestehende legitime Herrschaftsform sei. Die bundesdeutsche Demokratie habe keine repräsentative Funktion, sei nicht souverän, sondern von fremden Mächten gesteuert.
- Extreme Rechte: Organisationaler Zusammenhang, der die liberale Demokratie abschaffen will. Ihre Ideologie beruht auf Ungleichwertigkeit und Autoritarismus.
- Neue Rechte: Ein strategisch denkender Kreis rechtsextremer Aktivist*innen, die über kulturelle Aktivitäten politische Macht aufbauen wollen. Ihre Wortführer*innen inszenieren sich als ideologische Vordenker*innen. Parteien und Bewegungen werden von ihren Vertreter*innen strategisch beraten.
- Populistische Rechte: Eine Sammelkategorie, in der islamfeindliche und rassistische Akteure mit einem rechten Weltbild eingeordnet werden. Es wird das ehrliche Volk gegen eine korrupte Elite gestellt. Das System soll aber demokratisch umgestürzt werden.
Konspirationismus:
- Verschwörungsideologie: Eine Oberkategorie für Akteure, die den Lauf der Geschichte durch eine Aneinanderreihung von Verschwörungen versteht, weshalb prinzipiell alles hinterfragt wird und ein schlichtes Freund-Feind Bild entsteht. Das Verschwörungsdenken übersetzt sich in politische Mobilisierung.
- Corona-Desinformation: Umfasst Akteure, die im Kontext der Corona Pandemie mit skeptischen oder leugnerischen Positionen in den öffentlichen Diskurs treten. Sie nutzen ihre öffentlichen Kanäle meist monothematisch.
- Esoterik: Eine weltanschauliche Strömung, die durch Heranziehung okkultistischer, anthroposophischer sowie metaphysischer Lehren und Praktiken auf die Selbsterkenntnis und Selbstverwirklichung des Menschen abzielt.
- QAnon: Meint einen verschwörungsideologischen Kult, der sich um falsche Behauptungen dreht, die von einer anonymen Person (bekannt als »Q«) aufgestellt wurden. Ihre Erzählung besagt, dass satanische, kannibalistische Eliten einen globalen Ring für systematischen Kindesmissbrauch betreiben. Entstanden während Trumps Präsidentschaft wird von einem tiefen Staat ausgegangen, der die Regierung kontrolliere.
- Querdenken: Mitglieder und Sympathisant*innen einer Bewegung, die sich im Kontext der Proteste gegen die Covid-19-Pandemie gegründet hat und Zweifel an der Rechtmäßigkeit der Maßnahmen zur Eindämmung mit einer radikalen Kritik an demokratischen Institutionen verbindet.
- Anti-Mainstream-Gruppen: Ohne klare Zielsetzung. Sie setzen ihre Akzente alternierend zu dem, was als stark grün geprägter Mainstream wahrgenommen wird, und haben sich oft aus Querdenken-Gruppen heraus entwickelt.
Sonstiges:
- Russischer Imperialismus: Insbesondere russische Akteure, die den Aufbau eines russischen Reichs propagieren und den Krieg in der Ukraine befürworten.
- Pro-russische Propaganda: Kanäle, die pro-russische Propaganda betreiben und einseitig über den Krieg in der Ukraine berichten.
- Prepper: Eine Gruppe Personen, die sich mittels individueller oder kollektiver Maßnahmen auf verschiedene Arten von Katastrophen vorbereiten und nicht selten Phantasien des Umsturzes pflegen.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der kategorisierten Kanäle in Ideologie und Ideologiegruppe. Die Farbgebung wird nach Möglichkeit in allen visuellen Elementen beibehalten.
Viele der identifizierten Kanäle lassen sich mehreren Kategorien zuordnen. So ist es nicht leicht, Verschwörungsideologien von rechtsextremen Netzwerken zu isolieren. Auch pflegen lokale Ausprägungen bestimmter Bewegungen unterschiedliche Bündnispolitiken oder nutzen bestimmte Affiliationen, um sich einem öffentlichen Stigma zu entziehen. Ausschlaggebend für die Klassifizierung war ein kumulatives Verfahren, wonach geprüft wurde, ob Akteure, die Verschwörungsmythen teilen, auch offensichtlich mit rechtsextremen Accounts verbunden sind. Ist dies der Fall, fällt die Entscheidung auf die extrem rechte Kategorie. Wenn allerdings bekannt ist, dass bspw. einzelne Influencer sich stärker ein eigenes verschwörungsideologisches Profil aufbauen, um sich von organisierten rechtsextremen Strukturen zu distanzieren oder eine bestimmte Verschwörungstheorie besonders prägnant ist, wird hier eine Unterkategorie des Konspirationismus gewählt. Um einen individuellen Bias zu reduzieren wurden die 269 Seed-Accounts von zwei Expert*innen gemeinsam kategorisiert. 145 Accounts wurden von der weiteren Auswertung ausgeschlossen, da sie nicht in das potenziell demokratiefeindliche Spektrum gehören.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der betrachteten Nachrichten nach der Ideologie der Kanäle und Gruppen für den Zeitraum dieses Trendreports.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der betrachteten Nachrichten nach der Ideologie der Kanäle (ohne Gruppen) im Zeitverlauf.
Die Anzahl der Nachrichten pro Ideologie ist sehr heterogen. QAnon und andere Verschwörungsideologen senden sehr viel mehr Nachrichten als andere Ideologien.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Auf der X-Achse sind die Anzahl der Kanäle, welche von groß nach klein geordnet waren. Auf der Y-Achse ist der kumulierte Anteil der Gesamtnachrichten von den Top-X-Kanälen. Zum Beispiel: Die Top-4 der Querdenken-Kanäle sind für 53% der Nachrichten verantwortlich.
Neben der Anzahl der Nachrichten ist es für die Interpretation der Datenauswertung interessant, welcher Anteil der Nachrichten sich auf wenige Kanäle konzentriert. Den Ideologien Prepper und Russischer Imperialismus sind nur wenige unserer Kanäle zuzuordnen, daher können auch nur begrenzt Aussagen für die Gruppen getroffen werden. Bei Reichsbürger, Neue Rechte, Pro-Russische Propaganda und Neonazismus werden über 80% der Nachrichten von den 10 Top-Kanälen gesendet. Die Dominanz dieser Akteure wird bei Datenauswertungen beachtet: zum Beispiel wird für ausgewählte Analysen der zusammengefasste Rechtsextremismusbereich betrachtet.
1.b. Analyse der Kommunikationsnetzwerke im Untersuchungszeitraum
Um die Kommunikationsnetzwerke auf Telegram im Untersuchungszeitraum, also von September 2023 bis November 2023, zu analysieren und die Interaktionen der jeweiligen Akteursgruppen darzustellen, haben wir ein cross-sektionales Chord-Diagram erstellt. Dieses zeigt das Weiterleitungsverhalten der oben genannten politische Milieus in absoluten Zahlen ohne Berücksichtigung endogener Effekte. Netzwerkknoten sind hier die jeweiligen Milieus aggregiert.
Darüber hinaus haben wir ein Netzwerkinstanz gebildet, um auch das Weiterleitungsverhalten auf Akteursebene darstellen und analysieren zu können. Die individuellen Akteure wurden nach ihrer Ideologie eingefärbt und Verbindungen stellen deren Weiterleitungen von Telegraminhalten dar. Akteure, die wir nicht klassifiziert haben, bzw. die für uns von nachgelagertem Interesse sind, sind anonymisiert und grau hinterlegt.
2. Zur Genese der Themenmodelle
2.a. Algorithmus
Zur Berechnung der Themen haben wir die latente Dirichlet-Zuordnung genutzt (LDA). Im Gegensatz zu komplexeren Methoden – wie in (5.) beschrieben – lässt sich diese Methode mit vertretbarem Aufwand für große Textmengen einsetzen und erhält daher den Vorzug für das allgemeine Themenmodell.
Der LDA berechnet zu einem gegeben Korpus und einer gewünschten Themenzahl k eine Wahrscheinlichkeitsverteilung für alle Wörter im Korpus für jedes der k Themen. Dafür wird jedes Dokument als eine Bag-of-Words betrachtet, bei dem ausschließlich das Vorkommen einzelner Wörter von Bedeutung ist, während die Wortreihenfolge und die Satzzusammenhänge für die Klassifikation von Themen keine Rolle spielen. Jedem Dokument wird die Eigenschaft zugeschrieben, aus mehreren latenten Themen zu bestehen. Ein Thema ist schließlich durch eine Wahrscheinlichkeitsverteilung von Wörtern definiert.
Das prinzipielle Verfahren beginnt mit der zufälligen Zuweisung von jedem Wort im Korpus zu einem Thema. Danach folgt eine Schleife über alle Wörter in allen Dokumenten mit zwei Schritten: Mit der Annahme, dass alle anderen Wörter außer das aktuelle korrekt ihren Themen zugeordnet sind, wird die bedingte Wahrscheinlichkeit p(Thema t | Dokument d) berechnet: Welche Themen kommen im Dokument wahrscheinlich vor? Das zurzeit betrachtete Wort passt mit höherer Wahrscheinlichkeit zu diesen Themen. Also:
-
- Berechnung der bedingten Wahrscheinlichkeit p(Wort w | Thema t): Wie stark ist die Zugehörigkeit des Wortes zu den Themen?
- Aktualisieren der Wahrscheinlichkeit, dass ein Wort zu einem Thema gehört: p(Wort w ∩ Thema t) = p(Thema t | Dokument d) * p(Wort w | Thema t).
Durch mehrere Iterationen über alle Wörter im Dokument erreicht der Algorithmus eine stabile Konfiguration von Wortwahrscheinlichkeitsverteilungen für k Themen.
2.b. Datengrundlage und Preprocessing
In die Themenmodellberechnung sind alle Nachrichten der in Abschnitt 1.a genannten Kanäle eingegangen. Es erfolgte die Bearbeitung mit folgender Preprocessing-Pipeline:
-
- Filtern der NA-Texte: Nachrichten, die nur aus Medien-Dateien bestehen, ohne weiteren Text zu enthalten, wurden in der Themenmodellierung nicht berücksichtigt.
- Filterung auf den Zeitraum vom 1. März 2023 bis 31. Mai 2024.
- Filter auf > 50 Zeichen: Eine erste Filterung auf die Mindestanzahl von Zeichen ist nötig, um eine Spracherkennung durchzuführen.
- Filter auf deutschsprachige Nachrichten: Dafür wurde die Bibliothek Polyglot verwendet.1
- Preprocessing der Texte.
- Entfernung der URLs mittels Regular Expressions.
- Lemmatisierung, also die Reduktion der Wortform auf ihre Grundform, mit spaCy bei Verwendung der Pipeline de_core_news_lg.2
- Entfernung von Stoppwort-Lemmata anhand verschiedener Stoppwortlisten.
- Entfernung von Wörtern mit dem Vorkommen < 8.
- Entfernung Sonderzeichen.
- Filter auf 1-n Kanäle: Die Nachrichten innerhalb der Chatkanäle behandeln oft keine Themen im gewünschten Sinn und verschlechtern die Nutzbarkeit des Themenmodells. Die Texte werden dennoch später klassifiziert, um die Ergebnisse explorativ nutzen zu können.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
2.c. Modellberechnung und Themenbestimmung
Für das Training des Modells haben wir das Python-Paket tomotopy genutzt.3 Der wichtigste Parameter beim Training des LDA ist die Anzahl der zu findenden Themen. Dieser Prozess ist mit einigen Freiheitsgraden behaftet, der schließlich auf einer Interpretationsleistung der Forschenden basiert. In der Regel werden Themenmodelle mit einer Reihe von verschiedenen Themenzahlen trainiert und für jedes Thema wird eine Themenkohärenz berechnet. Anhand dieser wird abgeschätzt, wie viele Themen in etwa genügen, um das Themenspektrum im Korpus abzudecken. In diesem Trendreport haben wir uns auf die gesammelte Erfahrung aus dem vorherigen Trendreport verlassen und erneut 120 Themen verwendet. Der vollständigkeitshalber wird die Herangehensweise im folgenden Paragraph erneut beschrieben. Es wurden zwei gebräuchliche Metriken für die Modellkohärenz berechnet, welche im folgenden Graph zu sehen sind.4

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Kurven der Koherence geben dem Anwender einen Anhaltspunkt für die Bestimmung der Modellgüte zur Hand, aus dem sich in diesem Fall keine eindeutige Empfehlung ableiten lässt.5 Prinzipiell ist es bei einer großen Menge von Daten möglich, die Anzahl der Themen relativ frei zu wählen, mit dem naheliegenden Trade-Off zwischen potentiell unspezifischen Themen bei einer kleinen Anzahl von k und spezifischen, aber teilweise redundanten Themen bei großer Anzahl von k. Wir haben uns für die große Themenanzahl k=120 entschieden, da somit eine große Anzahl der aus substantieller Sicht erwartbaren Themen Niederschlag im Modell finden.6
Allerdings benötigt die qualitative Einordnung der Themen dementsprechend viel Zeit. Für diese wurden im Vier-Augen-Prinzip die 25 Wörter mit höchster Wahrscheinlichkeit und die 25 Wörter mit auf gesamtwordhäufigkeit-normierter Wahrscheinlichkeit betrachtet. Erstere zeigen die generelle Beschaffenheit des Themas, wobei zweitere die spezifischen Wörter zeigen, welche die Abgrenzung zu anderen Themen deutlich machen.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Bei der Verwendung von einem LDA-Themenmodell gilt es zu beachten, dass der Algorithmus keine Möglichkeit hat, Dokumente oder Wörter auszuschließen. Das heißt, jedes Dokument bekommt Themen und jedes Wort wird Themen zugeordnet. Zwangsläufig entstehen auch Wortverteilungen, welche sich nicht einem Thema im herkömmlichen Sinne zuordnen lassen, wie beispielsweise das Thema Sprache_Zeitangaben (siehe Wordclouds). Eine weitere Schwierigkeit sind überlappende Themen wie die zehn Themen rund um den Ukraine-Russland-Konflikt. Hier ist es für eine aussagekräftige Interpretation essentiell, eine sinnvolle Einordnung der Themen vorzunehmen. Dafür haben wir in einem iterativen Prozess die Themen in acht Themenkomplexe und 32 Oberthemen aufgeteilt.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Entwicklung aller Themen wird in folgender Grafik gezeigt:

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Für eine erste Einschätzung der Güte der Einteilung diente die Korrelationsmatrix zwischen den Wortwahrscheinlichkeiten der verschiedenen Themen. Die Achsen sind zur Übersichtlichkeit mit den Themenkomplexen gekennzeichnet. Jede Zeile zeigt die Korrelation für ein Thema mit allen anderen Themen. Ein weißer Punkt bedeutet vollständige Korrelation. Je dunkler der Punkt, umso weniger korrelieren die Themen. Es lassen sich Cluster von Themen erkennen, die uns bei der Einteilung als Stütze dienen können. Beispielsweise befindet sich etwa unten rechts auf der Diagonale das Thema Ukraine-Russland.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
2.d. Validierung der Themen
Die Erkennung eines Themas in einem Dokument ist instabil für kürzere Dokumente.7 Zur Annäherung an eine Stabilitätseinschätzung in Abhängigkeit von der Dokumentenlänge führten wir folgende Untersuchung durch:
-
- Auswahl eines zufälligen Samples von 25.000 Dokumenten mit einer Lemmata-Anzahl von über 100: Die Themenermittlung zu diesen Texten wird als korrekte Referenz gesehen, da der LDA für diese Textlänge sehr stabil ist.
- Wir betrachten verschiedene Textlängen von n = 10 bis 100 in Zehnerschritten: Es werden für jedes Dokument n Lemmata aus der jeweiligen Ursprungsmenge gesampelt. Für die entstehende Wortmenge wird ein Thema inferiert, so dass eine neue Themenzuweisung für die 25.000 Dokumente entsteht. Für ein stabiles Themenmodell sollte diese Zuweisung möglichst nahe an der Referenz aus Schritt 1 liegen.
- Zehnfache Wiederholung von Schritt 2 und Aggregation der Ergebnisse: Das resultierende Thema wird über den Modalwert ermittelt. Zusätzlich werden die Oberthemen und Themenkomplexe bestimmt, um zu sehen, ob das Thema in der weiter gefassten Definition noch erfasst wird. Schlussendlich wird die euklidische Distanz zwischen den Wortwahrscheinlichkeitsverteilungen des Referenzthemas und des gesampleten Themas ermittelt, welches als Abstandsmaß unabhängig von der Kategorisierung ist und daher verlässlicher.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Ellenbogenmethode legt nahe, dass die Anwendung des Modells für Texte ab der Lemmatalänge von 20 einen guten Trade-Off zwischen Dokumentenanzahl und dem zu erwartenden Fehler bei der Themenbestimmung kürzerer Texte darstellt. Bei den Themenkomplexen sind im Schnitt nur 16 Prozent Fehler bei dieser Dokumentenlänge zu erwarten. Vor dem Hintergrund, dass unsere Auswertung zumeist auf stark aggregierten Daten basiert, ist dieser Fehleranteil vertretbar.
Weiterhin interessant ist die Beobachtung, dass der Fehler selbst bei der gesampelten Dokumentenlänge von 100 bei zehn Prozent für die Hauptkategorien liegt. Dies verdeutlicht, dass selbst ausreichend lange Dokumente eine gewisse Unsicherheit in dem zugewiesenen Thema beinhalten. Indem die Anzahl der Fehlzuweisungen aggregiert und durch die Prävalenz geteilt wird, bekommen wir einen normierten Prozentfehler für die Kategorien.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Aggregiert ergeben sich für die Hauptkategorie folgende Fehlerprozente: Sonstiges 19,8%, Politik 11,5%, Weitere Themen 11,3%, Protestbewegung 10,5%, Weitere Themen 10,1%, Verschwörung 8,2%, Ukraine-Russland 6,9%, Corona 4,6% und Esoterik 3,3%. Der häufigste Fehler ist der Übergang von Sonstiges zu anderen oder umgekehrt. Dies ist ein nachvollziehbarer Fehler, da Sonstiges die Sprachmuster enthält und diese zu einem Teil in jedem Text vorzufinden sind. Insgesamt sind das gute Werte. Für die Interpretation sollte dennoch beachten werden, dass die Themen Politik und Protestbewegung im Vergleich zu inhaltlich klarer abgrenzbaren Themen eine höhere Fehlerquote mit sich tragen.
3. Analyse KI-generierter und -gestützter Bilder im Wahlkampf
3.a. Datenbasis
Zeitraum: Der Zeitraum der Untersuchung umfasst die Zeit von dem Wahlkampfauftakt bis zur Wahl in Thüringen und Sachsen (15.07.2024 – 01.09.2024). Die letzten zwei Wochen des Wahlkampfes in Brandenburg konnten nicht mehr in unser Sample aufgenommen werden. Die Datenerhebung umfasste Kanäle, die wir unter dem Schirm Rechtsextremismus klassifiziert haben (siehe Abschnitt 1.a). Unter diesen befinden sich auch viele überregional-agierende Akteure, weshalb wir vermeiden wollten, dass wir potentiell nicht mehr nur Wahlkampfmaterial analysieren, sondern die Wahlnachbesprechungen in Thüringen und Sachsen eine größere Rolle spielen.
Akteure: Die Akteursauswahl folgte der Annahme, dass der Wahlkampf auf Telegram im rechtsalternative Milieu von drei Säulen getragen wird:
-
- Große überregionale Kanäle nutzen ihre Reichweiten, um regionale Akteure zu unterstützen.
- Politiker*innen und Parteien nutzen Telegram als Vehikel, um direkt Wähler*innen adressieren zu können
- Lokale – oft kleinere Kanäle – sind im Wahlkampfgeschehen sehr involviert.
Basierend auf diesen Annahmen haben wir uns entschieden, aus unserem Monitoring alle der ideologisch Oberkategorie Rechtsextremismus zugeordneten Akteure aufzunehmen. Darüber hinaus haben wir von einem zivilgesellschaftlichen Experten unsere Akteure, wenn möglich, regional zuordnen lassen, sowie weitere regional relevante Accounts über diese Expertise eingeholt. Auf diesem initialen Set der regionalen Akteuren haben wir dann ein Snowball-Sampling (siehe Radar) durchgeführt, um zu identifizieren, welche weiteren Gruppen in diesen regionalen Subnetzwerken besonders häufig geteilt werden. Zu guter Letzt haben wir recherchiert, welche Landtagskandidat*innen und Parteiverbände aus dem rechtsextremen Spektrum auf Telegram öffentlich kommunizieren und diese auch in die Auswertung mit einbezogen.
Format: Für die Analyse interessierten uns ausschließlich Bilddateien, die wir für den Zeitraum für alle identifizierten Akteure gescrapt haben und mit den Nachrichtentexten in unseren Datensatz inkludiert haben. Andere potenziell KI-generierte Medienformate wie Videos oder Musik haben wir ausgeschlossen.
Erstposting im Zeitraum: Das erste Mal, dass ein Bild innerhalb des Zeitraums in einem unserer Kanäle auftaucht, haben wir es in den Kandidatenpool potenziell KI-generierter Bilder mit aufgenommen. Alle darauffolgenden Weiterleitungen innerhalb unserer Kanäle haben wir ausgeschlossen. Dies geschah mit dem Ziel, Beliebtheit eines Bildes und die verschiedenen unterschiedlichen Gründe und Facetten der Nutzung von KI-Generatoren voneinander zu trennen. Insbesondere bedeutet diese Methode allerdings, dass Bilder, wenn sie mehrfach wieder in minimal abgewandelter Form hochgeladen wurden, auch mehrfach Teil der Grundmenge sein können.
3.b. “AI or Not”
3.b.1. Begriffsdefinition
Unter KI-generierten oder KI-gestützten Bildern verstehen wir Bilder, bei denen im Produktionsprozess Bildgeneratoren auf Basis des maschinellen Lernens/künstlicher Intelligenz eingesetzt wurden. Für ein detailliertes Verständnis des inkludierten Bildmaterials und der Definition möchten wir auf die Auswirkungen verschiedener Aspekte dieser Definition aufmerksam machen.
Mit der Spezifikation, dass diese Tools nur »im Produktionsprozess« beteiligt gewesen sein müssen, haben wir auch solche Bilder inkludiert, die nach der Erstellung durch einen KI-basierten Bildgenerator noch weiterverarbeitet wurden (häufige Beispiele in unserem Datensatz sind zugefügte Captions um einen Kontext der Interpretation zu setzen oder Kollagen, bei denen die KI-Bilder mit anderem Bildmaterial vermengt wurden). Gleichzeitig fallen in diese Kategorie aber auch Screenshots von Zeitungsartikeln, welche KI-generierte Bilder verwenden, weil es für uns keine Möglichkeit gibt zu differenzieren, ob der originäre Ersteller eines Bildes tatsächlich selbst einen Generator verwendet hat.
Desweiteren haben wir die Definition »Bildgeneratoren auf Basis des maschinellen Lernens« gewählt, weil für viele Bilder nicht eindeutig zu identifizieren ist durch welchen Bildgenerator diese kreiert wurden und ob dieser anderen Anforderungen wie »Generativer KI« (im Sinne von promptbasierter Generation) entsprechen würde. Insbesondere haben wir daher auch Bilder in diese Kategorie eingeordnet, welche als mit »KI-generiert« gekennzeichnet waren (unabhängig davon, ob wir Informationen über den genauen Herstellungsprozess hatten) oder welche auf Face Swaps basierten (da die Abgrenzung zu promptbasierten Bildgeneratoren schwierig ist, auch wenn vielfach auf anderen Technologien wie GANs basierend). Gleichzeitig war uns die Einschränkung auf Bildgeneratoren allerdings wichtig, weil mittlerweile bspw. auch in vielen Handykameras Algorithmen der künstlichen Intelligenz die Bilder optimieren.
3.b.2. Kodierungshilfskriterien
Für den Kodierungsprozess haben wir basierend auf obiger Definition anhand von Beispielbildern8 eine Reihe an möglichen Hilfskriterien abgeleitet, die bei der Entscheidung unterstützen, ob für ein Bild ausreichend Hinweise vorliegen, dass das Bild mit KI-basierten Methoden erstellt wurde:
-
- AI-Detektoren: Da selbst für geschulte Expert*innen Bilder von State-of-the-Art Generatoren teilweise nur schwerlich von Bildern realen Ursprungs unterschieden werden können, haben wir als eines der Kriterien verwendet, wie verschiedene frei zugängliche AI-Detektoren (entweder Open Source oder online kostenlos zugänglich) diese Bilder kategorisieren. Gerade da viele dieser Generatoren auf sehr unterschiedlichem Bildmaterial trainiert wurden (bspw. teilweise nur auf Bildern eines Generators oder sogar einer Modelversion) geht es hier um ein Zusammenspiel mehrerer Modelle. Da es sowohl die Möglichkeit für falsch positive Klassifikation gibt, als auch fast alle Detektoren mit der richtigen Klassifikation von Bildern Schwierigkeiten haben, wo KI eben nur Teil des Produktionsprozesses war (wie in den meisten Fällen bei uns), ist dies weder in die eine noch die andere Richtung ein alleiniges Kriterium gewesen.
- Inverse Bildersuche: Mittels Google Lens haben wir überprüft, ob die ursprüngliche Quelle eines Bildes online aufzufinden war. Über diese Suche konnten wir oftmals entscheidende Informationen über das Bild gewinnen:
a) Zeitpunkt: Viele Bilder konnten alleine aufgrund des Zeitpunkts des ersten Postings, welches vor der Veröffentlichung von DALL-E im Jahr 2021 lag, schon als sehr unwahrscheinlich KI-generiert kategorisiert werden.
b) Quelle: Vielfach war die Originalquelle beispielsweise aus einer Bilderdatenbank, in der Bilder als “KI-generiert” gekennzeichnet waren oder aber der Poster des Bildes hat selbst Information über die Produktion preisgegeben oder diese konnten aufgrund seiner Posthistorie abgeleitet werden (bspw. durch einen Fokus von Accounts auf KI-generierte Bilder, welcher in anderen Materialen noch eindeutiger ist).
c) Faktencheck: Teilweise lieferten Faktenchecks zu dem exakten Bild die entsprechenden Belege (siehe Harris Foto von der Zuschauermenge am Flughafen, was durch Trumps Behauptung Gegenstand von Faktenchecks wurde und auch Teil des Samples war).9 - Kennzeichnung: Teilweise waren Bilder direkt mit einem Label versehen oder aber, wie bei einigen Screenshots von Zeitungsartikeln, war das Label dort direkt sichtbar.
- AI-Image-Artefakte: Trotz der immensen Fortschritte in der Qualität der generierten Bilder gibt es immer noch etliche Bilder, welche sich durch bestimmte Artefakte innerhalb des Bildes als nicht realen Ursprungs entlarven. Teilweise sind diese Probleme einfach immer noch nicht ausgeräumt und teilweise sind die zum Einsatz kommenden Bildgeneratoren aus vielfältigen Gründen (bspw. Kosten, Sicherheitsbeschränkungen) nicht auf dem neuesten Stand oder die Bilder einfach älter. Zu der Liste dieser auffälligen Artefakte zählen:
a) Verletzung physikalischer Gesetze (Perspektiven, Schattierungen, Reflexionen)
b) typische Überbelichtung und Stile
c) Probleme mit Text (bspw. Buchstaben)
d) biologische Abnormalitäten (Fehler bei Gliedmaßen wie mehr als fünf Finger, unmögliche Positionierung einiger Gelenke)
e) nicht-existente Figuren (bspw. Drachen in Fotoqualität)
3.b.3. Kodierungsprozesse und verwendete Datensätze
Weil wir mit der Kodierung verschiedene Zielsetzungen verfolgen, haben wir auf zwei verschiedenen Datensätzen kodiert mit jeweils etwas unterschiedlichen Kodierungs- und Selektionsprozessen der Daten, die auf die jeweilige Zielstellung ausgerichtet waren. Graphisch ist der Selektionsprozess in folgender Abbildung dargestellt:
Detaillierte Informationen dazu und zur Motivation dahinter in den folgenden Absätzen.
Kodierungsprozess im Testdatensatz
Diesen Datensatz haben wir als Zufallsstichprobe (1.000 Bilder) direkt aus unserer Grundgesamtheit gezogen. Durch diesen Datensatz können wir verschiedene Ziele erreichen:
-
- Ableitung des prozentualen Anteils an KI-generierten Bildern
- Verifizierung der Reliabilität von Kodierungen im internen Vergleich der Expert*innen und der Expert*innen im Vergleich zu studentischen Annotator*innen
- Nutzung der KI-generierten Kodierungen als Label für die Verifizierung algorithmischer Vorselektion10
Für die Kodierung wurden dann zwei Expert*innen eingesetzt mit Vorerfahrung in der Erkennung von KI-generierten Bildmaterials. Beide Experte*innen wurden sowohl bezüglich der Definition als auch der Hilfskriterien anhand von Beispielen geschult.
Durch die Kodierung der Stichprobe durch zwei Expert*innen bekommen wir eine Schätzung der Spannbreite des prozentualen Anteils an KI-generierten Bildern. Als untere Schranke dieses Intervalls dienen die Übereinstimmungen (Schnittmenge) und als obere Schranke die Bilder mit mindestens einer Kategorisierung als KI-generiert (Vereinigungsmenge). Mit dieser Methode können wir den prozentualen Anteil auf 3,05 bis 4,88 Prozent schätzen.
Gleichzeitig geben die Kodierungen Aufschluss über die Reliabilität der Kodierungen und damit auch über die Einheitlichkeit des Verständnis der Kodierinstruktionen und Bewertungskriterien. Mit einem Cohens Kappa Wert von 0,76 und einem Holsti-Reliabilitätskoeffizient von 0,98 liegen beide Werte im Bereich sehr guter bis exzellenter Übereinstimmung.11
Ein weiterer Ansatz zur Reduktion des Kodierungsaufwandes der Expert*innen bestand in der Option Student*innen einzusetzen, welche ohne Zugriff auf die aufwendig zu evaluierenden Kodierungshilfskriterien etwas weichere Kriterien anwenden könnten, um zu ermitteln, ob ein Bild zumindest als KI-Kandidat in Frage kommt. Diese Option erschloss sich auch aus einer möglichen Doppelnutzung der Daten, im Rahmen der Kooperation mit dem Weizenbaum Institut, welche die Kodierung mit weicheren Kriterien für ihre Forschungsziele sowieso umsetzen mussten und daher auch die Schulung der Studenten in Bezug auf die Erkennung von KI-generierten Bilder übernahm. Über die Kodierung der Experten haben wir auch hier ein Evaluationskriterium der Studenten. Je nachdem ob man wieder weichere (Schnittmenge) oder härtere Kriterien (Vereinigungsmenge) ansetzt, erhält man eine Fehlerrate (False Negative Rate) der Student*innen von 6,67 bis 20,83 Prozent.
Kodierungsprozess im Datensatz mit algorithmischer Vorselektion
Um zusätzlich zu Aussagen zum Vorkommen von KI-generierten Bildern und deren Verbreitung auch noch mehr inhaltliche Informationen sammeln zu können, mussten wir im Rahmen unserer Kodierungsressourcen die Anzahl an Kandidatenbildern, welche durch geschulte Experten gesichtet werden müssen, noch mal erheblich reduzieren. Für diesen Zweck haben wir auf einer zweiten Stichprobe ein Ensemble-Modell von Open-Source-KI-Detektoren angewendet mit dem Ziel, diejenigen Bilder auszuschließen, welche mit großer Wahrscheinlichkeit keine KI-generierten Bilder darstellen. Diese Daten wurden dann noch einmal von studentischen Kodierer*innen mit weicheren Auswahlkriterien vorselektiert, bevor auch die verbleibenden Daten von Expert*innen mithilfe der Kodierungshilfskriterien und einer Auflösung von Uneinigkeiten über ein Expert*innen-Gremium kodiert wurden.
Algorithmische Vorselektion mit Ensemble Model
Hierfür wurden auf den Beispielbildern, die auch zur Erstellung der Hilfskriterien verwendet wurden, verschiedene Open-Source-Algorithmen mit unterschiedlichem Schwerpunkt getestet. Der Fokus lag dabei auf dem Recall der Modell, weil verhindert werden sollte, dass tatsächlich KI-generierte Bilder aussortiert werden, während gleichzeitig möglichst viele Bilder aussortiert werden sollten, um die Kodiererressourcen zu schonen.
CIFAR-10 Detectionsmodell
Wir konnten ein Modell12 finden, welches auf dem sogenannten CIFAR-10 Datensatz13 von 120.000 Bildern (50% synthetisch14 und 50% realen Ursprungs15) basiert und im Rahmen einer Kaggle Challenge erstellt wurde. Im Vergleich zu den Telegram-Bildern auf welchen oftmals noch Captions hinzugefügt wurden oder Collagen von verschiedenen Bildelementen angefertigt wurden, ist der CIFAR-Datensatz mit seinem Fokus auf einem Element je Bild (bspw. ein bestimmtes Tier oder Fortbewegungsmittel) auf sehr vereinfachten Situationen trainiert worden.
Durch Tests auf den Beispielbildern stellte sich heraus, dass zwar die Präzisionswerte im Vergleich zu anderen Modellen relativ gering waren, aber das bis zu einem Schwellwert von 0.6 das Modell bei einem Recall von 100 Prozent verblieb, so dass es hervorragend genutzt werden kann, um Bilder auszusortieren, ohne False Negatives (fälschlicherweise aussortierte KI-generierte Bilder) zu riskieren.
Stable Diffusion Detektor
Auf Grundlage einer Stichprobe von Bildern aus der Wikimedia Datenbank wurde mithilfe von BLIP eine Bildbeschreibung generiert, welche für die Erzeugung weiterer synthetischer Daten als Anweisungen für Stable Diffusion XL wiederverwendet wurde. Das Modell16 basiert dabei auf einem weiteren bei Huggingface populären Detektor,17 der mit Beispielbildern früher Generationen von Bildgeneratoren (wie VQGAN und CLIP) trainiert wurde und fügt diesem ein Finetuning auf den mit Stable Diffusion generierten Bilder hinzu. Laut eigener Aussage in der Modelbeschreibung wurde dadurch die Erkennungsrate von KI-Bildern deutlich erhöht und zwar vor allem mit neueren Modellen kreiierten Bilden, welche auf dem Diffusionsmechanismus basieren.
In Kontrast zum vorherigen Detektionsmodell zeigte sich hier auf unseren Versuchsdaten eine hohe Präzionsrate, während gleichzeitig der Recall deutlich schwächer war. Wenn das Modell also ein Bild erkannte, dann war dieses Bild auch relativ sicher tatsächlich KI-generiert. Umgekehrt entgingen dem Modell jedoch einige KI-generierte Bilder. Basierend auf dem starken Fokus auf Stable Diffusion im Finetuning-Prozess ist die Annahme naheliegend, dass hier vielleicht eine Overfitting auf speziell diesen Generator stattgefunden hat.
Komplementärdetektor
In einem Trial-and-Error Verfahren mit den verschiedenen populären und öffentlich zugänglichen Modellen auf Huggingface haben wir uns dann vor allem auf die Klassifikation derjenigen Beispielbilder konzentriert, bei denen der Stable Diffusion Detektor Probleme hatte. Als Favorit ging aus diesem Vergleich ein Modell18 hervor, über deren Trainingssetup wir leider relativ wenig Informationen haben, aber welches unseren Anforderungen am besten standhielt und laut Selbstauskunft der Modellkarte mit 100 Prozent Recall wenig Tendenz zu falsch-negativen Klassifikationen aufwies.
Ensemble Modell
Basierend auf den theoretischen Informationen über Modelle und den Ableitungen aus den Resultaten auf den Versuchsdaten haben wir ein relativ konservatives Ensemble Modell erstellt, welches die Stärken und Schwächen all dieser Ansätze versucht zu vereinen und sich in folgender Darstellung zusammenfassen lässt:
- max(Stable Diffusion Detektor, Komplementärdetektor) * (0.6<CIFAR-10 Detectionsmodell)
Im Prinzip werden alle Bilder also ausgeschlossen, welche für das CIFAR-10 Modell nicht den Schwellwert von 0.6 erreichen und für die restlichen Bilder wird jeweils der höhere Wert der beiden anderen Modelle verwendet. Als Schwellwert für das entstehende Ensemble-Modell wurde dann mit 0.14 der Tiefstwert eines nachweislich KI-generierten Bildes aus den Beispieldaten verwendet.
Mit der Hypothese, dass dieses so konstruierte Modell ein geeigneter konservativer Ansatz für den Ausschluss von Bildern sein könnte, wurde es entsprechend auf den Testdaten verprobt. Die Annahme, hier ein zuverlässiges Modell gebaut zu haben, bestätigte sich, da keines der KI-generierten Bilder aussortiert (100% Recall) wurde und das selbst, wenn man das härtere Kriterium ansetzt, dass schon eine Stimme eines Experten für die Einkategorisierung als KI-generiert ausreicht. Gleichzeitig wurden auf den Testdaten mittels dieses Ansatzes auch 58,7 Prozent der Bilder aussortiert, so dass bei gleicher Stichprobengröße die Anzahl der KI-generierten Bilder in einem algorithmisch vorselektierten Datensatz mehr als verdoppelt würden.
KI-Kodierungen auf Datensatz mit algorithmischer Vorselektion
Auch wenn die Kodierungshilfskriterien weiterhin exakt gleich blieben wie beim Testdatensatz wurde der Prozess etwas verändert, um zeitgleich eine eindeutige Bewertung eines jeden Bildes als Resultat und Input für folgenden inhaltliche Kodierungsschritte zu erhalten und zugleich die Expertenressourcen möglichst zu schonen.
Das angewandte Verfahren, um diesen Anforderungen gerecht zu werden, ist ein dreistufiger Kodierungsprozess:
-
- Studentische Kodierung: Mithilfe der weicheren Kriterien der studentischen Kodierung konnte unter Inkaufnahme der oben errechneten Fehlerquote erreicht werden, dass das Gesamtmaterial von 2.231 Bilder auf 369 Bilder um 83,4% reduziert werden konnte. Uneinigkeiten unter den drei Kodierer*innen wurden nach dem Mehrheitsprinzip aufgelöst.
- Expert*innenkodierung: Mit den gleichen inhaltlichen Anweisungen und Expert*innen wie auf dem Testdatensatz wurden die verbleibenden 369 Bilder kategorisiert, wobei dieses Mal den Expert*innen auch die Option offen stand, einen Fall zur Entscheidung an das Expert*innengremium für weiterführende Diskussion weiterzugeben.
- Expertengremium: Uneinigkeiten zwischen den Expert*innen und weitergegebene Fälle wurden durch das Zusammenführen der gefundenen Evidenzen für die Entscheidung und anschließender Diskussion entlang der Kodierungshilfskriterien aufgelöst und somit die Gesamtzahl auf 158 KI-generierte Bilder reduziert.
Unter Berücksichtigung der Fehlerraten verschiedener Prozessierungsschritte kann man auch auf diesem Datensatz eine Schätzung des Gesamtaufkommens an KI-generierten Bildmaterial hochrechnen und als Gegenprobe zur Schätzung auf dem Testdatensatz verwenden. Bei ursprünglich 5.402 Bildern entsprechen die 158 Bilder, die schlussendlich als KI-generiert kategorisiert wurden, einem Anteil von 2,9 Prozent. Zu beachten ist nun, dass mit der algorithmischen Vorselektion und der studentischen Vorselektion zwei mögliche Fehlerquellen zu berücksichtigen sind. Für beide haben wir über die Testdaten eine gewisse Schätzung errechnet. Während der Schätzwert der False Negative Rate (FNR) bei der algorithmischen Vorselektion durch den konservativ gewählten Schwellwert bei 0% lag, ist der Wert für die Student*innen bei 6,67 bis 20,83 Prozent. Rechnet man diese Werte mit ein, kommt man also auf diesem Weg bei einem Wert von 3,13% bis 3,69 Prozent heraus. Da die Fehlerrate der algorithmischen oder studentischen Vorselektion um über 30% unterschätzt worden sein müsste, lässt sich daher sagen, dass die 4,88 Prozent als Maximalwert hierdurch eindeutig bestätigt werden.
3.c. Kodierung inhaltlicher Dimensionen auf KI-generierten Bildern
3.c.1. Themen
Wir ordnen KI-generierten Bildern Themen zu, indem wir versuchen, die verschiedenen Elemente von Bildern aus der Perspektive ihrer Urheber*innen zu erfassen. Wir überlegen, was der Prompt hinter den Bildern sein kann, und was die Person versucht, generativ darstellen zu wollen. Auch interessiert uns der (nicht-generativ) hinzugefügte Text, mit dem die Bilder in einen anderen Kontext gesetzt werden.
Die Themen lassen sich folgendermaßen einteilen:
-
- Migration: Das Bild stellt migrantisch gelesene Menschen dar und/ oder beinhaltet eine explizite Erwähnung oder Referenz zu Migration.
- Kriminalität/Gewalt: Das Bild gibt Gewalt wieder und/oder wirft Kriminalität vor.
- Wirtschaft/ Finanzen/Industrie: Im Bild werden Kraftwerke, Banken, Reichtum, Industrie oder Wirtschaft dargestellt.
- Sicherheitspolitik und Krieg: Das Bild behandelt geopolitische Konflikte, Krieg, Militärdarstellungen, staatliche Kontrolle, oder innere Sicherheit.
- Gesundheit: Das Bild greift die Themen Medizin (Spritzen, Impfen, Corona, Pandemien), Ernährung, WHO, etc. auf.
- Natur: Das Bild zeigt unberührte Natur, zerstörte Landschaften, Tiere oder thematisiert Klimaschutz und Klimawandel.
- Politik: Das Bild greift Parteipolitik, aber auch Protest, Wahlkampf, aktuelle politische Ereignisse und Referenzen zu Politiker*innen auf.
- Nationalismus: Das Bild zeigt Nationalsymbole mit positiver und negativer Konnotation, darüber hinaus auch die Überhöhung der eigenen Nation über andere.
- Diversität: Das Bild thematisiert sexuelle Orientierung und/oder Geschlechteridentität.
3.c.2. Visuelle Ansprache
Wir ordnen KI-generierten Bildern visuelle Ansprachen zu, indem wir auf emotionale und rationale Überzeugungsstrategien in der Bilddarstellung achten. Die visuelle Ansprache lässt sich anhand der Ästhetik des Bildes nachvollziehen, aber auch durch aufgegriffene Narrative, Tonalität der Textbausteine oder externe Elemente wie Emojis.
Die Elemente der visuellen Ansprache lassen sich folgendermaßen einteilen:
-
- Empörung: Ziel des Bildes ist es, den Betrachter aufzuwühlen.
- Gefahr: Das Bild suggeriert körperliche Versehrtheit und/ oder Gewaltandrohung.
- Überlegenheit/ Stolz: Es werden Charaktere über andere gestellt.
- (Vermeintliche) Tatsachen: Es wird mit (vermeintlichen) Tatsachen argumentiert. Hier muss es sich nicht unbedingt um eine Täuschung handeln.
- Freude/Kollektivität: Es werden (bei der Zielgruppe) positive Emotionen und/oder ein Zusammengehörigkeitsgefühl ausgelöst.
- Humor: Das Bild beinhaltet humoristische Elemente (Tonalität, Textbausteine, Überspitzung, Satire).
- Dystopie: Das Bild stellt eine dunkle und nicht wünschenswerte Zukunftsvision dar.
- Vision/Utopie: Das Bild stellt einen Entwurf für eine fiktive, zukünftige Lebensform und Gesellschaftsordnung dar.
- Nostalgie: Das Bild suggeriert eine Sehnsucht nach vergangenen Zeiten oder eine Rückwärtsgewandheit.
3.c.3. Missbrauchspotential
Zur Identifikation des Missbrauchspotenzials zur Täuschung haben wir die Bilder in die Kategorien reale Person, fotorealistisches Szenario und Generik eingeteilt.
-
- Reale Person: Im Bild wird eine real existierende oder bekannte Person dargestellt. Ob sie dabei realistisch dargestellt ist oder als Cartoon, in schlechter Qualität oder in unglaubwürdigen Szenarien ist nicht relevant.
- Fotorealistisches Szenario: Die Abbildung ähnelt einer Fotografie und bildet eine Szene ab, die sich so wie im Bild vermeintlich zugetragen haben könnte. Zeichnerisch nachempfundene Abbildungen sind daher kein fotorealistisches Szenario. Wichtig für die Bewertung des Bildes ist nicht nur der KI-generierte Teil, sondern das Gesamtbild, sodass KI-Bilder mit ursprünglicher Täuschungsabsicht bspw. durch humoristisch eingefügte Elemente wieder zu nicht realen Situationen werden können.
- Generik: Es wird bewertet, inwieweit der Einsatz von KI zur Kreation des Bildes von essentieller Bedeutung war, und in welchen Fällen das KI-Bild mittels Internetsuche/Stockfotos durch ähnliche Bilder ersetzt werden könnte, die die gleichen Effekte hervorgerufen hätten.
3.c.4. Regionaler Bezug
Diese Kategorie haben wir eingeführt, um weitere Informationen über die regionale Fokussierung der Themen zu bekommen und um davon ableitend auch Aussagen treffen zu können, ob die Landtagswahlen überhaupt im Fokus stehen. Des Weiteren liefert diese Dimension einen Indikator, aus welchen Kontexten das Material ursprünglich kommen könnte. Als Kriterium haben wir hier angesetzt, dass ein Bild oder der dazugehörige Post einen Bezug zu einer bestimmten Region herstellen muss. Auf Basis der KI-generierten Bilder im Testdatensatz haben wir uns dabei für folgende Kodierungsoptionen entschieden:
-
- Deutschland: Fokus unserer Akteursgruppe und in Bezug auf Betrachtungszeitraum auch die Annahme des thematischen Schwerpunktes. Da sich bei Landtagswahlen oftmals regionale und nationale politische Fragen vermischt haben, haben wir uns gegen eine regionale Aufteilung entschieden.19
- USA: Aufgrund verschiedenster Referenzen zum amerikanischen Wahlkampf (insbesondere Trump, Biden und Harris) als Region aufgenommen.
- Frankreich: Aufgrund der Vielzahl an Referenzen zu den Olympischen Spielen in Paris als Region aufgenommen.
- Ireland/UK: Aufgrund verschiedener Bilder von Unruhen im Vereinigten Königreich,20 die im Beobachtungszeitraum stattfanden, als Region aufgenommen.
- Ukraine/Russland: Aufgrund der Prominenz des Themas im Landtagswahlkampf und innerhalb der Textnachrichten in unserem Milieu als Region aufgenommen.
- Sonstige: Alle anderen regionalen Bezüge, die nicht zu den oben genannten Regionen gehören. Insbesondere auch wenn neben den oben genannten Bezügen auch noch weitere Regionen referenziert werden.
- Kein Bezug: Allgemein gehaltene Aussagen und Bilder, welche keine Region explizit nennen und sich auf verschiedene Regionen beziehen könnten.
Beispielhaft würden die textliche Referenzierung der Ampelkoalition, deutsche Nationalflaggen auf Bildern oder die Darstellung deutscher Politiker als regionaler Bezug zu Deutschland gewertet. Eine reine Referenzierung von Figuren wie Pepe der Frosch, die ursprünglich zwar vor allem aus dem amerikanischen Kontext kommen, aber mittlerweile weltweite Verbreitung und Referenzierung finden, würde ohne weitere Informationen nicht als regionaler Bezug gewertet. Gleiches gilt für die Sprache, die an sich noch keinen regionalen Bezug definiert.
Für die Bilder ohne regionalen Bezug wurde zusätzlich noch von einem einzelnen Kodierer ein Flag eingetragen, ob das Bild nur deutschen oder nur englischen Text beinhaltet. Aufgrund der Eindeutigkeit des Kriteriums wurde dies nicht mehrfach kodiert.
3.e. Inter-Koder Reliabilität
3.e.1. Theoretische Grundlage zur Reliabilität
Im Allgemeinen werden für die Bestimmung der Reliabilität (Zuverlässigkeit) von Kodierungen meist verschiedene Kappa Statistiken verwendet (bzw. lässt sich im vorliegenden Fall der dichotomen Kategorien zeigen, dass die geläufigsten Koeffizienten äquivalent zu Kappa Statistiken sind). Kappa bezieht sich dabei auf eine Gruppe von Methoden, bei denen die Übereinstimmung zwischen Kodierern um einen dem Zufall zugeschriebenen Faktor bereinigt wird, um somit zu ermitteln, wie groß die rein inhaltliche Übereinstimmung ist. Mathematisch lassen sich diese Methoden wie folgt darstellen:
Inhaltliche Unterschiede ergeben sich dabei vor allem daraus, dass für die Berechnung der zufälligen Übereinstimmung unterschiedliche Annahmen getroffen werden.
Bei der Auswahl von Reliabilitätskoeffizienten für die vorliegende Untersuchung haben wir uns an wissenschaftlichen Best-Practice Empfehlungen21 (Holsti Reliabilitätskoeffizient, Krippendorffs Alpha) sowie der Popularität im wissenschaftlichen Kontext22 (Cohens Kappa) orientiert. Im Folgenden eine kurze Einordnung der dahinter stehenden Annahmen:23
- Cohens Kappa: Ist die in der wissenschaftlichen Literatur am häufigsten verwendete Kappa-Statistik. Die zugrundeliegende Annahme ist, dass beide Kodierer mit potentiell unterschiedlicher Frequenz die entsprechenden Ausprägungen kodieren. Als Schätzer für diese Verteilungen wird die beobachtete prozentuale Anteil an Ja-Stimmen für die betrachtete Kategorie herangezogen und daraus berechnet, wie groß die erwartete Übereinstimmung wäre, wenn beide einfach zufällig/blind mit dieser Wahrscheinlichkeit kodieren würden.
Anwendbarkeit: Nur anwendbar bei genau zwei Kodierer, die jedes Objekt kodiert haben. Für Fälle, in denen mehr als zwei Kodierer jedes Objekt kodiert haben und nicht zwingend jedes Objekt von jedem Kodierer annotiert wurde, haben wir mit Fleiss Kappa eine Verallgemeinerung von Cohens Kappa verwendet.
- Krippendorffs Alpha: Grundsätzlich im Falle dichotomer Entscheidung (Ja/Nein) bei zwei Kodierern eine weitere Kappa Statistik (in diesem Fall äquivalent zu Scotts Pi), wo der Unterschied zu Cohens Kappa darin liegt, dass beide Kodierer derselben Verteilung folgen. Als Schätzer wird hier gemittelt über die beiden beobachteten Verteilungen. Dementsprechend sind die Werte von Cohens Kappa und Krippendorffs Alpha auch meist sehr ähnlich und unterscheiden sich nur relevant in Fällen, wo die beiden Kodierer eine sehr unterschiedliche Prävalenz haben eine bestimmte Kategorie auszuwählen.
Anwendbarkeit: Kann mit verschiedenen Datentypen, verschiedenen Anzahlen von Kodierern und fehlenden Werten umgehen und ist somit sehr variabel einsetzbar.
- Holsti-Reliabilitätskoeffizient: Unter der Annahme, dass im Kodierprozess das implizite oder explizite Wissen über Verteilungen keinen Einfluss auf die Entscheidung hat, sondern die Entscheidung rein auf Basis der Bildinhalte getroffen werden, kann der Wert für die zufällige Übereinstimmung auch mit 0 angenommen werden, so dass man die prozentuale Übereinstimmung der Kodierer erhält. Dies ist mathematisch Äquivalent zum Holsti Reliabilitätskoeffizienten oder Osgood’s Koeffizient, welche auch in vielen Forschungsarbeiten zum Einsatz kommen.
Anwendbarkeit: Kann mit verschiedenen Datentypen, verschiedenen Anzahlen von Kodierern und fehlenden Werten umgehen und ist somit sehr variabel einsetzbar.
Für das vorliegende Forschungssubjekt ist davon auszugehen, dass die Annahme, dass es keine zufälligen Übereinstimmungen gibt, die wirkliche Reliabilität überschätzt (bspw. sind Kategorien die selten vorkommen oftmals mental nicht so präsent bei der Analyse eines Bildes, weshalb deren Auswahl schneller mal vergessen wird, weshalb die Verteilung also durchaus Einfluss auf das Kodierverhalten hat). Umgekehrt ist aber auch davon auszugehen, dass die Annahme, dass das Kodierverhalten extrem stark durch angenommene Auftrittswahrscheinlichkeiten beeinflusst ist, allerdings wohl auch zu stark und führt zu einer Unterschätzung der tatsächlichen Reliabilität. Aus diesem Grund erscheint die Verwendung multipler Koeffizienten sinnvoll, um bei der Bewertung der Zuverlässigkeit der Ergebnisse auf obere und untere Schranken zugreifen zu können.
Einordnung der Reliabilitätswerte
Je nach Forschungsfeld und -gegenstand können die Interpretationen der Übereinstimmungsgrade teilweise deutlich unterschiedlich ausfallen. Beispielhaft vergleicht die folgende Abbildung verschiedene “Faustregeln”, die in der Psychiatrie und Psychologie weit verbreitet sind, um die Ergebnisse von Kappa-Statistiken in qualitative Rubriken einzuordnen.
Für unsere Zwecke sind wir in grundsätzlicher Übereinstimmung mit obigen Interpretationen davon ausgegangen, dass wir mit der Einteilung in “exzellent” (über 0,8), “gut” (0,6 bis 0,8) und “moderat” (0,4 bis 0,6) eine relativ konservative Mischform nutzen werden.
3.d.2. Reliabilitätswerte für verschiedene Kodierungsschritte
Die spezifischen Reliabilitätswerte der Kodierungen der verschiedenen Dimensionen der KI-generierten Bilder findet sich in folgender Abbildung:

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Zwischen den Reliabilitätswerten für Fleiss Kappa und Krippendorffs Alpha liegen bei unserer Kodierung nur minimalste Unterschiede (<0,002). Dies ist ein guter Indikator dafür, dass es zwischen den einzelnen Kodier*innen keine fundamentalen Unterschiede in der Häufigkeit der Anwendung einzelner Kodes gibt. Für die weitere Diskussion verwenden wir der Einfachheit halber nur den Fleiss Kappa Wert referenzieren, auch wenn damit beide Indikatoren gemeint sind.
Themen
Bei den meisten Themenfeldern haben wir eine hohe Reliabilität, bei der der Holsti Wert im exzellenten Bereich und der Fleiss Kappa Wert im guten Bereich liegt. Es gibt drei Ausnahmen mit »Sicherheitspolitik/Krieg«, »Wirtschaft/Finanzen/Industrie« sowie »Nationalismus«, bei denen der Fleiss Kappa Wert niedriger ist und dementsprechend nähere Untersuchungen hervorgerufen hat. Auffällig dabei ist, dass die Unterschiede in der Kodierung fast ausschließlich dazu geführt haben, dass ein Bild nicht dem Themenfeld zugeordnet wurde, da es nur von einem Kodierer dort eingeordnet wurde. Dies hängt vor allem damit zusammen, dass es sich in diesen Bildern nicht um das Hauptthema handelte, sondern es ein weiteres Thema war, was in dem Bild und durch den gesetzten Kontext mitschwang. Die dadurch stattfindende Fokussierung auf die Hauptthemen halten wir im Sinne der Analyse für sinnvoll und die Werte daher weiterhin für inhaltlich reliable.
Visuelle Ansprache
Da es für Kodierung der der visuellen Ansprache Rückschlüsse auf die ursächliche Intention und Interpretation des gesetzten Kontextes bedarf, ist es ein latentes Konstrukt, das gewisse subjektive Spielräume bei der Interpretation unvermeidbar macht. Wie zu erwarten sind die Reliabilitätswerte in dieser Gruppe daher am niedrigsten. Da für viele Dimensionen der Holsti Reliabilitätskoeffizienten im guten Bereich und für viele sogar im exzellenten Bereich liegt, sind wir der Überzeugung, dass eine ausreichende Reliabilität im Kontext dieser latenten Konstrukte immer noch gegeben ist.
Detaillierte Analysen der Unterschiede zwischen Kodierern auf den drei Kategorien mit Holsti Werten unter 0.8 haben allerdings zu Tage gebracht, dass es für Überlegenheit/Stolz und Empörung Unterschiede gab in der Frage wie prominent bzw. implizit diese Ansprache sein muss und für vermeintliche Tatsachen die Differenzen vor allem auf unterschiedliche Gewichtungen zwischen Bild und textlichen Kontext zurückzuführen sind. Da all diese Abweichungen kein falsch positives Verständnis der Kategorien implizieren, verwenden wir die Werte in unserer Analyse und fügen hier den Hinweis hinzu, dass es sich dabei eher um untere Schranken für diese Ansprachetypen handelt.
Missbrauchspotenzial
Die Kategorie »Bekannte Person« ist offensichtlich sehr eindeutig und dadurch sämtliche Reliabilitätswerte im exzellenten Bereich. Für die anderen beiden Dimensionen ist das Bild schon differenzierter, da neben guten bis exzellenten Holsti Werten, die Werte von Fleiss Kappa nur um 0.5 betragen. Während die hohen Holsti Werte nahelegen, dass für uns relevanten Größenordnung der abgeleiteten Statistiken stimmen, lassen die niedrigen sonstigen Werte darauf schließen, dass es bei einzelnen Einordnungen durchaus subjektiven Spielraum gab und die genauen Prozentzahlen, daher mit Bedacht betrachtet werden sollten.
Regionaler Bezug
Für die vom absoluten Anteil relevanten Regionen wie Deutschland, USA, Frankreich, Irland/UK und Kein Bezug sind die Reliabilitätswerte alle für Holsti im exzellenten Bereich (bis auf Kein Bezug sogar über 0.9) und für Cohens Kappa mindestens im guten Bereich (>0.6). Einziger Ausreißer ist die Einordnung des regionalen Bezugs zu Ukraine/Russland, wobei da vor allem fehlende Menge an Bildern ausschlaggebend war und das eines dieser Bilder durch die Ansprache verschiedenster gesellschaftlicher Konflikte sowohl unter “Kein Bezug” als auch spezifisch mit “Ukraine/Russland” gelabelt wurde.
4. Regressionsanalysen
Den Einfluss der Nutzung KI-gestützter Bilder auf die Viralität der Botschaften haben wir über regressionsanalytische Verfahren berechnet. In diesen Modellen haben wir die Zahl der Weiterleitungen, die eine Nachricht in dem von uns betrachteten Netzwerk an Kanälen erhalten hat, als Indikator für Viralität herangezogen. Die Analysen basieren auf allen 158 letztendlich als KI-generiert identifizierten Bildern. Als Referenzdatensatz wurden die restlichen 2002 Bilder verwendet, die Teil der Stichprobe waren, welche nach algorithmischer Vorselektion in den ursprünglichen Annotationsprozess mit eingeflossen waren, plus ihrem Anteil an der Gesamtmenge an Bildern entsprechend eine Stichprobe von 2044 Bilder, die unterhalb des Schwellenwertes für die algorithmische Vorselektion lagen. Daraus ergibt sich ein Datensatz von insgesamt 4.004 Bildern.
Im Mittel wurden die Nachrichten dieses Datensatzes 1,27 Mal (3.39 SD) von anderen Kanälen des Netzwerkes innerhalb der Wahlkampfperiode geteilt. Die Standardabweichung übersteigt das arithmetische Mittel, was eine rechtsschiefe Verteilung der Daten indiziert. Dieser für Zählvariablen häufige Verteilung wurde durch die negativ-binomiale Modellierung Rechnung getragen. Schließlich wurde die geschachtelte Struktur (Nachrichten in Kanälen) durch die Verwendung hierarchischer Modelle mit variierenden Konstanten (engl. varying Intercepts) für die Kanäle berücksichtigt. Bei der Modellierung wurde für die Zahl der Subscriber der Kanäle kontrolliert, um Verzerrungen der Ergebnisse durch besonders reichweitenstarke Kanäle zu vermeiden. Die Berechnung der Modelle wurde mittels des lme4-Pakets durchgeführt und verwendet als unabhängige Variable, die Einordnung ob ein Bild mit oder ohne Hilfe von generativer KI hergestellt wurde.

Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Laut des errechneten Modells liegt das statistische Mittel der Reduktion des Weiterleitungsverhaltens bei 45%. Bei nur 158 Bildern ist es möglich, dass Zufallseffekte die berechneten Werte für die Weiterleitungsanzahl einzelner Bilder stark beeinflussen, besonders bei großen Unterschieden zwischen den Weiterleitungszahlen. Daher ist zusätzlich 95%-Konfidenzintervall angegeben, das den Bereich angibt, in dem der wahre Wert der Weiterleitungsreduktion mit 95%iger Wahrscheinlichkeit liegt. In diesem Fall reicht das Intervall von einer Reduktion von 0,02% bis zu 69,5%.
- Siehe online hier. Dabei wurde die Sprachvorhersage nur akzeptiert, wenn das Attribut reliable den Wert True vorwies. Um eine potentiell zu restriktive Filterung zu erkennen, wurden zufällig 500 aus den herausgefilterten Texten gezogen und manuell geprüft. Davon waren fünf fälschlicherweise aussortiert. Diese Fehlerquote stellt kein Problem für die Ergebnisse des LDAs dar. Mögliche Falsch-Positive wurden nicht überprüft.
- Siehe online hier.
- Siehe online hier.
- u_mass misst die paarweise Kookkurrenz in Dokumenten des Korpus von den Top-n der wahrscheinlichsten Wörtern zu jedem Thema. Ein höherer Wert ist besser. c_uci misst die Kookkurrenz in einem wandernden Fenster. Ein höherer Wert ist besser.
- Die Themenmodelle wurden aus Kapazitätsgründen lediglich einmal trainiert. Mit mehreren Durchläufen würde sich Dellen in der Kurve ausbessern lassen. Dies würde allerdings keine andere Schlussfolgerung nach sich ziehen.
- Als Beispiele seien Verschwörung_Great_Reset und Migration genannt.
- Eine Daumenregel besagt, dass LDAs bei etwa 50 Wörtern stabil sind. Durch das durchgeführte Preprocessing ist die durchschnittliche Information pro Wort höher, so dass 20-30 Wörter der Daumenregel entsprechen würden.
- Im Rahmen der Vorbereitung auf diesen Trendreport wurden langfristig immer wieder KI-generierte Bilder als Beispiele gesammelt. Hierzu gehören Bildern aus spezifischen KI-Kanälen auf Telegram, auf Telegram verlinkte oder in den Medien referenzierte KI-Bilder von anderen Plattformen und einem kleinem Sample an Telegram-Bildern aus dem Frühjahr dieses Jahres, welches auf eindeutig KI-generierte Beispielbilder durchforstet wurde.
- Siehe Jake Horton, Shayan Sardarizadeh & Mike Wendling, »Trump Falsely Claims Harris Crowd Was Faked«, auf: BBC, 12. Aug. 2024, online hier.
- Aufgrund der Stichprobe aus dem Frühjahr und sonstigen Eindrücken von Telegram agierten wir unter der Annahme, dass der Anteil des KI-generierten Materials möglicherweise nicht ausreicht für zusätzliche Kodierungen verschiedener inhaltlicher Dimensionen.
- Vgl. Abschnitt zu Reliabilitätskoeffizienten.
- Dmytro Lakubovskyi, »ai_vs_real_image_detection«, auf: Huggingface, online abrufbar hier.
- Online abrufbar hier.
- Siehe Jordan J. Bird & Ahmad Lotfi, »CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images«, auf: ArXiv, 24. März 2023, online abrufbar hier.
- Krizhevsky, A., & Hinton, G. (2009). Learning multiple layers of features from tiny images.
- Organika.ai, »sdxl-detector« gehostet auf: Huggingface, online hier.
- https://huggingface.co/umm-maybe/AI-image-detector
- Nouar AlDahoul und Yasir Zaki, »NYUAD_AI-generated_images_detector« gehostet auf:: Huggingface, online hier.
- Vgl. »Wie beeinflusste die Bundespolitik das Ergebnis?«, auf: Tagesschau, 2. Aug. 2024, online hier.
- https://de.wikipedia.org/wiki/Unruhen_im_Vereinigten_K%C3%B6nigreich_2024
- Lacy S, Watson BR, Riffe D, et al. (2015) Issues and best practices in content analysis. Journalism & Mass Communication Quarterly 92(4): 791–811.
- Zhao X, Liu JS and Deng K (2013) Assumptions behind intercoder reliability indices. Annals of the International Communication Association 36(1): 435.
- Für eine detaillierte Diskussion der Annahmen und Unterschiede verschiedener Reliabilitätskoeffizienten empfehlen wir Zhao u.a. 2013, S. 419–480.