Methodisches Vorgehen beim Monitoring (MATR Nr. 2)
1. Zur Genese der Telegram-Netzwerke
Das Monitoring der Forschungsstelle auf Telegram geht von einem akteursbasierten Ansatz aus. Das heißt, dass relevante digitale Sphären für demokratiefeindliche Kommunikation über eine Vorklassifizierung von identifizierbaren Akteuren eingegrenzt werden. Sie dienen als Startpunkte für die Sichtung breiterer Dynamiken und als Knotenpunkte für Protestmobilisierung. Ausgehend von einem Set von 269 qualitativ durch zwei Expert*innen klassifizierten Akteuren, die im öffentlichen Diskurs durch ihre Agitation Sichtbarkeit erhalten haben, wurden Charakteristika wie ideologische Ausrichtung auf Grundlage des Kommunikationsverhaltens und der bekannten Offline-Positionierungen der Akteure sowie Formen der Organisierung festgelegt, um das Feld zu sondieren. Zudem wurde die Verbindung zu breiteren Netzwerken markiert, bspw. im Falle von reichweitenstarken Accounts, die für breitere Bewegungen sprechen. Ausgehend von dieser manuellen Einordnung, die durch eine externe Expertise von Karolin Schwarz vorgenommen und von den Mitarbeitenden der Forschungsstelle geprüft worden ist, wurde ein automatisiertes, mehrstufiges Snowball-Sampling auf der Plattform Telegram durchgeführt.
1.a. Klassifizierung der Akteure
Aus dem Snowball-Sampling wurden für die Plattform Telegram 4.586 öffentlich kommunizierende Kanäle und Gruppen – im folgenden beides unter »Accounts« zusammengefasst – aufgenommen, die sich durch Weiterleitungen von plattforminternen Beiträgen in das Netzwerk einfügen. Bei Telegram haben Kanäle eine einseitige Richtung der Kommunikation (One-to-Many-Kommunikation), während in Gruppen sich jede mit jedem per Chat austauschen kann. Letztere sind in ihrer Ausrichtung divers, weswegen sie zur besseren Analyse ein weiteres Mal klassifiziert wurden, um eine Einordnung über die ideologische Ausrichtung und Verschiebung ihrer Positionierung im Diskurs treffen zu können. Hierzu wurden Accounts anhand ihrer Subscriber und Zentralität im Netzwerk sortiert und die ersten 1.200 auf ihr Kommunikationsverhalten geprüft. Hinzu kommen weitere Accounts, welche im journalistischen oder wissenschaftlichen Diskurs bereits behandelt wurden. Die qualitative Einordnung der Accounts in zuvor definierte Kategorien (s.u.) umfasste den Einblick in die letzten 20 Posts und die 20 zuletzt geteilten Links des Kanals und wurde durch das Fachwissen der Expert*innen der Forschungsstelle abgeglichen. Zudem wurden Kanäle, die sich in ihrer Selbstbeschreibung oder über die Nutzung einschlägiger Codes der Querdenken-Bewegung oder dem QAnon-Verschwöungskult zuordnen, in die jeweiligen Kategorien eingeordnet. Ähnliches gilt für Reichsbürger, die einen markanten Außenauftritt haben. Die Klassifizierung soll in der Zukunft weiter ausgebaut werden. Bezugnehmend auf bestehende Forschungsliteratur wurden in einer idealtypischen Klassifizierung die folgenden Ober- und Unterkategorien unterschieden:
Rechtsextremismus:
- Neonazismus: Dessen Anhänger*innen zeichnen sich durch einen positiven Bezug auf den Nationalsozialismus und ein rassistisch strukturiertes Weltbild aus. Viele Anhänger sind Teil von Subkulturen, in denen über Musik, Kampfsport und Hooliganismus ein Zugang zu neonazistischem Gedankengut geliefert wird.
- Reichsbürger: Eine Gruppe von Menschen, die davon ausgeht, dass das Deutsche Reich nie aufgelöst wurde und die immer noch bestehende legitime Herrschaftsform sei. Die bundesdeutsche Demokratie habe keine repräsentative Funktion, sei nicht souverän, sondern von fremden Mächten gesteuert.
- Extreme Rechte: Organisationaler Zusammenhang, der die liberale Demokratie abschaffen will. Ihre Ideologie beruht auf Ungleichwertigkeit und Autoritarismus.
- Neue Rechte: Ein strategisch denkender Kreis rechtsextremer Aktivist*innen, die über kulturelle Aktivitäten politische Macht aufbauen wollen. Ihre Wortführer*innen inszenieren sich als ideologische Vordenker*innen. Parteien und Bewegungen werden von ihren Vertreter*innen strategisch beraten.
- Populistische Rechte: Eine Sammelkategorie, in der islamfeindliche und rassistische Akteure mit einem rechten Weltbild eingeordnet werden. Es wird das ehrliche Volk gegen eine korrupte Elite gestellt. Das System solle aber demokratisch umgestürzt werden.
Konspirationismus:
- Verschwörungsideologie: Eine Oberkategorie für Akteure, die den Lauf der Geschichte durch eine Aneinanderreihung von Verschwörungen versteht, weshalb prinzipiell alles hinterfragt wird und ein schlichtes Freund-Feind Bild entsteht. Das Verschwörungsdenken übersetzt sich in politische Mobilisierung.
- Corona-Desinformation: Umfasst Akteure, die im Kontext der Corona Pandemie mit skeptischen oder leugnerischen Positionen in den öffentlichen Diskurs treten. Sie nutzen ihre öffentlichen Kanäle meist monothematisch.
- Esoterik: Eine weltanschauliche Strömung, die durch Heranziehung okkultistischer, anthroposophischer sowie metaphysischer Lehren und Praktiken auf die Selbsterkenntnis und Selbstverwirklichung des Menschen abzielt.
- QAnon: Meint einen verschwörungsideologischen Kult, der sich um falsche Behauptungen dreht, die von einer anonymen Person (bekannt als „Q“) aufgestellt wurden. Ihre Erzählung besagt, dass satanische, kannibalistische Eliten einen globalen Ring für systematischen Kindesmissbrauch betreiben. Entstanden während Trumps Präsidentschaft wird von einem tiefen Staat ausgegangen, der die Regierung kontrolliere.
- Querdenken: Mitglieder und Sympathisant*innen einer Bewegung, die sich im Kontext der Proteste gegen die Covid-19-Pandemie gegründet hat und Zweifel an der Rechtmäßigkeit der Maßnahmen zur Eindämmung mit einer radikalen Kritik an demokratischen Institutionen verbindet.
Sonstiges
- Russischer Imperialismus: Insbesondere russische Akteure, die den Aufbau eines russischen Reichs propagieren und den Krieg in der Ukraine befürworten.
- Pro-russische Propaganda: Kanäle, die pro-russische Propaganda betreiben und einseitig über den Krieg in der Ukraine berichten.
- Prepper: Eine Gruppe Personen, die sich mittels individueller oder kollektiver Maßnahmen auf verschiedene Arten von Katastrophen vorbereiten und nicht selten Phantasien des Umsturzes pflegen.
Viele der identifizierten Kanäle lassen sich mehreren Kategorien zuordnen. So ist es nicht leicht, Verschwörungsideologien von rechtsextremen Netzwerken zu isolieren. Auch pflegen lokale Ausprägungen bestimmter Bewegungen unterschiedliche Bündnispolitiken oder nutzen bestimmte Affiliationen, um sich einem öffentlichen Stigma zu entziehen. Ausschlaggebend für die Klassifizierung war ein kumulatives Verfahren, wonach geprüft wurde, ob Akteure, die Verschwörungsmythen teilen, auch offensichtlich mit rechtsextremen Accounts verbunden sind. Ist dies der Fall, fällt die Entscheidung auf die extrem rechte Kategorie. Wenn allerdings bekannt ist, dass bspw. einzelne Influencer sich stärker ein eigenes verschwörungsideologisches Profil aufbauen, um sich von organisierten rechtsextremen Strukturen zu distanzieren oder eine bestimmte Verschwörungstheorie besonders prägnant ist, wird hier eine Unterkategorie des Konspirationismus gewählt. Um einen individuellen Bias zu reduzieren wurden die 269 Seed-Accounts von zwei Expert*innen gemeinsam kategorisiert. 107 Accounts wurden von der weiteren Auswertung ausgeschlossen, da sie nicht in das potenziell demokratiefeindliche Spektrum gehören.
1.b. Analyse der Kommunikationsnetzwerke im Untersuchungszeitraum
Um die Kommunikationsnetzwerke auf Telegram im Untersuchungszeitraum, also von Dezember 2022 bis Februar 2023, zu analysieren und die Interaktionen der jeweiligen Akteursgruppen darzustellen, haben wir ein cross-sektionales Chord-Diagram erstellt. Dieses zeigt das Weiterleitungsverhalten der oben genannten politische Milieus in absoluten Zahlen ohne Berücksichtigung endogener Effekte. Netzwerkknoten sind hier die jeweiligen Milieus aggregiert.
Darüber hinaus haben wir ein Netzwerkinstanz gebildet, um auch das Weiterleitungsverhalten auf Akteursebene darstellen und analysieren zu können. Die individuellen Akteure wurden nach ihrer Ideologie eingefärbt und Verbindungen stellen deren Weiterleitungen von Telegraminhalten dar. Akteure, die wir nicht klassifiziert haben, bzw. die für uns von nachgelagertem Interesse sind, sind anonymisiert und grau hinterlegt.
2. Zur Genese der Themenmodelle
2.a. Algorithmus
Zur Berechnung der Themen haben wir die latente Dirichlet-Zuordnung genutzt (LDA). Im Gegensatz zu komplexeren Methoden – wie in (5.) beschrieben – lässt sich diese Methode mit vertretbarem Aufwand für große Textmengen einsetzen und erhält daher den Vorzug für das allgemeine Themenmodell.
Der LDA berechnet zu einem gegeben Korpus und einer gewünschten Themenzahl k eine Wahrscheinlichkeitsverteilung für alle Wörter im Korpus für jedes der k Themen. Dafür wird jedes Dokument als eine Bag-of-Words betrachtet, bei dem ausschließlich das Vorkommen einzelner Wörter von Bedeutung ist, während die Wortreihenfolge und die Satzzusammenhänge für die Klassifikation von Themen keine Rolle spielen. Jedem Dokument wird die Eigenschaft zugeschrieben, aus mehreren latenten Themen zu bestehen. Ein Thema ist schließlich durch eine Wahrscheinlichkeitsverteilung von Wörtern definiert.
Das prinzipielle Verfahren beginnt mit der zufälligen Zuweisung von jedem Wort im Korpus zu einem Thema. Danach folgt eine Schleife über alle Wörter in allen Dokumenten mit zwei Schritten:
- Mit der Annahme, dass alle anderen Wörter außer das aktuelle korrekt ihren Themen zugeordnet sind, wird die bedingte Wahrscheinlichkeit p(Thema t | Dokument d) berechnet: Welche Themen kommen im Dokument wahrscheinlich vor? Das zurzeit betrachtete Wort passt mit höherer Wahrscheinlichkeit zu diesen Themen.
- Berechnung der bedingten Wahrscheinlichkeit p(Wort w | Thema t): Wie stark ist die Zugehörigkeit des Wortes zu den Themen?
- Aktualisieren der Wahrscheinlichkeit, dass ein Wort zu einem Thema gehört: p(Wort w ∩ Thema t) = p(Thema t | Dokument d) * p(Wort w | Thema t).
Durch mehrere Iterationen über alle Wörter im Dokument erreicht der Algorithmus eine stabile Konfiguration von Wortwahrscheinlichkeitsverteilungen für k Themen.
2.b. Datengrundlage und Preprocessing
In die Themenmodellberechnung sind alle Nachrichten der in Abschnitt 1.a genannten Kanäle eingegangen. Es erfolgte die Bearbeitung mit folgender Preprocessing-Pipeline:
- Filtern der NA-Texte: Nachrichten, die nur aus Medien-Dateien bestehen, ohne weiteren Text zu enthalten, wurden in der Themenmodellierung nicht berücksichtigt.
- Filterung auf den Zeitraum vom 1. Dezember 2021 bis 28. Februar 2023.
- Filter auf > 50 Zeichen: Eine erste Filterung auf die Mindestanzahl von Zeichen ist nötig, um eine Spracherkennung durchzuführen.
- Filter auf deutschsprachige Nachrichten: Dafür wurde die Bibliothek Polyglot verwendet.1
- Preprocessing der Texte
- Entfernung der URLs mittels Regular Expressions.
- Lemmatisierung, also die Reduktion der Wortform auf ihre Grundform, mit spaCy bei Verwendung der Pipeline de_core_news_lg.2
- Entfernung von Stoppwort-Lemmata anhand verschiedener Stoppwortlisten.
- Entfernung von Wörtern mit dem Vorkommen < 8.
- Entfernung Sonderzeichen.
- Filter auf 1-n Kanäle: Die Nachrichten innerhalb der Chatkanäle behandeln oft keine Themen im gewünschten Sinn und verschlechtern die Nutzbarkeit des Themenmodells. Die Texte werden dennoch später klassifiziert, um die Ergebnisse explorativ nutzen zu können.
2.c. Modellberechnung und Themenbestimmung
Für das Training des Modells haben wir das Python-Paket tomotopy genutzt.3 Der wichtigste Parameter beim Training des LDA ist die Anzahl der zu findenden Themen. Dieser Prozess ist mit einigen Freiheitsgraden behaftet, der schließlich auf einer Interpretationsleistung der Forschenden basiert. In der Regel werden Themenmodelle mit einer Reihe von verschiedenen Themenzahlen trainiert und für jedes Thema wird eine Themenkohärenz berechnet. Anhand dieser wird abgeschätzt, wie viele Themen in etwa genügen, um das Themenspektrum im Korpus abzudecken. In diesem Trendreport haben wir uns auf die gesammelte Erfahrung aus dem vorherigen Trendreport verlassen und erneut 120 Themen verwendet. Der vollständigkeitshalber wird die Herangehensweise im folgenden Paragraph erneut beschrieben.
Es wurden zwei gebräuchliche Metriken für die Modellkohärenz berechnet, welche im folgenden Graph zu sehen sind.4
Die Kurven der Koherence geben dem Anwender einen Anhaltspunkt für die Bestimmung der Modellgüte zur Hand, aus dem sich in diesem Fall keine eindeutige Empfehlung ableiten lässt.5 Prinzipiell ist es bei einer großen Menge von Daten möglich, die Anzahl der Themen relativ frei zu wählen, mit dem naheliegenden Trade-Off zwischen potentiell unspezifischen Themen bei einer kleinen Anzahl von k und spezifischen, aber teilweise redundanten Themen bei großer Anzahl von k. Wir haben uns für die große Themenanzahl k=120 entschieden, da somit eine große Anzahl der aus substantieller Sicht erwartbaren Themen Niederschlag im Modell finden.6
Allerdings benötigt die qualitative Einordnung der Themen dementsprechend viel Zeit. Für diese wurden im Vier-Augen-Prinzip die 25 Wörter mit höchster Wahrscheinlichkeit und die 25 Wörter mit auf gesamtwordhäufigkeit-normierter Wahrscheinlichkeit betrachtet. Erstere zeigen die generelle Beschaffenheit des Themas, wobei zweitere die spezifischen Wörter zeigen, welche die Abgrenzung zu anderen Themen deutlich machen.
Bei der Verwendung von einem LDA-Themenmodell gilt es zu beachten, dass der Algorithmus keine Möglichkeit hat, Dokumente oder Wörter auszuschließen. Das heißt, jedes Dokument bekommt Themen und jedes Wort wird Themen zugeordnet. Zwangsläufig entstehen auch Wortverteilungen, welche sich nicht einem Thema im herkömmlichen Sinne zuordnen lassen, wie beispielsweise das Thema Sprache_Füllwörter (siehe Wordclouds). Eine weitere Schwierigkeit sind überlappende Themen wie die zwölf Themen rund um Corona. Hier ist es für eine aussagekräftige Interpretation essentiell, eine sinnvolle Einordnung der Themen vorzunehmen. Dafür haben wir in einem iterativen Prozess die Themen in acht Themenkomplexe und 35 Oberthemen aufgeteilt.
Für eine erste Einschätzung der Güte der Einteilung diente die Korrelationsmatrix zwischen den Wortwahrscheinlichkeiten der verschiedenen Themen. Die Achsen sind zur Übersichtlichkeit mit den Themenkomplexen gekennzeichnet. Jede Zeile zeigt die Korrelation für ein Thema mit allen anderen Themen. Ein weißer Punkt bedeutet vollständige Korrelation. Je dunkler der Punkt, umso weniger korrelieren die Themen. Es lassen sich Cluster von Themen erkennen, die uns bei der Einteilung als Stütze dienen können. Beispielsweise befinden sich etwa bei einem Drittel der Diagonale der Themenkomplex Corona und in der Mitte der Themenkomplex Ukraine-Russland.
2.d. Validierung der Themen
Die Erkennung eines Themas in einem Dokument ist instabil für kürzere Dokumente.7 Zur Annäherung an eine Stabilitätseinschätzung in Abhängigkeit von der Dokumentenlänge führten wir folgende Untersuchung durch:
- Auswahl eines zufälligen Samples von 25.000 Dokumenten mit einer Lemmata-Anzahl von über 100: Die Themenermittlung zu diesen Texten wird als korrekte Referenz gesehen, da der LDA für diese Textlänge sehr stabil ist.
- Wir betrachten verschiedene Textlängen von n = 10 bis 100 in Zehnerschritten: Es werden für jedes Dokument n Lemmata aus der jeweiligen Ursprungsmenge gesampelt. Für die entstehende Wortmenge wird ein Thema inferiert, so dass eine neue Themenzuweisung für die 25.000 Dokumente entsteht. Für ein stabiles Themenmodell sollte diese Zuweisung möglichst nahe an der Referenz aus Schritt 1 liegen.
- Zehnfache Wiederholung von Schritt 2 und Aggregation der Ergebnisse: Das resultierende Thema wird über den Modalwert ermittelt. Zusätzlich werden die Oberthemen und Themenkomplexe bestimmt, um zu sehen, ob das Thema in der weiter gefassten Definition noch erfasst wird. Schlussendlich wird die euklidische Distanz zwischen den Wortwahrscheinlichkeitsverteilungen des Referenzthemas und des gesampleten Themas ermittelt, welches als Abstandsmaß unabhängig von der Kategorisierung ist und daher verlässlicher.
Die Ellenbogenmethode legt nahe, dass die Anwendung des Modells für Texte ab der Lemmatalänge von 20 einen guten Trade-Off zwischen Dokumentenanzahl und dem zu erwartenden Fehler bei der Themenbestimmung kürzerer Texte darstellt. Bei den Themenkomplexen sind im Schnitt nur 16 Prozent Fehler bei dieser Dokumentenlänge zu erwarten. Vor dem Hintergrund, dass unsere Auswertung zumeist auf stark aggregierten Daten basiert, ist dieser Fehleranteil vertretbar.
Weiterhin interessant ist die Beobachtung, dass der Fehler selbst bei der gesampelten Dokumentenlänge von 100 bei zehn Prozent für die Hauptkategorien liegt. Dies verdeutlicht, dass selbst ausreichend lange Dokumente eine gewisse Unsicherheit in dem zugewiesenen Thema beinhalten. Indem die Anzahl der Fehlzuweisungen aggregiert und durch die Prävalenz geteilt wird, bekommen wir einen normierten Prozentfehler für die Kategorien.
Aggregiert ergeben sich für die Hauptkategorie folgende Fehlerprozente: Sonstiges 18,8%, Politik 11.5%, Weitere Themen 11.4%, Protestbewegung 10.2%, Verschwörung 7.5%, Ukraine-Russland 6.4%, Corona 5.4% und Esoterik 4.2%. Der häufigste Fehler ist der Übergang von Sonstiges zu anderen oder umgekehrt. Dies ist ein nachvollziehbarer Fehler, da Sonstiges die Sprachmuster enthält und diese zu einem Teil in jedem Text vorzufinden sind. Insgesamt sind das gute Werte. Für die Interpretation sollte dennoch beachten werden, dass die Themen Politik und Protestbewegung im Vergleich zu inhaltlich klarer abgrenzbaren Themen eine höhere Fehlerquote mit sich tragen.
3. Identifikation von Aufrufen zur Offline-Mobilisierungg
Zur automatischen Erkennung von Aufrufen zu Protesthandlungen wurde ein Classifier auf Basis manuell annotierter Daten trainiert. Der von uns trainierte Classifier basiert auf einem BERT-Modell (Bidirectional Encoder Representations from Transformers). BERT ist ein von Google entwickeltes tiefes neuronales Netz, das für die maschinelle Verarbeitung von natürlicher Sprache entwickelt wurde. Ein wesentlicher Vorteil dieser Art der Modelle ist die Verfügbarkeit von mit Millionen von Sätzen vortrainierten Modellen, welche bereits eine numerische Repräsentation einer oder mehrerer Sprache erlernt haben. Dadurch genügen viel weniger Daten zum Erlernen der spezifischen Anwendung. Unser Basismodell wurde vom Team der Digitalen Bibliothek vom Münchener Digitalisierungszentrum bereitgestellt.8 Um einen Classifier zur Identifikation von Aufrufen zu Protesthandlungen zu trainieren, sind wir wie folgendermaßen vorgegangen:
1) Annotation von Trainingsdaten: Um BERT zu trainieren, haben wir Telegram-Nachrichten gesammelt, von denen einige Aufrufe zu Protesthandlungen enthielten. Anschließend wurden diese Nachrichten in einzelne Abschnitte der Länge von 50 bis 250 Zeichen zerlegt, wobei die Satzgrenzen respektiert wurden. Diese Abschnitte wurden dann von 10 geschulten Codierer*innen manuell annotiert, indem sie markiert werden, ob sie einen Aufruf enthalten oder nicht. Die Codierung der Sätze basierte auf folgender Definition von Aufrufen zu Protestaktionen:
“Ein Aufruf ist an die Mitglieder der eigenen Community gerichtet und soll diese zu konkreten Handlungen (oder Nicht-Handlungen) motivieren. Ein Appell beinhaltet eine direkte Aufforderung oder eine erkennbare Anregung zum Handeln. Der Appell kann sowohl in Form des Imperativs (“Kommt zur Demonstration !!) als auch der des Konjunktivs (“Man sollte zur Demonstration kommen”) oder Fragesätze mit direkter Ansprache erfolgen (“Warum kommt keiner zur Demonstration?” ) erfolgen.
Bei Aufrufen zu Protesthandlungen wird zum Handeln/Nicht-Handeln im nicht-digitalen Raum aufgefordert. Hierunter fallen die klassischen Mittel des realweltlichen Protests bzw. des zivilen Ungehorsams, etwa in Form von Aufrufen/Ermunterungen zu Demonstrationen, Mahnwachen, Bürgerwehren, Autocorsos, Plakatieren, Flyer Verteilen, Straßen blockieren, Methoden des zivilen Ungehorsams, Gegenproteste.”
Das Training ist von vielen Faktoren abhängig. Im Folgenden eine nicht erschöpfende Übersicht, wie verschiedene Faktoren bedacht wurden.
a) Für das erfolgreiche Training des Classifiers sind besonders die positiven Fälle, also das Vorkommen von Mobilisierungsaufrufen, entscheidend. Da die Arbeitszeit der Codierer*innen begrenzt ist, kann die Anzahl der positiven Fälle erhöht werden, indem man für ein balanciertes Trainingsset sorgt, also wenn die Wahrscheinlichkeit für das Auftreten der Aufrufe in den Beispieldaten erhöht wird. Wir haben den ganzen Trainingsprozess in zwei Schritte aufgeteilt, welche sich nur in der Auswahl der Trainingsdaten unterscheiden.
i) Für das initiale Training wurden 50% der Nachrichten anhand einer Stichwortliste ausgewählt.9
ii) Nachdem auf Basis der in i) ausgewählten Daten ein Klassifikator trainiert wurde, wird dieser genutzt, um Nachrichten einzuschätzen. In der zweiten Phase der Codierung werden die Texte gewählt, bei denen der Klassifikator unsicher ist. Damit wird garantiert, dass mehrheitlich Texte gelabelt werden, welche neue Informationen für den Klassifikator bieten.
Die Gefahr bei i) besteht darin, dass der Klassifikator einen großen Bias für die Stichwortliste entwickelt. Zur Einschätzung haben wir die beiden Gruppen verglichen. Etwa 11% der Nachrichten des Stichwortcorpus waren positiv und machten damit 81% der gesamten Positiven aus; im Zufallscorpus waren 2,6% der Nachrichten positiv und machten damit folglich 19% der gesamten Positiven aus. Dies bewerten wir als gut, da es zeigt, dass die Stichwortliste zur Erhöhung der Positiven geführt hat, aber wir auch noch genügend zufällige Beispiele haben, um einen heterogenen Datensatz zu erhalten. Insgesamt wurden somit 6,8% der Nachrichten im Schritt i) als Mobilisierungsaufrufe kodiert.
Im Schritt ii) wurden 22,1% der Nachrichten als Mobilisierungsaufrufe kodiert. Dies bewerten wir als sehr positiv, da das Modell im zweiten Schritt des Trainings effektive an den Grenzfällen lernen kann.
b) Um die Heterogenität der Trainingsdaten zu verbessern, haben wir die Anteile der vertretenen Ideologien angeglichen.
c) Die Übereinstimmung der Einschätzungen der Kodierer*innen muss geprüft werden. Dazu muss abgewägt werden, wie redundant die Nachrichten kodiert werden müssen. Wir haben etwa 15% der Nachrichten von allen Kodier*innen und alle anderen zweifach bearbeiten lassen. Für zweiteres wurde ein Schema gewählt, bei dem alle Codierer*innen-Paare gleich viele Nachrichten bearbeiten. Zur Berechnung der Übereinstimmung haben wir Krippendorff’s alpha verwendet.10 Da alpha für komplett kodierten Nachrichten beträgt 0.63. Die paarweisen Werte betrugen im Schnitt 0.65 und bewegten sich zwischen 0.57 und 0.71. Dies ist eine erwartbare Variation und versichert eine homogene Qualität der Codierungen über den Codierer*innen hinweg. Der niedrige, homogene alpha-Wert indiziert, dass es ein relativ schweres Klassifikationsproblem ist.
2) Vorverarbeitung der Daten: Vor dem Einsatz von BERT wurden die Texte in ein Format gebracht, das vom Modell verarbeitet werden kann. Dazu gehört zum Beispiel das Tokenisieren, also das Zerlegen von Texten in einzelne Wörter oder Phrasen. Wir verwendeten den Tokenisierer von dem Basismodell.
3) Training des BERT-Modells: Wie in 1.a) beschrieben wurden 2 Modelle trainiert. Dabei wurden jeweils 80% der kodierten Daten zum Training verwendet und die restlichen zum Testen der Performanz verwendet.
Modell 1).a).i):
Es wurden auch die kodierten Daten verwendet, bei denen die Codierer keine Übereinstimmung hatten. Dies ist sinnvoll, da dieses erste Modell nur dafür gedacht war, neue Texte für den manuellen Kodierungsprozess zu finden, also genau Texte, bei denen es sich vielleicht um einen Aufruf handelt. Trainingsdaten waren 22222 Texte und davon 2082 als Aufruf codiert. Die Testdaten waren 5556 und 510 positiv. Das ausgewählte Modell hatte einen Recall von 0.75 und eine Präzision von 0.79, was die F-Score von 0.77 ergibt.
Modell 1).a).ii):
Da dieses Modell für die finale Verwendung trainiert wird, werden nur die codierten Daten verwendet, bei denen die Codierer übereinstimmen. Dies ergibt ein Trainingsset von 29196 Texten, von denen 2527 als Aufruf codiert sind. Das Testset beinhaltet 7300 Texte, von denen 630 als Aufruf codiert sind. Das trainierte Modell erreicht einen Recall von 0.73 und eine Präzision von 0.73 und demnach den gleichen F-Score. Der aufmerksame Leser wird feststellen, dass die Werte nun nach dem umfangreichen Training schlechter sind als zuvor. Dies liegt darin begründet, dass das Trainingsset absichtlich mit besonders schwierigen Fällen angereichert wurde. Bei den Werten handelt es sich also um eine untere Schwelle bezogen auf Daten in einem repräsentativen Datensatz.
Für das Training nutzten wir die Python Bibliothek transformers von Huggingface.11
4. Zur Genese von kleinen Themenmodellen
Bei der Einordnung von den Querfront-Tweets und den Inhalten der Zeitschriften Compact und Demokratischen Widerstand wurden Themenmodelle genutzt. Diese wurde nicht analog zum allgemeinen Themenmodell trainiert, sondern mit dem Python Pakets Top2Vec.12 Dieses baut auf einer Transformerarchitektur auf, welche ebenso für die Identifikation von Aufrufen zur Offline-Mobilisierung genutzt wurden . Im Gegensatz zu dem vorher beschriebenen LDA werden hier also keine Wortwahrscheinlichkeiten berechnet, sondern Dokumente in einen Vektorraum überführt. Dieses konserviert mehr Eigenschaften des Textes, zum Beispiel geht die Wortreihenfolge in einem Satz nicht mehr verloren. Ein weiterer Vorteil ist das Wegfallen vieler Preprocessing-Schritte, da die Sprache in ihrer natürlichen Form verarbeitet werden kann. Der wesentliche Nachteil gegenüber dem LDA ist eine langsamere Verarbeitungszeit, daher setzen wir diese Technik bisher nicht bei dem allgemeinen Themenmodell ein.
Bei der Umrechnung der Dokumente in den Vektorraum können verschiedene Sprachmodelle als Basis genutzt werden: wir haben universal-sentence-encoder-multilingual-large eingesetzt, da dieses unter anderem auch für deutsch trainiert wurde. Der Algorithmus besteht aus folgenden Schritten:
- Transformation jedes Dokumentes in einen Vektorraum mit mehreren hundert Dimension auf Basis des genutzten Sprachmodelles.
- Dimensionsreduktion mit UMAP13 auf 5. Dieses vereinfacht die Berechnung von Clustern im nächsten Schritt.
- Bestimmung von Clustern innerhalb dieses Vektorraums durch HDBSCAN,14 welches dichter besetzte Teile des Raumes identifiziert und diese als Cluster interpretiert.
Die Anzahl der Cluster wird zunächst automatisch bestimmt, kann jedoch einfach auf eine beliebige Zahl reduziert werden. Zur Benennung der Cluster nutzen wir drei Hilfsmittel:
- Ein Cluster wird beschrieben durch seinen Zentroiden, dem durchschnittlichen Vektor seiner Bestandteile. Da die Dokumente im gleichen Vektorraum wie einzelne Wörter verortet sind, können die naheliegendsten Wörter zu dem Dokument ausgegeben werden. In der Praxis sind dies oft sehr spezifische Wörter, welche sich nur bedingt zur Benennung eignen. Diese sollten daher mit einer Worthäufigkeitsliste von einem größeren Korpus verschnitten werden.
- Wir berechnen auf dem jeweiligen Corpus die Worthäufigkeiten und vergleichen diese mit den Worthäufigkeiten des Clusters. Damit zeigen sich charakteristische Wörter für diesen Cluster innerhalb des Corpus, welche sich zur Beschreibung des Cluster eignen.
- Durchsicht von Dokumenten aus dem Cluster. Dies setzen wir hauptsächlich zur Kontrolle, der mit hilfe von 1. und 2. ermittelten Clusterbeschreibungen (= Themen).
5. Zur Analyse der Twitterdiskurse
Um zu analysieren, wie der das »Manifest für Frieden« und der sogenannte »Aufstand für Frieden« auf Twitter diskutiert wurden, haben wir alle Tweets zu den Hashtags rund um die beiden Ereignisse mit dem Tool Twitter-Explorer15 heruntergeladen. Um die Debatte möglichst vollumfänglich einzufangen, haben wir auch die wichtigsten Co-Hashtags analysiert. Darunter fielen #Friedensverhandlungenjetzt, #Friedenskundgebung, #Querfront, #ManifestfuerFrieden, #AufstandfuerFrieden, #b2502, #friedensschwurbler und der Hashtag #sundermeyer in diversen Schreibweisen und für den Zeitraum kurz vor der Veröffentlichung des »Manifest für Frieden« bis zum 20. März 2023, um auch den diskursiven Nachgang zu erfassen. Insgesamt konnten wir so rund 267.500 Tweets von 55.200 Nutzer*innen zusammentragen.
Für unsere Analyse haben wir sogenannte Retweetnetzwerke generiert. Wenn Twitternutzer*innen Inhalte anderer Nutzer*innen durch Retweeten teilen, wird dies als Verbindung im Netzwerk dargestellt. Hieraus kann man durchaus eine inhaltliche Affirmation ableiten, da sich die Gepflogenheit etabliert hat, Nachrichten aus dem gegnerischen politischen Lager lediglich mittels Screenshot zu teilen, um diesen keine größere Reichweite zu verschaffen. Eingefärbt haben wir die Akteure mittels des Louvain Community Detection-Algorithmus16 – hier also nicht anhand deren Ideologie, sondern ihres Retweet-Verhaltens. Dabei werden Gruppen von Akteuren – oder in diesem Fall Twitter-Nutzer*innen – automatisiert detektiert, wenn diese sehr eng miteinander verbunden sind, bzw. sich übermäßig häufig miteinander kommunizieren. So können wir relativ schnell die Modularität des Netzwerkes bewerten und Cluster, bzw. Nutzergruppen ausfindig machen.
So hat der Algorithmus bspw. Akteure der Partei »Die Linke« unterschiedlichen Clustern zugeordnet, da deren Nachrichten von unterschiedlichen Audienzen geteilt wurden. Sahra Wagenknecht ist mit dem EMMA-Magazin selbstredend in der Diskurskoalition der Befürworter des Manifests und der Kundgebung zu finden, wohingegen andere Akteure aus der Partei, wie bspw. MdB Martina Renner, im Cluster derjenigen Twitter-Nutzer*innen zu finden ist, die sich kritisch mit den Aufrufen auseinandersetzten. Da das Netzwerk relativ groß ist und die Darstellung schnell unübersichtlich wird, haben wir alle Knoten, die nicht mit dem Hauptnetzwerk in der Mitte verbunden sind, gelöscht. Dies waren für den Diskurs irrelevante Akteure und/oder Spam-Accounts, die auf populäre Hashtags aufspringen, aber nicht von den Diskursteilnehmer*innen rezipiert werden. Auch bei den beiden Netzwerken, die wir im Folgenden erklären, sind wir so verfahren. Beim oben genannten Netzwerk haben wir darüber hinaus noch alle Knoten, die nicht selbst retweetet wurden, aus der Darstellung entfernt.
Auch die Analyse der rund 41.800 Tweets von 11.600 Nutzer*innen um die Hashtags #KlamrothLügt und #ManafHassanLügt haben wir anhand der oben genannten Methodik analysiert. Um die Erregungswellen darstellen zu können, haben wir außerdem aus den Tweets Zeitreihen gebildet, die nach Stunden untergliedert sind.
Mit einem ähnlichen Ansatz haben wir den Twitterdiskurs zum Thema Querfront analysiert. Allerdings haben wir hier keine Hashtags, sondern alle Tweets, die den Begriff enthalten, heruntergeladen – seit der Gründung Twitters bis zum 31. März 2023. Die rund 146.300 Tweets von 37.600 Nutzer*innen haben wir ebenfalls durch Retweetnetzwerke ausgewertet, sowie Timelines erstellt, die die Häufigkeit von Tweets zum Thema Querfront im zeitlichen Verlauf darstellen. Hier sei allerdings angemerkt, dass gelöschte Tweets oder bereits gelöschte Nutzer*innen hier nicht auftauchen, sondern nur diejenigen, die zum 31. März noch verfügbar waren.
Da beim Thema Querfront das Compact-Magazin der für unsere Analysen interessanteste Akteur war, haben wir dessen Umfeld genauer unter die Lupe genommen. Auf den oben beschriebenen Louvain Community Detection-Algorithmus, oder andere Pendants, wollten wir hier nicht zurückgreifen, da diese auch etwas weiter entfernte Akteure in dessen Cluster eingeordnet hat, sobald sie von denselben Nutzer*innen retweetet wurden. Daher haben wir hier ein Ego-Netzwerk um das Compact-Magazin generiert, das alle direkten Nachbarn umfasst. Also alle Twitter-Accounts, die das Compact-Magazin entweder retweeten oder von diesem retweetet werden. Dieses Netzwerk aus Akteuren und deren Tweets war die Datenbasis für die Tweet-Embeddings zu diesem Cluster.
Ferner interessierte uns, auf welche Akteure die die Nutzer*innen den Querfrontbegriff anwenden. Hierzu haben wir alle Tweets, die die Zeichenkette »Querfront aus« beinhalten, ausgewählt und die jeweiligen, nachfolgenden Entitätentupel extrahiert, um daraus ein Netzwerk zu generieren. So soll niedrigschwellig vermittelt werden, was für »Querfronten« im Twitter-Diskurs herbeiprophezeit werden. Dafür wurden die Entitäten in eine einheitliche Form gebracht, zum Beispiel: “Impfgegner”, “Impgegnern”, “Impfgegner*innen” wurde zu “Impfgegner”. Adjektive wurde aus der Entität herausgezogen und bilden einen Knoten zweiter Klasse, zum Beispiel: „linke Putinknechte“ wird zu der Entität “Putinknechte” mit einer Kante zu “linke”, wobei der Adjektivknoten “linke” nicht aggregiert mit anderen Adjektivknoten mit dem Wert “linke”.
6. Zur Genese der Feature-Netzwerke auf Youtube
Um das Kooperationsverhalten von Youtube-Kanälen mit den beiden Querfront-Propagandisten Jürgen Elsässer und Anselm Lenz zu analysieren, haben wir die Youtube-Kanäle extrahiert, die die beiden Akteure featuren. Dazu verwendeten wir das Tool youtubedl und führten Suchen mit den Queries »Jürgen Elsässer« und »Anselm Lenz« durch. Aus den Ergebnissen wurden händisch Videos entfernt, welche lediglich über die beiden Personen berichten. Im daraus entstehenden Netzwerk wird unter anderem deutlich, welche Kanäle Formate mit beiden produzieren.
- Siehe online hier. Dabei wurde die Sprachvorhersage nur akzeptiert, wenn das Attribut reliable den Wert True vorwies. Um eine potentiell zu restriktive Filterung zu erkennen, wurden zufällig 500 aus den herausgefilterten Texten gezogen und manuell geprüft. Davon waren fünf fälschlicherweise aussortiert. Diese Fehlerquote stellt kein Problem für die Ergebnisse des LDAs dar. Mögliche Falsch-Positive wurden nicht überprüft.
- Siehe online hier.
- Siehe online hier.
- u_mass misst die paarweise Kookkurrenz in Dokumenten des Korpus von den Top-n der wahrscheinlichsten Wörtern zu jedem Thema. Ein höherer Wert ist besser. c_uci misst die Kookkurrenz in einem wandernden Fenster. Ein höherer Wert ist besser.
- Die Themenmodelle wurden aus Kapazitätsgründen lediglich einmal trainiert. Mit mehreren Durchläufen würde sich Dellen in der Kurve ausbessern lassen. Dies würde allerdings keine andere Schlussfolgerung nach sich ziehen.
- Als Beispiele seien Verschwörung_Great_Reset und Migration genannt.
- Eine Daumenregel besagt, dass LDAs bei etwa 50 Wörtern stabil sind. Durch das durchgeführte Preprocessing ist die durchschnittliche Information pro Wort höher, so dass 20-30 Wörter der Daumenregel entsprechen würden.
- Zu finden hier.
- Nachricht enthält regulären Ausdruck: “(protest|demo|straße|spazier|widersetzen|mahn|wehr|sperre|widerstand|konsequenz|block[ai]|stopp|verhind|aufsteh|gefall|abwart|absprech|kerz).*”
- Der Krippendorff-Alpha-Koeffizient ist ein statistisches Maß für die Übereinstimmung.
- Zu finden hier.
- Zu finden hier.
- Zu finden hier.
- Zu finden hier.
- Armin Pournaki u. a., »The Twitter Explorer: A Framework for Observing Twitter through Interactive Networks«, Journal of Digital Social Research 3, Nr. 1 (29. März 2021): S. 106–18, https://doi.org/10.33621/jdsr.v3i1.64.
- Vincent D. Blondel u. a., »Fast Unfolding of Communities in Large Networks«, Journal of Statistical Mechanics: Theory and Experiment 2008, Nr. 10 (Oktober 2008): S. P10008, https://doi.org/10.1088/1742-5468/2008/10/P10008.