Methodisches Vorgehen beim Monitoring (MATR Nr. 1)
1. Zur Genese der Telegram-Netzwerke
Das Monitoring der Forschungsstelle geht von einem akteursbasierten Ansatz aus. Das heißt, dass relevante digitale Sphären für demokratiefeindliche Kommunikation über eine Vorklassifizierung von identifizierbaren Akteuren eingegrenzt werden. Sie dienen als Startpunkte für die Sichtung breiterer Dynamiken und als Knotenpunkte für Protestmobilisierung. Ausgehend von einem Set von 269 qualitativ durch zwei Expert*innen klassifizierten Akteuren, die im öffentlichen Diskurs durch ihre Agitation Sichtbarkeit erhalten haben, wurden Charakteristika wie ideologische Ausrichtung auf Grundlage des Kommunikationsverhaltens und der bekannten Offline-Positionierungen der Akteure sowie Formen der Organisierung festgelegt, um das Feld zu sondieren. Zudem wurde die Verbindung zu breiteren Netzwerken markiert, bspw. im Falle von reichweitenstarken Accounts, die für breitere Bewegungen sprechen. Ausgehend von dieser manuellen Einordnung, die durch eine externe Expertise von Karolin Schwarz vorgenommen und von den Mitarbeitenden der Forschungsstelle geprüft worden ist, wurde ein automatisiertes, mehrstufiges Snowball-Sampling auf der Plattform Telegram durchgeführt.
1.a. Klassifizierung der Akteure
Aus dem Snowball-Sampling wurden für die Plattform Telegram 3044 öffentlich kommunizierende Kanäle und Gruppen – im folgenden beides unter Accounts zusammengefasst – aufgenommen, die sich durch Weiterleitungen von plattforminternen Beiträgen in das Netzwerk einfügen. Bei Telegram haben Kanäle eine einseitige Richtung der Kommunikation (One-to-Many-Kommunikation), während in Gruppen sich jede mit jedem per Chat austauschen kann. Letztere sind in ihrer Ausrichtung divers, weswegen sie zur besseren Analyse ein weiteres Mal klassifiziert wurden, um eine Einordnung über die ideologische Ausrichtung und Verschiebung ihrer Positionierung im Diskurs treffen zu können. Hierzu wurden Accounts anhand ihrer Subscriber und Zentralität im Netzwerk sortiert und die ersten 1.000 auf ihr Kommunikationsverhalten geprüft. Hinzu kommen weitere Accounts, welche im journalistischen oder wissenschaftlichen Diskurs bereits behandelt wurden. Die qualitative Einordnung der Accounts in zuvor definierte Kategorien (s.u.) umfasste den Einblick in die letzten 20 Posts und die 20 zuletzt geteilten Links des Kanals und wurde durch das Fachwissen der Expert*innen der Forschungsstelle abgeglichen. Zudem wurden Kanäle, die sich in ihrer Selbstbeschreibung oder über die Nutzung einschlägiger Codes der Querdenken-Bewegung oder dem QAnon-Verschwöungskult zuordnen, in die jeweiligen Kategorien eingeordnet. Ähnliches gilt für Reichsbürger, die einen markanten Außenauftritt haben. Die Klassifizierung soll in der Zukunft weiter ausgebaut werden. Bezugnehmend auf bestehende Forschungsliteratur wurden in einer idealtypischen Klassifizierung die folgenden Ober- und Unterkategorien unterschieden:
Rechtsextremismus:
- Neonazismus: Dessen Anhänger*innen zeichnen sich durch einen positiven Bezug auf den Nationalsozialismus und ein rassistisch strukturiertes Weltbild aus. Viele Anhänger sind Teil von Subkulturen, in denen über Musik, Kampfsport und Hooliganismus ein Zugang zu neonazistischem Gedankengut geliefert wird.
- Reichsbürger: Eine Gruppe von Menschen, die davon ausgeht, dass das Deutsche Reich nie aufgelöst wurde und die immer noch bestehende legitime Herrschaftsform sei. Die bundesdeutsche Demokratie habe keine repräsentative Funktion, sei nicht souverän, sondern von fremden Mächten gesteuert.
- Extreme Rechte: Organisationaler Zusammenhang, der die liberale Demokratie abschaffen will. Ihre Ideologie beruht auf Ungleichwertigkeit und Autoritarismus.
- Neue Rechte: Ein strategisch denkender Kreis rechtsextremer Aktivist*innen, die über kulturelle Aktivitäten politische Macht aufbauen wollen. Ihre Wortführer*innen inszenieren sich als ideologische Vordenker*innen. Parteien und Bewegungen werden von ihren Vertreter*innen strategisch beraten.
- Populistische Rechte: Eine Sammelkategorie, in der islamfeindliche und rassistische Akteure mit einem rechten Weltbild eingeordnet werden. Es wird das ehrliche Volk gegen eine korrupte Elite gestellt. Das System solle aber demokratisch umgestürzt werden.
Konspirationismus:
- Verschwörungsideologie: Eine Oberkategorie für Akteure, die den Lauf der Geschichte durch eine Aneinanderreihung von Verschwörungen versteht, weshalb prinzipiell alles hinterfragt wird und ein schlichtes Freund-Feind Bild entsteht. Das Verschwörungsdenken übersetzt sich in politische Mobilisierung.
- Corona-Desinformation: Umfasst Akteure, die im Kontext der Corona Pandemie mit skeptischen oder leugnerischen Positionen in den öffentlichen Diskurs treten. Sie nutzen ihre öffentlichen Kanäle meist monothematisch.
- Esoterik: Eine weltanschauliche Strömung, die durch Heranziehung okkultistischer, anthroposophischer sowie metaphysischer Lehren und Praktiken auf die Selbsterkenntnis und Selbstverwirklichung des Menschen abzielt.
- QAnon: Meint einen verschwörungsideologischen Kult, der sich um falsche Behauptungen dreht, die von einer anonymen Person (bekannt als „Q“) aufgestellt wurden. Ihre Erzählung besagt, dass satanische, kannibalistische Eliten einen globalen Ring für systematischen Kindesmissbrauch betreiben. Entstanden während Trumps Präsidentschaft wird von einem tiefen Staat ausgegangen, der die Regierung kontrolliere.
- Querdenken: Mitglieder und Sympathisant*innen einer Bewegung, die sich im Kontext der Proteste gegen die Covid-19-Pandemie gegründet hat und Zweifel an der Rechtmäßigkeit der Maßnahmen zur Eindämmung mit einer radikalen Kritik an demokratischen Institutionen verbindet.
Sonstiges
- Russischer Imperialismus: Insbesondere russische Akteure, die den Aufbau eines russischen Reichs propagieren und den Krieg in der Ukraine befürworten.
- Pro-russische Propaganda: Kanäle, die pro-russische Propaganda betreiben und einseitig über den Krieg in der Ukraine berichten.
- Prepper: Eine Gruppe Personen, die sich mittels individueller oder kollektiver Maßnahmen auf verschiedene Arten von Katastrophen vorbereiten und nicht selten Phantasien des Umsturzes pflegen.
Viele der identifizierten Kanäle lassen sich mehreren Kategorien zuordnen. So ist es nicht leicht, Verschwörungsideologien von rechtsextremen Netzwerken zu isolieren. Auch pflegen lokale Ausprägungen bestimmter Bewegungen unterschiedliche Bündnispolitiken oder nutzen bestimmte Affiliationen, um sich einem öffentlichen Stigma zu entziehen. Ausschlaggebend für die Klassifizierung war ein kumulatives Verfahren, wonach geprüft wurde, ob Akteure, die Verschwörungsmythen teilen, auch offensichtlich mit rechtsextremen Accounts verbunden sind. Ist dies der Fall, fällt die Entscheidung auf die extrem rechte Kategorie. Wenn allerdings bekannt ist, dass bspw. einzelne Influencer sich stärker ein eigenes verschwörungsideologisches Profil aufbauen, um sich von organisierten rechtsextremen Strukturen zu distanzieren oder eine bestimmte Verschwörungstheorie besonders prägnant ist, wird hier eine Unterkategorie des Konspirationismus gewählt. Um einen individuellen Bias zu reduzieren wurden die 269 Seed-Accounts von zwei Expert*innen gemeinsam kategorisiert. 80 Accounts wurden von der weiteren Auswertung ausgeschlossen, da sie nicht in das potenziell demokratiefeindliche Spektrum gehören.
1.b. Analyse der Kommunikationsnetzwerke zu Beginn des Ukraine-Krieges
Um die Kommunikationsnetzwerke auf Telegram im Untersuchungszeitraum, also von September 2022 bis November 2022, zu analysieren und die Interaktionen der jeweiligen Akteursgruppen abzuschätzen, haben wir das cross-sektionale Netzwerk mit einem Exponential Random Graph Model (ERGM) untersucht. Interaktionen sind hier Weiterleitungen von Nachrichten bzw. Inhalten zwischen den Kanälen. Auf die zeitabhängige Variante, die wir im letzten Trendreport genutzt haben, haben wir dieses Mal verzichtet, da wir relativ wenig Veränderung beobachtet haben und diesmal auch kein annähernd disruptives Ereignis in den Untersuchungszeitraum fiel. Da uns hier vor allem der Einfluss der Ideologie auf das Interaktionverhalten der jeweiligen Akteure interessiert, haben wir die Analyse auf die 1352 Kanäle beschränkt, deren Ideologie wir klassifiziert haben. Von ihnen haben sich allerdings nicht alle an der Kommunikation beteiligt. Aktiv haben von ihnen im Herbst letztendlich 1150 Telegramkanäle Nachrichten untereinander geteilt. Um die schiere Anzahl an möglichen Kombinationen von Weiterleitungen zwischen den Ideologien zu reduzieren, haben wir für die Netzwerkstatistik Neonazis, die extreme Rechte und die populistische Rechte, die Neue Rechte sowie die populistische Rechte in die Kategorie »Rechtsextreme« subsummiert. Darüber hinaus haben wir pro-russische Propagandakanäle und russische Imperialist*innen zusammengefasst. Die Übergruppen Konspirationismus enthält Verschwörungsideolog*innen und Kanäle, die Corona-Desinformation verbreiten oder sich der Esoterik widmen. Die anderen Subkategorien haben wir einzeln betrachtet, wie in der nachfolgenden Grafik deutlich wird.
ERGMs modellieren die Wahrscheinlichkeit eines Netzwerks und die Maße von Netzwerkmerkmalen, wie Clustering, Homophilie oder die endogenen und exogenen Parameter, die wir später in diesem Abschnitt spezifizieren werden.1 Sie sind auch in der Lage, die Auswirkungen von Kovariaten auf den Status von Beziehungen und gleichzeitig die Bedeutung und den Stellenwert struktureller Abhängigkeiten zu modellieren. Letzteres unterscheidet sie von der herkömmlichen Regression.2
ERGM modellieren ein Netzwerk, indem sie ihre Zusammensetzung aus endogenen lokalen Strukturen beschreiben, aber auch wie die Struktur zusätzlich durch exogene Kovariaten mitbestimmt wird. Bei den exogenen Kovariaten handelt es sich etwa um Knotenattribute, die die Bindungswahrscheinlichkeit einer verbundenen Dyade erhöhen oder verringern.3 In unserem Fall ist das die Ideologie der Akteure. Hier könnte z.B. davon ausgegangen werden, dass zwei Akteur*innen mit der gleichen Ideologie eher miteinander interagieren als zufällige Paare. Bevor die endogenen und exogenen Modellterme spezifiziert werden, wird die grundlegende Funktion einer ERGM kurz beschrieben. Die ERGM-Formel4 kann wie folgt ausgedrückt werden:
\(\)\[\Pr\left( \boldsymbol{Y} = \boldsymbol{y}\ |\ \boldsymbol{X} \right) = \ \frac{\exp\left\lbrack \mathbf{\boldsymbol{{\theta}}‘ \text{g}}\left( \boldsymbol{y},\ \boldsymbol{X} \right) \right\rbrack}{\kappa\left( \boldsymbol{\theta},\boldsymbol{X},\boldsymbol{\mathcal{Y}} \right)}\]
- \(\boldsymbol{Y} \subseteq {\lbrack 1,\ \ldots,\ n\rbrack}^{2}\) ist die Menge der potenziellen Dyaden zwischen \(n\)-Knoten. Knoten sind in diesem Fall, wie oben eingeführt, Telegram-Kanäle.
- Das Netzwerk \(y\) wird durch ein Set von Verknüpfungen dargestellt. Dabei handelt es sich um Weiterleitungen von Inhalten der Telegram-Kanäle.
- Die Menge der möglichen Sets von Verbindungen, \(\boldsymbol{Y} \subseteq 2^{\boldsymbol{Y}}\), ist der Stichprobenraum, also \(\boldsymbol{y} \in \ \boldsymbol{Y}\).
- \(\boldsymbol{X}\) ist ein Array von Kovariaten, das Attribute von Knoten und/oder Dyaden enthält. Dabei handelt es sich z.B. um die Ideologie des Akteurs, wie »Querdenken«, »Verschwörungsideologie« oder »Rechtsextremismus«.
- \(\mathbf{g}(\boldsymbol{y},\ \boldsymbol{X})\) stellt einen Vektor der Netzwerkstatistiken mit einem Vektor von Koeffizienten, \(\boldsymbol{\theta}\), für diese Statistiken dar, und die Normalisierungskonstante \(\kappa\left( \boldsymbol{\theta},\boldsymbol{X},\boldsymbol{\mathcal{Y}} \right) = \ \sum_{\boldsymbol{y} \in \ \boldsymbol{\mathcal{Y}}}{exp\left\lbrack \mathbf{ \boldsymbol{\theta}‘ \text{g}}\left( \boldsymbol{y},\boldsymbol{X} \right) \right\rbrack}\) ist die Summe über den Raum der möglichen Netzwerke \((\boldsymbol{Y})\) auf n-Knoten.
So können wir die endogenen Kommunikationseffekte auf Telegram modellieren, gleichzeitig Kovariaten, wie bspw. die Anzahl der Follower der jeweiligen Kanäle einbeziehen und schließlich messen, welche Akteure tatsächlich signifikant miteinander Nachrichten und Inhalte teilen.
In der folgenden Tabelle werden die endogenen und exogenen Netzwerkkonfigurationen vorgestellt und erläutert, die zur Modellierung der ERGMs verwendet wurden.
Wie oben beschrieben, simulieren die endogenen Modellterme die strukturellen Effekte des Netzwerks, während die exogenen Modellterme die Akteursbeziehungseffekte analysieren, die wir messen wollen. Zur Modellierung der endogenen Struktur des Kommunikationsnetzwerks und seiner Entwicklung wurden mehrere Struktureffekte einbezogen. Der Edges-Term berücksichtigt die Netzwerkdichte und der Curved Geometrically Weighted Out-Degree-Term modelliert die Zentralisierung von Akteuren hinsichtlich ihres Outdegrees, also wie oft sie als Quellen für Weiterleitungen herangezogen werden.5 Die Curved Geometrically Weighted Dyadwise Shared Partner Distribution zählt geteilte Partner. Der Term für Reziprozität modelliert die Erwiderung einer Interaktion durch die gleiche Handlung, oder in unserem Fall das Teilen von Inhalten. Die Geometrically Weighted Edgewise Shared Partner Distribution modelliert das Verhalten, dass Knoten Nachrichten von Akteuren weiterleiten, wenn dies andere Akteure, mit denen sie bereits interagieren, auch tun. Die Anzahl der Follower haben wir als Kovariate für den Indegree, also das individuelle Weiterleitungsverhalten, sowie den Outdegree, also die Reichweite im Netzwerk mit aufgenommen. Wichtig für unsere Analyse ist der sog. Nodemix. Hierdurch wird Interaktionsverhalten aufgrund eines bestimmten Attributes (hier die Ideologie) gemessen. Dabei werden sowohl unterschiedliche Ideologien als auch dieselbe berücksichtigt, wodurch der Term gleichzeitig homophiles und heterophiles Verhalten misst; bspw. ob Querdenker*innen Rechtsextreme weiterleiten oder Rechtsextreme v.a. mit Rechtsextremen interagieren, also eher unter sich bleiben. Dadurch, dass das Netzwerk gerichtet ist, die Verbindungen demnach eine spezifische Richtung von Quelle zu Weiterleitendem haben, gibt es für jedes potentielle Ideologie-Paar zwei entsprechende Statistiken. Einige Kombinationen mussten aufgrund geringer Fallzahlen aus dem Modell entfernt werden. Das betraf bspw. Akteure, die wir unter »Sonstige« zusammengefasst haben.
Für die Schätzung der statistischen Modelle wurde die Paketsammlung statnet6 in R verwendet. Die signifikanten Ergebnisse in der obigen Tabelle werden im Radar dargelegt, weswegen für die Ergebnisdiskussion dorthin verwiesen sei. Um wiederum die Güte der einzelnen Modelle zu beurteilen, wurden verschiedene Diagnosen durchgeführt, um sicherzustellen, dass die endogenen Netzwerkeigenschaften der Modelle mit denen des beobachteten Kommunikationsnetzwerks übereinstimmen.
2. Zur Genese der Themenmodelle
2.a. Algorithmus
Zur Berechnung der Themen haben wir die latente Dirichlet-Zuordnung genutzt (LDA). Diese berechnet zu einem gegeben Korpus und einer gewünschten Themenzahl k eine Wahrscheinlichkeitsverteilung für alle Wörter im Korpus für jedes der k Themen. Dafür wird jedes Dokument als eine Bag-of-Words betrachtet, bei dem ausschließlich das Vorkommen einzelner Wörter von Bedeutung ist, während die Wortreihenfolge und die Satzzusammenhänge für die Klassifikation von Themen keine Rolle spielen. Jedem Dokument wird die Eigenschaft zugeschrieben, aus mehreren latenten Themen zu bestehen. Ein Thema ist schließlich durch eine Wahrscheinlichkeitsverteilung von Wörtern definiert.
Das prinzipielle Verfahren beginnt mit der zufälligen Zuweisung von jedem Wort im Korpus zu einem Thema. Danach folgt eine Schleife über alle Wörter in allen Dokumenten mit zwei Schritten:
- Mit der Annahme, dass alle anderen Wörter außer das aktuelle korrekt ihren Themen zugeordnet sind, wird die bedingte Wahrscheinlichkeit p(Thema t | Dokument d) berechnet: Welche Themen kommen im Dokument wahrscheinlich vor? Das zurzeit betrachtete Wort passt mit höherer Wahrscheinlichkeit zu diesen Themen.
- Berechnung der bedingten Wahrscheinlichkeit p(Wort w | Thema t): Wie stark ist die Zugehörigkeit des Wortes zu den Themen?
- Aktualisieren der Wahrscheinlichkeit, dass ein Wort zu einem Thema gehört: p(Wort w ∩ Thema t) = p(Thema t | Dokument d) * p(Wort w | Thema t).
Durch mehrere Iterationen über alle Wörter im Dokument erreicht der Algorithmus eine stabile Konfiguration von Wortwahrscheinlichkeitsverteilungen für k Themen.
2.b. Datengrundlage und Preprocessing
In die Themenmodellberechnung sind alle Nachrichten der in Abschnitt 1.a genannten Kanäle eingegangen. Es erfolgte die Bearbeitung mit folgender Preprocessing-Pipeline:
- Filtern der NA-Texte: Nachrichten, die nur aus Medien-Dateien bestehen, ohne weiteren Text zu enthalten, wurden in der Themenmodellierung nicht berücksichtigt.
- Filterung auf den Zeitraum vom 1. August 2021 bis 30. November 2022.
- Filter auf > 50 Zeichen: Eine erste Filterung auf die Mindestanzahl von Zeichen ist nötig, um eine Spracherkennung durchzuführen.
- Filter auf deutschsprachige Nachrichten: Dafür wurde die Bibliothek Polyglot verwendet.7
- Preprocessing der Texte
- Entfernung der URLs mittels Regular Expressions.
- Lemmatisierung, also die Reduktion der Wortform auf ihre Grundform, mit spaCy bei Verwendung der Pipeline de_core_news_lg.8
- Entfernung von Stoppwort-Lemmata anhand verschiedener Stoppwortlisten.
- Entfernung von Wörtern mit dem Vorkommen < 8.
- Entfernung Sonderzeichen.
- Filter auf 1-n Kanäle: Die Nachrichten innerhalb der Chatkanäle behandeln oft keine Themen im gewünschten Sinn und verschlechtern die Nutzbarkeit des Themenmodells. Die Texte werden dennoch später klassifiziert, um die Ergebnisse explorativ nutzen zu können.
2.c. Modellberechnung und Themenbestimmung
Für das Training des Modells haben wir das Python-Paket tomotopy genutzt.9 Der wichtigste Parameter beim Training des LDA ist die Anzahl der zu findenden Themen. Dieser Prozess ist mit einigen Freiheitsgraden behaftet, der schließlich auf einer Interpretationsleistung der Forschenden basiert. In der Regel werden Themenmodelle mit einer Reihe von verschiedenen Themenzahlen trainiert und für jedes Thema wird eine Themenkohärenz berechnet. Anhand dieser wird abgeschätzt, wie viele Themen in etwa genügen, um das Themenspektrum im Korpus abzudecken. In diesem Trendreport haben wir uns auf die gesammelte Erfahrung aus dem vorherigen Trendreport verlassen und erneut 120 Themen verwendet. Der vollständigkeitshalber wird die Herangehensweise im folgenden Paragraph erneut beschrieben.
Es wurden zwei gebräuchliche Metriken für die Modellkohärenz berechnet, welche im folgenden Graph zu sehen sind.10
Die Kurven der Koherence geben dem Anwender einen Anhaltspunkt für die Bestimmung der Modellgüte zur Hand, aus dem sich in diesem Fall keine eindeutige Empfehlung ableiten lässt.11 Prinzipiell ist es bei einer großen Menge von Daten möglich, die Anzahl der Themen relativ frei zu wählen, mit dem naheliegenden Trade-Off zwischen potentiell unspezifischen Themen bei einer kleinen Anzahl von k und spezifischen, aber teilweise redundanten Themen bei großer Anzahl von k. Wir haben uns für die große Themenanzahl k=120 entschieden, da somit eine große Anzahl der aus substantieller Sicht erwartbaren Themen Niederschlag im Modell finden.12
Allerdings benötigt die qualitative Einordnung der Themen dementsprechend viel Zeit. Für diese wurden im Vier-Augen-Prinzip die 25 Wörter mit höchster Wahrscheinlichkeit und die 25 Wörter mit auf gesamtwordhäufigkeit-normierter Wahrscheinlichkeit betrachtet. Erstere zeigen die generelle Beschaffenheit des Themas, wobei zweitere die spezifischen Wörter zeigen, welche die Abgrenzung zu anderen Themen deutlich machen.
Bei der Verwendung von einem LDA-Themenmodell gilt es zu beachten, dass der Algorithmus keine Möglichkeit hat, Dokumente oder Wörter auszuschließen. Das heißt, jedes Dokument bekommt Themen und jedes Wort wird Themen zugeordnet. Zwangsläufig entstehen auch Wortverteilungen, welche sich nicht einem Thema im herkömmlichen Sinne zuordnen lassen, wie beispielsweise das Thema Sprache_Zahlwörter (siehe Wordclouds). Eine weitere Schwierigkeit sind überlappende Themen wie die 12 Themen rund um Corona. Hier ist es für eine aussagekräftige Interpretation essentiell, eine sinnvolle Einordnung der Themen vorzunehmen. Dafür haben wir in einem iterativen Prozess die Themen in acht Themenkomplexe und 36 Oberthemen aufgeteilt.
Für eine erste Einschätzung der Güte der Einteilung diente die Korrelationsmatrix zwischen den Wortwahrscheinlichkeiten der verschiedenen Themen. Die Achsen sind zur Übersichtlichkeit mit den Themenkomplexen gekennzeichnet. Jede Zeile zeigt die Korrelation für ein Thema mit allen anderen Themen. Ein weißer Punkt bedeutet vollständige Korrelation. Je dunkler der Punkt, umso weniger korrelieren die Themen. Es lassen sich klare Cluster von Themen erkennen, die uns bei der Einteilung als Stütze dienen können. Beispielsweise befinden sich etwa bei einem Drittel der Diagonale der Themenkomplex Ukraine-Russland.
2.d. Validierung der Themen
Die Erkennung eines Themas in einem Dokument ist instabil für kürzere Dokumente.13 Zur Annäherung an eine Stabilitätseinschätzung in Abhängigkeit von der Dokumentenlänge führten wir folgende Untersuchung durch:
- Auswahl eines zufälligen Samples von 25.000 Dokumenten mit einer Lemmata-Anzahl von über 100: Die Themenermittlung zu diesen Texten wird als korrekte Referenz gesehen, da der LDA für diese Textlänge sehr stabil ist.
- Wir betrachten verschiedene Textlängen von n = 10 bis 100 in Zehnerschritten: Es werden für jedes Dokument n Lemmata aus der jeweiligen Ursprungsmenge gesampelt. Für die entstehende Wortmenge wird ein Thema inferiert, so dass eine neue Themenzuweisung für die 25.000 Dokumente entsteht. Für ein stabiles Themenmodell sollte diese Zuweisung möglichst nahe an der Referenz aus Schritt 1 liegen.
- Zehnfache Wiederholung von Schritt 2 und Aggregation der Ergebnisse: Das resultierende Thema wird über den Modalwert ermittelt. Zusätzlich werden die Oberthemen und Themenkomplexe bestimmt, um zu sehen, ob das Thema in der weiter gefassten Definition noch erfasst wird. Schlussendlich wird die euklidische Distanz zwischen den Wortwahrscheinlichkeitsverteilungen des Referenzthemas und des gesampleten Themas ermittelt, welches als Abstandsmaß unabhängig von der Kategorisierung ist und daher verlässlicher.
Die Ellenbogenmethode legt nahe, dass die Anwendung des Modells für Texte ab der Lemmatalänge von 20 einen guten Trade-Off zwischen Dokumentenanzahl und dem zu erwartenden Fehler bei der Themenbestimmung kürzerer Texte darstellt. Bei den Hauptthemen sind im Schnitt nur 18 Prozent Fehler bei dieser Dokumentenlänge zu erwarten. Vor dem Hintergrund, dass unsere Auswertung zumeist auf stark aggregierten Daten basiert, ist dieser Fehleranteil vertretbar.
Weiterhin interessant ist die Beobachtung, dass der Fehler selbst bei der gesampelten Dokumentenlänge von 100 bei zehn Prozent für die Hauptkategorien liegt. Dies verdeutlicht, dass selbst ausreichend lange Dokumente eine gewisse Unsicherheit in dem zugewiesenen Thema beinhalten. Indem die Anzahl der Fehlzuweisungen aggregiert und durch die Prävalenz geteilt wird, bekommen wir einen normierten Prozentfehler für die Kategorien.
Aggregiert ergeben sich für die Hauptkategorie folgende Fehlerprozente: Sonstiges 15,1%, Weitere Themen 13%, Politik 11.7%, Protestbewegung 11.5%, Verschwörung 8.2%, Ukraine-Russland 7.1%, Corona 6.3% und Esoterik 4.9%. Der häufigste Fehler ist der Übergang von Sonstiges zu anderen oder umgekehrt. Dies ist ein nachvollziehbarer Fehler, da Sonstiges die Sprachmuster enthält und diese zu einem Teil in jedem Text vorzufinden sind. Insgesamt sind das gute Werte. Für die Interpretation sollte dennoch beachten werden, dass die Themen Politik und Protestbewegung im Vergleich zu inhaltlich klarer abgrenzbaren Themen eine höhere Fehlerquote mit sich tragen.
3. Zur Genese der ortsbezogenen Offline-Mobilisierung
Die Identifikation von Aufrufen zu ortsbezogenen Protesthandlungen erfolgt in einem zweistufigen Vorgehen. Zunächst wurde ein Classifier auf Basis manuell annotierter Daten trainiert, um Aufrufe zu Protesten automatisiert erfassen zu können. Anschließend wurden Nachrichten, in denen Aufrufe identifiziert wurden, auf Basis einer Liste von deutschen Städten und Gemeinden nach Ortsnennungen durchsucht. Im Ergebnis können so Aufrufe zu ortsbezogenen Protesthandlungen automatisiert identifiziert werden.
3.a. Identifikation von Aufrufen
Der von uns trainierte Classifier basiert auf einem BERT-Modell (Bidirectional Encoder Representations from Transformers). BERT ist ein von Google entwickeltes tiefes neuronales Netz, das für die maschinelle Verarbeitung von natürlicher Sprache entwickelt wurde. Ein wesentlicher Vorteil dieser Art der Modelle ist die Verfügbarkeit von mit Millionen von Sätzen vortrainierten Modellen, welche bereits eine numerische Repräsentation einer oder mehrerer Sprache erlernt haben. Dadurch genügen viel weniger Daten zum Erlernen der spezifischen Anwendung. Unser Basismodell wurde vom Team der Digitalen Bibliothek vom Münchener Digitalisierungszentrum bereitgestellt.14
Um einen Classifier zur Identifikation von Aufrufen zu Protesthandlungen zu trainieren, sind wir wie folgendermaßen vorgegangen:
1) Annotation von Trainingsdaten: Um BERT zu trainieren, haben wir Telegram-Nachrichten gesammelt, von denen einige Aufrufe zu Protesthandlungen enthielten. Anschließend wurden diese Nachrichten in einzelne Abschnitte der Länge von 50 bis 250 Zeichen zerlegt, wobei die Satzgrenzen respektiert wurden. Diese Abschnitte wurden dann von 10 geschulten Codierer*innen manuell annotiert, indem sie markiert werden, ob sie einen Aufruf enthalten oder nicht. Die Codierung der Sätze basierte auf folgender Definition von Aufrufen zu Protestaktionen:
“Ein Aufruf ist an die Mitglieder der eigenen Community gerichtet und soll diese zu konkreten Handlungen (oder Nicht-Handlungen) motivieren. Ein Appell beinhaltet eine direkte Aufforderung oder eine erkennbare Anregung zum Handeln. Der Appell kann sowohl in Form des Imperativs (“Kommt zur Demonstration !!) als auch der des Konjunktivs (“Man sollte zur Demonstration kommen”) oder Fragesätze mit direkter Ansprache erfolgen (“Warum kommt keiner zur Demonstration?” ) erfolgen.
Bei Aufrufen zu Protesthandlungen wird zum Handeln/Nicht-Handeln im nicht-digitalen Raum aufgefordert. Hierunter fallen die klassischen Mittel des realweltlichen Protests bzw. des zivilen Ungehorsams, etwa in Form von Aufrufen/Ermunterungen zu Demonstrationen, Mahnwachen, Bürgerwehren, Autocorsos, Plakatieren, Flyer Verteilen, Straßen blockieren, Methoden des zivilen Ungehorsams, Gegenproteste.”
Das Training ist von vielen Faktoren abhängig. Im Folgenden eine nicht erschöpfende Übersicht, wie verschiedene Faktoren bedacht wurden.
a) Für das erfolgreiche Training des Classifiers sind besonders die positiven Fälle, also das Vorkommen von Mobilisierungsaufrufen, entscheidend. Da die Arbeitszeit der Codierer*innen begrenzt ist, kann die Anzahl der positiven Fälle erhöht werden, indem man für ein balanciertes Trainingsset sorgt, also wenn die Wahrscheinlichkeit für das Auftreten der Aufrufe in den Beispieldaten erhöht wird. Wir haben den ganzen Trainingsprozess in zwei Schritte aufgeteilt, welche sich nur in der Auswahl der Trainingsdaten unterscheiden.
i) Für das initiale Training wurden 50% der Nachrichten anhand einer Stichwortliste ausgewählt.15
ii) Nachdem auf Basis der in i) ausgewählten Daten ein Klassifikator trainiert wurde, wird dieser genutzt, um Nachrichten einzuschätzen. In der zweiten Phase der Codierung werden die Texte gewählt, bei denen der Klassifikator unsicher ist. Damit wird garantiert, dass mehrheitlich Texte gelabelt werden, welche neue Informationen für den Klassifikator bieten.
Die Gefahr bei i) besteht darin, dass der Klassifikator einen großen Bias für die Stichwortliste entwickelt. Zur Einschätzung haben wir die beiden Gruppen verglichen. Etwa 11% der Nachrichten des Stichwortcorpus waren positiv und machten damit 81% der gesamten Positiven aus; im Zufallscorpus waren 2,6% der Nachrichten positiv und machten damit folglich 19% der gesamten Positiven aus. Dies bewerten wir als gut, da es zeigt, dass die Stichwortliste zur Erhöhung der Positiven geführt hat, aber wir auch noch genügend zufällige Beispiele haben, um einen heterogenen Datensatz zu erhalten. Insgesamt wurden somit 6,8% der Nachrichten im Schritt i) als Mobilisierungsaufrufe kodiert.
Im Schritt ii) wurden 22,1% der Nachrichten als Mobilisierungsaufrufe kodiert. Dies bewerten wir als sehr positiv, da das Modell im zweiten Schritt des Trainings effektive an den Grenzfällen lernen kann.
b) Um die Heterogenität der Trainingsdaten zu verbessern, haben wir die Anteile der vertretenen Ideologien angeglichen.
c) Die Übereinstimmung der Einschätzungen der Kodierer*innen muss geprüft werden. Dazu muss abgewägt werden, wie redundant die Nachrichten kodiert werden müssen. Wir haben etwa 15% der Nachrichten von allen Kodier*innen und alle anderen zweifach bearbeiten lassen. Für zweiteres wurde ein Schema gewählt, bei dem alle Codierer*innen-Paare gleich viele Nachrichten bearbeiten. Zur Berechnung der Übereinstimmung haben wir Krippendorff’s alpha verwendet.16 Da alpha für komplett kodierten Nachrichten beträgt 0.63. Die paarweisen Werte betrugen im Schnitt 0.65 und bewegten sich zwischen 0.57 und 0.71. Dies ist eine erwartbare Variation und versichert eine homogene Qualität der Codierungen über den Codierer*innen hinweg. Der niedrige, homogene alpha-Wert indiziert, dass es ein relativ schweres Klassifikationsproblem ist.
2) Vorverarbeitung der Daten: Vor dem Einsatz von BERT wurden die Texte in ein Format gebracht, das vom Modell verarbeitet werden kann. Dazu gehört zum Beispiel das Tokenisieren, also das Zerlegen von Texten in einzelne Wörter oder Phrasen. Wir verwendeten den Tokenisierer von dem Basismodell.
3) Training des BERT-Modells: Wie in 1.a) beschrieben wurden 2 Modelle trainiert. Dabei wurden jeweils 80% der kodierten Daten zum Training verwendet und die restlichen zum Testen der Performanz verwendet.
Modell 1).a).i):
Es wurden auch die kodierten Daten verwendet, bei denen die Codierer keine Übereinstimmung hatten. Dies ist sinnvoll, da dieses erste Modell nur dafür gedacht war, neue Texte für den manuellen Kodierungsprozess zu finden, also genau Texte, bei denen es sich vielleicht um einen Aufruf handelt. Trainingsdaten waren 22222 Texte und davon 2082 als Aufruf codiert. Die Testdaten waren 5556 und 510 positiv. Das ausgewählte Modell hatte einen Recall von 0.75 und eine Präzision von 0.79, was die F-Score von 0.77 ergibt.
Modell 1).a).ii):
Da dieses Modell für die finale Verwendung trainiert wird, werden nur die codierten Daten verwendet, bei denen die Codierer übereinstimmen. Dies ergibt ein Trainingsset von 29196 Texten, von denen 2527 als Aufruf codiert sind. Das Testset beinhaltet 7300 Texte, von denen 630 als Aufruf codiert sind. Das trainierte Modell erreicht einen Recall von 0.73 und eine Präzision von 0.73 und demnach den gleichen F-Score. Der aufmerksame Leser wird feststellen, dass die Werte nun nach dem umfangreichen Training schlechter sind als zuvor. Dies liegt darin begründet, dass das Trainingsset absichtlich mit besonders schwierigen Fällen angereichert wurde. Bei den Werten handelt es sich also um eine untere Schwelle bezogen auf Daten in einem repräsentativen Datensatz.
Für das Training nutzten wir die Python Bibliothek transformers von Huggingface.17
3.b. Identifikation von Ortsnennungen
Die Identifikation von Ortsnennungen basiert auf einer Liste aller politisch selbständigen Gemeinden des Statistischen Bundesamtes.18 Die Liste enthält neben den Namen der Gemeinden auch deren Einwohnerzahl, die Siedlungsdichte sowie die Geodaten.
Der angegebene Gemeindename entspricht oftmals nicht einer natürlichen Verwendung des Ortsnamens, zum Beispiel wird in vielen Texten nur von Frankfurt geschrieben, wenn Frankfurt am Main gemeint ist. Für die Erkennung in Texten haben wir auf reguläre Ausdrücke gesetzt und uns dabei auf den relevanten Teile des Gemeindenamens konzentriert. Dies führt zu vielseitigen Fehlern, denen wir durch Ausnahmen und nachträgliche Bearbeitung entgegenwirken. Die Fehler wurden identifiziert indem:
- alle doppelt vertretenen Städtenamen über der Bevölkerungsmenge von 10 000 betrachtet wurden.
- Artefakte der Datenanalyse genutzt wurden. So werden, wie im Fokus beschrieben, kleine Gemeinden oftmals in Vielfachaufrufen genannt und größere Städte in Nachrichten mit nur wenigen Städte Nennungen. Das Verhältnis von Vielfachaufrufen zu spezifischen Aufrufen wurde aufgetragen19 und so konnten schnell Kandidaten für eine fehlerhafte Erkennung identifiziert werden.
Die Aufbereitung der Städtedaten folgt folgenden Regeln:
- Exaktes Abschneiden des Gemeindenamens nach dem genannten Teils für die Liste: [„Bad Schwalbach“, „Am Großen Rhode“, „St. Wendel“, „St. Georgen“, „Forst (Lausitz)“, „Groß Düben“, „Groß Pankow“, „Sankt Katharinen“, „Markt Schwaben“, „Markt Nordheim“, „Markt Erlbach“, „Neumarkt i.d.OPf.“, „Saal a.d.Saale“, „Au i.d.Hallertau“, „Bad Neustadt“, „Neustadt b.Coburg“, „Neustadt a.d.Donau“, „Neustadt a.d.Aisch“, „Neustadt a.d.Waldnaab“, „Neustadt am Kulm“, „Bad Grund“]
Beispielsweise wird „Bad Neustadt a.d.Saale, St“ zu „Bad Neustadt“. - Entfernung von Präfixen: Präfixen aus der Liste: [„Bad „, „Forst „, „Groß „, „Klein „, „Sankt „, „Neu „, „Hessisch „, „Markt „, „Am „, „Alt „] werden entfernt. Beispielsweise wird „Hessisch Oldendorf“ zu „Oldendorf“.
Davon ausgenommen sind: [ „Bad Homburg“, „Bad Nauheim“, „Bad Waldsee“, „Bad Neustadt“, „Bad Schönborn“, „Bad Ems“, „Bad König“, „Bad Schwalbach“, „Bad Laer“, „Bad Düben“, „Bad Blankenburg“, „Bad Marienberg“, „Bad Orb“, „Bad Wildbad“, „Bad Grund“, „Bad Sachsa“, „Bad Boll“, „Bad Kleinen“, „Bad Sülze“, „Bad Sulza“, „Bad Berga“, „Bad Hönningen“, „Bad Soden“, „Bad Tölz“, „Forst (Lausitz)“, „Forst (Eifel)“, „Forst (Hunsrück)“, „Forst Hain“, „Forst an der Weinstraße“, „Groß Kummerfeld“, „Groß Lindow“, „Groß Düben“, „Groß Schenkenberg“, „Groß Boden“, „Groß Pankow“, „Groß Roge“, „Groß Buchwald“, „Groß Krams“, „Groß Kelle“, „Klein Vielen“, „Sankt Katharinen“, „Sankt Johann“, „Sankt Augustin“, „Sankt Alban“, „Sankt Wolfgang“, „Sankt Goar“, „Sankt Sebastian“, „Sankt Englmar“, „Sankt Martin“, „Sankt Julian“, „Sankt Aldegund“, „Sankt Annen“, „Sankt Thomas“, „Sankt Oswald“, „Neu Boltenhagen“, „Neu Poserin“, „Markt Schwaben“, „Markt Wald“, „Markt Nordheim“, „Markt Erlbach“, „Alt Schwerin“] - Einige Gemeindenamen werden ersetzt. {„Regen, St“: „Regen, St. Michael“, „Buch a.Erlbach“: „Buch am Erlbach“, „Senden, St“: „Senden, St. Laurentius“, „Höchst i. Odw.“: „Höchst im Odenwald“, „Stein, St“: „Stein, St. Georgen“, „Sachsen b.Ansbach“: „Sachsen bei Ansbach“, „Triebel/Vogtl.“: „Triebel im Vogtland“, „Zeil a.Main, St“: „Zeil am Main“, „Wetter (Ruhr)“: „Wetter Ruhr“, „Hann. Münden“: „Münden“}
Beispielsweise wird „Zeil a.Main, St“ zu „Zeil am Main“. - Entfernung von Suffixen: Ortsnamen werden abgeschnitten bei dem ersten Leerzeichen, Komma oder Slash. Beispielsweise wird „Frankfurt am Main“ zu „Frankfurt“
Ausgenommen sind die Ortschaften aus der Liste bei 2. und 3. Weiterhin ausgenommen sind Orte die beginnen mit einem aus [„An „, „Hohe „, „St.“, „Schwäbisch „, „Weil „, „Hohen „, „Neustadt „]. Außerdem ausgenommen sind: [ „Hohe Börde“, „Hohe Wart“, „Amt Wachsenburg“, „Amt Neuhaus“, „Amt Creuzburg“, „Am Großen Bruch“, „An der Schmücke“, „An der Poststraße“, „Sachsen bei Ansbach“, „Stadt Wehlen“, „List auf Sylt“, „Großer Auersberg“, „Schloß Holte-Stukenbrock“, „Königs Wusterhausen“, „Drei Gleichen“, „Ober Kostenz“, „Dorf Mecklenburg“, „Heilbad Heiligenstadt“, „Deutsch Evern“, „List auf Sylt“, „Saal a.d.Donau“, „Saal a.d.Saale“, „Au i.d.Hallertau“, „Au am Rhein“, „Rot am See“, „Rot an der Rot“, „Schwalbach am Taunus“, „Kirchheim b.München“, „Kirchheim am Neckar“, „Kirchheim an der Weinstraße“, „Kirchheim am Ries“, „Freiberg am Neckar“, „Steinheim an der Murr“, „Kirchen (Sieg)“, „Müden (Aller)“, „Triebel im Vogtland“, „Kleines Wiesental“, „Winkel (Eifel)“, „Zeil/Main“, „Wetter Ruhr“] - Entfernung aller Städte der Liste: [„Acht“, „Anger“, „Au“, „Aura“, „Bach“, „Berg“, „Bescheid“, „Besitz“, „Boden“, „Bogen“, „Brand“, „Brunnen“, „Brücken“, „Brecht“, „Bodensee“, „Buch“, „Chiemsee“, „Dingen“, „Eck“, „Einig“, „Ernst“, „Elbe“, „Esche“, „Fahren“, „Fisch“, „Gräben“, „Grande“, „Großen“, „Harz“, „Hammer“, „Häusern“, „Hatten“, „Hohn“, „Holt“, „Horn“, „Horst“, „Hahn“, „Insel“, „Igel“, „Karl“, „Kommen“, „Körner“, „Külz“, „Lachen“, „Lage“, „Lauf“, „Lauterbach“, „Lehre“, „Lichtenberg“, „Linz“, „Löhne“, „Lanz“, „Lug“, „March“, „Mark“, „Mauern“, „Meine“, „Meißner“, „Müssen“, „Nagel“, „Norden“, „Neunkirchen“, „Neustadt“, „Ohne“, „Osten“, „Reich“, „Rom“, „Rosa“, „Saal“, „Salzburg“, „Sand“, „Schlangen“, „Schmitt“, „Schöneberg“, „Schuld“, „Schutz“, „Schwarz“, „Schwarzen“, „Seelen“, „Senden“, „Singen“, „Sinn“, „Sommerloch“, „Sören“, „Speicher“, „Stelle“, „Stein“, „Unterer“, „Valley“, „Wald“, „Welt“, „Wehr“, „Weil“, „Weisen“, „Welle“, „Wellen“, „Weste“, „Wissen“, „Wetter“, „Wolken“, „Zell“]
Es ergeben sich eine große Anzahl von Regeln für die Bereinigung. Leider können viele Probleme nicht mit allgemeinen Regeln gelöst werden, insbesondere erhielten wir keine besseren Ergebnisse bei Verwendung einer Named Entity Recognition, bei der Sätze auf linguistische Merkmale hin automatisch untersucht und zum Beispiel “Locations” zurückgegeben werden. Diese Methode erreichte einen zu geringen Recall für den Einsatz in diesem Fall.
Für die problematischen Fälle bei größeren Städten wurde versucht, eine individuelle Lösung zu finden. In der folgenden Tabelle sind die Städte und die Probleme plus Lösung aufgelistet. Abhängig von der Anzahl der Aufrufen und dem Verhältnis der größten Stadt zu den weiteren Städten werden Fehler einfach akzeptiert.
4. Zur Genese der Twitterdaten
Um zu analysieren, wie der sog. »heisse Herbst« und der »Wutwinter« auf Twitter diskutiert wurden, haben wir alle Tweets zu den Hashtags #heisserherbst und #wutwinter mit dem Tool Twitter-Explorer20 heruntergeladen. Dabei haben wir verschiedene Schreibweisen beachtet (bspw. “heißerherbst” oder “heisserHerbst”). Aus den Daten haben wir dann Netztwerke gebildet, sowie die Timelines zu den jeweiligen Hashtags extrahiert. Für unsere Analyse haben wir sogenannte Retweetnetzwerke generiert. Wenn Twitternutzer*innen Inhalte anderer Nutzer*innen durch Retweeten teilen, wird dies als Verbindung im Netzwerk dargestellt. Hieraus kann man durchaus eine inhaltliche Affirmation ableiten, da sich die Gepflogenheit etabliert hat, Nachrichten aus dem gegnerischen politischen Lager lediglich mittels Screenshot zu teilen, um diesen keine größere Reichweite zu verschaffen. Eingefärbt haben wir die Akteure mittels des Louvain Community Detection-Algorithmus21 – hier also nicht anhand deren Ideologie, sondern ihres Retweet-Verhaltens. Dabei werden Gruppen von Akteuren – oder in diesem Fall Twitter-Nutzer*innen – automatisiert detektiert, wenn diese sehr eng miteinander verbunden sind, bzw. sich übermäßig häufig miteinander kommunizieren. So können wir relativ schnell die Modularität des Netzwerkes bewerten und Cluster, bzw. Nutzergruppen ausfindig machen. So hat der Algorithmus bspw. Akteure der Partei »DIE LINKE« einer Gruppe zugeordnet, da diese auch vermehrt Nachrichten untereinander geteilt hatten. Sahra Wagenknecht allerdings wurde einer eigenen Gruppe zugeordnet, da ihre Inhalte zum »heißen Herbst« eher weniger von anderen Parteimitgliedern auf Twitter geteilt wurden.
Für die Analyse im Blitzlicht haben wir mit dem gleichen Verfahren den #mastodon heruntergeladen, um zu sehen, wann die Twitter-Alternative seit der Übernahme durch Elon Musk trendete.
- Siehe Bruce A. Desmarais & Skyler J. Cranmer, »Statistical Mechanics of Networks: Estimation and Uncertainty«, in: Physica A: Statistical Mechanics and Its Applications, Nr. 4, Bd. 391 (2012), S. 1865–1876; Johan Koskinen & Galina Daraganova, »Exponential Random Graph Model Fundamentals«, in: Dean Lusher, Johan Koskinen & Garry Robins (Hg.), Exponential Random Graph Models for Social Networks. Theory, Methods, and Applications (Cambridge: Cambridge University Press, 2012), S. 49–76; Garry Robins & Dean Lusher, »Simplified Account of an Exponential Random Graph Model as a Statistical Model«, in: Lusher et al., Exponential Random Graph Models, S. 29–36; sowie Garry Robins & Galina Daraganova, »Social Selection, Dyadic Covariates, and Geospatial Effects«, in: Lusher et al., Exponential Random Graph Models, S. 91–101.
- Siehe dazu Bruce A. Desmarais & Skyler J. Cranmer, »Statistical Inference in Political Networks Research«, in: Jennifer Nicoll Victor, Alexander H. Montgomery & Mark Lubell (Hg.), The Oxford Handbook of Political Networks (Oxford: Oxford University Press, 2017), S. 203–221.
- Siehe Michael T. Heaney & Philip Leifeld, »Contributions by Interest Groups to Lobbying Coalitions«, in: Journal of Politics; Nr. 2, Jg. 80 (2018), S. 494–509.
- Siehe z. B. Steve M. Goodreau, James A. Kitts & Martina Morris, »Birds of a Feather, or Friend of a Friend? Using Exponential Random Graph Models to Investigate Adolescent Social Networks«, Demography, Nr. 1, Jg. 46 (2009), S. 103–125; sowie Desmarais & Cranmer, »Statistical Mechanics«.
- Siehe David R. Hunter, »Curved Exponential Family Models for Social Networks«, in: Social Networks, Nr. 2, Jg. 29 (2007), S. 216–230.
- Mark Handcock, David Hunter, Carter Butts, Steven Goodreau & Martina Morris, »statnet: Software Tools for the Representation, Visualization, Analysis and Simulation of Network Data«, in: Journal of Statistical Software, Nr. 1, Jg. 24 (2008), S. 1–11.
- Siehe online hier. Dabei wurde die Sprachvorhersage nur akzeptiert, wenn das Attribut reliable den Wert True vorwies. Um eine potentiell zu restriktive Filterung zu erkennen, wurden zufällig 500 aus den herausgefilterten Texte gezogen und manuell geprüft. Davon waren fünf fälschlicherweise aussortiert. Diese Fehlerquote stellt kein Problem für die Ergebnisse des LDAs dar. Mögliche Falsch-Positive wurden nicht überprüft.
- Siehe online hier.
- Siehe online hier.
- u_mass misst die paarweise Kookkurrenz in Dokumenten des Korpus von den Top n der wahrscheinlichsten Wörtern zu jedem Thema. Ein höherer Wert ist besser. c_uci misst die Kookkurrenz in einem wandernden Fenster. Ein höherer Wert ist besser.
- Die Themenmodelle wurden aus Kapazitätsgründen lediglich einmal trainiert. Mit mehreren Durchläufen würde sich Dellen in der Kurve ausbessern lassen. Dies würde allerdings keine andere Schlussfolgerung nach sich ziehen.
- Als Beispiele seien Veschwörung_NWO, Frauenbild_LGTBQ und Migration genannt.
- Eine Daumenregel besagt, dass LDAs bei etwa 50 Wörtern stabil sind. Durch das durchgeführte Preprocessing ist die durchschnittliche Information pro Wort höher, so dass 20-30 Wörter der Daumenregel entsprechen würden.
- https://huggingface.co/dbmdz/bert-base-german-cased
- Nachricht enthält regulären Ausdruck: “(protest|demo|straße|spazier|widersetzen|mahn|wehr|sperre|widerstand|konsequenz|block[ai]|stopp|verhind|aufsteh|gefall|abwart|absprech|kerz).*”
- Der Krippendorff-Alpha-Koeffizient ist ein statistisches Maß für die Übereinstimmung.
- https://huggingface.co/docs/transformers/index
- Statistisches Bundesamt, »Alle politisch selbständigen Gemeinden mit ausgewählten Merkmalen am 30.09.2022 (3. Quartal 2022)«, zugegriffen 9. Januar 2023, https://www.destatis.de/DE/Themen/Laender-Regionen/Regionales/Gemeindeverzeichnis/Administrativ/Archiv/GVAuszugQ/AuszugGV3QAktuell.html.
- https://public.flourish.studio/visualisation/12335457/
- Armin Pournaki u. a., »The Twitter Explorer: A Framework for Observing Twitter through Interactive Networks«, Journal of Digital Social Research 3, Nr. 1 (29. März 2021): S. 106–18, https://doi.org/10.33621/jdsr.v3i1.64.
- Vincent D. Blondel u. a., »Fast Unfolding of Communities in Large Networks«, Journal of Statistical Mechanics: Theory and Experiment 2008, Nr. 10 (Oktober 2008): S. P10008, https://doi.org/10.1088/1742-5468/2008/10/P10008.