Diskussionsforen | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

Rechtsextremismus und die Mitte der Gesellschaft: Kulturalismus, Populismus und Skandalisierung

Posted on 5th Januar 2013 in Extremismus, ideology mapping, Kollokationen, Politik, Visualisierung

Liebe Freunde der Sicherheit,

vom Landesamt für Verfassungsschutz in Sachsen wurde ich eingeladen, auf einer Tagung einen Vortrag zum Thema „Rechtsextremismus und die Mitte Gesellschaft“ aus sprachwissenschaftlicher Sicht zu halten. Weil ich das Thema relevant finde, habe ich zugesagt. Im Folgenden findet ihr die Analysen, die ich für diesen Vortrag durchgeführt habe.

Grundannahmen

Sprache konstruiert Wirklichkeit. Je nach dem, ob wir einen Gegenstand als „Herdprämie“ oder „Erziehungsgeld“ bezeichnen, heben wir unterschiedliche Aspekte an ihm hervor (Erziehung vs. Frauenpolitik), wecken spezifische Assoziationen (Anerkennung bislang nicht honorierter Leistungen vs. traditionelle Geschlechterrollen), verbinden unterschiedliche Handlungsaufforderungen mit ihm (Zustimmung vs. Ablehnung) und konstruieren ihn so auf je unterschiedliche Weise. Derjenige Akteur, der seinen Sprachgebrauch zur Norm erheben kann, dessen Handeln erscheint als konsistent und legitim. Sprachliche Wirklichkeitskonstruktionen erfolgen jedoch nicht über das Prägen von Bezeichnungen alleine, sondern auch im Kontext von längeren Aussagen und Aussagezusammenhängen.

Beispiel: Kollokationen zum Lemma „Ausländer“ in rechtsextremen Foren (Ausschnitt)

Eine Möglichkeit, die spezifischen Wirklichkeitskonstruktionen zu messen ist die Kollokationsanalyse, also die Analyse, welche Wörter überzufällig häufig miteinander auftreten. Wenn beispielsweise „Nerd“ häufig mit „Außenseiter“, „IQ“, „sozial“ und „gestört“ auftritt, dann verrät dies etwas darüber, wie die kulturelle Entität „Nerd“ konstruiert wird.

Vorgehensweise

Ich habe aus zwei rechtsextremen Internet-Diskussionsforen (Forum Deutscher Netzdienst, ein zwischen 2003 und 2009 von der NPD betriebenes Forum) und dem neonazistischen Thiazi-Forum (2007-2012) ein Korpus mit rund 500 personenspezifischen Teilkorpora erstellt. Das Korpus umfasst rund 25 Millionen Wörter. In diesem Korpus habe ich typische Wortverbindungen berechnet. Nun ist natürlich nicht jede Wortverbindung in diesem Korpus gleich ein Indikator für rechtsextreme Gesinnungen: Nazis schlagen nicht nur Fenster, sondern auch Wege ein und die Verbindung von „Weg“ und „einschlagen“ findet sich in Texten „der Mitte“ genauso wie bei Rechtsextremen. Um ein Kriterium für die Ideologizität der Kollokationen zu haben, habe ich mich dafür entschieden, nur solche als Indikatoren für Rechtsextremismus anzusehen, in denen NPD-Schlagwörter vorkommen. NPD-Schlagwörter habe ich identifiziert, indem ich Pressemitteilungen der NPD mit Pressemitteilungen von CDU und SPD verglichen habe.

Typische Lemmata in den Pressemitteilungen der NPD
im Vergleich zu den Pressemitteilungen von CDU und SPD (Auswahl)

Um beantworten zu können, in welchen Bereichen „die Mitte“ offen ist für rechtsextremes Gedankengut, brauchte ich ein Vergleichskorpus. Weil das Konzept der „Mitte“ nicht klar bestimmbar ist, ist meine Wahl auf ein Online-Diskussionsforum gefallen, das plural im Hinblick auf die dort vertretenen politischen Ansichten ist: politikforum.net. Auch hier habe ich ein Korpus aus 577 personenspezifischen Teilkorpora gebildet, das rund 27 Millionen Wörter umfasst. Das ist zwar nicht Big Data, aber schon recht aussagekräftig (zum Vergleich: Der Zauberberg hat rund 300.000 Wörter). Auch für dieses Korpus habe ich Kollokationen berechnet.

Kollokationen zum Lemma „Sozialsystem“ im Vergleich: NPD-Forum vs. politikforen.net
(Schlagwörter der NPD in zwartem rosa)

Offenheit für rechtsextremes Gedankengut habe ich dann darüber berechnet, wie hoch der Anteil von Kollokatoren ist, die beim gleichen Lemma auch bei der NPD Kollokatoren sind, und wie hoch der Anteil von NPD-Schlagwörtern unter den Kollokatoren ist. Schließlich habe ich die Wörter auf der Basis der Kohärenz der in ihnen vorkommenden Kollokationen thematisch gruppiert und als Graphen visualisiert.

Ergebnisse

In welchen Bereichen gibt es also teilweise Übereinstimmungen in den Denkweisen von Rechtsextremisten und der „Mitte der Gesellschaft“? Zunächst einmal finden sich ein paar übliche Verdächtige: Bei den Themen Ausländer / Migration, Islam und Kriminalität konvergiert der Sprachgebrauch in politikforen.net stark mit dem Sprachgebrauch im NPD-Forum.

Das Thema Ausländer / Migration nimmt von den Schnittmengenthemen den größten Raum ein und wird konstituiert durch die Lemmata Abschiebung, Assimilation, südländisch, Gastrecht, ausweisen, integriert, Ausweisung, Ausländer, Migrationshintergrund, Herkunft, nichtdeutsch, Ethnie, Angehörige, Leitkultur, überschwemmen, Zugehörigkeit, Nichtdeutsche, Bande, geboren, ausnutzen, abschieben, Abstammung, nicht-deutsch, ausländisch, Überfremdung, Multikulti, Migration, Migrant, strömen, Heimat, Identität, ertappt, Minderheit, Integration, Elternteil, Asylant, begrenzen, Investor, aussehend, Sozialhilfeempfänger, Sitte, einwandern, kürzen, Rasse, Urbevölkerung, Masseneinwanderung, Rückkehr, Zuzug, Südland und Mentalität sowie durch die Bezeichnungen für einzelne ethnische Gruppen.

Die typischen Verwendungsweisen des Lemmas „Gastrecht“ in politikforen.net illustriert die Nähe zu rechtsextremem Gedankengut.

Kollokationsgraph zum Lemma „Gastrecht“ in politikforen.net. Braune Knoten
markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Das Thema Kriminalität ist nach dem Thema Ausländer / Mirgation das am breitesten diskutierte Thema und wird konstituiert durch die Lemmata straffällig, kriminell, Gewalttat, Kriminelle, gewalttätig, Delikt, Gewalttäter, Straftat, Straftäter, Kriminalitätsrate, Tatverdächtige, Täter, lebenslang, abstechen, gewaltbereit, Bewährung, abschreckend, Kriminalität, Bestrafung, bestrafen, begangen, liegend, Todesstrafe, Statistik, Verbrecher, wegsperren und Mord. Im Folgenden ein Ausschnitt aus dem Kollokationsgraph zum Lemma „kriminell“ in politikforen.net.

Kollokationsgraph zum Lemma „kriminell“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Ein bemerkenswerter Teilbereich mit großer Konvergenz sind Sexualverbrechen, insbesondere Kindesmissbrauch.

Kollokationsgraph zum Lemma „Vergewaltiger“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Die Themenfelder Ausländer / Migration und Kriminalität werden in politikforen.net ebenso wie in den rechtsextremen Foren häufig miteinander verschränkt, wie der Kollokationsgraph zu „nichtdeutsch“ illustriert.

Kollokationsgraph zum Lemma „nichtdeutsch“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Basis für die Themen Ausländerfeindlichkeit in Verbindung mit Kriminalität und Islamophobie / antimuslimischem Rassismus ist eine Ideologie, die ich als Kulturalismus bezeichnen möchte. In ihr werden Menschen als durch ihre Kultur determinierte Wesen konzeptualisiert und kulturelle Unterschiede als unveränderbar und damit unüberwindlich angesehen. Sichtbar wird Kulturalismus im Kollokationsgraphen zum Lemma „Kultur“:

Kollokationsgraph zum Lemma „Kultur“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

„Kultur“ wird als eine an ein Volk gebundene, von Vermischung bedrohte Lebensweise konzeptualisiert, zu der als Prädikat „grundverschieden“ hinzutreten kann. Der Kulturbegriff hat auch im akademischen Diskurs die Funktion, Homogenität zu konstruieren. Auch in den Diskussionsforen ist die Homogenitätsideologie Bestandteil des Kulturalismus:

Kollokationsgraph zum Lemma „homogen“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Neben den Wörtern „Kultur“ und „homogen“ sind es die folgenden Lemmata, die das Feld des Kulturalismus abstecken und in der rechtsextremer Sprachgebrauch mit dem Sprachgebrauch in politikforum.net konvergiert: Abstammung, Volk, Multikulti, Kulturkreis, Heimat, Identität, Minderheit, bewahren, Sitte, zugehörig, Rasse, Lebensweise, aufgeben, Urbevölkerung, vermischen und Mentalität. Eine genauere Analyse würde zeigen, dass der Kulturalismus die Bedingung für die diskriminierenden Konstruktionen in den Themenfeldern Ausländer / Migration, Kriminalität und Islam ist.

Einher mit dem Kulturalismus geht in rechtsextremen wie pluralistischen Diskussionsforen die Legitimierung von Etabliertenvorrechten. Einheimische genießen Vorrechte gegenüber Zugezogenen, Völker leben in ihrer angestammten Heimat:

Kollokationsgraph zum Lemma „angestammt“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Eine weitere semantische Grundfigur, die rechtsextremes Denken in „der Mitte“ der Gesellschaft anschlussfähig macht, ist die argumentative Inanspruchnahme der (schweigenden) Mehrheit der Gesellschaft.

Kollokationsgraph zum Lemma „Mehrheit“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Zusammen mit einer pauschalen Kritik an der politischen Klasse („korrupt“ und „unfähig“) sind die typischen Ingredienzien des Populismus versammelt.

Kollokationsgraph zum Lemma „Politiker“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Eine letzte semantische Grundfigur, die die Debatten in rechtsextremen wie pluralistischen Foren verbindet, ist die Tendenz zur Skandalisierung, die in beinahe allen genannten Themenbereichen präsent ist.

Kollokationsgraph zum Lemma „asozial“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.

Ich konnte hier nicht alle Bereiche und schon gar nicht in der gewünschten Ausführlichkeit vorstellen. Auch erinneringspolitische Themen wie die Wehrmacht und die Vertreibung aus den ehemaligen deutschen Ostgebieten, aber auch Sozialpolitisches, antikapitalistisch angehauchte Bankenkritik und die Einschränkung von Grundrechten sind Themen, in denen sich rechtsextreme Positionen mit Mittepositionen berühren. Funfact am Rande: auch die Ansichten über den Verfassungsschutz konvergieren in extremistischen und pluralistischen Diskussionsforen.

Themenfelder und semantische Grundfiguren, die eine hohe Kongruenz
mit rechtsextremen Diskursen aufweisen.

Die obige Grafik ist der Versuch, Themenfelder und semantische Grundfiguren zu ordnen.

Neben den erwartbaren Ergebnissen, dass Ausländerfeindlichkeit, Politikverdrossenheit und Kriminalität Türen sind, durch die rechtsextreme Positionen in weiteren Teilen der Gesellschaft eindringen können, zeigt die Analyse, dass auch semantische Grundfiguren des Populismus, der Skandalisierung und vor allem des Kulturalismus der Nährboden für das Gedeihen rechtsextremen Gedankengutes in „der Mitte der Gesellschaft“ sein können.

comments: 5 » tags: Diskussionsforen, Kollokationen, NPD, Rechtsextremismus, Verfassungsschutz

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Posted on 16th Juli 2012 in authorship identification, Linguistische Kategorien, Maschinelles Lernen, n-Gramme, Textklassifikation

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.

Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.

Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

die Texte der Revolutionären Zellen (203.492) und
die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

15 Anschlagserklärungen (27.828)
4 mg express (7.679)
14 Texte zur Militanzdebatte (50.078)
8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.

Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:

Dendrogramm Funktionswörter

Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.

Dendrogramm Inhaltswörter

Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.

Dendrogramm komplexe n-Gramme

Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.

Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

relative Frequenz intensivierende Partikel (Gradpartikel)
durchschnittliche Satzlänge
Wortschatzkomplexitätsmaß Yule‘s K
relative Frequenz Passiv-Konstruktionen
relative Frequenz Konjunktiv I
relative Frequenz Konjunktiv II
relative Frequenz von Partizipialkonstruktionen
relative Frequenz von Präpositionalgruppenclustern
Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.

Aus den Trainingsdaten abgeleiteter Entscheidungsbaum

Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.

Entscheidungsbaum mit markierter Entscheidungsregel

Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.

comments: 3 » tags: Anonymschreiben, authorship detection, authorship identification, Autorenidentifikation, Bundesamt für Verfassungsschutz, Bundeskriminalamt, Diskussionsforen, Fefe, Fefes Blog, forensische Linguistik, linguistische Gutachten, Maschinelles Lernen, n-Gramm, RAF, Revolutionäre Zellen, Sprachgutachten, Textklassifikation, Yule's K

Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Posted on 3rd Juli 2011 in ideology mapping, Kollokationen, Überwachung und Sicherheit, Visualisierung

Liebe Freunde der Sicherheit,

heute möchte ich euch zeigen, wie man Kollokationen dafür benutzen kann, Schemata, Einstellungen oder Ideologien in Texten zu erkennen und zwar am Beispiel des militanten Islamismus. Wer noch nicht weiß, was Kollokationen sind, sollte in einem frühreren Artikel nachlesen.

Kollokationsgraphen

Kollokationen lassen sich als Graphen visualisieren. Was sind Graphen? Nach einer einfachen Definition sind Graphen Mengen von Punkten, zwischen denen Linien verlaufen. Sie dienen der Visualisierung von Zusammenhängen, wobei die Knoten meist Entitäten oder Konstrukten entsprechen und die Kanten Relationen. Im Fall von Kollokationsgraphen sind die Punkte Basen oder Kollokationen und die Kanten stehe für „ist Kollokation von“.

Kollokationsgraphen sind also Visualisierungen von in einem Textkorpus häufig auftretenden Wortverbindungen. Visualisierungen braucht man vor allem dann, wenn man eine große Menge von Daten hat, die man mit traditionellen Darstellungsformen wie Listen oder Tabellen nicht mehr überblicken kann. Die Kollokationen zu einem Wort lassen sich natürlich noch leicht in einer Liste zusammenfassen. Berechnet man aber die Kollokationen zu allen Wörtern in einem Textkorpus und möchte man darüber hinaus noch wissen, welche Wörter welche Kollokationen gemeinsam haben, dann ist das mit einem durchschnittlich leistungsfähigen Gehirn nicht mehr zu schaffen.

Militant islamistische Einstellungen in einem Diskussionsforum

Möchte man nun zum Beispiel anhand von Kollokationen untersuchen, welche Autorinnen und Autoren militant islamistische Positionen in einem Diskussionsforum vertreten, dann muss man zunächst wissen, welche Kollokationen als militant-islamistisch gelten sollen. Das lernt man, indem man zunächst Texte zu einem Korpus zusammenstellt, von denen man weiß, dass sie militant-islamistische Positionen vertreten. „Wissen“ heißt hier, dass jemand diese Texte tatsächlich gelesen und entsprechend bewertet haben sollte. Eigentlich ist das nichts für Korpuslinguisten, denn die sind faul und lesen ihre Texte nicht mehr. Zum Glück gibt es aber den Bundesverfassungsschutz, der uns hier die Arbeit abnimmt. Er hat zum Beispiel die deutsche Webseite der Islambrüderschaft als militant extremistisch eingestuft.

Wir laden uns also sämtliche Texte auf der Seite der Islambrüderschaft herunter, bauen ein hübsches Korpus daraus und berechnen für jedes Lemma die Lemmakollokationen. Am besten vergleichen wir die Liste noch mit einer Kollokationsliste eines nicht-extremistischen Referenzkorpus und streichen all jene Kollokationen, die nicht exklusiv im Islambrüderschaft-Korpus vorkommen. Nun haben wir eine Liste von Kollokationen, die für die Sprache des militanten Islamismus als typisch gelten können.

Als nächstes laden wir uns ein Diskussionsforum herunter und bilden autorenspezifische Korpora, d.h. wir fassen alle Posts von einem Nick zu einem Korpus zusammen. Auch hier berechnen wir zu jedem vorkommenden Lemma die Kollokationen.

Visualisierung militant-islamistischer Einstellungen

Nun kann man für jede autorenspezifische Kollokationsanalyse einen eigenen Kollokationsgraphen berechnen. So werden Wörter, die in den einzelnen Posts häufig miteinander auftreten, sichtbar gemacht. Interessant wird es für die Freunde der Sicherheit dann, wenn man jene Wortverbindungen, die sich auch bei der Islambrüderschaft finden, in den autorenspezifischen Graphen hervorhebt.

Ich habe das mal mit einem Diskussionsforum durchgerechnet, das vom Verfassungsschutz als islamistisch eingestuft wird, wenn auch nicht als militant-islamistisch. Wer wissen möchte, um welches Forum es sich handelt, kann mir gerne eine Mail schicken. Ich werde aber die Nicks nicht verraten. Das Forum ist sehr umfangreich und hat ca. 100 Mio laufende Wortformen.

Im Folgenden seht ihr einen Kollokationsgraphen von einem User, den wir als nicht militant-islamistisch einstufen würden. Es zeigen sich nur wenige typische Wortverbindungen, die auch typisch für die Islambrüderschaft sind. Diese sind im Graphen rot markiert.

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

Auch im Kollokationsgraphen eines zweiten Users sind Wortverbindungen, die als Indikatoren einer militant-islamistischen Gesinnung gelten können, nur in geringer Zahl vertreten.

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

Anders ist es bei den Posts zu einem dritten Nick. Hier sind sehr viele Kollokationen rot markiert und dies an fast allen Verdichtungspunkten des Graphen. Die Autorin oder der Autor zeigen also in vielen Themenbereichen (denn als solche lassen sich die Verdichtungsbereiche interpretieren) ähnliche sprachliche Muster wie in den Texten der Islambrüderschaft. Die Freunde der Sicherheit würden sich bei diesem Befund die Texte wohl noch einmal genauer anschauen.

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

Natürlich könnte man das Verfahren noch verfeinern, indem man beispielsweise die extrahierten militant-islamistischen Kollokationen inhaltlich gewichtet. Aber das ginge nun wirklich zu weit für einen kurzen Blog-Eintrag.

Sicher kann man bezweifeln, ob Kollokationen und Kollokationsnetze wirklich die hermeneutische Lektüre von Texten zu ersetzen. Aber das hieße, das heuristische Potenzial der angewandten Korpuslinguistik misszuverstehen. Denn sie will nicht hermeneutische Lektüren ersetzen. Sie entwickelt Kategorien und Modelle nach eigener Logik, deren Brauchbarkeit sich daran bemisst, ob sie im Rahmen konkreter Anwendungen einen Nutzen haben.

comments: Kommentare deaktiviert tags: Diskussionsforen, Islambrüderschaft, Islamismus, Kollokationen, militanter Islamismus, Überwachung

Rechtsextremismus und die Mitte der Gesellschaft: Kulturalismus, Populismus und Skandalisierung

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Kategorien

Neueste Beiträge

Archive

About

Rechtsextremismus und die Mitte der Gesellschaft: Kulturalismus, Populismus und Skandalisierung

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Kategorien

Neueste Beiträge

Archive

Wordcloud

About