Liebe Freunde der Sicherheit,
heute möchte ich euch zeigen, wie man Kollokationen dafür benutzen kann, Schemata, Einstellungen oder Ideologien in Texten zu erkennen und zwar am Beispiel des militanten Islamismus. Wer noch nicht weiß, was Kollokationen sind, sollte in einem frühreren Artikel nachlesen.
Kollokationsgraphen
Kollokationen lassen sich als Graphen visualisieren. Was sind Graphen? Nach einer einfachen Definition sind Graphen Mengen von Punkten, zwischen denen Linien verlaufen. Sie dienen der Visualisierung von Zusammenhängen, wobei die Knoten meist Entitäten oder Konstrukten entsprechen und die Kanten Relationen. Im Fall von Kollokationsgraphen sind die Punkte Basen oder Kollokationen und die Kanten stehe für „ist Kollokation von“.
Kollokationsgraphen sind also Visualisierungen von in einem Textkorpus häufig auftretenden Wortverbindungen. Visualisierungen braucht man vor allem dann, wenn man eine große Menge von Daten hat, die man mit traditionellen Darstellungsformen wie Listen oder Tabellen nicht mehr überblicken kann. Die Kollokationen zu einem Wort lassen sich natürlich noch leicht in einer Liste zusammenfassen. Berechnet man aber die Kollokationen zu allen Wörtern in einem Textkorpus und möchte man darüber hinaus noch wissen, welche Wörter welche Kollokationen gemeinsam haben, dann ist das mit einem durchschnittlich leistungsfähigen Gehirn nicht mehr zu schaffen.
Militant islamistische Einstellungen in einem Diskussionsforum
Möchte man nun zum Beispiel anhand von Kollokationen untersuchen, welche Autorinnen und Autoren militant islamistische Positionen in einem Diskussionsforum vertreten, dann muss man zunächst wissen, welche Kollokationen als militant-islamistisch gelten sollen. Das lernt man, indem man zunächst Texte zu einem Korpus zusammenstellt, von denen man weiß, dass sie militant-islamistische Positionen vertreten. „Wissen“ heißt hier, dass jemand diese Texte tatsächlich gelesen und entsprechend bewertet haben sollte. Eigentlich ist das nichts für Korpuslinguisten, denn die sind faul und lesen ihre Texte nicht mehr. Zum Glück gibt es aber den Bundesverfassungsschutz, der uns hier die Arbeit abnimmt. Er hat zum Beispiel die deutsche Webseite der Islambrüderschaft als militant extremistisch eingestuft.
Wir laden uns also sämtliche Texte auf der Seite der Islambrüderschaft herunter, bauen ein hübsches Korpus daraus und berechnen für jedes Lemma die Lemmakollokationen. Am besten vergleichen wir die Liste noch mit einer Kollokationsliste eines nicht-extremistischen Referenzkorpus und streichen all jene Kollokationen, die nicht exklusiv im Islambrüderschaft-Korpus vorkommen. Nun haben wir eine Liste von Kollokationen, die für die Sprache des militanten Islamismus als typisch gelten können.
Als nächstes laden wir uns ein Diskussionsforum herunter und bilden autorenspezifische Korpora, d.h. wir fassen alle Posts von einem Nick zu einem Korpus zusammen. Auch hier berechnen wir zu jedem vorkommenden Lemma die Kollokationen.
Visualisierung militant-islamistischer Einstellungen
Nun kann man für jede autorenspezifische Kollokationsanalyse einen eigenen Kollokationsgraphen berechnen. So werden Wörter, die in den einzelnen Posts häufig miteinander auftreten, sichtbar gemacht. Interessant wird es für die Freunde der Sicherheit dann, wenn man jene Wortverbindungen, die sich auch bei der Islambrüderschaft finden, in den autorenspezifischen Graphen hervorhebt.
Ich habe das mal mit einem Diskussionsforum durchgerechnet, das vom Verfassungsschutz als islamistisch eingestuft wird, wenn auch nicht als militant-islamistisch. Wer wissen möchte, um welches Forum es sich handelt, kann mir gerne eine Mail schicken. Ich werde aber die Nicks nicht verraten. Das Forum ist sehr umfangreich und hat ca. 100 Mio laufende Wortformen.
Im Folgenden seht ihr einen Kollokationsgraphen von einem User, den wir als nicht militant-islamistisch einstufen würden. Es zeigen sich nur wenige typische Wortverbindungen, die auch typisch für die Islambrüderschaft sind. Diese sind im Graphen rot markiert.
Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum
Auch im Kollokationsgraphen eines zweiten Users sind Wortverbindungen, die als Indikatoren einer militant-islamistischen Gesinnung gelten können, nur in geringer Zahl vertreten.
Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum
Anders ist es bei den Posts zu einem dritten Nick. Hier sind sehr viele Kollokationen rot markiert und dies an fast allen Verdichtungspunkten des Graphen. Die Autorin oder der Autor zeigen also in vielen Themenbereichen (denn als solche lassen sich die Verdichtungsbereiche interpretieren) ähnliche sprachliche Muster wie in den Texten der Islambrüderschaft. Die Freunde der Sicherheit würden sich bei diesem Befund die Texte wohl noch einmal genauer anschauen.
Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum
Natürlich könnte man das Verfahren noch verfeinern, indem man beispielsweise die extrahierten militant-islamistischen Kollokationen inhaltlich gewichtet. Aber das ginge nun wirklich zu weit für einen kurzen Blog-Eintrag.
Sicher kann man bezweifeln, ob Kollokationen und Kollokationsnetze wirklich die hermeneutische Lektüre von Texten zu ersetzen. Aber das hieße, das heuristische Potenzial der angewandten Korpuslinguistik misszuverstehen. Denn sie will nicht hermeneutische Lektüren ersetzen. Sie entwickelt Kategorien und Modelle nach eigener Logik, deren Brauchbarkeit sich daran bemisst, ob sie im Rahmen konkreter Anwendungen einen Nutzen haben.