Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Liebe Freunde der Sicherheit,

heute möchte ich euch zeigen, wie man Kollokationen dafür benutzen kann, Schemata, Einstellungen oder Ideologien in Texten zu erkennen und zwar am Beispiel des militanten Islamismus. Wer noch nicht weiß, was Kollokationen sind, sollte in einem frühreren Artikel nachlesen.

Kollokationsgraphen

Kollokationen lassen sich als Graphen visualisieren. Was sind Graphen? Nach einer einfachen Definition sind Graphen Mengen von Punkten, zwischen denen Linien verlaufen. Sie dienen der Visualisierung von Zusammenhängen, wobei die Knoten meist Entitäten oder Konstrukten entsprechen und die Kanten Relationen. Im Fall von Kollokationsgraphen sind die Punkte Basen oder Kollokationen und die Kanten stehe für „ist Kollokation von“.

Kollokationsgraphen sind also Visualisierungen von in einem Textkorpus häufig auftretenden Wortverbindungen. Visualisierungen braucht man vor allem dann, wenn man eine große Menge von Daten hat, die man mit traditionellen Darstellungsformen wie Listen oder Tabellen nicht mehr überblicken kann. Die Kollokationen zu einem Wort lassen sich natürlich noch leicht in einer Liste zusammenfassen. Berechnet man aber die Kollokationen zu allen Wörtern in einem Textkorpus und möchte man darüber hinaus noch wissen, welche Wörter welche Kollokationen gemeinsam haben, dann ist das mit einem durchschnittlich leistungsfähigen Gehirn nicht mehr zu schaffen.

Militant islamistische Einstellungen in einem Diskussionsforum

Möchte man nun zum Beispiel anhand von Kollokationen untersuchen, welche Autorinnen und Autoren militant islamistische Positionen in einem Diskussionsforum vertreten, dann muss man zunächst wissen, welche Kollokationen als militant-islamistisch gelten sollen. Das lernt man, indem man zunächst Texte zu einem Korpus zusammenstellt, von denen man weiß, dass sie militant-islamistische Positionen vertreten. „Wissen“ heißt hier, dass jemand diese Texte tatsächlich gelesen und entsprechend bewertet haben sollte. Eigentlich ist das nichts für Korpuslinguisten, denn die sind faul und lesen ihre Texte nicht mehr. Zum Glück gibt es aber den Bundesverfassungsschutz, der uns hier die Arbeit abnimmt. Er hat zum Beispiel die deutsche Webseite der Islambrüderschaft als militant extremistisch eingestuft.

Wir laden uns also sämtliche Texte auf der Seite der Islambrüderschaft herunter, bauen ein hübsches Korpus daraus und berechnen für jedes Lemma die Lemmakollokationen. Am besten vergleichen wir die Liste noch mit einer Kollokationsliste eines nicht-extremistischen Referenzkorpus und streichen all jene Kollokationen, die nicht exklusiv im Islambrüderschaft-Korpus vorkommen. Nun haben wir eine Liste von Kollokationen, die für die Sprache des militanten Islamismus als typisch gelten können.

Als nächstes laden wir uns ein Diskussionsforum herunter und bilden autorenspezifische Korpora, d.h. wir fassen alle Posts von einem Nick zu einem Korpus zusammen. Auch hier berechnen wir zu jedem vorkommenden Lemma die Kollokationen.

Visualisierung militant-islamistischer Einstellungen

Nun kann man für jede autorenspezifische Kollokationsanalyse einen eigenen Kollokationsgraphen berechnen. So werden Wörter, die in den einzelnen Posts häufig miteinander auftreten, sichtbar gemacht. Interessant wird es für die Freunde der Sicherheit dann, wenn man jene Wortverbindungen, die sich auch bei der Islambrüderschaft finden, in den autorenspezifischen Graphen hervorhebt.

Ich habe das mal mit einem Diskussionsforum durchgerechnet, das vom Verfassungsschutz als islamistisch eingestuft wird, wenn auch nicht als militant-islamistisch. Wer wissen möchte, um welches Forum es sich handelt, kann mir gerne eine Mail schicken. Ich werde aber die Nicks nicht verraten. Das Forum ist sehr umfangreich und hat ca. 100 Mio laufende Wortformen.

Im Folgenden seht ihr einen Kollokationsgraphen von einem User, den wir als nicht militant-islamistisch einstufen würden. Es zeigen sich nur wenige typische Wortverbindungen, die auch typisch für die Islambrüderschaft sind. Diese sind im Graphen rot markiert.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Auch im Kollokationsgraphen eines zweiten Users sind Wortverbindungen, die als Indikatoren einer militant-islamistischen Gesinnung gelten können, nur in geringer Zahl vertreten.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Anders ist es bei den Posts zu einem dritten Nick. Hier sind sehr viele Kollokationen rot markiert und dies an fast allen Verdichtungspunkten des Graphen. Die Autorin oder der Autor zeigen also in vielen Themenbereichen (denn als solche lassen sich die Verdichtungsbereiche interpretieren) ähnliche sprachliche Muster wie in den Texten der Islambrüderschaft. Die Freunde der Sicherheit würden sich bei diesem Befund die Texte wohl noch einmal genauer anschauen.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Natürlich könnte man das Verfahren noch verfeinern, indem man beispielsweise die extrahierten militant-islamistischen Kollokationen inhaltlich gewichtet. Aber das ginge nun wirklich zu weit für einen kurzen Blog-Eintrag.

Sicher kann man bezweifeln, ob Kollokationen und Kollokationsnetze wirklich die hermeneutische Lektüre von Texten zu ersetzen. Aber das hieße, das heuristische Potenzial der angewandten Korpuslinguistik misszuverstehen. Denn sie will nicht hermeneutische Lektüren ersetzen. Sie entwickelt Kategorien und Modelle nach eigener Logik, deren Brauchbarkeit sich daran bemisst, ob sie im Rahmen konkreter Anwendungen einen Nutzen haben.

 

 

comments: Kommentare deaktiviert für Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus tags: , , , , ,

Was sind Kollokationen?

Posted on 2nd Juli 2011 in Kollokationen, Linguistische Kategorien, Semantik

Liebe Freunde der Sicherheit,

heute möchte ich euch eine linguistische Kategorie vorstellen, mit deren Hilfe man mehr über Texte bzw. ihre Autorinnen und Autoren lernen kann, als mit einer einfachen Schlagwortsuche. Und zwar geht es heute um Kollokationen. Sicher ist euch schon aufgefallen, dass manche Wörter öfter zusammen vorkommen als andere. Warum zum Beispiel sagt man „einen Weg einschlagen“ statt „einen Weg wählen“? Warum „begeht“ oder „verübt“ man Terroranschläge statt sie zu „machen“? Oder warum kommt in den Texten der NPD „Ausländer“ sehr häufig zusammen mit dem Wort „kriminell“ vor?

Während wir bei „Weg einschlagen“ und „Terroranschlag verüben“ nicht sagen könne, warum wir ausgerechnet diese Wörter zusammen benutzen, ist das Wortpaar „kriminelle Ausländer“ relativ leicht als Ausdruck einer Ideologie zu deuten. Und wenn man anhand einer Vielzahl solcher häufig gemeinsam gebrauchter Wörter eine Ideologie aus Texten extrahieren kann, dann ist das ein hübscher Ansatzpunkt für Internetüberwacher und Sprachprofiler.

Zwei Definitionsansätze

Solche mehr oder weniger festen Verbindungen von Wörtern nennt man in der Sprachwissenschaft Kollokationen. Natürlich ist sich die Linguistik uneins darüber, was eine Kollokation ist.

Die einen definieren Kollokationen über formale und semantische Merkmale. Demnach könne man die Bedeutung einer Kollokation oft nicht vollständig aus der Bedeutung ihrer Komponenten herleiten, wie das zum Beispiel bei der Wortfolge „keine müde Mark“ der Fall ist. Außerdem seien die Elemente von Kollokationen nicht einfach durch Synonyme oder ähnliche Wörter ersetzbar. „Mittel zum Zweck“ kann man zwar sagen, nicht aber „Mittel zum Ziel“. Und schließlich könne man Kollokationen auch nicht morphologisch modifizieren, also zum Beispiel „zu Sachen kommen“ statt „zur Sache kommen sagen“. Um eine Kollokation nach dieser Definition zu bestimmen, braucht man linguistische Tests und ein gehöriges Maß an Intuition. Für die Freunde der Sicherheit ist diese Definition daher nur bedingt hilfreich.

Der zweite Definitionsansatz eignet sich da schon viel besser. Er definiert Kollokationen als statistisch überzufällig häufige Wortkombinationen, die in natürlicher Sprache gemessen werden können. Kollokationen sind damit ein sprachstatistisches Phänomen und mithin brauchbar für automatisierte Textanalyse.

Wie berechnet man Kollokationen?

Man berechnet Kollokationen zu einem Lemma wie folgt: Man teilt das Korpus in zwei Subkorpora: eines, das den Kontext des gesuchten Wortes (nehmen wir mal das Wort „Zeit“ als Beispiel) bei jedem seiner Auftreten umfasst; ein zweites, das aus dem Rest des Korpus besteht. Kommt nun ein Wort in Subkorpus 1 (also im Kontext des Lemmas „Zeit“) signifikant häufiger vor als im Subkorpus 2, dann handelt es sich um eine Kollokation zum Wort „Zeit“.

 

Kollokationsanalyse zum Wort "Zeit"

Textfenster bei der Berechnung von Kollokationen zum Wort "Zeit": 3 Wörter links, 3 Wörter rechts, Satzgrenze berücksichtigt

 

Im Beispiel hier sind beispielsweise die Lemmata „kurz“, „letzt“, aber auch „in“, „zu“ und der bestimmte Artikel gute Kandidaten.

 

Kollokationsanalyse zum Wort "Zeit"

Mögliche Kollokationen zum Wort "Zeit" (rot)

 

Berechnungsparameter

Kollokationen sind aber natürlich trotzdem nicht objektiv gegeben. Es hängt in hohem Maße von den Berechnungsparametern ab, was als eine Kollokation zu einer Basis aufgefasst wird und was nicht. Zum Beispiel kann man den Raum um die Basis herum variieren, der in den Grafiken oben gelb markiert ist. Man kann Kollokationen aber zum Beispiel auch nur für mit solchen Wörtern berechnen, die im selben Satz stehen. Man kann aber auch grammatische Konstruktionen (z.B. Subjekt-Prädikat-Verbindung) oder Phrasen (Nominalphrasen) als Räume für die Berechnung von Kollokationen ansetzen. Je nach Fragestellung kann es sogar sinnvoll sein, den gesamten Text als Kollokatorenraum zu betrachten. Man erhält jeweils sehr unterschiedliche Ergebnisse.

Natürlich liefert die Kollokation zu einem Wort noch nicht hinreichende Informationen darüber, ob ein Autor oder eine Autorin demnächst einen Kabelbrand legt oder ein Auto anzündet. Aber ich werde demnächst ein paar Beispiele zeigen, was man mit Kollokationen alles machen kann.

 

comments: 1 » tags: ,