Content Mapping mit Topic Models

Posted on 18th Februar 2015 in ideology mapping, Inhaltswörter, Linguistische Kategorien

Liebe Freunde der Sicherheit,

in einem früheren Beitrag habe ich argumentiert, dass die „inhaltlichen Suchbegriffe“, die der BND beim „Filtern“ des Internet benutzt, über Topic Models oder ähnliche Verfahren dazu genutzt werden können, Kommunikation thematisch zu analysieren. Das „Filtern“ bei der strategischen Fernmeldeüberwachung wäre dann faktisch eine Analyse, für die das Bundesverfassungsgericht hohe Hürden gesetzt hat. Heute möchte ich zeigen, wie die Kombination von Topic Models und Metadaten dazu eingesetzt werden kann, thematische Profile von politischen Szenen zu berechnen.


Was sind Topic Models?

Topic Models sind Algorithmen zur Aufdeckung thematischer Strukturen in Texten. Sie gewichten und messen die Affinität von Inhaltswörtern in Textexemplaren eines Korpus. Häufig miteinander auftretende Wörter, die eine hohe Themenspezifizität aufweisen, werden als „Topics“ interpretiert. Diese Lexemcluster haben keine Namen; ihre Benennung ist ein Akt der Interpretation. Ebenso erfolgt die Ermittlung der Anzahl der Topics in den Standardverfahren nicht datengeleitet, sondern in Abhängigkeit von Festlegungen des Forschers.



Meinungsbilder aus dem Internet

Das Innenministerium ließ verlauten: „Wir brauchen eine belastbare Erfassung von Meinungs- und Stimmungslagen der Bevölkerung. Es liegt kein Eingriff in das allgemeine Persönlichkeitsrecht vor, wenn eine staatliche Stelle im Internet verfügbare Kommunikationsinhalte erhebt, die sich an jedermann oder zumindest an einen nicht weiter eingrenzbaren Personenkreis richten.“ Die Folge: alle Nachrichtendienste investieren in die open source intelligence.


Über welche Themen diskutieren linke Szenen?

Will man beispielsweise wissen, womit sich linke Szenen im deutschsprachigen Raum beschäftigen, kann man eine linke News-Site wie http://linkunten.indymedia.org auf ihre Topics hin analysieren. Auf der Subdomain von indymedia.org werden nach Meinungsverschiedenheiten in der Redaktion von Indymedia Deutschland und dem Bedürfnis nach einer engeren Verntezung süddeutscher Szenen Nachrichten veröffentlicht. Das Portal ist inzwischen aktiver als das deutschsprachige indymedia.org. Auch wenn grundsätzlich Nachrichten aus allen Regionen veröffentlicht werden, liegt ein spezieller Fokus auf dem südwestdeutschen Raum. Wendet man auf sämtliche dort publizierten Texten Topic Modelling an, ordnet sich der Wortschatz aufgrund seiner Distribution in folgende Gruppen, für die relativ leicht Namen gefunden werden können:



Themenschwerpunkte linker Szenen

Weil die Artikel auf http://linkunten.indymedia.org unter anderem nach Regionen verschlagwortet sind, ist es möglich, für einzelne linke Szenen Topic-Profile zu erstellen und die Intensität der Aktivitäten zu berechnen. Die unten stehende Grafik zeigt das Topic-Profil der Dresdner Szenen im Vergleich zu anderen Szenen in Deutschland. Sie zeigt die Differenz zum Durchschnitt der normalisierten relativen Auftretenshäufigkeiten der jeweiligen Topics im Gesamtkorpus.

topics_dresden

In Dresden wird demnach überdurchschnittlich häufig über Neonazis, rechte Parteien und Flüchtlinge berichtet, zu Demonstrationen aufgerufen und über Diskussionen in und außerhalb der Szene berichtet. Antimilitarismus und Hausbesetzungen spielen hingegen eine vergleichsweise geringe Rolle.

Interessiert man sich für einen Vergleich von Szenenprofilen, kann man die Themendistributionen in Spinnengrafiken übereinanderlegen, wie im folgenden Beispiel für Wien und Salzburg:

topic_wien_salzburg

Ebenso ist es möglich, die Affinität einzelner Szenen zu relevanten Topics zu analysieren. Von besonderem Interesse für Sicherheitsbehörden könnte ja beispielsweise das Topic „Revolutionärer Kampf“ sein. Eine Analyse der ortsspezifischen Frequenz dieses Topics im Korpus ergibt folgendes Städteranking:

topics_revolution_kampf

Topic Models sind ein eleganter Weg, um sich mit relativ einfachen Mitteln einen Überblick über die inhaltlichen Prägungen von Korpora zu verschaffen. Maßnahmen gegen Topic Models laufen ins Leere, außer man ist bereit, auf inhaltlich kohärente Diskussionen zu verzichten.


comments: Kommentare deaktiviert für Content Mapping mit Topic Models tags: , , , , , ,

30C3 Nachlese, Teil 2

Auf vielfachen Wunsch hier die gif-Grafik, die ich zur Illustration der Hoffnung einiger Aktivisten erstellt habe, die NSA suche lediglich nach Keywords.


Wie die NSA nicht unsere E-Mails liest

Wie die NSA nicht unsere E-Mails liest (CC0 1.0 Universell, Font by Bolt)

In der letzten Sendung von Breitband auf DeutschlandradioKultur gab es einen schönen Beitrag von Marcus Richter zur Zukunft der Überwachung, der auf dem Kongress entstanden ist und in dem ich auch was sagen durfte.

Und dann habe ich — wie beinahe alle Vortragenden — ein Interview für dctp.tv gegeben, bei dem zumindest die erste Hälfte von meiner Seite komplett misslungen ist. Der zweite Teil enthält aber ein paar Punkte, die ich im Talk nicht so deutlich formuliert habe:




comments: Kommentare deaktiviert für 30C3 Nachlese, Teil 2 tags: , , , , , ,

„Extremismus“ zwischen Deskription und Performanz

Posted on 7th November 2011 in Extremismus, Politik, Überwachung und Sicherheit

Liebe Freunde der Sicherheit,

ich habe mich in der letzten Zeit um die Sicherheit der japanischen Renten verdient gemacht, daher war hier Funkstille. Das soll sich nun aber wieder ändern. Heute ein kleiner Überblick über die Debatte um den Extremismusbegriff. Seine Anwendung bietet in Deutschland die Grundlage dafür, ob das Bundesamt für Verfassungsschutz Personen oder Gruppen beobachten darf. Während in anderen Ländern vor allem der Verdacht des Terrorismus staatliche Zuwendung beschert, betrachtet man Terrorismus in Deutschland in den meisten Fällen als Sonderfall des Extremismus.

„Extremismus“ als Terminus aus der Verwaltungssprache

„Extrem“ ist ein relationaler Begriff: Seine Bedeutung ergibt sich nur aus der Beziehung zu anderen Positionen. Das „Extreme“ bezeichnet die äußerste Abweichung oder den äußersten Gegensatz zu diesem Anderen. Der Begriff des politischen Extremismus ist ein Begriff, der nicht nur in der Forschung verwendet wird. Er findet Verwendung auch in der Arbeit jener Behörden, die – dem Gründungskonsens der Bundesrepublik folgend – den Schutz der Verfassung durch Sammlung von Informationen über jene zu ihrem Auftrag haben, die aggressiv und planvoll an der Abschaffung der freiheitlich-demokratischen Grundordnung arbeiten. Der Begriff des Extremismus ist damit ein Begriff aus der Verwaltungspraxis, ein Begriff mit handlungsorientierender Funktion. Er erhält seine Bedeutung aus der Rechtsprechungstradition des Bundesverfassungs- und des Bundesverwaltungsgerichts und der Verfassungs- und Verwaltungsgerichte der Länder. Aber auch die Praxis von Staatsanwaltschaften und Gerichten, der Innenministerien von Bund und Ländern sowie die Aktivitäten der ihnen unterstellten Polizei und vor allem der Verfassungsschutzämter (Neugebauer 2001: 14) tragen dazu bei, dem Begriff seine jeweils aktuelle Bedeutung zu geben. Wann der Verfassungsschutz tätig werden darf, ist in § 4 des Bundesverfassungsschutzgesetzes geregelt, wo es heißt:

(1) Im Sinne dieses Gesetzes sind
a) Bestrebungen gegen den Bestand des Bundes oder eines Landes solche politisch bestimmten, ziel- und zweckgerichteten Verhaltensweisen in einem oder für einen Personenzusammenschluß, der darauf gerichtet ist, die Freiheit des Bundes oder eines Landes von fremder Herrschaft aufzuheben, ihre staatliche Einheit zu beseitigen oder ein zu ihm gehörendes Gebiet abzutrennen;
b) Bestrebungen gegen die Sicherheit des Bundes oder eines Landes solche politisch bestimmten, ziel- und zweckgerichteten Verhaltensweisen in einem oder für einen Personenzusammenschluß, der darauf gerichtet ist, den Bund, Länder oder deren Einrichtungen in ihrer Funktionsfähigkeit erheblich zu beeinträchtigen;
c) Bestrebungen gegen die freiheitliche demokratische Grundordnung solche politisch bestimmten, ziel- und zweckgerichteten Verhaltensweisen in einem oder für einen Personenzusammenschluß, der darauf gerichtet ist, einen der in Absatz 2 genannten Verfassungsgrundsätze zu beseitigen oder außer Geltung zu setzen.
(§4 Abs. 1 BverfSchG.)

Als Teil der freiheitlich-demokratischen Grundordnung zählt Absatz 2 die folgenden Verfassungsgrundsätze auf:

a) das Recht des Volkes, die Staatsgewalt in Wahlen und Abstimmungen und durch besondere Organe der Gesetzgebung, der vollziehenden Gewalt und der Rechtsprechung auszuüben und die Volksvertretung in allgemeiner, unmittelbarer, freier, gleicher und geheimer Wahl zu wählen,
b) die Bindung der Gesetzgebung an die verfassungsmäßige Ordnung und die Bindung der vollziehenden Gewalt und der Rechtsprechung an Gesetz und Recht,
c) das Recht auf Bildung und Ausübung einer parlamentarischen Opposition,
d) die Ablösbarkeit der Regierung und ihre Verantwortlichkeit gegenüber der Volksvertretung,
e) die Unabhängigkeit der Gerichte,
f) der Ausschluß jeder Gewalt- und Willkürherrschaft und
g) die im Grundgesetz konkretisierten Menschenrechte.
(§4 Abs. 2 BverfSchG.)

Extremistisch im Sinne des Verfassungsschutzgesetzes sind damit jene Bestrebungen, die auf die Beseitigung oder Einschränkung der Prinzipien von parlamentarischer Demokratie, Rechtsstaatlichkeit, Pluralismus, Gewaltenteilung und Menschenrechten gerichtet sind. Organisationen, deren Ziele als extremistisch eingestuft werden, werden von den Verfassungsschutzbehörden beobachtet mit dem Ziel, gegebenenfalls gerichtsverwertbare Materialien zu sammeln, die Exekutivmaßnahmen rechtfertigen.

Extremismusbegriff der Politikwissenschaft

Auch in der Politikwissenschaft wird der Extremismusbegriff von einer Schule von Politikwissenschaftlern in Abgrenzung zum Begriff des demokratischen Verfassungsstaates verwendet. So definieren Uwe Backes und Eckhard Jesse (1996: 45):

Der Begriff des politischen Extremismus soll als Sammelbezeichnung für unterschiedliche politische Gesinnungen und Bestrebungen fungieren, die sich in der Ablehnung des demokratischen Verfassungsstaates und seiner fundamentalen Werte und Spielregeln einig wissen, sei es, daß das Prinzip menschlicher Fundamentalgleichheit negiert (Rechtsextremismus), sei es, daß der Gleichheitsgrundsatz auf alle Lebensbereiche ausgedehnt wird und die Idee der individuellen Freiheit überlagert (Kommunismus), sei es, daß jede Form von Staatlichkeit als „repressiv“ gilt (Anarchismus).

Auch wenn die Definition als Gemeinsamkeit der unterschiedlichen Extremismen lediglich die Ablehnung des demokratischen Verfassungsstaates nennt, tragen Backes und Jesse doch folgende weitere „strukturelle Gemeinsamkeiten extremistischer Doktrinen“ (Backes/Jesse 1996: 58) zusammen:

(1) Intoleranz gegenüber „abweichenden“ Auffassungen sowie mangelnde Kompromissfähigkeit und -bereitschaft
(2) Pluralismus der Meinungen wird mit dem Hinweis auf die eine „wahre“ Lehre abgelehnt
(3) die absolute Gewissheit, im Recht zu sein, und die Überzeugung von der absoluten Gültigkeit der eigenen Visionen
(4) Missionsbewusstsein
(5) Geheimbündelei
(6) Verschwörungstheorien: Massenmedien sind Instrumente der Meinungsmanipulation, die Parteien sind Spielbälle der Interessenverbände
(7) Fanatismus: Bereitschaft zur gewaltsamen Propagierung und Durchsetzung der erstrebten Ziele

Der von staatlichen Behörden und Teilen der Politikwissenschaft formulierte Extremismusbegriff ist ein normativer. Er ist an den Werten des demokratischen Verfassungsstaates orientiert. Die deontische Dimension des Begriffs beinhaltet, dass der Extremismus etwas ist, das beobachtet und gegen das gegebenenfalls vorgegangen werden sollte. Der Extremismusbegriff ist damit auch ein Ausgrenzungsbegriff, denn er setzt eine Grenze zwischen legaler und illegaler politischer Betätigung.

Kritik am Extremismusbegriff

An diesem Extremismusbegriff wird Kritik geübt, sowohl von politikwissenschaftlicher Seite als auch von politisch Betroffenen. Als Beispiel für letztere sei hier ein Text mit dem Titel „Rechts ist nicht links – Hintergrund und politische Funktion des Extremismusansatzes“ (Jelpke 2009) der Bundestagsabgeordneten Ulla Jelpke von der Partei Die Linke angeführt. Jelpke, der politische Kontakte zu in Deutschland als terroristische Vereinigung verbotenen Gruppierungen vorgehalten werden, wirft den Vertretern des Extremismusansatzes vor, „die inhaltlichen Unterschiede zwischen der radikalen Linken und einer extremen Rechten nivellieren und somit die Linke durch die begriffliche Gleichsetzung mit der extremen Rechten diskreditieren [zu wollen]“. Der Extremismusbegriff solle die politische Mitte unabhängig von den in ihr vertretenen Inhalten legitimieren und alle Abweichungen von dieser Mitte ausgrenzen. Dadurch definiere der Extremismusbegriff einen legalen politischen Raum (die Mitte) und stelle alle abweichenden politischen Vorstellungen unter den Verdacht der Verfassungsfeindlichkeit. Diese Definition der legitimen Mitte erfolge jedoch nicht inhaltlich, etwa entlang der Grundwerte der Verfassung, sondern rein formal, das heißt gemäß dem Bekenntnis zur freiheitlich demokratischen Grundordnung, zu der nach herrschender Auffassung auch das kapitalistische Wirtschaftssystem der Bundesrepublik gehöre. Jelpke sieht also im Extremismusbegriff eine antipluralistische Strategie und ein Herrschaftsinstrument der politischen Mitte. Zur Kritik am Extremismusbegriff aus politischer Perspektive kann man auch bei Jennerjahn (2010) und Kausch (2010) nachlesen.

Aus politikwissenschaftlicher Sicht konstatiert Gero Neugebauer (2001, 2010), dass sich keine nennenswerte empirische Forschungslinie, die die Gemeinsamkeiten von Links- und Rechtsextremismus untersucht, gebildet habe. Vielmehr beobachtet er, dass der Extremismusbegriff für Forschung zu rechtsextremen, jedoch praktisch überhaupt nicht für Forschung zu linksextremen Gruppierungen und Denkweisen verwendet werde. Diese Einseitigkeit verdanke sich seiner normativen Fundierung. Zwar räumt auch Neugebauer die Existenz von Gemeinsamkeiten ein, jedoch seien diese lediglich auf der Phänomen- oder Symptom-Ebene zu finden. Inhaltlich seien die Unterschiede zwischen Links- und Rechtsextremismus aber zu groß, als dass eine theoretische Reduzierung auf einen Begriff angemessen sei. Ohne wie Backes und Jesse eine präzise Bestimmung des Demokratiebegriffs vorzunehmen, konstatiert er, dass der Linksextremismus zwar antikapitalistisch, nicht aber antidemokratisch sei, der Rechtsextremismus hingegen stets antidemokratisch. Diese Kritik verweist auf ein tiefer liegendes Problem mit dem Extremismusbegriff: Er referiert auf das Links-Rechts-Schema, das – folgt man Neugebauers Ausführungen weiter – alltagsweltlich zwar eine sinnvolle Vereinfachung komplexer Sachverhalte sein könne, aber für wissenschaftliche Zwecke wegen seiner Unbestimmtheit keinen großen heuristischen Nutzen habe. Daher plädiert Neugebauer dafür, die Eindimensionalität des Extremismusbegriffs durch einen mehrdimensionalen Werteraum zu ersetzen.

Extremismus der Mitte

Schließlich gibt es in der Forschung zum historischen Faschismus noch die These von der Existenz eines Extremismus der Mitte. Lipset (1981) etwa führt den Siegeszug des Faschismus in den 1930er Jahren darauf zurück, dass die politische Mitte mit extremistischem Gedankengut infiziert war. Dass es weiterhin einen Extremismus der Mitte gibt, ist heute ein beliebtes Argument derer, die sich an den vermeintlichen politischen Rändern tummeln, um den Vorwurf des Extremismus von sich zu weisen.

Die deontische Dimension des Extremismusbegriffs

Extremismus ist ein Begriff, der fast ausschließlich zur Bezeichnung kritikwürdiger Sachverhalte, Menschen und Gruppen verwendet wird. Daher ist die Verleihung des Labels „extremistisch“ auch kein rein deskriptiver Akt, sondern hat eine performative Dimension. Interessant ist, was mit Gruppen oder Menschen geschieht, denen extremistisches Denken vorgeworfen wird: Oft radikalisieren sie sich nämlich. Der Extremismusbegriff zieht eine Linie zwischen ihnen und dem Rest der Gesellschaft. Sie fühlen sich als Opfer von Ausgrenzung und beginnen mit anderen (vermeintlichen) Opfern dieser Ausgrenzung zu sympathisieren und finden nicht selten in ihnen ihre neuen Verbündeten. Der Staat, der diese Ausgrenzung autorisiert, erscheint noch kritikwürdiger als zuvor. Wer des Extremismus verdächtigt wird, der neigt häufiger dazu, sein wahres Denken zu verschleiern oder gar sich klandestin zu verhalten. So hat der Extremismusbegriff das Potenzial, sich seinen Gegenstand selbst zu schaffen. Aber natürlich wäre es idiotisch, jede Radikalisierung der bloßen Existenz eines Extremismusbegriffs in die Schuhe zu schieben.


Zum Weiterlesen:

  • Backes, Uwe (1998): Politischer Extremismus in demokratischen Verfassungsstaaten. Elemente einer normativen Rahmentheorie. Opladen: Westdeutscher Verlag.
  • Backes, Uwe / Eckhard Jesse (1996): Politischer Extremismus in der Bundesrepublik Deutschland. Bonn: Bundeszentrale für politische Bildung.
  • Jaschke, Hans-Gerd (2006): Politischer Extremismus. Wiesbaden: VS Verlag für Sozialwissenschaften.
    Jelpke, Ulla (2009): Rechts ist nicht links – Hintergrund und politische Funktion des Extremismusansatzes. Online: http://www.ulla-jelpke.de/news_detail.php?newsid=1433
  • Jennerjahn, Miro (2010): „Der fächer des Bösen“. Anmerkungen aus politischer Perspektive. In: Heinrich Böll Stiftung Sachsen (Hrsg.) (2010): Gibt es Extremismus? Extremismusansatz und Extremismusbegriff in der Auseinandersetzung mit Neonazismus und (anti)demokratischen Einstellungen. Dresden: Druckhaus Dresden. S. 23-26.
  • Kausch, Stefan (2010): Ordnung. Macht. Extremismus – eine Alternativlosigkeit? Über die Gesellschaft der „guten Mitte“ und alternative Politik- und Analyseperspektiven. In: Heinrich Böll Stiftung Sachsen (Hrsg.) (2010): Gibt es Extremismus? Extremismusansatz und Extremismusbegriff in der Auseinandersetzung mit Neonazismus und (anti)demokratischen Einstellungen. Dresden: Druckhaus Dresden. S. 31-44.
  • Lipset, Seymour Martin (1981): ‚Fascism‘ – Left, Right, and Center. In: Political Man: The Social Bases of Politics. Baltimore: Johns HopkinsUniversitas Press. 127–152.
  • Neugebauer, Gero (2001): Extremismus – Rechtsextremismus – Linksextremismus: Einige Anmerkungen zu Begriffen, Forschungskonzepten, Forschungsfragen und Forschungsergebnissen. In: Wilfried Schubarth / Richard Stöss (Hrsg.): Rechtsextremismus in der Bundesrepublik Deutschland. Eine Bilanz. Opladen: Leske und Budrich. S. 13-37 (= Schriftenreihe der Bundeszentrale für politische Bildung, Bd. 368).
  • Neugebauer, Gero (2010): Der Extremismusansatz aus wissenschaftlicher Sicht. In: Heinrich Böll Stiftung Sachsen (Hrsg.) (2010): Gibt es Extremismus? Extremismusansatz und Extremismusbegriff in der Auseinandersetzung mit Neonazismus und (anti)demokratischen Einstellungen. Dresden: Druckhaus Dresden. S. 11-18.

 

Gibt es einen sprachlichen Fingerabdruck?

Liebe Freunde der Sicherheit,

oftmals sind sprachliche Spuren das einzige, was wir von vermeintlichen Täterinnen und Tätern haben. Besonders im Internet, wo Kriminelle ihre digitalen Identitäten trotz aller Bemühungen noch immer verschleiern können, sind die anonymen sprachlichen Äußerungen von Gefährdern oder geistigen Brandstiftern die einzige Möglichkeit, ihre wahre Identität aufzudecken.

So wie ein Einbrecher bei seinen Untaten Fingerabdrücke hinterlässt, so wie ein Vergewaltiger anhand seiner DNA-Spuren identifiziert werden kann, so können forensische Linguisten Täter anhand ihrer Sprache dingfest machen. So wie man durch den Abgleich von Fingerabdrücken und Zellresten mit einer Fingerabdruck- oder DNA-Datenbank einen Täter identifizieren kann, brauchen Sprachforensiker nur die sprachlichen Spuren des Täters am Tatort mit Texten abzugleichen, die einem Verdächtigen sicher zugeordnet werden können. Und wenn das sprachmaterial mit den Spuren übereinstimmen, dann klicken die Handschellen. Der sprachliche Fingerabdruck hat den Täter überführt.

So jedenfalls wollen uns so manche Informatiker glauben machen, die ihre Aufsätze mit so viel versprechenden Titeln wie „From Fingerprint to Writeprint“ betiteln. Ich bin mir nicht sicher, ob sie wirklich daran glauben oder ob es Teil einer Strategie ist, sich mehr Drittmittel einzuverleiben. Denn: einen sprachlichen Fingerabdruck gibt es nicht. Höchstens als irreführende Metapher.

Was ist ein Fingerabdruck?

Dazu muss man zunächst verstehen, was ein Fingerabdruck ist. Bei einem Fingerabdruck handelt es sich um eine Visualisierung der Papillarleisten am Endglied eines Fingers. Diese bilden offenbar abhängig von den Erbanlagen und von der Ernährung des ungeborenen Kindes eine individuelle Form aus, die sich im Laufe des Lebens nicht mehr oder kaum mehr verändert. Damit ein Fingerabdruck für eine computergestützte Forensik brauchbar ist, d.h. zum Beispiel in einer Datenbank erfasst und maschinell abgleichbar ist, wird ein Merkmalsset standardisiert erfasst. Die jeweilige Merkmalskombination gilt als einmalig.

Ähnlich verhält es sich mit dem sogenannten genetischen Fingerabdruck. Hier wird für forensische Zwecke keineswegs die gesamten Erbgutinformationen gespeichert und für einen Datenbankabgleich verfügbar gemacht. Vielmehr werden bestimmte Stellen in der DNA daraufhin untersucht, wie häufig an ihnen sogenannte short tandem repeats (STRs), also Wiederholungen von bestimmten Sequenzen vorkommen. Die variable Anzahl der Wiederholungen an diesen Punkten ergibt eine individuelles Profil, das einer Person zugeordnet werden und zu deren Identifizierung benutzt werden kann. Die DNA eines Menschen ist im Prinzip invariant und eignet sich daher gut, um Personen zu identifizieren.

Beide Verfahren beruhen also auf der Analyse messbarer Entitäten, die ihren Ursprung in biochemischen Prozessen haben, die sich einem unmittelbaren individuellen oder sozialen Einfluss entziehen.

Man könnte es sich nun leicht machen und sagen: Sprache ist im Gegensatz dazu etwas Soziales. Um verständlich kommunizieren zu können, müssen wir uns auf soziale Konventionen beziehen, auf übliche Verwendungsweisen von Wörtern (vulgo: Bedeutung) und auf Regeln, wie diese Wörter zu Sinneinheiten (vulgo: Grammatik) zusammengesetzt werden. Zudem kommunzieren wir auch nicht nur nach unseren Vorstellungen, sondern richten unsere Äußerungen auf unser intendiertes Publikum hin aus und konstruieren damit auch einen sozialen Kontext. Unseren Papillarleisten ist es aber egal, wem wir die Hand geben oder für wen wir Kaffee kochen. Sie sehen immer gleich aus. Wir treffen auch kontextabhängig keine Auswahl aus unserer DNA wie wir aus den in der Sprache möglichen Ausrucksweisen wählen, je nach dem, was wir gerade stilistisch für angemessen halten.

Abdruck wovon?

Aber so leicht würden es uns die Informatiker nicht machen. Sie würden vielleicht sagen, dass wir das Ontologisieren bleiben lassen sollten, denn abstrakt hätten wir es eben doch mit dem gleichen Problem zu tun: immer geht es darum, Merkmalsmuster zu finden, die als typisch für eine Person gelten sollen. Bei Papillarleisten oder der DNA kommen wir mit weniger Merkmalen aus als bei der Sprache, aber auch bei der Sprache ermöglicht die sprachliche Kompetenz und die Auswahl, die jeder Mensch aus den ihm zur Verfügung stehenden sprachlichen Mitteln trifft, die Erstellung eines individuellen Merkmalprofils. Und mal ehrlich: die short tandem repeats haben schon eine große Ähnlichkeit mit den n-Grammen aus der Linguistik.

Hier kommen wir aber nun an den Punkt, wo es sich lohnt über die Bedeutung des Wortes „Abdruck“ zu reflektieren. Während wir wissen, dass ein Fingerabdruck immer ein Abbild des einen betreffenden Fingers ist, dass die DNA in einer Zelle eine exakte Kopie der DNA aller anderer Zellen im Körper der betreffenden Person ist, so wissen wir überhaupt nicht, auf was eigentlich der sprachliche „Abdruck“ verweisen soll. Was drückt sich denn da ab, wenn wir schreiben?

Um von einem sprachlichen Fingerabdruck zu sprechen, müsste es etwas sein, das garantiert, dass beim nächsten Mal exakt das gleiche Muster wieder sichtbar wird. Das einzige, was mir als Linguist hier einfiele, ist die sprachliche Kompetenz. Aber gerade die ist nicht fest, sie wandelt sich ständig. Mit jedem Wort, das ich spreche, mit jedem Satz, den ich schreibe oder lese, aktualisiert sie sich. Und jede Aktualisierung ist eine (wenn auch kleine) Veränderung. Deshalb gibt es auch keinen sprachlichen Fingerabdruck: Es gibt kein festes Muster, an dem wir die Typizität einer Äußerung messen könnten.

Wir können lediglich Ähnlichkeiten zwischen Texten berechnen und mit Wahrscheinlichkeiten operieren. Mit der Evidenz eines Fingerabdrucks oder einer DNA-Spur hat das wenig zu tun. Und gegen gut gemachte sprachliche Maskeraden sind wir ohnehin machtlos.

 

Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus

Liebe Freunde der Sicherheit,

heute möchte ich euch zeigen, wie man Kollokationen dafür benutzen kann, Schemata, Einstellungen oder Ideologien in Texten zu erkennen und zwar am Beispiel des militanten Islamismus. Wer noch nicht weiß, was Kollokationen sind, sollte in einem frühreren Artikel nachlesen.

Kollokationsgraphen

Kollokationen lassen sich als Graphen visualisieren. Was sind Graphen? Nach einer einfachen Definition sind Graphen Mengen von Punkten, zwischen denen Linien verlaufen. Sie dienen der Visualisierung von Zusammenhängen, wobei die Knoten meist Entitäten oder Konstrukten entsprechen und die Kanten Relationen. Im Fall von Kollokationsgraphen sind die Punkte Basen oder Kollokationen und die Kanten stehe für „ist Kollokation von“.

Kollokationsgraphen sind also Visualisierungen von in einem Textkorpus häufig auftretenden Wortverbindungen. Visualisierungen braucht man vor allem dann, wenn man eine große Menge von Daten hat, die man mit traditionellen Darstellungsformen wie Listen oder Tabellen nicht mehr überblicken kann. Die Kollokationen zu einem Wort lassen sich natürlich noch leicht in einer Liste zusammenfassen. Berechnet man aber die Kollokationen zu allen Wörtern in einem Textkorpus und möchte man darüber hinaus noch wissen, welche Wörter welche Kollokationen gemeinsam haben, dann ist das mit einem durchschnittlich leistungsfähigen Gehirn nicht mehr zu schaffen.

Militant islamistische Einstellungen in einem Diskussionsforum

Möchte man nun zum Beispiel anhand von Kollokationen untersuchen, welche Autorinnen und Autoren militant islamistische Positionen in einem Diskussionsforum vertreten, dann muss man zunächst wissen, welche Kollokationen als militant-islamistisch gelten sollen. Das lernt man, indem man zunächst Texte zu einem Korpus zusammenstellt, von denen man weiß, dass sie militant-islamistische Positionen vertreten. „Wissen“ heißt hier, dass jemand diese Texte tatsächlich gelesen und entsprechend bewertet haben sollte. Eigentlich ist das nichts für Korpuslinguisten, denn die sind faul und lesen ihre Texte nicht mehr. Zum Glück gibt es aber den Bundesverfassungsschutz, der uns hier die Arbeit abnimmt. Er hat zum Beispiel die deutsche Webseite der Islambrüderschaft als militant extremistisch eingestuft.

Wir laden uns also sämtliche Texte auf der Seite der Islambrüderschaft herunter, bauen ein hübsches Korpus daraus und berechnen für jedes Lemma die Lemmakollokationen. Am besten vergleichen wir die Liste noch mit einer Kollokationsliste eines nicht-extremistischen Referenzkorpus und streichen all jene Kollokationen, die nicht exklusiv im Islambrüderschaft-Korpus vorkommen. Nun haben wir eine Liste von Kollokationen, die für die Sprache des militanten Islamismus als typisch gelten können.

Als nächstes laden wir uns ein Diskussionsforum herunter und bilden autorenspezifische Korpora, d.h. wir fassen alle Posts von einem Nick zu einem Korpus zusammen. Auch hier berechnen wir zu jedem vorkommenden Lemma die Kollokationen.

Visualisierung militant-islamistischer Einstellungen

Nun kann man für jede autorenspezifische Kollokationsanalyse einen eigenen Kollokationsgraphen berechnen. So werden Wörter, die in den einzelnen Posts häufig miteinander auftreten, sichtbar gemacht. Interessant wird es für die Freunde der Sicherheit dann, wenn man jene Wortverbindungen, die sich auch bei der Islambrüderschaft finden, in den autorenspezifischen Graphen hervorhebt.

Ich habe das mal mit einem Diskussionsforum durchgerechnet, das vom Verfassungsschutz als islamistisch eingestuft wird, wenn auch nicht als militant-islamistisch. Wer wissen möchte, um welches Forum es sich handelt, kann mir gerne eine Mail schicken. Ich werde aber die Nicks nicht verraten. Das Forum ist sehr umfangreich und hat ca. 100 Mio laufende Wortformen.

Im Folgenden seht ihr einen Kollokationsgraphen von einem User, den wir als nicht militant-islamistisch einstufen würden. Es zeigen sich nur wenige typische Wortverbindungen, die auch typisch für die Islambrüderschaft sind. Diese sind im Graphen rot markiert.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Auch im Kollokationsgraphen eines zweiten Users sind Wortverbindungen, die als Indikatoren einer militant-islamistischen Gesinnung gelten können, nur in geringer Zahl vertreten.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Anders ist es bei den Posts zu einem dritten Nick. Hier sind sehr viele Kollokationen rot markiert und dies an fast allen Verdichtungspunkten des Graphen. Die Autorin oder der Autor zeigen also in vielen Themenbereichen (denn als solche lassen sich die Verdichtungsbereiche interpretieren) ähnliche sprachliche Muster wie in den Texten der Islambrüderschaft. Die Freunde der Sicherheit würden sich bei diesem Befund die Texte wohl noch einmal genauer anschauen.

 

Autorenspezifischer Kollokationsgraph; Quelle: islamistisches Diskussionsforum

 

Natürlich könnte man das Verfahren noch verfeinern, indem man beispielsweise die extrahierten militant-islamistischen Kollokationen inhaltlich gewichtet. Aber das ginge nun wirklich zu weit für einen kurzen Blog-Eintrag.

Sicher kann man bezweifeln, ob Kollokationen und Kollokationsnetze wirklich die hermeneutische Lektüre von Texten zu ersetzen. Aber das hieße, das heuristische Potenzial der angewandten Korpuslinguistik misszuverstehen. Denn sie will nicht hermeneutische Lektüren ersetzen. Sie entwickelt Kategorien und Modelle nach eigener Logik, deren Brauchbarkeit sich daran bemisst, ob sie im Rahmen konkreter Anwendungen einen Nutzen haben.

 

 

comments: Kommentare deaktiviert für Kollokationsgraphen und Ideologieerkennung am Beispiel der Sprache des militanten Islamismus tags: , , , , ,

Überwachung und Sicherheit

Posted on 2nd Februar 2011 in Meta

Dieser Blog beschäftigt sich mit computer- und korpuslinguistischen Methoden zum Monitoring sprachlicher Inhalte im Internet. Im Zentrum stehen insbesondere Methoden, deren Entwicklung und Einsatz politisch motiviert ist.

Die gesellschaftliche Auseinandersetzung mit diesen Methoden wird je nach Standpunkt im Rahmen einer Sicherheits- oder Überwachungssemantik geführt. Dieser Blog möchte dazu beitragen, das Wissen über diese Methoden zu sammeln, und Bürger, die alle das Objekt dieser Methoden werden könnten, zu einer fundierten Meinungsbildung zu ermächtigen.

Dieser Blog dient in erster Linie als Materialsammlung, die nach den Interessen seiner AutorInnen zusammengestellt wurde. Er erhebt keinen Anspruch darauf, vollständig oder auch nur systematisch zu sein.

comments: Closed tags: , ,