Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus

Das Team von TEDxDresden hat mir dankenswerter Weise die Gelegenheit gegeben, einen Vortrag zum Thema „Schöne neue Algorithmen für die Black Box Mensch“ zu halten. Darin habe ich versucht, aus kulturwissenschaftlicher Perspektive darzustellen, wo die Probleme liegen und was man besser machen sollte, wenn man soziale oder kulturelle Phänomene mit maschinellen Methoden modellieren will.



Ich behaupte, dass die zurzeit gängige Herangehensweise bei der Modellierung sozialer Phänomene einer behaviorischen Vorstellung vom Menschen folgt, und plädiere statt dessen für Algorithmen, die menschliches Verhalten als interpretiertes Verhalten (und damit immer auch als potentiell mehrdeutig) modellieren sollten.

Das Beispiel, das ich prominent behandle, wird zurzeit auch in einem NZZ-Artikel von Steve Przybilla lobenswert kritisch reflektiert.


comments: Kommentare deaktiviert für Schöne neue Algorithmen für die Black Box Mensch – Kritik des digitalen Behaviorismus tags: , , , , , , ,

Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern






comments: Kommentare deaktiviert für Lügen | Presse:
Wortbildung bei PEGIDA-Anhängern
tags: , , , , , ,

Content Mapping mit Topic Models

Posted on 18th Februar 2015 in ideology mapping, Inhaltswörter, Linguistische Kategorien

Liebe Freunde der Sicherheit,

in einem früheren Beitrag habe ich argumentiert, dass die „inhaltlichen Suchbegriffe“, die der BND beim „Filtern“ des Internet benutzt, über Topic Models oder ähnliche Verfahren dazu genutzt werden können, Kommunikation thematisch zu analysieren. Das „Filtern“ bei der strategischen Fernmeldeüberwachung wäre dann faktisch eine Analyse, für die das Bundesverfassungsgericht hohe Hürden gesetzt hat. Heute möchte ich zeigen, wie die Kombination von Topic Models und Metadaten dazu eingesetzt werden kann, thematische Profile von politischen Szenen zu berechnen.


Was sind Topic Models?

Topic Models sind Algorithmen zur Aufdeckung thematischer Strukturen in Texten. Sie gewichten und messen die Affinität von Inhaltswörtern in Textexemplaren eines Korpus. Häufig miteinander auftretende Wörter, die eine hohe Themenspezifizität aufweisen, werden als „Topics“ interpretiert. Diese Lexemcluster haben keine Namen; ihre Benennung ist ein Akt der Interpretation. Ebenso erfolgt die Ermittlung der Anzahl der Topics in den Standardverfahren nicht datengeleitet, sondern in Abhängigkeit von Festlegungen des Forschers.



Meinungsbilder aus dem Internet

Das Innenministerium ließ verlauten: „Wir brauchen eine belastbare Erfassung von Meinungs- und Stimmungslagen der Bevölkerung. Es liegt kein Eingriff in das allgemeine Persönlichkeitsrecht vor, wenn eine staatliche Stelle im Internet verfügbare Kommunikationsinhalte erhebt, die sich an jedermann oder zumindest an einen nicht weiter eingrenzbaren Personenkreis richten.“ Die Folge: alle Nachrichtendienste investieren in die open source intelligence.


Über welche Themen diskutieren linke Szenen?

Will man beispielsweise wissen, womit sich linke Szenen im deutschsprachigen Raum beschäftigen, kann man eine linke News-Site wie http://linkunten.indymedia.org auf ihre Topics hin analysieren. Auf der Subdomain von indymedia.org werden nach Meinungsverschiedenheiten in der Redaktion von Indymedia Deutschland und dem Bedürfnis nach einer engeren Verntezung süddeutscher Szenen Nachrichten veröffentlicht. Das Portal ist inzwischen aktiver als das deutschsprachige indymedia.org. Auch wenn grundsätzlich Nachrichten aus allen Regionen veröffentlicht werden, liegt ein spezieller Fokus auf dem südwestdeutschen Raum. Wendet man auf sämtliche dort publizierten Texten Topic Modelling an, ordnet sich der Wortschatz aufgrund seiner Distribution in folgende Gruppen, für die relativ leicht Namen gefunden werden können:



Themenschwerpunkte linker Szenen

Weil die Artikel auf http://linkunten.indymedia.org unter anderem nach Regionen verschlagwortet sind, ist es möglich, für einzelne linke Szenen Topic-Profile zu erstellen und die Intensität der Aktivitäten zu berechnen. Die unten stehende Grafik zeigt das Topic-Profil der Dresdner Szenen im Vergleich zu anderen Szenen in Deutschland. Sie zeigt die Differenz zum Durchschnitt der normalisierten relativen Auftretenshäufigkeiten der jeweiligen Topics im Gesamtkorpus.

topics_dresden

In Dresden wird demnach überdurchschnittlich häufig über Neonazis, rechte Parteien und Flüchtlinge berichtet, zu Demonstrationen aufgerufen und über Diskussionen in und außerhalb der Szene berichtet. Antimilitarismus und Hausbesetzungen spielen hingegen eine vergleichsweise geringe Rolle.

Interessiert man sich für einen Vergleich von Szenenprofilen, kann man die Themendistributionen in Spinnengrafiken übereinanderlegen, wie im folgenden Beispiel für Wien und Salzburg:

topic_wien_salzburg

Ebenso ist es möglich, die Affinität einzelner Szenen zu relevanten Topics zu analysieren. Von besonderem Interesse für Sicherheitsbehörden könnte ja beispielsweise das Topic „Revolutionärer Kampf“ sein. Eine Analyse der ortsspezifischen Frequenz dieses Topics im Korpus ergibt folgendes Städteranking:

topics_revolution_kampf

Topic Models sind ein eleganter Weg, um sich mit relativ einfachen Mitteln einen Überblick über die inhaltlichen Prägungen von Korpora zu verschaffen. Maßnahmen gegen Topic Models laufen ins Leere, außer man ist bereit, auf inhaltlich kohärente Diskussionen zu verzichten.


comments: Kommentare deaktiviert für Content Mapping mit Topic Models tags: , , , , , ,

Deutschlandradio Kultur: Pre-Policing – Zukunft der Forensik

mobilfunk

Lydia Heller hat im Deutschlandradio Kultur ein sehr hörenswertes Feature zum Thema Präventive Polizeiarbeit gemacht, zu dem ich ein Plädoyer für eine digitale Forschungsethik beisteuern durfte.


comments: Kommentare deaktiviert für Deutschlandradio Kultur: Pre-Policing – Zukunft der Forensik tags: , , , ,

Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht.

In Janoschs Kinderbuch „Post für den Tiger“ gründet der Hase mit den schnellen Schuhen einen Briefzustellservice und stellt die anderen Hasen aus dem Wald als Briefträger ein. In einer kurzen Ansprache macht er sie mit ihren Pflichten vertraut: „Ihr müsst […] schnell und schweigsam sein. Dürft die Briefe nicht lesen und das, was darin steht, niemandem erzählen. Alles klar?“ Und die Hasen mit den schnellen Schuhen antworteten „Alles klar!“ und alles war klar.

Der Hintersinn, mit dem Janosch seinen Hasen das Lesen der Briefe verbieten und im gleichen Atemzug betonen lässt, dass man deren Inhalt aber keinesfalls weitererzählen dürfe, ist der Chuzpe vergleichbar, mit der uns Geheimdienste und E-Mail-Provider wie Google oder Yahoo erklären, dass sie unsere Mails nicht lesen. Dabei haben sie nicht mal unrecht: Sie lesen unsere E-Mails ja wirklich nicht. Sie scannen und filtern und analysieren sie nur!


Nur Fliegen ist schöner…

Mit dem Flugzeug zu reisen hat bei allen Vorzügen einen entscheidenden Nachteil: Keine andere Form des Reisens normiert die Passagiere so weitreichend wie eine Flugreise. Sie erlaubt den Reisenden nur eine bestimmte Menge Gepäck in vorgeschriebener Form, weist ihnen einen engen Raum zu, den sie auch nur zu ganz bestimmten Zwecken verlassen dürfen, zwingt auf visuelle Signale hin zum Anschnallen, zwingt zum Ausschalten von Geräten und — indem das Entertainment-Programm unterbrochen wird — zum Zuhören bei allen Ansagen. Und keine andere Form des Reisens kennt derlei Sanktionen, wenn man sich der Normierung widersetzt: abhängig vom Land können einem Raucher auf der Bordtoilette Strafen vom Bußgeld bis zur merhmonatigen Gefängnisstrafe blühen. Die Annehmlichkeit der schnellen Überbrückung von Entfernungen zu einem noch erträglichen Preis wird also durch die Akzeptanz einer weitgehenden Normierung erkauft.



Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Vorrichtung zur erkennungsdienstlichen Behandlung, Gedenkstätte Bautzner Straße Dresden

Doch damit Passagiere eine Flugreise überhaupt antreten dürfen, müssen sie teilweise als erniedrigend empfundene Kontrollen über sich ergehen lassen. Kontrollen gibt es auf ganz unterschiedlichen Eskalationsstufen.

Unterscheiden kann man erst einmal zwischen solchen, die man selbst mitbekommt, und solchen, die im Hintergrund ablaufen. Ein Beispiel für eine Kontrolle, die meist gar nicht in unser Bewusstsein vordingt, ist das Durchleuchten der Koffer.

Man kann Kontrollen weiterhin danach unterscheiden, ob sie rein maschinell durchgeführt, mit Hilfe von Maschinen, die von Menschen überwacht werden, oder von Menschen selbst. Muss ich durch einen Metalldetektor gehen oder an einer Kamera vorbei, die zur Prävention einer Vogelgrippe-Pandemie bei der Einreise meine Temperatur misst, dann empfinde ich das als weniger unangenehem, als wenn jemand hinter dem Bildschirm eines Gerätes sitzt, der ein Röntgenbild vom Inhalt meines Handgepäcks zeigt. Gänzlich unangenehm empfinde ich es, wenn mein Handgepäck vom Sicherheitspersonal geöffnet und durchwühlt wird.

Weiter kann man Kontrollen danach unterscheiden, ob jeder davon betroffen ist oder nur Auserwählte. Als ich noch mit Rucksack reiste, schnupperten am Gepäckband bei der Ankunft häufiger Drogenhunde an meinem Gepäck, geführt von Polizisten, die wie zufällig in meiner Nähe herumstanden. Und wer kennt es nicht, in eine als „Kabine“ bezeichnete Trennwandbucht gewunken und abgetastet zu werden?

Je näher die Kontrollen an meinen Körper heranrücken, je personenbezogener sie werden, als desto unangenehmer empfinde ich sie. Die maschinelle, körperferne Kontrolle außerhalb meines Gesichtsfeldes, von der alle Passagiere gleichermaßen betroffen sind, finde ich hingegen am wenigsten störend. Und so effizient und distanziert wie das automatische Durchleuchten unserer Koffer so diskret und rücksichtsvoll scannen die Geheimdienste unsere E-Mails.


Von Gepäckkontrollen und Mail-Filtern

Die Geheimdienste lesen nicht unsere E-Mails. Sie lesen sie nicht in dem Sinn, wie unser Gepäck am Flughafen nicht durchsucht, sondern nur durchleuchtet wird.

Die Geheimdienste lesen unsere E-Mails auch nicht massenhaft. Sie lesen sie so wenig massenhaft, wie am Flughafen jeder in eine separate Kabine gewunken und abgetastet wird, sondern nur ausgesuchte Passagiere.

Die Geheimdienste lesen unsere E-Mails auch nicht, um Verdächtige zu identifizieren. Ganz so wie im Flughafen nur jener in die Kabine muss, bei dem die Metalldetektoren anschlagen, so filtern die Geheimdienste unsere E-Mails automatisch, und das sogar in einem mehrstufigen Verfahren. Und Filtern ist nicht Lesen. Und mal ehrlich: wer hat schon was dagegen, wenn E-Mails gefiltert werden? Wer nicht seinen eigenen Mailserver betreibt, dessen E-Mails durchlaufen automatisch Filter, Spamfilter. Und keiner würde behaupten, dass seine E-Mails vom Spamfilter „gelesen“ werden.

Nein! Die Geheimdienste lesen unsere E-Mails nicht. Sie lesen sie höchsten ausnahmsweise, wenn sie beim Abtasten auf etwas Auffälliges stoßen, wenn der Metalldetektor Alarm schlägt, die Drogenhunde anschlagen oder der Sprengstofftest positiv ausfällt.


Lesen ist etwas ganz anderes

Lesen, im engeren Sinn, ist nämlich etwas ganz anderes als das, was etwa der BND bei der strategischen Überwachung des Fernmeldeverkehrs macht. Lesen ist eine aktive Konstruktion von Textsinn, eine Interaktion von Texteigenschaften und Leser. Der Textsinn ist ein kommunikatives Phänomen, das aus einer Leser-Text-Interaktion resultiert. Und weil jeder Leser und jede Leserin anders ist, sich mit anderem Vorwissen und anderer Motivation ans Lesen macht, kann der Textsinn bei jeder Lektüre ein anderer sein. Von einem Computer erwarten wir allerdings, dass er bei gleichem Algorithmus bei jeder Textanalyse immer zum gleichen Ergebnis kommt. Was der Computer macht, ist also kein Lesen, zumindest nicht im emphatischen Sinn.


Aufklären, Scannen und Filtern

Was die Geheimdienste tun, das trägt den Namen „Aufklärung“, präziser „strategische Fernmeldeaufklärung“. COMINT, Communications Intelligence, so der englische Name, ist ein Teilbereich der Signals Intelligence (SIGINT) und dient dem Erfassen und Auswerten verbaler und nonverbaler Kommunikation die über Radiowellen oder Kabel übertragen wird. Typische Funktionen innerhalb der Fernmeldeaufklärung sind Scanning (liegt ein Signal im Sinne einer groben Metrik vor?), automatische Analyse (enthält das Signal relevante Informationen?), Aufzeichnung und strukturierte Speicherung und Aggregierung.

„Scannen“ hat neben der engen COMINT-Bedeutung im Englischen zwei weitere Verwendungsweisen. Einerseits bedeutet es die genaue Inaugenscheinnahme mit dem Ziel der Entdeckung einer Eigenschaft („look at all parts of (something) carefully in order to detect some feature“), andererseits ein oberflächliches Durchschauen eines Dokuments, um eine bestimmte Information daraus zu extrahieren („look quickly but not very thoroughly through (a document or other text) in order to identify relevant information“, New Oxford American Dictionary). In beiden Fällen bedeutet aber „Scannen“ jedoch etwas anderes als „Lesen“. Während Lesen in seiner emphatischen Bedeutung nämlich auf die Rekonstruktion eines ganzheitlichen Textsinns zielt, sucht man beim Scannen nur nach einer bestimmten Information oder einem bestimmten Merkmal, ohne den Anspruch zu haben, dem Textganzen gerecht zu werden.

Eine im Kontext der Überwachungsapologetik gerne gewählte Metapher ist auch die des Filterns. Filtern bedeutet, Stoffe, Flüssigkeiten, Signale o.Ä. durch ein durchlässiges Medium zu leiten, das jedoch bestimmte Anteile zurückhält. Und so heißt es in der „Unterrichtung durch das Parlamentarische Kontrollgremium“ über die Durchführung sowie Art und Umfang der Maßnahmen nach dem G 10-Gesetz für den Zeitraum vom 1. Januar bis 31. Dezember 2011:

„Der Aufklärung unterliegt […] lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert wird. Nur ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat.“

Automatisierte Selektion ist völlig harmlos, das impliziert der Bericht des Kontrollgremiums, manuelle Bearbeitung hingegen erwähnenswert. Es ist wie mit den Kontrollen am Flughafen.


Wann beginnt der Eingriff in Grundrechte?

Was zwischen Netzaktivisten und Sicherheitspolitikern offenbar umstritten ist, ist also die Frage, ab wann denn von einem Grundrechteeingriff gesprochen werden kann: beim Scannen, bei der Aufzeichnung, bei der automatischen Analyse oder erst bei der personenbezogenen Auswertung („manuelle Bearbeitung“)?



Zellenspion, Gedenkstätte Bautzner Straße Dresden

Zellenspion, Gedenkstätte Bautzner Straße Dresden

Mit dieser Frage hat sich das Bundesverfassungsgericht in seinem Urteil vom 14.7.1999 beschäftigt, das 2001 zur bis heute geltenden Neuregelung des G 10-Gesetzes, des Gesetzes zur Beschränkung des Brief-, Post- und Fernmeldegeheimnisses, geführt hat.

Darin zeigt sich das Bundesverfassungsgericht durchaus sensibilisiert für die Folgen des automatisierten Beobachtens des Datenverkehrs:

„Die Nachteile, die objektiv zu erwarten sind oder befürchtet werden müssen, können schon mit der Kenntnisnahme eintreten. Die Befürchtung einer Überwachung mit der Gefahr einer Aufzeichnung, späteren Auswertung, etwaigen Übermittlung und weiteren Verwendung durch andere Behörden kann schon im Vorfeld zu einer Befangenheit in der Kommunikation, zu Kommunikationsstörungen und zu Verhaltensanpassungen, hier insbesondere zur Vermeidung bestimmter Gesprächsinhalte oder Termini, führen. Dabei ist nicht nur die individuelle Beeinträchtigung einer Vielzahl einzelner Grundrechtsträger zu berücksichtigen. Vielmehr betrifft die heimliche Überwachung des Fernmeldeverkehrs auch die Kommunikation der Gesellschaft insgesamt. Deshalb hat das Bundesverfassungsgericht dem – insofern vergleichbaren – Recht auf informationelle Selbstbestimmung auch einen über das Individualinteresse hinausgehenden Gemeinwohlbezug zuerkannt (vgl. BVerfGE 65, 1 ).“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 234)

Und die Richter stellen klar, dass der Eingriff in Grundrechte nicht erst bei der manuellen Auswertung beginnt sondern schon beim Erfassen:

„Da Art. 10 Abs. 1 GG die Vertraulichkeit der Kommunikation schützen will, ist jede Kenntnisnahme, Aufzeichnung und Verwertung von Kommunikationsdaten durch den Staat Grundrechtseingriff (vgl. BVerfGE 85, 386 ). Für die Kenntnisnahme von erfaßten Fernmeldevorgängen durch Mitarbeiter des Bundesnachrichtendienstes steht folglich die Eingriffsqualität außer Frage. […] Eingriff ist daher schon die Erfassung selbst, insofern sie die Kommunikation für den Bundesnachrichtendienst verfügbar macht und die Basis des nachfolgenden Abgleichs mit den Suchbegriffen bildet. […] Der Eingriff setzt sich mit der Speicherung der erfaßten Daten fort, durch die das Material aufbewahrt und für den Abgleich mit den Suchbegriffen bereitgehalten wird. Dem Abgleich selbst kommt als Akt der Auswahl für die weitere Auswertung Eingriffscharakter zu. Das gilt unabhängig davon, ob er maschinell vor sich geht oder durch Mitarbeiter des Bundesnachrichtendienstes erfolgt, die zu diesem Zweck den Kommunikationsinhalt zur Kenntnis nehmen. Die weitere Speicherung nach Erfassung und Abgleich ist als Aufbewahrung der Daten zum Zweck der Auswertung gleichfalls Eingriff in Art. 10 GG.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 186ff)


Und wann ist dieser Eingriff gerechtfertigt?

Gleichzeitig aber sieht das Bundesverfassungsgericht die von Außen drohenden Gefahren als wesentlichen Grund, der geeignet ist, Grundrechtseinschränkungen zu gestatten:

„Auf der anderen Seite fällt ins Gewicht, daß die Grundrechtsbeschränkungen dem Schutz hochrangiger Gemeinschaftsgüter dienen. […] Die Gefahren, die ihre Quelle durchweg im Ausland haben und mit Hilfe der Befugnisse erkannt werden sollen, sind von hohem Gewicht. Das gilt unverändert für die Gefahr eines bewaffneten Angriffs, aber auch, wie vom Bundesnachrichtendienst hinreichend geschildert, für Proliferation und Rüstungshandel oder für den internationalen Terrorismus. Ebenso hat das hinter der Aufgabe der Auslandsaufklärung stehende Ziel, der Bundesregierung Informationen zu liefern, die von außen- und sicherheitspolitischem Interesse für die Bundesrepublik Deutschland sind, erhebliche Bedeutung für deren außenpolitische Handlungsfähigkeit und außenpolitisches Ansehen.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 235, 238)

In seiner Abwägung kommt das Bundesverfassungsgericht zu dem Ergebnis, dass die verdachtslose Überwachung des Fernmeldeverkehrs im und mit dem Ausland durch den Bundesnachrichtendienst und damit der vorher formulierte Eingriff in die Grundrechte der Bundesbürger gerechtfertigt ist:

„Die unterschiedlichen Zwecke rechtfertigen es aber, daß die Eingriffsvoraussetzungen im G 10 anders bestimmt werden als im Polizei- oder Strafprozeßrecht. Als Zweck der Überwachung durch den Bundesnachrichtendienst kommt wegen der Gesetzgebungskompetenz des Bundes aus Art. 73 Nr. 1 GG nur die Auslandsaufklärung im Hinblick auf bestimmte außen- und sicherheitspolitisch relevante Gefahrenlagen in Betracht. Diese zeichnet sich dadurch aus, daß es um die äußere Sicherheit der Bundesrepublik geht, vom Ausland her entstehende Gefahrenlagen und nicht vornehmlich personenbezogene Gefahren- und Verdachtssituationen ihren Gegenstand ausmachen und entsprechende Erkenntnisse anderweitig nur begrenzt zu erlangen sind. Der Bundesnachrichtendienst hat dabei allein die Aufgabe, zur Gewinnung von Erkenntnissen über das Ausland, die von außen- und sicherheitspolitischer Bedeutung für die Bundesrepublik Deutschland sind, die erforderlichen Informationen zu sammeln, auszuwerten und der Bundesregierung über die Berichtspflicht Informations- und Entscheidungshilfen zu liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 241)

Eine Rolle bei der Abwägung hat offenbar auch gespielt, dass die Anzahl der überwachten Telekommunikationsbeziehungen verglichen mit der Gesamtzahl aller oder auch nur der internationalen Fernmeldekontakte aber vergleichsweise niedrig war. E-Mails waren damals beispielsweise noch gar nicht von der Überwachung betroffen. Darüberhinaus wertete das Bundesverfassungsgericht auch das Verbot zur gezielten Überwachung einzelner Anschlüsse, das im G 10-Gesetz verfügt wird, und die Tatsache, dass eine Auswertung und Weitergabe der Informationen nur in wenigen Fällen erfolge, als weitere wichtige Gründe für die Vereinbarkeit des G 10-Gesetzes mit dem Grundgesetz:

„Auch wenn die freie Kommunikation, die Art. 10 GG sichern will, bereits durch die Erfassung und Aufzeichnung von Fernmeldevorgängen gestört sein kann, erhält diese Gefahr ihr volles Gewicht doch erst durch die nachfolgende Auswertung und vor allem die Weitergabe der Erkenntnisse. Insoweit kann ihr aber auf der Ebene der Auswertungs- und Übermittlungsbefugnisse ausreichend begegnet werden.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 243)

Erfassung und Aufzeichnung bedrohen also schon die freie Kommunikation, Auswertung und Weitergabe aber, so sahen es die Verfassungsrichter, sind weitaus schlimmer. Es ist wie mit den Sicherheitskontrollen am Flughafen: je stärker sie die Objekte der Überwachung vereinzeln, je weniger sie maschinell sondern durch Personen erfolgen, desto unangenehmer sind sie.


Vom Filtern und Auswerten: Formale und inhaltliche Suchbegriffe

Die entscheidende Frage ist also: Ab wann liegt eine Auswertung vor, wann werden aus Signalen Informationen? Beschwerdeführer wie Verfassungsrichter waren sich gleichermaßen einig darin, dass eine Auswertung bei einem „computergestützten Wortbankabgleich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 56), beim Filtern also, noch nicht vorliege. Das BVerfG-Urteil fiel freilich in eine Zeit des Umbruchs.



Innenhof der Gedenkstätte Bautzner Straße Dresden

Innenhof der Gedenkstätte Bautzner Straße Dresden

Das G10-Gesetz stammt aus dem Jahr 1968 und damit aus einer Zeit, in der Daten zwar großflächig erhoben werden konnten, ohne dass es jedoch technisch möglich war, die Kommunikationsdaten einzelnen Kommunikationspartnern zuzuordnen und die Inhalte massenhaft automatisiert zu filtern. Dies hatte sich Ende der 1990er Jahre freilich schon geändert. Das Bundesverfassungsgericht wusste schon damals um die Aussagekraft der Verbindungsdaten:

„Ferner führt die Neuregelung zu einer Ausweitung in personeller Hinsicht. Zwar ist die gezielte Erfassung bestimmter Telekommunikationsanschlüsse gemäß § 3 Abs. 2 Satz 2 G 10 ausgeschlossen. […] Faktisch weitet sich der Personenbezug dadurch aus, daß es im Gegensatz zu früher heute technisch grundsätzlich möglich ist, die an einem Fernmeldekontakt beteiligten Anschlüsse zu identifizieren. (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 9)

Zudem wurde die Anwendung von G 10-Maßnahmen bei der Novelle auf weitere Delikte ausgeweitet: neben Gefahren eines bewaffneten Angriffs traten die Proliferation und der illegale Rüstungshandel, der internationale Terrorismus, Handel mit Rauschgift und Geldwäsche. Allesamt Gefahren, die „stärker subjektbezogen sind und auch nach der Darlegung des Bundesnachrichtendienstes vielfach erst im Zusammenhang mit der Individualisierung der Kommunikationspartner die angestrebte Erkenntnis liefern.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 229)



Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Geruchskonserve in der Gedenkstätte Bautzner Straße Dresden

Man beruhigte sich freilich damit, dass nur sehr wenige Fernmeldevorgänge tatsächlich in der Auswertung landeten. Der Innenminister führte an, die „materiellen und personellen Ressourcen des Bundesnachrichtendienstes reichten […] nicht aus, das Aufkommen vollständig auszuwerten.“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 89) Lediglich 700 der 15.000 erfassten Fernmeldevorgänge würden mit Hilfe von Suchbegriffen selektiert, 70 würden von Mitarbeitern persönlich geprüft und 15 kämen in die Fachauswertung. Zwischen dem Filtern mit Hilfe von Suchbegriffen und dem Auswerten liegen also noch zwei Schritte. Wie aus den 700 Fernmeldevorgängen 70 werden, darüber schweigt der Innenminister. Anzunehmen ist, dass die gefilterteten Inhalte auf Suchwortkombinationen hin analysiert wurden.

Die Filterung erfolgt auch heute noch anhand formaler und inhaltlicher Suchbegriffe, die bei der Anordnung von G 10-Maßnahmen festgelegt werden. Formale Suchbegriffe sind „Anschlüsse von Ausländern oder ausländischen Firmen im Ausland“, inhaltliche Suchbegriffe sind „beispielsweise Bezeichnungen aus der Waffentechnik oder Namen von Chemikalien, die zur Drogenherstellung benötigt“ werden (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 87).


Suchen ist analysieren

Interessant an der Verhandlung über das G 10-Gesetz ist aber auch eine Aussage des Innenministers, in der er einräumt, dass die „Auswertung anhand der Suchbegriffe […] im Telex-Bereich vollautomatisch möglich“ (BVerfG, 1 BvR 2226/94 vom 14.7.1999, Absatz-Nr. 90) sei. Schon 1999 fand also eine automatische Auswertung statt, wenn auch aufgrund technischer Beschränkungen, nur in einem kleinen Bereich. Denn dieses Eingeständnis zeigt, dass die Trennung von Filterung und Auswertung, also von Suche und Analyse lediglich eine künstliche ist.

Für heutige automatische Textanalysen gilt: Suchen ist Analysieren. Wenn wir eine Anfrage an ein großes Textkorpus formulieren, dann fließen in diese Anfrage so komplexe Modelle über die Strukturierung und den semantischen Gehalt von Texten ein, dass jeder Anfrage faktisch eine Analyse zugrundeliegt. Um zu bestimmen, welche Themen in einem Dokument verhandelt werden, braucht man keinen Auswerter mehr; Topic Models schaffen Abhilfe.

In der Unterrichtung durch das Parlamentarische Kontrollgremium (PKGr) über die Durchführung sowie Art und Umfang von G 10-Maßnahmen im Jahr 2011 heißt es, lediglich ein eingeschränkter Teil internationaler Verkehre, der automatisiert stark gefiltert werde, unterliege der Aufklärung, nur

„ein geringer Anteil dieser E-Mails wird überhaupt manuell bearbeitet. […] Der deutliche Rückgang im Jahre 2011 ist auch darauf zurückzuführen, dass der BND das von ihm angewandte automatisierte Selektionsverfahren auch vor dem Hintergrund der Spamwelle im Jahre 2010 zwischenzeitlich optimiert hat. Hierzu haben unter anderem eine verbesserte Spamerkennung und -filterung, eine optimierte Konfiguration der Filter- und Selektionssysteme und eine damit verbundene Konzentration auf formale Suchbegriffe in der ersten Selektionsstufe beigetragen.“

Welche Verfahren genau zum Einsatz kommen, dazu schweigt der Bericht. Immerhin räumt er ein, dass Filterung und Selektion automatisch in einem mehrstufigen Verfahren erfolgen. Artikel 10, Absatz 4 des G 10-Gesetzes erlaubt es dem BND, bis zu 20% der auf den Übertragungswegen zur Verfügung stehenden Übertragungskapazitäten zu überwachen. 20% der Kapazitäten. Nicht 20% der tatsächlichen Kommunikation. Und zu den Kapazitäten schweigt sich der Bericht aus, auch zu den konkreten Zahlen der insgesamt erfassten Interaktionen. Sicher ist nur, dass sämtliche Formen der digitalen Kommunikation maschinell auswertbar sind: Telefongespräche, Faxe, Chatnachrichten, E-Mails, SMS etc.

Um aus einer so riesigen Datenmenge, wie sie in einem Jahr anfällt, eine vergleichsweise kleine Menge an Kommunikationsverkehren für die Auswertung herauszudestillieren — 329.628 Telekommunikationsverkehre im Bereich internationaler Terrorismus werden als auswertungswert erkannt, das sind weniger als 1000 pro Tag — reichen einfache Schlagwortsuchen nicht aus. Hierfür ist eine Modellierung von Themen anhand der Gewichtung und Distribution von Suchbegriffen nötig. Und dies auf allen erfassten Kommunikationsverkehren. Ein solches Verfahren ist nicht nur eine Filterung, sondern hat den Charakter einer Auswertung, es ist Suche und Analyse zugleich.

Die Dienste lesen nicht unsere E-Mails, sie wissen aber doch, was drin steht. Janosch lässt grüßen.


Definitionsmacht ohne Kontrolle

Die Auswertung geschieht zwar weitgehend automatisch. Das ist aber im Ergebnis kaum weniger schlimm, als wenn sie von einem Menschen vorgenommen würde. Denn „automatisch“ bedeutet natürlich nicht „objektiv“ oder „absichtslos“. Hinter der Auswahl der Suchbegriffe und der Modellierung von Themen stehen Vorstellungen von Gefahren und Gefährdern, die lediglich vor dem sehr engen Kreis der Mitglieder der G 10-Kommission und des Parlamentarischen Kontrollgremiums, Abgeordnete und Juristen, gerechtfertigt werden müssen. Davon abgesehen sind diese Vorstellungen so geheim wie die gewählten Suchbegriffe. Der BND besitzt hier eine Definitionsmacht, die sich einer gesellschaftlichen Debatte oder Kontrolle und einer wissenschaftlichen Prüfung entziehen kann. Diese Vorstellungen zählen zu den Arcana Imperii. Denn die Logik der Überwachung ist selbst Teil dessen, was aus Sicht der Überwacher geschützt werden muss.



Verhörraum Gedenkstätte Bautzner Straße Dresden

Verhörraum Gedenkstätte Bautzner Straße Dresden

Der Vergleich hinkt zwar, ist aber dennoch bedenkenswert: Wie wäre es, wenn man das StGB geheimhalten würde mit der Begründung, dann wüssten ja potenzielle Kriminelle, welche Handlungen als kriminell gelten und daher zu vermeiden wären? Dies erscheint uns deshalb so absurd, weil das StGB gewissermaßen der Maßstab ist, an dem wir messen, ob jemand kriminell oder straffällig geworden ist. Wäre das StGB unveröffentlicht, dann wäre Kriminellsein nicht etwas, das sich (auch für den potenziell Kriminellen) anhand dieses Maßstabs bestimmen ließe, sondern eine Eigenschaft der Personen, die sich in Taten aktualisieren kann, aber nicht muss. So sehr der Vergleich auch hinkt, so macht er doch sichtbar, dass die Dienste Identitäten nach demselben Muster zuschreiben: ein „Gefährder“ oder „Terrorist“ ist nicht erst dann ein Terrorist, wenn er zuschlägt oder zugeschlagen hat. Er ist es schon vor der Tat. Er ist identifizierbar durch seine Sprache, die auf künftige Taten auch dann verweisen kann, wenn sie die Tat nicht einmal zum Thema hat. Und diese Zuschreibung erfolgt in einem Feld, in dem die Zuschreibungen an weitergehende Überwachungs- und Strafregime gebunden sein kann. Wie würden wir es finden, wenn der Bundesgrenzschutz die Liste von Gegenständen, die auf Flugreisen nicht im Gepäck mitgeführt werden dürfen, geheimhalten würde? Und wenn der Bundesgrenzschutz aufgrund von Verstößen gegen diese Liste Passagieren das Fliegen verweigern könnte, ohne sagen zu müssen, warum?

Die strategische Fernmeldeüberwachung ist durch den technisch-informatischen Fortschritt so effizient geworden, dass ihre rechtliche Grundlage fragwürdig geworden ist. Die Macht, zu definieren, wer „Terrorist“ oder „Gefährder“ ist, darf daher nicht länger ohne Kontrolle bleiben.


comments: Kommentare deaktiviert für Die Geheimdienste lesen unsere E-Mails nicht! — Sie wissen aber trotzdem, was drin steht. tags: , , , , , , , , , , ,

30C3 Nachlese, Teil 2

Auf vielfachen Wunsch hier die gif-Grafik, die ich zur Illustration der Hoffnung einiger Aktivisten erstellt habe, die NSA suche lediglich nach Keywords.


Wie die NSA nicht unsere E-Mails liest

Wie die NSA nicht unsere E-Mails liest (CC0 1.0 Universell, Font by Bolt)

In der letzten Sendung von Breitband auf DeutschlandradioKultur gab es einen schönen Beitrag von Marcus Richter zur Zukunft der Überwachung, der auf dem Kongress entstanden ist und in dem ich auch was sagen durfte.

Und dann habe ich — wie beinahe alle Vortragenden — ein Interview für dctp.tv gegeben, bei dem zumindest die erste Hälfte von meiner Seite komplett misslungen ist. Der zweite Teil enthält aber ein paar Punkte, die ich im Talk nicht so deutlich formuliert habe:




comments: Kommentare deaktiviert für 30C3 Nachlese, Teil 2 tags: , , , , , ,

Rechtsextremismus und die Mitte der Gesellschaft: Kulturalismus, Populismus und Skandalisierung

Liebe Freunde der Sicherheit,

vom Landesamt für Verfassungsschutz in Sachsen wurde ich eingeladen, auf einer Tagung einen Vortrag zum Thema „Rechtsextremismus und die Mitte Gesellschaft“ aus sprachwissenschaftlicher Sicht zu halten. Weil ich das Thema relevant finde, habe ich zugesagt. Im Folgenden findet ihr die Analysen, die ich für diesen Vortrag durchgeführt habe.


Grundannahmen

Sprache konstruiert Wirklichkeit. Je nach dem, ob wir einen Gegenstand als „Herdprämie“ oder „Erziehungsgeld“ bezeichnen, heben wir unterschiedliche Aspekte an ihm hervor (Erziehung vs. Frauenpolitik), wecken spezifische Assoziationen (Anerkennung bislang nicht honorierter Leistungen vs. traditionelle Geschlechterrollen), verbinden unterschiedliche Handlungsaufforderungen mit ihm (Zustimmung vs. Ablehnung) und konstruieren ihn so auf je unterschiedliche Weise. Derjenige Akteur, der seinen Sprachgebrauch zur Norm erheben kann, dessen Handeln erscheint als konsistent und legitim. Sprachliche Wirklichkeitskonstruktionen erfolgen jedoch nicht über das Prägen von Bezeichnungen alleine, sondern auch im Kontext von längeren Aussagen und Aussagezusammenhängen.



Beispiel: Kollokationen zum Lemma „Ausländer“ in rechtsextremen Foren (Ausschnitt)



Eine Möglichkeit, die spezifischen Wirklichkeitskonstruktionen zu messen ist die Kollokationsanalyse, also die Analyse, welche Wörter überzufällig häufig miteinander auftreten. Wenn beispielsweise „Nerd“ häufig mit „Außenseiter“, „IQ“, „sozial“ und „gestört“ auftritt, dann verrät dies etwas darüber, wie die kulturelle Entität „Nerd“ konstruiert wird.


Vorgehensweise

Ich habe aus zwei rechtsextremen Internet-Diskussionsforen (Forum Deutscher Netzdienst, ein zwischen 2003 und 2009 von der NPD betriebenes Forum) und dem neonazistischen Thiazi-Forum (2007-2012) ein Korpus mit rund 500 personenspezifischen Teilkorpora erstellt. Das Korpus umfasst rund 25 Millionen Wörter. In diesem Korpus habe ich typische Wortverbindungen berechnet. Nun ist natürlich nicht jede Wortverbindung in diesem Korpus gleich ein Indikator für rechtsextreme Gesinnungen: Nazis schlagen nicht nur Fenster, sondern auch Wege ein und die Verbindung von „Weg“ und „einschlagen“ findet sich in Texten „der Mitte“ genauso wie bei Rechtsextremen. Um ein Kriterium für die Ideologizität der Kollokationen zu haben, habe ich mich dafür entschieden, nur solche als Indikatoren für Rechtsextremismus anzusehen, in denen NPD-Schlagwörter vorkommen. NPD-Schlagwörter habe ich identifiziert, indem ich Pressemitteilungen der NPD mit Pressemitteilungen von CDU und SPD verglichen habe.



Typische Lemmata in den Pressemitteilungen der NPD
im Vergleich zu den Pressemitteilungen von CDU und SPD (Auswahl)



Um beantworten zu können, in welchen Bereichen „die Mitte“ offen ist für rechtsextremes Gedankengut, brauchte ich ein Vergleichskorpus. Weil das Konzept der „Mitte“ nicht klar bestimmbar ist, ist meine Wahl auf ein Online-Diskussionsforum gefallen, das plural im Hinblick auf die dort vertretenen politischen Ansichten ist: politikforum.net. Auch hier habe ich ein Korpus aus 577 personenspezifischen Teilkorpora gebildet, das rund 27 Millionen Wörter umfasst. Das ist zwar nicht Big Data, aber schon recht aussagekräftig (zum Vergleich: Der Zauberberg hat rund 300.000 Wörter). Auch für dieses Korpus habe ich Kollokationen berechnet.



Kollokationen zum Lemma „Sozialsystem“ im Vergleich: NPD-Forum vs. politikforen.net
(Schlagwörter der NPD in zwartem rosa)



Offenheit für rechtsextremes Gedankengut habe ich dann darüber berechnet, wie hoch der Anteil von Kollokatoren ist, die beim gleichen Lemma auch bei der NPD Kollokatoren sind, und wie hoch der Anteil von NPD-Schlagwörtern unter den Kollokatoren ist. Schließlich habe ich die Wörter auf der Basis der Kohärenz der in ihnen vorkommenden Kollokationen thematisch gruppiert und als Graphen visualisiert.


Ergebnisse

In welchen Bereichen gibt es also teilweise Übereinstimmungen in den Denkweisen von Rechtsextremisten und der „Mitte der Gesellschaft“? Zunächst einmal finden sich ein paar übliche Verdächtige: Bei den Themen Ausländer / Migration, Islam und Kriminalität konvergiert der Sprachgebrauch in politikforen.net stark mit dem Sprachgebrauch im NPD-Forum.

Das Thema Ausländer / Migration nimmt von den Schnittmengenthemen den größten Raum ein und wird konstituiert durch die Lemmata Abschiebung, Assimilation, südländisch, Gastrecht, ausweisen, integriert, Ausweisung, Ausländer, Migrationshintergrund, Herkunft, nichtdeutsch, Ethnie, Angehörige, Leitkultur, überschwemmen, Zugehörigkeit, Nichtdeutsche, Bande, geboren, ausnutzen, abschieben, Abstammung, nicht-deutsch, ausländisch, Überfremdung, Multikulti, Migration, Migrant, strömen, Heimat, Identität, ertappt, Minderheit, Integration, Elternteil, Asylant, begrenzen, Investor, aussehend, Sozialhilfeempfänger, Sitte, einwandern, kürzen, Rasse, Urbevölkerung, Masseneinwanderung, Rückkehr, Zuzug, Südland und Mentalität sowie durch die Bezeichnungen für einzelne ethnische Gruppen.

Die typischen Verwendungsweisen des Lemmas „Gastrecht“ in politikforen.net illustriert die Nähe zu rechtsextremem Gedankengut.



Kollokationsgraph zum Lemma „Gastrecht“ in politikforen.net. Braune Knoten
markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Das Thema Kriminalität ist nach dem Thema Ausländer / Mirgation das am breitesten diskutierte Thema und wird konstituiert durch die Lemmata straffällig, kriminell, Gewalttat, Kriminelle, gewalttätig, Delikt, Gewalttäter, Straftat, Straftäter, Kriminalitätsrate, Tatverdächtige, Täter, lebenslang, abstechen, gewaltbereit, Bewährung, abschreckend, Kriminalität, Bestrafung, bestrafen, begangen, liegend, Todesstrafe, Statistik, Verbrecher, wegsperren und Mord. Im Folgenden ein Ausschnitt aus dem Kollokationsgraph zum Lemma „kriminell“ in politikforen.net.



Kollokationsgraph zum Lemma „kriminell“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Ein bemerkenswerter Teilbereich mit großer Konvergenz sind Sexualverbrechen, insbesondere Kindesmissbrauch.



Kollokationsgraph zum Lemma „Vergewaltiger“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Die Themenfelder Ausländer / Migration und Kriminalität werden in politikforen.net ebenso wie in den rechtsextremen Foren häufig miteinander verschränkt, wie der Kollokationsgraph zu „nichtdeutsch“ illustriert.



Kollokationsgraph zum Lemma „nichtdeutsch“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Basis für die Themen Ausländerfeindlichkeit in Verbindung mit Kriminalität und Islamophobie / antimuslimischem Rassismus ist eine Ideologie, die ich als Kulturalismus bezeichnen möchte. In ihr werden Menschen als durch ihre Kultur determinierte Wesen konzeptualisiert und kulturelle Unterschiede als unveränderbar und damit unüberwindlich angesehen. Sichtbar wird Kulturalismus im Kollokationsgraphen zum Lemma „Kultur“:



Kollokationsgraph zum Lemma „Kultur“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



„Kultur“ wird als eine an ein Volk gebundene, von Vermischung bedrohte Lebensweise konzeptualisiert, zu der als Prädikat „grundverschieden“ hinzutreten kann. Der Kulturbegriff hat auch im akademischen Diskurs die Funktion, Homogenität zu konstruieren. Auch in den Diskussionsforen ist die Homogenitätsideologie Bestandteil des Kulturalismus:



Kollokationsgraph zum Lemma „homogen“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Neben den Wörtern „Kultur“ und „homogen“ sind es die folgenden Lemmata, die das Feld des Kulturalismus abstecken und in der rechtsextremer Sprachgebrauch mit dem Sprachgebrauch in politikforum.net konvergiert: Abstammung, Volk, Multikulti, Kulturkreis, Heimat, Identität, Minderheit, bewahren, Sitte, zugehörig, Rasse, Lebensweise, aufgeben, Urbevölkerung, vermischen und Mentalität. Eine genauere Analyse würde zeigen, dass der Kulturalismus die Bedingung für die diskriminierenden Konstruktionen in den Themenfeldern Ausländer / Migration, Kriminalität und Islam ist.

Einher mit dem Kulturalismus geht in rechtsextremen wie pluralistischen Diskussionsforen die Legitimierung von Etabliertenvorrechten. Einheimische genießen Vorrechte gegenüber Zugezogenen, Völker leben in ihrer angestammten Heimat:



Kollokationsgraph zum Lemma „angestammt“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Eine weitere semantische Grundfigur, die rechtsextremes Denken in „der Mitte“ der Gesellschaft anschlussfähig macht, ist die argumentative Inanspruchnahme der (schweigenden) Mehrheit der Gesellschaft.



Kollokationsgraph zum Lemma „Mehrheit“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Zusammen mit einer pauschalen Kritik an der politischen Klasse („korrupt“ und „unfähig“) sind die typischen Ingredienzien des Populismus versammelt.



Kollokationsgraph zum Lemma „Politiker“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Eine letzte semantische Grundfigur, die die Debatten in rechtsextremen wie pluralistischen Foren verbindet, ist die Tendenz zur Skandalisierung, die in beinahe allen genannten Themenbereichen präsent ist.



Kollokationsgraph zum Lemma „asozial“ in politikforen.net (Ausschnitt).
Braune Knoten markieren Schlagwörter der NPD, braune Kanten verweisen darauf,
dass die Wortverbindung auch in rechtsextremen Diskussionsforen auftritt.



Ich konnte hier nicht alle Bereiche und schon gar nicht in der gewünschten Ausführlichkeit vorstellen. Auch erinneringspolitische Themen wie die Wehrmacht und die Vertreibung aus den ehemaligen deutschen Ostgebieten, aber auch Sozialpolitisches, antikapitalistisch angehauchte Bankenkritik und die Einschränkung von Grundrechten sind Themen, in denen sich rechtsextreme Positionen mit Mittepositionen berühren. Funfact am Rande: auch die Ansichten über den Verfassungsschutz konvergieren in extremistischen und pluralistischen Diskussionsforen.



Themenfelder und semantische Grundfiguren, die eine hohe Kongruenz
mit rechtsextremen Diskursen aufweisen.



Die obige Grafik ist der Versuch, Themenfelder und semantische Grundfiguren zu ordnen.

Neben den erwartbaren Ergebnissen, dass Ausländerfeindlichkeit, Politikverdrossenheit und Kriminalität Türen sind, durch die rechtsextreme Positionen in weiteren Teilen der Gesellschaft eindringen können, zeigt die Analyse, dass auch semantische Grundfiguren des Populismus, der Skandalisierung und vor allem des Kulturalismus der Nährboden für das Gedeihen rechtsextremen Gedankengutes in „der Mitte der Gesellschaft“ sein können.


Darüber lacht Fefe: Sprachliche Marker für Emotionen im Dienst der Ideologieerkennung

Liebe Freunde der Sicherheit,

geschriebene Sprache ist oft vieldeutiger als gesprochene Sprache, weil sie ohne prosodische Merkmale auskommen muss und wir obendrein weder Gestik noch Mimik der Schreibenden sehen. Um Aussagen zu vereindeutigen benutzen aber viele Online-Schreiberinnen und -Schreiber Marker für Emotionen. Für Linguisten sind solche Marker sehr interessant, denn man kann versuchen, mit ihrer Hilfe Modelle zu trainieren, die z.B. die automatische Identifizierung von Ironie in Texten ermöglichen. Sicherheitsinformatiker finden solche Marker aber auch sehr praktisch, denn man kann mit ihrer Hilfe noch besser messen, was Menschen zu bestimmten Themen denken.

Besonders fleißig werden solche Marker in Fefes Blog verwendet. Wenn Fefe sich über etwas oder jemanden lustig macht, setzt er oft ein „muhahaha“, ein „HAHAHA“ oder ein „Bwahahaha“ hinzu. Der folgende Kollokationsgraph zeigt, worüber Fefe lacht (auch als zoombares PDF):



Kollokationsgraph, der die Kollokationen zu den primären Kollokatoren von Lach-Indikatoren in Fefes Blog visualisiert



Im Bereich mit der größten Dichte finden sich Wörter wie „USA“, „Deutschland“, „Polizei“, „deutsch“, „Amis“, die für diejenigen, die keine Lust oder keine Zeit zum Lesen haben, Rückschlüsse auf Fefes Einstellungen zu deutschen Staatsorganen und zu den USA haben.



Kollokationsgraph zu Lach-Markern in Fefes Blog (Ausschnitt)



Doch worüber ärgert sich Fefe? Erstellt man anhand jener Blogposts, in denen das Akronym „WTF“ auftritt, einen Kollokationsgraphen, dann erhält man folgendes Ergebnis (auch als zoombares PDF):



Kollokationsgraph anhand von Posts mit „WTF“ in Fefes Blog



Wie der folgende Ausschnitt zeigt, ist ein besonders häufiges Lemma mit vielen signifikanten Kollokatoren das Lemma „Euro“. Offenbar ärgert sich Fefe besonders oft über sinnlose Ausgaben.



Kollokationsgraph anhand von Texten mit „WTF“ in Fefes Blog (Ausschnitt)



Spaßeshalber habe ich auch noch einmal visualisiert, was Fefe dazu motiviert, Popcorn zu fordern / bereitszustellen / zu bevorraten. Popcorn ist bei Fefe ein Marker für Schadenfreude. (auch als zoombares PDF):



Kollokationsgraph anhand von Posts mit „Popcorn“ in Fefes Blog




Viel Spaß beim Zoomen!


UPDATE: Hier noch einmal die Grafiken im SVG-Format.

Themenerkennung durch Kompositaanalyse

Posted on 17th März 2012 in ideology mapping, Linguistische Kategorien

Liebe Freunde der Sicherheit,

heute wollen wir uns eine sprachliche Kategorie ansehen, die zusammen mit anderen einen Beitrag zur Ideologieerkennung leisten kann: Komposita. Die deutsche Sprache ermöglicht es ihren Sprecherinnen und Sprechern ja bekanntermaßen, Wörter aus mehreren Bestandteilen (sog. Morphemen) zusammenzusetzen. Aus dem Nomen „König“ und dem Suffix „lich“ wird zum Beispiel „königlich“. Ein Wort wie „Königstiger“ besteht aus dem lexikalischen Morphem /könig/, einem sog. Fugenelement /s/ und dem lexikalischen Morphem /tiger/. Im ersten Fall, wo ein neues Wort mit Hilfe eines Affix gebildet wird, spricht man von Derviation. Wird ein Wort aus zwei oder mehr lexikalischen Morphemen (also Morphemen, die auch alleine stehen können) zusammengesetzt, dann sprechen Linguistinnen und Linguisten von Komposition.

Die Komposition ist im Deutschen ein sehr wichtiges Wortbildungsmittel, wichtiger als in vielen anderen Sprachen. So können mit Hilfe der Komposition sogar ad hoc Sachverhalte mit neuen Wörtern bezeichnet werden, wenn sich die Bedeutung aus den einzelnen Gliedern erschließen lässt. Denken wir an das schöne Kompositum „Selbstverteidigungsminister“.

Interessant wird es aber wie immer erst dann, wenn man sich Komposita in größeren Mengen anschaut. Denn wenn über ein Thema intensiv gesprochen und geschrieben wird, dann steigt nicht nur die Frequenz des themenspezifischen Wortschatzes, sondern es steigt auch die Anzahl der verwendeten Komposita, die mit Hilfe dieses Wortschatzes gebildet werden können. Augenscheinlich wird dies am Beispiel des lexikalischen Morphems /terror/, dessen Distribution in der ZEIT (print) ich visualisiert habe.


Komposita mit dem lexikalischen Morphem /terror/ in der ZEIT (print) 1995-2011


Man sieht, dass mit dem Jahr 2001 die Frequenz des Lemmas „Terror“ zwar ansteigt, die Verwendung von Komposita (token), die /terror/ enthalten, jedoch noch viel stärker zunimmt. Gleichzeit steigt auch die Anzahl der Komposita (types), die überhaupt verwendet werden. Der themenspezifische Wortschatz differenziert sich mittels Komposition also aus und wird zudem häufiger verwendet. Komposita scheinen also ein guter Themenindikator zu sein, vielleicht sogar ein besserer als Schlagworte.

Wenn man das, was hier am Beispiel von /terror/ illustriert wurde, für den gesamten Wortschatz in einem Korpus macht, erhält man natürlich ein sehr viel aussagekräftigeres Bild. Ich will dies anhand einer Analyse eines rechtsextremen Nachrichtenportals anschaulich machen. Es handelt es sich dabei um den inzwischen sowohl online als auch offline eingestellten sog. „Rundbrief an Freunde und Förderer der volkssozialistischen Bewegung“ mit dem Titel „Der Fahnenträger“. Von diesem Elaborat enthält das Untersuchungskorpus 222 Texte mit zusammen 566.905 laufenden Wortformen.

Um die Aussagekraft der Ergebnisse zu erhöhen, wurde berechnet, welche lexikalischen Morpheme im „Fahnenträger“ signifikant häufiger zur Bildung von Komposita benutzt wurden als in der gedruckten ZEIT der letzten 17 Jahre. Das Ergebnis habe mit den 90 signifikantesten lexikalischen Morphemen habe ich in einer Wortwolke visualisiert:


Der Fahnenträger

DemokratwirtschaftlichirischrevolutionierenMilitärneoliberalpolitischEigentumGewaltLohnarbeitenantiUnionistKundgebungAutonomieDKPimperialBDMimperialistischIreRasseAgrarzentralistischmarxistischPSIGewerkschaftMarxistKAPDKlasseFaschismusRegierungWiderKampfPolitikstaatlichkapitalHerrschaftregierenMachtImperialImperialismusISAFFAUArditiEuzkadiScheringerVWNsozialRUCBDOADGBKapitalSchlageterArbeitOrganisationNiekischBaskeFaschistFrontLinksfaschistischreaktionärNRWirtschaftGSRNNationalerevolutionärBahamasSFMASNKFDFéinBRDParteikapitalistischFiumeAntifaflämischStaatSozialistKPDETAKapitalistnationalNSVolkFlameIRAsozialistischStrasser

Das Ergebnis ist auf den ersten Blick verwirrend: Es finden sich auffällig viele Komposita mit den Akronymen radikaler, extremistischer und terroristischer Organisationen der Linken wie der Rechten, lexikalische Morpheme aus dem Kontext der (marxisitschen) Kapitalismuskritik („neoliberal“, „Lohn“, „Eigentum“, „Klasse“, „Imperialismus“, „reaktionär“, „kapital“ etc.), zugleich aber auch lexikalische Morpheme, die auf nationalistisch-völkische Ideologie verweisen („Volk“, „national“, „Flame“, „flämisch“, „faschistisch“, „Strasser“). Dies entsprach freilich der politischen Selbstverortung der Macher. Sie sahen sich „jenseits des ‚rechten Mainstreams'“ und orientierten sich, laut Endstation Rechts „an Bestandteilen des Rätekommunismus, des Syndikalismus und der ‚Dritten Welle‘ des Weimarer Nationalbolschewismus.“ Dies erklärt auch die häufigen Komposita mit dem Namen Gregor Strassers.

Die Kompositaanalyse scheint also ein durchaus adäquates Abbild des Themenspektrums des „Fahnenträgers“ zu liefern. Dass die Welt auch eine schönere Seite hat, zeigt der komplementäre Blick auf die für die ZEIT typischen lexikalischen Morpheme, aus denen die meisten Komposita bestehen.


DIE ZEIT

MotorEuroberatenSommerBühnePartyFahrtsparenKundeInselTischHerstellerhohÖkoMaschineFarbeEisliebPlatzWerbungSzeneMarkesuperWaldMannManagerTypGartenModellGerätFanModeNachtGeschäftPlatteBaumNetzSchiffRaumSportTierKlangFußballFirmaTraumRomanFernsehStückZimmerSchuleLichtInternetKünstlerRadBandDorfKarteForscherTechnikWeinTestHotelStraßeTourFußProjektTonfahrenHolzLiebeBahnAutoWerkReisReiseTheaterFamilieKunstFilmMusikHausBuchfliegenBildKindforschenStadtFlugBallSpiel


comments: Kommentare deaktiviert für Themenerkennung durch Kompositaanalyse tags: , , , , ,

Erkennung von Ideologien: Metasprachliche Markierungen als Kritik der herrschenden Semantik

Liebe Freunde der Sicherheit,

heute soll es nicht um Autorenerkennung gehen, sondern um die Frage, wie man den ideologischen Gehalt größerer Textmengen bestimmen kann. Illustrieren möchte ich dies an einem Thema, das uns besonders am Herzen liegt: die Treue zu unserer staatlich-politischen Grundordnung.

Systemkritische Bewegungen haben fast immer auch eine sprachkritische Tendenz. Ähnlich wie antipluralistische Systeme neigen sie zur Ausbildung einer eigenen Ideologiesprache, die zwar nicht notwendigerweise ausdrucksseitig (also im Hinblick auf die verwendeten Wörter und Wendungen), aber immer inhaltsseitig vom herrschenden Sprachgebrauch abweicht. Und dies mit gutem Grund: die herrschende Sprache – so die Vorstellung – habe verschleiernden Charakter und diene der herrschenden Klasse zur Gefügigmachung der Bürger, mithin als Herrschaftsinstrument.

Wahres Sprechen erfordert daher eine neue Sprache – so die an ontologisierende Sprachtheorien erinnernde Position. Selten kommen daher sich als revolutionär verstehende Bewegungen ohne kritische Thematisierungen der gegenwärtigen Sprache aus, bisweilen arbeiten sie sogar sprachliche Gegenentwürfe aus.

Letzteres geschieht häufig in Textsorten, die Wörterbüchern ähnlich sind. Beispielsweise findet sich im Netz ein rechtsextremes Elaborat, das eine Liste mit 126 zentralen Vokabeln aus den semantischen Feldern der Staatstheorie, der Philosophie, der Theologie und der „Rassenkunde“ enthält, die im Sinne der Autoren abweichend vom Alltagssprachgebrauch definiert werden. „Diskriminierung“ wird darin beispielsweise wie folgt bestimmt: „Kulturtugend. Abgrenzung (gegeneinander), Unterscheidung des Häßlichen vom Schönen, des Bösen vom Guten, des Falschen vom Wahren, des Schädlichen vom Nützlichen. Die Diskriminierung ist die grundlegende Fähigkeit, die menschliches Handeln auf den Gebieten der Kunst, der Religion, des Wissens, der Wirtschaft und der staatlichen wie bürgerlichen Ordnung der Gemeinwesen erst ermöglicht.“ Die Definition bezieht sich auf die Bedeutung des lateinischen Verbs „discriminare“, in der das Wort auch ins Deutsche entlehnt wurde. Die Bedeutungsdimensionen der Herabsetzung und der Benachteiligung, die seit dem frühen 20. Jahrhundert die Verwendung des Wortes prägen, werden getilgt.

Die Existenz solcher wörterbuchartigen Umdeutungen von Begriffen ist Symptom einer elaborierten und systematischen Kritik der „herrschenden“ Semantik. Häufiger jedoch findet sich in systemkritischen Texten eine eher unsystematische Ad-hoc-Kritik am gängigen Sprachgebrauch, indem die entsprechenden Ausdrücke metasprachlich markiert werden. Damit wird die Ablehnung der traditionellen Verwendungsweise der markierten Vokabeln zum Ausdruck gebracht. Diese Ablehnung kann sich entweder gegen die Wortform selbst oder gegen das Konzept, das dem Ausdruck zugrunde liegt, richten. Ein rechtskonservativer Politiker übt beispielsweise mit der Formulierung „Einwohner mit ‚Migrationshintergrund'“ Kritik an der in Anführungszeichen gesetzten Wortform und drückt damit aus, dass diese nicht Teil seines persönlichen politischen Vokabulars ist. Kritik am Konzept, das hinter einem Ausdruck steht, wird etwa geübt, wenn von der „sogenannten Demokratie“ die Rede ist. Solche Sprachthematisierungen haben eine strategische Funktion. Daneben gibt es natürlich noch weitere Sprachthematisierungen, die ausschließlich erläuternden Charakter besitzen. Hier werden Wörter definiert, erklärt, oder es wird ihr Gebrauch legitimiert.

Sprachkritische Markierungen bieten somit einen Ansatzpunkt für die informatische Operationalisierung von Einstellungen gegenüber der herrschenden Ordnung, insofern sie als Indikatoren der Kritik an zentralen politischen Konzepten und der herrschenden Semantik insgesamt gedeutet werden können.

Um zu überprüfen, ob die linguistische Kategorie der metasprachlichen Markierung als Indikator für Distanz zur herrschenden Semantik und damit als Marker systemkritischer Gesinnung gelten kann, habe ich zusammen mit Kollegen ein paar Proberechnungen an den Pressemitteilungen der Bundesparteien in der Legislaturperiode von 2005-2009 vorgenommen. Im Folgenden findet ihr die Frequenz von metasprachlichen Markierungen je 10.000 Wörtern (SPD und CDU stehen hier deshalb neben einander, weil sie eine Koalition bildeten; PDL-KPF steht für die Kommunistische Plattform innerhalb der Partei DIE LINKE.).

 


Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter in den Pressemitteilungen von Parteien (2005-2009)

Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter
in den Pressemitteilungen von Parteien (2005-2009)



Die Parteien und Gruppierungen an den Rändern des politischen Spektrum weisen eine höhere Frequenz metasprachlicher Markierungen auf als die im Bundestag vertretenen Parteien. Während bei letzteren der Höchstwert bei rund 20 Sprachthematisierungen je 10.000 Wörtern liegt (CDU), liegt er bei den anderen Parteien, die vom Verfassungsschutz überwiegend als extremistisch bezeichnet werden, zwischen rund 33 (MLPD) und 80 (DKP).

Auch eine qualitative Auswertung der metasprachlichen Ausdrücke, die in den Pressemitteilungen auftreten, bestätigt, dass die Parteien an den Rändern des politischen Spektrums ihre Ablehnung der freiheitlich-demokratischen Grundordnung mit sprachlichen Mitteln explizit machen. Die folgende Abbildung zeigt den Anteil der metasprachlich markierten Ausdrücke zur Bezeichnung von Institutionen beziehungsweise Grundwerten des demokratischen Verfassungsstaates an allen metasprachlicher Markierungen.

 


Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates und seiner Organe an allen metasprachlich markierten Ausdrücken (Pressemitteilungen von Parteien 2005-2009)

Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates
und seiner Organe an allen metasprachlich markierten Ausdrücken
(Pressemitteilungen von Parteien 2005-2009)



Insbesondere bei den rechtsextremen Parteien, aber auch bei der MLPD findet sich demnach ein vergleichsweise hoher Anteil antipluralistisch intendierter metasprachlicher Markierungen. Zwar liegt der Wert bei den Grünen auch vergleichsweise hoch, allerdings ist die Frequenz metasprachlicher Markierungen bei den Grünen insgesamt derart gering, dass die 3,2 % markierter Ausdrücke, die Grundwerte und Institutionen des Verfassungsstaates bezeichnen, nicht ins Gewicht fallen.

Es scheint also, als seien Quantität und Qualität metasprachlich markierter Ausdrücke ein Indikator für eine kritische Haltung gegenüber der herrschenden politischen Ordnung. Allerdings muss ich noch ergänzen: bei Diskussionsforen ist die explorative Kraft metasprachlicher Markierungen viel geringer. Ein weiterer Beleg dafür, wie zentral die Kategorie Textsorte für die automatisierte Sprachanalyse ist.

Ach so, eins noch: klar werden hier Parteien vergleichen und einige gelten dem Verfassungsschutz als links- und andere als rechtsextrem. Ich möchte aber nicht den Eindruck erwecken, dass das Vergleichen ein Gleichsetzen ist.