Content Mapping mit Topic Models

Posted on 18th Februar 2015 in ideology mapping, Inhaltswörter, Linguistische Kategorien

Liebe Freunde der Sicherheit,

in einem früheren Beitrag habe ich argumentiert, dass die „inhaltlichen Suchbegriffe“, die der BND beim „Filtern“ des Internet benutzt, über Topic Models oder ähnliche Verfahren dazu genutzt werden können, Kommunikation thematisch zu analysieren. Das „Filtern“ bei der strategischen Fernmeldeüberwachung wäre dann faktisch eine Analyse, für die das Bundesverfassungsgericht hohe Hürden gesetzt hat. Heute möchte ich zeigen, wie die Kombination von Topic Models und Metadaten dazu eingesetzt werden kann, thematische Profile von politischen Szenen zu berechnen.


Was sind Topic Models?

Topic Models sind Algorithmen zur Aufdeckung thematischer Strukturen in Texten. Sie gewichten und messen die Affinität von Inhaltswörtern in Textexemplaren eines Korpus. Häufig miteinander auftretende Wörter, die eine hohe Themenspezifizität aufweisen, werden als „Topics“ interpretiert. Diese Lexemcluster haben keine Namen; ihre Benennung ist ein Akt der Interpretation. Ebenso erfolgt die Ermittlung der Anzahl der Topics in den Standardverfahren nicht datengeleitet, sondern in Abhängigkeit von Festlegungen des Forschers.



Meinungsbilder aus dem Internet

Das Innenministerium ließ verlauten: „Wir brauchen eine belastbare Erfassung von Meinungs- und Stimmungslagen der Bevölkerung. Es liegt kein Eingriff in das allgemeine Persönlichkeitsrecht vor, wenn eine staatliche Stelle im Internet verfügbare Kommunikationsinhalte erhebt, die sich an jedermann oder zumindest an einen nicht weiter eingrenzbaren Personenkreis richten.“ Die Folge: alle Nachrichtendienste investieren in die open source intelligence.


Über welche Themen diskutieren linke Szenen?

Will man beispielsweise wissen, womit sich linke Szenen im deutschsprachigen Raum beschäftigen, kann man eine linke News-Site wie http://linkunten.indymedia.org auf ihre Topics hin analysieren. Auf der Subdomain von indymedia.org werden nach Meinungsverschiedenheiten in der Redaktion von Indymedia Deutschland und dem Bedürfnis nach einer engeren Verntezung süddeutscher Szenen Nachrichten veröffentlicht. Das Portal ist inzwischen aktiver als das deutschsprachige indymedia.org. Auch wenn grundsätzlich Nachrichten aus allen Regionen veröffentlicht werden, liegt ein spezieller Fokus auf dem südwestdeutschen Raum. Wendet man auf sämtliche dort publizierten Texten Topic Modelling an, ordnet sich der Wortschatz aufgrund seiner Distribution in folgende Gruppen, für die relativ leicht Namen gefunden werden können:



Themenschwerpunkte linker Szenen

Weil die Artikel auf http://linkunten.indymedia.org unter anderem nach Regionen verschlagwortet sind, ist es möglich, für einzelne linke Szenen Topic-Profile zu erstellen und die Intensität der Aktivitäten zu berechnen. Die unten stehende Grafik zeigt das Topic-Profil der Dresdner Szenen im Vergleich zu anderen Szenen in Deutschland. Sie zeigt die Differenz zum Durchschnitt der normalisierten relativen Auftretenshäufigkeiten der jeweiligen Topics im Gesamtkorpus.

topics_dresden

In Dresden wird demnach überdurchschnittlich häufig über Neonazis, rechte Parteien und Flüchtlinge berichtet, zu Demonstrationen aufgerufen und über Diskussionen in und außerhalb der Szene berichtet. Antimilitarismus und Hausbesetzungen spielen hingegen eine vergleichsweise geringe Rolle.

Interessiert man sich für einen Vergleich von Szenenprofilen, kann man die Themendistributionen in Spinnengrafiken übereinanderlegen, wie im folgenden Beispiel für Wien und Salzburg:

topic_wien_salzburg

Ebenso ist es möglich, die Affinität einzelner Szenen zu relevanten Topics zu analysieren. Von besonderem Interesse für Sicherheitsbehörden könnte ja beispielsweise das Topic „Revolutionärer Kampf“ sein. Eine Analyse der ortsspezifischen Frequenz dieses Topics im Korpus ergibt folgendes Städteranking:

topics_revolution_kampf

Topic Models sind ein eleganter Weg, um sich mit relativ einfachen Mitteln einen Überblick über die inhaltlichen Prägungen von Korpora zu verschaffen. Maßnahmen gegen Topic Models laufen ins Leere, außer man ist bereit, auf inhaltlich kohärente Diskussionen zu verzichten.


comments: Kommentare deaktiviert für Content Mapping mit Topic Models tags: , , , , , ,

30C3 Nachlese

Der 30. Chaos Communication Congress war ein buntes Treffen von Makern, Netzaktivisten, Old-style-Hackern, DIYern und IT-Sicherheitsspezialexperten, das ganz im Zeichen der Snowden-Leaks stand. Auch wenn Zynismus, Wut und Trotz die gängigen Modi im Umgang mit der Totalüberwachung digitaler Kommunikation sind, überwog in den meisten Vorträgen doch der analytische Blick auf technische, politische und soziokulturelle Folgen der systematischen Grundrechtsverletzung durch staatliche Akteure.

30c3

Trotz der großen Vielfalt waren Kontroversen kaum sichtbar. Die Snowden-Enthüllungen haben es schwer gemacht, Datenschutz für gestrig zu erklären und die Abschaffung der Privatsphäre gut zu finden. Die Community wird nicht nur über einen computerzentrierten Lebensstil zusammengehalten. Sie ist sich einig in der Forderung nach Einhaltung von Grundrechten, im Kampf für ein Recht auf Anonymität, um transparente staatliche Institutionen und ein freies Netz. Und die Community weiß, was zu tun ist: offene technische Lösungen für möglichst spurenarme und sichere Kommunikation entwickeln, konstruktiv auf demokratische Entscheidungsprozesse und gesellschaftliche Debatten einwirken und wo das nichts nützt, sich an Protesten zu beteiligen, auch aktionistisch.

Der CCC ist nicht das revolutionäre Subjekt, von dem manche zu träumen scheinen. Er ist das organisatorische Rückgrat eine Community, die meistens still (und leider manchmal auch etwas unkoordiniert), aber beharrlich an ihren Projekten arbeitet. Er bezieht sein öffentliches Gewicht aus der technischen Kompetenz seiner Mitglieder und nicht daraus, dass er meinungsstark auf der Klaviatur der sozialen Medien spielt. Er ist keine straff organisierte NGO und schon gar keine Kaderorganisation. Dieser Einsicht ist es wohl auch zu verdanken, dass Versuche von Interessengruppen, die öffentliche Aufmerksamkeit und das Prestige des CCC für ihre Ziele zu benutzen, in diesem Jahr ausblieben.

Und so sind es auch nicht die Talks mit Glamourfaktor in Saal 1, in denen teilweise mit viel Pathos die Gegenwart und Zukunft des Netzes verhandelt wurde, die diesen Kongress ausgemacht haben, sondern die vielen Assemblies und Workshops, die Lightning Talks und zahlreichen Gespräche in den Lounges. Die meisten Teilnehmer dürften müde, aber mit dem Kopf voller Ideen nach Hause gefahren sein.

Ich habe auch gleich am Anfang einen Vortrag zum Thema „Überwachen und Sprache“ halten dürfen, den man sich hier herunterladen oder hier anschauen kann:

Stefan Schulz hat für die FAZ einen schönen Artikel über meinen Vortrag geschrieben, der vieles klarer formuliert als es mir möglich war. Heise hat dem Thema einen Spin gegegeben, der von mir nicht intendiert ist. Und der Deutschlandfunk geht in seinem Bericht weiter als ich in seiner Interpretation meines Vortrags. Und Al Jazeera hat einen kurzen O-Ton von mir eingeholt:

Einige inhaltliche Klarstellungen zu meinem Vortrag liegen mir am Herzen:

  • Die „Software“, die in meinem Vortrag vorkommt, existiert nicht und ist natürlich rein fiktional.
  • Ich habe nicht gesagt, dass Fefe oder Don Alphonso die radikalsten Blogger im ganzen Land sind. Die präsentierten Berechnungen dienten lediglich dazu, die Methoden zu illustrieren und zu verdeutlichen, dass die Zuschreibung von Kategorien wie „Gefährder/in“ oder „Radikale/r“ auf der Basis von Theorien und Methoden erfolgt, die sich nicht rechtfertigen müssen.
  • Ich analysiere keine Wortwolken, wie der Deutschlandfunk in seinem Bericht über meinen Vortrag erklärte, sondern Kollokationsgraphen im Sinne der visual analytics. Die Metapher der Wortwolke ist in diesem Kontext etwas irreführend.
  • Ich gehöre natürlich auch nicht zum „Schwarzen Block des CCC“, wie ein Mitglied von seniorentreff.de mutmaßt, ich hatte nur einen schwarzen Kapuzenpullover an (aber ansonsten Bluejeans und beige Chucks…).

Und dann war auch noch Promi-Gucken angesagt: Einmal habe ich hinter Andi Müller-Maguhn in der Schlange gestanden, bin neben Fefe die Treppe runtergelaufen und mit Constanze Kurz Aufzug gefahren. Außerdem konnte ich Marcus Richter und Tim Pritlove in Aktion erleben, deren Stimme mir viele Zugfahrten in der Tokyoter Rushhour erträglich gemacht haben. Ein großer Dank an alle Organisatorinnen und Organisatoren und an die Scharen von Engeln, die diesen Kongress möglich gemacht haben! Bis nächstes Jahr!


Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.





Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!


Rederepublik Deutschland: Sind die Online-Medien schuld?

Posted on 14th September 2012 in Linguistische Kategorien, Off Topic, Wortschatz

Sprache konstruiert Wirklichkeit. Dies gilt auch für die Sprache, wie sie in der Politik verwendet wird, vielleicht sogar in besonderem Maße. Denn Politikerinnen und Politiker benutzen die wirklichkeitskonstruierende Kraft der Sprache bewusst für ihre politische Agenda. Ob man vom „Betreuungsgeld“ (Regierung) oder der „Herdprämie“ (Opposition), von der „Kopfpauschale“ (SPD, Grüne, Linke) oder dem „solidarischen Bürgergeld“ (CDU/CSU) spricht, jeweils wird der Gegenstand, über den man spricht, in anderer Weise konstruiert und bewertet. Ich würde sogar soweit gehen, zu sagen, dass es nicht einmal mehr derselbe Gegenstand ist, den man von unterschiedlichen Perspektiven durch das Medium der Sprache erfasst, sondern dass durch die unterschiedlichen Bezeichnungen unterschiedliche Gegenstände konstruiert werden. Was Politiker sagen und wie sie es tun, ist also durchaus von Bedeutung für das Verständnis politischer Prozesse.

Auch bei unseren Leitmedien scheint sich diese Erkenntnis durchgesetzt zu haben. In allen Gazetten schreiben Journalistinnen und Journalisten darüber, was Menschen darüber sagen, was andere, mutmaßlich noch wichtigere, Menschen geäußert haben. War das schon immer so? Oder ist das eine Folge des Online-Journalismus mit seiner auf Aktualität getrimmten Kultur, in der jede Äußerung schon eine Meldung wert ist, ohne in größere Nachrichtenzusammenhänge eingebettet zu werden?

Um diese Frage zu beantworten, habe ich mir die Entwicklung der Frequenz von rund 240 Sprachhandlungs- und Kommunikationsverben in drei Textarchiven angeschaut: dem Printarchiv von Spiegel und ZEIT (1947 bis 2010) und dem Archiv von Spiegel Online (2000 bis 2010). Für jeden Artikel habe ich die Frequenz von Kommunikationsverben relativ zur Anzahl der Wörter berechnet, anschließend habe ich den Durchschnitt über alle Artikel eines Jahres gebildet.

Die folgende Abbildung zeigt, dass die Zunahme des Gebrauchs von Kommunikationsverben kein neues Phänomen ist. Schon seit den 1970er Jahren steigt ihr Gebrauch allmählich an. Parallel zu den Anfängen des Online-Journalismus in den 1990er Jahren verstärkt sich jedoch dieser Anstieg. Anders als vermutet, ist die Frequenz bei Spiegel Online auf den ersten Blick nicht dramatisch höher als bei den Print-Medien. (Lesehilfe: Eine relative Frequenz von 0.02 bedeutet, dass jedes 50. Wort ein Kommunikationsverb ist.)





Die Aggregierung der Daten aus allen Ressorts gibt jedoch nur einen recht groben Eindruck. Die ressortspezifische Verteilung von Kommunikationsverben, insbesondere in den Ressorts, die zum Kerngeschäft des Qualitätsjournalismus gehören, erlaubt eine differenziertere Antwort auf die eingangs gestellte Frage. Die folgende Grafik zeigt die Entwicklung der relativen Frequenzen in den Ressorts Deutschland (Spiegel Print), Politik Deutschland (Spiegel Online) und Politik (ZEIT Print; die ZEIT differenziert in ihrer Ressortzuschreibung leider nicht zwischen Innen- und Außenpolitik, weshalb ihre Zahlen nur bedingt mit denen des Spiegel vergleichbar sind).





Es zeigt sich auch hier, dass die Zunahme des Schreibens über das, was andere in der politischen Arena gesagt oder geschrieben haben, kein neues Phänomen ist. Doch ist der Unterschied im Gebrauch von Kommunikationsverben zwischen Print- und Online-Medien hier sehr groß. Interessanterweise ist bei Spiegel Online kein Anstieg der Frequenz zu beobachten. Dies bestätigt sich auch beim Blick auf das Ressort Außenpolitik (für die ZEIT hier wieder die Werte aus dem Ressort Politik).





Auch hier verharren die Zahlen bei SPON auf hohem Niveau, die Printmedien nähern sich dem Online-Medium an. Am stärksten hat die relative Frequenz von Kommunikationsverben jedoch in einem anderen Ressort zugenommen: im Ressort Wirtschaft. Auch hier überlagern offenbar zunehmend Berichte über Gesagtes die Berichterstattung zu messbaren Zusammenhängen, bzw. wird die Präsentation von Fakten an deren Verkündigung gekoppelt.





Man müsste das genauer untersuchen, aber als vorläufiges Fazit lässt sich ziehen: Die Personalisierung von Informationen und die Wiedergabe von Aussagen und Meinungen ist eine immer stärkere werdende Tendenz, die durch die Logik der Online-Medien nicht verursacht, aber verstärkt wurde.

Natürlich sind auch Kommunikationsverben dem Wandel der Moden unterworfen. Im gedruckten Spiegel habe ich mal durchgerechnet, welche Kommunikationsverben für die jeweiligen Jahrzehnte typisch sind (alle signifikant, geordnet nach Frequenzfaktor):



2000er: telefonieren, nerven, mitbekommen, prognostizieren, nachfragen, sagen, mitverfolgen, wetten, lachen, bereuen, mitlesen, reden, nachdenken, kapieren, weinen, bewerten, beten, verklagen, streiten, kritisieren, meckern


1990er: petzen, telefonieren, nerven, kapieren, prognostizieren, mitverfolgen, heucheln, maulen, verfluchen, klagen, meckern, ahnen, drohen, beteuern, warnen, jammern, spekulieren, streiten, beschreiben, bereuen, hetzen, suggerieren


1980er: kritteln, mitverfolgen, denunzieren, anprangern, meinen, petzen, differenzieren, beklagen, bejahen, verhehlen, ermutigen, akzeptieren, beschreiben, nachdenken, bemitleiden, postulieren, bedauern, wiederholen, unterstellen, beteuern


1970er: kritteln, postulieren, bejahen, differenzieren, negieren, geloben, erhoffen, konstatieren, prophezeien, beurteilen, empfehlen, verwahren, verneinen, ermuntern, mitlesen, scheuen, voraussehen, monieren, widerlegen, schildern, vermuten, bezweifeln, denunzieren, diskutieren


1960er: gedenken, befehlen, bejahen, gestatten, bemitleiden, konstatieren, verwahren, verneinen, ermahnen, verhehlen, verbitten, bitten, verabscheuen, widerlegen, antworten, bedauern, empfehlen, geloben, bedenken, ermuntern, unterstellen, feststellen, verraten


1950er: gestatten, gedenken, feststellen, vorschlagen, verneinen, ablehnen, kommentieren, antworten, tippen, befehlen, schreiben, bitten, bedauern, bekennen, verabscheuen, verhehlen, beweisen, versichern, beleidigen, bejahen, nachweisen, verbitten


1940er: tippen, singen, betonen, schreiben, sprechen, verbieten, befehlen, bedauern, gratulieren, antworten, feststellen, nennen, gedenken, schreien, staunen, verklagen, lachen, verurteilen, verabscheuen, ablehnen, wetten, verzeihen, verwahren, kommentieren, bereuen, bekennen


Zuletzt noch ein Schmankerl: Weil alle immer auf das Panorama-Ressort von SPON eindreschen, zum Schluss noch ein Vergleich zwischen den Panorama-Ressorts von Spiegel Online und Spiegel Print („Panorama“ bis 1986, ab 1987 Ressort „Gesellschaft“).






So schlimm ist es also gar nicht mit dem Online-Journalismus. Dazu demnächst mehr auf diesem Blog.

Kulturwissenschaften im Data-driven Turn: Zeitgeschichtliche Umbrüche in der ZEIT

Posted on 21st August 2012 in Linguistische Kategorien, Off Topic, Visualisierung

Liebe Freunde der Sicherheit,

Die Kultur- und Sozialwissenschaften befinden sich im Data-driven Turn. Das Arbeiten mit datengeleiteten Methoden steckt zwar noch in den Kinderschuhen, sein Potenzial wird aber immer sichtbarer und beflügelt die Phantasien von Wissenschaftlerinnen und Wissenschaftlern. Die Fortschritte in der Digitalen Bildverarbeitung ermöglichen es den Bildwissenschaften, typische Konfigurationen in visuellen Darstellungen datengeleitet zu ermitteln; der Wandel von Musik wird anhand von strukturentdeckenden Verfahren über große Mengen digitaler Musikstücke berechenbar; die Geschichteswissenschaft erfindet sich unter dem Label „Data Driven History“ neu; in der Soziologie werden Daten aus sozialen Netzwerken dazu benutzt, die lebensstilsspezifische Gliederung sozialer Gemeinschaften aufzudecken; und in der Kunstgeschichte lassen sich auf der Basis bildspezifischer Figurationen Kunstgeschmäcke, Sujets oder ganze Kunststile berechnen. Diese Entwicklungen haben das Potenzial, die Kultur- und Sozialwissenschaften nachhaltig zu verändern, weshalb wir von einem Data-driven Turn sprechen wollen.


Datengeleitete Methoden

Data-driven heißt, auf vorgängige Hypothesen zu verzichten, induktiv Strukturen in den Daten zu ermitteln und im erst im Anschluss zu kategorisieren und zu interpretieren. Dadurch geraten Evidenzen in den Fokus, die entweder quer zu den vorher existierenden Erwartungen stehen und die Grundlage für neue Erklärungsmodelle sein können, oder im besten Fall sogar solche Evidenzen, die die Bildung alternativer Analysekategorien nahelegen. Für die Kultur- und Sozialwissenschaften bedeutet der Data-driven Turn, dass sie ihren Datenhunger nicht mehr mit Hinweis auf forschungspraktische Grenzen (begrenzte Ressourcen für Lektüre und Codierung) limitieren müssen. Je mehr Daten, desto besser! Das bedeutet freilich auch: hermeneutische oder dekonstruktive Lektüre jedes einzelnen Exemplars ist unmöglich.


Beispiel: Frames im ZEIT-Archiv

Zusammen mit David Eugster und Noah Bubenhofer habe ich mir das ZEIT-Archiv (1946-2011) vorgenommen, um zu untersuchen, ob sich zeitgeschichtliche Umbrüche berechnen lassen. Hierfür haben wir die Veränderung des Auftretens von Frames und ihrer Vernetzung untersucht. Mit dem Ausdruck „Frame“ bezeichnen wir Interpretationsschemata, mit deren Hilfe wir Erfahrungsdaten verarbeiten. Durch Framing werden Informationen für uns überhaupt erst sinnhaft. Wir beschäftigen uns im Folgenden also mit dem Wandel von Realitätskonstruktionen in der Wochenzeitung DIE ZEIT. Frames werden durch bestimmte Indikatoren aktiviert — wir haben sie anhand der Distribution von Lemmata in Zeitungstexten identifiziert.


Umbrüche

Umbrüche nennen wir jene Zeiträume, in denen sich besonders große Verschiebungen im Frame-Haushalt beobachten lassen. Wir haben sie anhand der jahresweisen Differenzbeträge berechnet: einmal mit relativen Frame-Frequenzen, einmal mit normalisieren relativen Frame-Frequenzen. Während bei der Berechnung der Differenzbeträge der relativen Frequenzen die hochfrequenten Frames ein höheres Gewicht haben, werden bei der Berechnung der Differenzbeträge der normalisierten Frequenzen alle Frames gleich gewichtet. Wie die folgende Grafik belegt, führen aber beide Berechnungsmethoden zu ähnlichen Ergebnissen:



Jährliche Summen der Differenzbeträge aller Frames im Vergleich zum Vorjahr
im Print-Archiv der ZEIT, 1946-2011. Oben: relative Frequenzen,
Unten: normalisierte relative Frequenzen.



Die Grafiken zeigen, dass in den Jahren 1957-1959 (mit Schwerpunkt 1959), 1970, 1981, 1992 und 2008-2010 (mit Schwerpunkt 2008) besonders starke Veränderungen im Framehaushalt im Vergleich zu den Vorjahren zu beobachten sind. Auch die Jahre 2001-2003 können, wenn auch leicht abgeschwächt, als Jahre der Veränderung gelten. Diese Zunahmen im Differenzbetrag deuten wir als Indikatoren für eine starke Veränderung in der semantischen Matrix und damit als Umbrüche im oben beschriebenen Sinn. Insbesondere bei den Umbrüchen von 1969/70, 1980/81 und 1991/92 sind in den folgenden Jahren nur vergleichsweise geringe Veränderungen zu beobachten, während nach den Umbruchjahren 1957-1959 und 2008-2010 eine allmähliche Verringerung der Variation zu beobachten ist.
Einige dieser anhand der Frameanalyse identifizierten Umbruchjahre lassen sich auf zeitgeschichtliche Ereignisse und Entwicklungen beziehen: der Umbruch von 1969/70 könnte als Folge der 68er-Bewegung gedeutet werden, die Veränderungen von 1991/92 als Nachwirkung der deutschen Einheit, die Variation in den Jahren 2001 bis 2003 als Effekt der Terroranschläge vom 11. September 2001 und die starken Veränderungen nach 2008 als Folge der Finanz- und Wirtschaftskrise. Bei den Umbruchjahren 1957 bis 1959 und 1980/81 ist es jedoch schwieriger, eine plausible zeithistorische Begründung zu finden. Können hier Wiederbewaffnung und Diskussion um die Ausstattung der Bundeswehr mit Atomwaffen, europäische Integration (1957-1959) und NATO-Doppelbeschluss und Friedensbewegung (1980/81) als Erklärung herangezogen werden?


Detailanalyse

Diese Fragen lassen sich nur beantworten, wenn man detailliert untersucht, welche Framekonstellationen sich in den Umbruchsjahren besonders stark verändern. Wir haben die Veränderungen mit Hilfe von Kollokationsgraphen visualisiert, was ich im Folgenden am Beispiel des Umbruchs 1991/1992 illustrieren will: Wir haben einen Frame-Kollokationsgraphen für den ersten Zeitabschnitt (1991) und einen für den zweiten Zeitabschnitt (1992) berechnet und die beiden Rhizome zu einem gemeinsamen Graphen vereint, in dem die spezifischen Frame-Kollokationen der Umbruchjahre hervorgehoben sind. Wie die folgende Abbildung zeigt, lassen sich in diesem Graphen drei Cluster identifizieren, in denen besonders viele für das Umbruchjahr 1992 spezifische Frame-Kollokationen verdichten.



Frame-Kollokationen im ZEIT-Archiv der Jahre 1991 und 1992.
Spezifische Frame-Kollokationen des Jahrs 1992 sind schwarz hervorgehoben.



Besonders interessant erscheint uns das Cluster 2, das sich um die Frames „Freiheit“ und „Nation“ formiert.



Frame-Kollokationen im ZEIT-Archiv der Jahre 1991 und 1992, Cluster 2.
Spezifische Frame-Kollokationen des Jahrs 1992 sind schwarz hervorgehoben.



Der Frame „Nation“ ist dabei erwartbar stark verbunden mit dem „Freiheits“-Frame, welcher wiederum soziologische Frames wie „Mittelschicht“ und politisch-rechtliche wie „Grundsatz“ um sich bündelt aber auch jenen der „Befreiung“. Zugleich entsteht 1992 um den Frame „Nation“ eine Verbindung mit Frames wie „Mode“ und „Geschmack“, „Kunstsinn“, „Kulturelle Entwicklung“. Damit öffnen sich die Verbindungen die der Frame „Nation“ eingeht im Gegensatz zur Situation im Jahr 1991: Im jahresspezifischen Rhizom finden sich keine solchen typischen Bezüge: „Nation“ verbindet sich mit „Herrschen“ und „Politik“. Darin zeigt sich eine Wandel der Konstruktion des Nationalen von einer auf politischem Handeln gründenden staatlichen Einheit (1991) hin zu einer stärker über kulturelle Werte definierten nationalen Gemeinschaft (1992). Zugleich macht das Rhizom Erfahrungsmöglichkeit der Nation und ihrer Wiedervereinigung auf der Ebene persönlicher sinnlicher Konsumerfahrung sichtbar.


Web-Monitoring

Die dargestellten Methoden spielen auch in der sogenannten Sicherheitsinformatik im Bereich Webmonitoring eine Rolle. Veränderungen in den Aktivitätsmustern von Usern und im Themenspektrum von Online-Diskussionsforen können so aufgespürt und auf Kritikalität hin untersucht werden.


Zum Nachlesen

Das Preprint zum Aufsatz zur ZEIT-Analyse ist online verfügbar.

Weitere Analysen zum ZEIT-Archiv auf diesem Blog:


comments: Kommentare deaktiviert für Kulturwissenschaften im Data-driven Turn: Zeitgeschichtliche Umbrüche in der ZEIT tags: , , , , , ,

Darüber lacht Fefe: Sprachliche Marker für Emotionen im Dienst der Ideologieerkennung

Liebe Freunde der Sicherheit,

geschriebene Sprache ist oft vieldeutiger als gesprochene Sprache, weil sie ohne prosodische Merkmale auskommen muss und wir obendrein weder Gestik noch Mimik der Schreibenden sehen. Um Aussagen zu vereindeutigen benutzen aber viele Online-Schreiberinnen und -Schreiber Marker für Emotionen. Für Linguisten sind solche Marker sehr interessant, denn man kann versuchen, mit ihrer Hilfe Modelle zu trainieren, die z.B. die automatische Identifizierung von Ironie in Texten ermöglichen. Sicherheitsinformatiker finden solche Marker aber auch sehr praktisch, denn man kann mit ihrer Hilfe noch besser messen, was Menschen zu bestimmten Themen denken.

Besonders fleißig werden solche Marker in Fefes Blog verwendet. Wenn Fefe sich über etwas oder jemanden lustig macht, setzt er oft ein „muhahaha“, ein „HAHAHA“ oder ein „Bwahahaha“ hinzu. Der folgende Kollokationsgraph zeigt, worüber Fefe lacht (auch als zoombares PDF):



Kollokationsgraph, der die Kollokationen zu den primären Kollokatoren von Lach-Indikatoren in Fefes Blog visualisiert



Im Bereich mit der größten Dichte finden sich Wörter wie „USA“, „Deutschland“, „Polizei“, „deutsch“, „Amis“, die für diejenigen, die keine Lust oder keine Zeit zum Lesen haben, Rückschlüsse auf Fefes Einstellungen zu deutschen Staatsorganen und zu den USA haben.



Kollokationsgraph zu Lach-Markern in Fefes Blog (Ausschnitt)



Doch worüber ärgert sich Fefe? Erstellt man anhand jener Blogposts, in denen das Akronym „WTF“ auftritt, einen Kollokationsgraphen, dann erhält man folgendes Ergebnis (auch als zoombares PDF):



Kollokationsgraph anhand von Posts mit „WTF“ in Fefes Blog



Wie der folgende Ausschnitt zeigt, ist ein besonders häufiges Lemma mit vielen signifikanten Kollokatoren das Lemma „Euro“. Offenbar ärgert sich Fefe besonders oft über sinnlose Ausgaben.



Kollokationsgraph anhand von Texten mit „WTF“ in Fefes Blog (Ausschnitt)



Spaßeshalber habe ich auch noch einmal visualisiert, was Fefe dazu motiviert, Popcorn zu fordern / bereitszustellen / zu bevorraten. Popcorn ist bei Fefe ein Marker für Schadenfreude. (auch als zoombares PDF):



Kollokationsgraph anhand von Posts mit „Popcorn“ in Fefes Blog




Viel Spaß beim Zoomen!


UPDATE: Hier noch einmal die Grafiken im SVG-Format.

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.


Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.


Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

  • gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
  • gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

  • Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
  • das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

  • Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
  • Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

  • die Texte der Revolutionären Zellen (203.492) und
  • die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

  • bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

  • Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
  • Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

  • 15 Anschlagserklärungen (27.828)
  • 4 mg express (7.679)
  • 14 Texte zur Militanzdebatte (50.078)
  • 8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.


Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:



Dendrogramm Funktionswörter



Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.



Dendrogramm Inhaltswörter



Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.



Dendrogramm komplexe n-Gramme



Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.


Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

  • relative Frequenz intensivierende Partikel (Gradpartikel)
  • durchschnittliche Satzlänge
  • Wortschatzkomplexitätsmaß Yule‘s K
  • relative Frequenz Passiv-Konstruktionen
  • relative Frequenz Konjunktiv I
  • relative Frequenz Konjunktiv II
  • relative Frequenz von Partizipialkonstruktionen
  • relative Frequenz von Präpositionalgruppenclustern
  • Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.



Aus den Trainingsdaten abgeleiteter Entscheidungsbaum



Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.



Entscheidungsbaum mit markierter Entscheidungsregel



Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.


Themenerkennung durch Kompositaanalyse

Posted on 17th März 2012 in ideology mapping, Linguistische Kategorien

Liebe Freunde der Sicherheit,

heute wollen wir uns eine sprachliche Kategorie ansehen, die zusammen mit anderen einen Beitrag zur Ideologieerkennung leisten kann: Komposita. Die deutsche Sprache ermöglicht es ihren Sprecherinnen und Sprechern ja bekanntermaßen, Wörter aus mehreren Bestandteilen (sog. Morphemen) zusammenzusetzen. Aus dem Nomen „König“ und dem Suffix „lich“ wird zum Beispiel „königlich“. Ein Wort wie „Königstiger“ besteht aus dem lexikalischen Morphem /könig/, einem sog. Fugenelement /s/ und dem lexikalischen Morphem /tiger/. Im ersten Fall, wo ein neues Wort mit Hilfe eines Affix gebildet wird, spricht man von Derviation. Wird ein Wort aus zwei oder mehr lexikalischen Morphemen (also Morphemen, die auch alleine stehen können) zusammengesetzt, dann sprechen Linguistinnen und Linguisten von Komposition.

Die Komposition ist im Deutschen ein sehr wichtiges Wortbildungsmittel, wichtiger als in vielen anderen Sprachen. So können mit Hilfe der Komposition sogar ad hoc Sachverhalte mit neuen Wörtern bezeichnet werden, wenn sich die Bedeutung aus den einzelnen Gliedern erschließen lässt. Denken wir an das schöne Kompositum „Selbstverteidigungsminister“.

Interessant wird es aber wie immer erst dann, wenn man sich Komposita in größeren Mengen anschaut. Denn wenn über ein Thema intensiv gesprochen und geschrieben wird, dann steigt nicht nur die Frequenz des themenspezifischen Wortschatzes, sondern es steigt auch die Anzahl der verwendeten Komposita, die mit Hilfe dieses Wortschatzes gebildet werden können. Augenscheinlich wird dies am Beispiel des lexikalischen Morphems /terror/, dessen Distribution in der ZEIT (print) ich visualisiert habe.


Komposita mit dem lexikalischen Morphem /terror/ in der ZEIT (print) 1995-2011


Man sieht, dass mit dem Jahr 2001 die Frequenz des Lemmas „Terror“ zwar ansteigt, die Verwendung von Komposita (token), die /terror/ enthalten, jedoch noch viel stärker zunimmt. Gleichzeit steigt auch die Anzahl der Komposita (types), die überhaupt verwendet werden. Der themenspezifische Wortschatz differenziert sich mittels Komposition also aus und wird zudem häufiger verwendet. Komposita scheinen also ein guter Themenindikator zu sein, vielleicht sogar ein besserer als Schlagworte.

Wenn man das, was hier am Beispiel von /terror/ illustriert wurde, für den gesamten Wortschatz in einem Korpus macht, erhält man natürlich ein sehr viel aussagekräftigeres Bild. Ich will dies anhand einer Analyse eines rechtsextremen Nachrichtenportals anschaulich machen. Es handelt es sich dabei um den inzwischen sowohl online als auch offline eingestellten sog. „Rundbrief an Freunde und Förderer der volkssozialistischen Bewegung“ mit dem Titel „Der Fahnenträger“. Von diesem Elaborat enthält das Untersuchungskorpus 222 Texte mit zusammen 566.905 laufenden Wortformen.

Um die Aussagekraft der Ergebnisse zu erhöhen, wurde berechnet, welche lexikalischen Morpheme im „Fahnenträger“ signifikant häufiger zur Bildung von Komposita benutzt wurden als in der gedruckten ZEIT der letzten 17 Jahre. Das Ergebnis habe mit den 90 signifikantesten lexikalischen Morphemen habe ich in einer Wortwolke visualisiert:


Der Fahnenträger

DemokratwirtschaftlichirischrevolutionierenMilitärneoliberalpolitischEigentumGewaltLohnarbeitenantiUnionistKundgebungAutonomieDKPimperialBDMimperialistischIreRasseAgrarzentralistischmarxistischPSIGewerkschaftMarxistKAPDKlasseFaschismusRegierungWiderKampfPolitikstaatlichkapitalHerrschaftregierenMachtImperialImperialismusISAFFAUArditiEuzkadiScheringerVWNsozialRUCBDOADGBKapitalSchlageterArbeitOrganisationNiekischBaskeFaschistFrontLinksfaschistischreaktionärNRWirtschaftGSRNNationalerevolutionärBahamasSFMASNKFDFéinBRDParteikapitalistischFiumeAntifaflämischStaatSozialistKPDETAKapitalistnationalNSVolkFlameIRAsozialistischStrasser

Das Ergebnis ist auf den ersten Blick verwirrend: Es finden sich auffällig viele Komposita mit den Akronymen radikaler, extremistischer und terroristischer Organisationen der Linken wie der Rechten, lexikalische Morpheme aus dem Kontext der (marxisitschen) Kapitalismuskritik („neoliberal“, „Lohn“, „Eigentum“, „Klasse“, „Imperialismus“, „reaktionär“, „kapital“ etc.), zugleich aber auch lexikalische Morpheme, die auf nationalistisch-völkische Ideologie verweisen („Volk“, „national“, „Flame“, „flämisch“, „faschistisch“, „Strasser“). Dies entsprach freilich der politischen Selbstverortung der Macher. Sie sahen sich „jenseits des ‚rechten Mainstreams'“ und orientierten sich, laut Endstation Rechts „an Bestandteilen des Rätekommunismus, des Syndikalismus und der ‚Dritten Welle‘ des Weimarer Nationalbolschewismus.“ Dies erklärt auch die häufigen Komposita mit dem Namen Gregor Strassers.

Die Kompositaanalyse scheint also ein durchaus adäquates Abbild des Themenspektrums des „Fahnenträgers“ zu liefern. Dass die Welt auch eine schönere Seite hat, zeigt der komplementäre Blick auf die für die ZEIT typischen lexikalischen Morpheme, aus denen die meisten Komposita bestehen.


DIE ZEIT

MotorEuroberatenSommerBühnePartyFahrtsparenKundeInselTischHerstellerhohÖkoMaschineFarbeEisliebPlatzWerbungSzeneMarkesuperWaldMannManagerTypGartenModellGerätFanModeNachtGeschäftPlatteBaumNetzSchiffRaumSportTierKlangFußballFirmaTraumRomanFernsehStückZimmerSchuleLichtInternetKünstlerRadBandDorfKarteForscherTechnikWeinTestHotelStraßeTourFußProjektTonfahrenHolzLiebeBahnAutoWerkReisReiseTheaterFamilieKunstFilmMusikHausBuchfliegenBildKindforschenStadtFlugBallSpiel


comments: Kommentare deaktiviert für Themenerkennung durch Kompositaanalyse tags: , , , , ,

Metasprachliche markierte Ausdrücke in der ZEIT im Jahr 2011 und eine kleine Geschichte der BRD in Wörtern

Posted on 6th Januar 2012 in Allgemein, Linguistische Kategorien, Off Topic

Liebe Freunde der Sicherheit,

im vorletzten Post habe ich die Möglichkeit diskutiert, mittels metasprachlich markierter Ausdrücke Ideologien zu identifizieren, die von der herrschenden Semantik abweichen. Auch der publizistische Mainstream markiert Wörter oder Ausdrücke durch Anführungszeichen oder ein vorangestelltes „sogenannt“, wenn auch seltener. In Zeitungen werden vor allem neue, missverständliche oder inhaltlich umstrittene Ausdrücke markiert. Die folgende Wortwolke zeigt, welche Ausdrücke in der gedruckten ZEIT im Jahr 2011 markiert wurden:



Metasprachlich markierte Ausdrücke in der ZEIT (print) 2011



An der Wortwolke werden vor allem die wichtigsten Themen des Jahres sichtbar: Euro-Rettung, Terrorismus (Schuhbomber, Rucksackbomber, Kofferbomber und für uns Freunde der Sicherheit besonders interessant: Unterhosenbomber), arabischer Frühling, Atomkraft (Brückentechnologie, Restrisiko, Liquidator, Fukushima, Energiewende), Protestbewegungen (Wutbürgertum, Plärrer, Empörte) und Selbstverteidigungsminister KT. Es finden sich auch einige Klassiker: „drittes Reich“ und „Führer“ werden in den meisten Medien aus gutem Grund immer in Anführungszeichen gesetzt. Natürlich findet sich auch „alternativlos“ als Unwort des Jahres in der Liste.

Ich habe auch für die anderen Jahrgänge der Zeit solche wordclouds berechnet. In der Gesamtschau erhält man eine kleine Geschichte der Bundesrepublik und ihrer gesellschaftlichen Debatten in einer Liste von Wörtern.

Als Lesehilfe: Je häufiger ein Ausdruck markiert wurde, desto größer wird er dargestellt. In einem Jahr zum ersten mal als markiert auftretende Ausdrücke sind rot, im Vergleich zu den anderen Jahren signifikant häufig auftretende Ausdrücke sind braun gefärbt.





Interessant ist, dass in Jahren von Krisen und Umbrüchen besonders viele Ausdrücke metasprachlich markiert werden. Die Jahre 1966-1969, 1977, 1989/90 sind dafür ein Beleg. Zieht man den Anstieg der Markierungen im Jahr 2011 im Vergleich zu den Jahren vorher in Betracht, dann muss die Diagnose heißen: wir erleben zurzeit einen Umbruch, der den großen Krisenjahren der BRD vergleichbar ist.


Anmerkung: Eine Filterung der Listen war nötig, da insbesondere Buch- oder Filmtitel auch in Anführungszeichen gesetzt werden. Dies wurde mit Hilfe einer Stoppliste automatisiert, eine Nachbearbeitung von Hand war dennoch nötig.

Für bessere Lesbarkeit: jenseits des Blog-Layouts habe ich noch eine schlichte HTML-Seite gemacht.


Erkennung von Ideologien: Metasprachliche Markierungen als Kritik der herrschenden Semantik

Liebe Freunde der Sicherheit,

heute soll es nicht um Autorenerkennung gehen, sondern um die Frage, wie man den ideologischen Gehalt größerer Textmengen bestimmen kann. Illustrieren möchte ich dies an einem Thema, das uns besonders am Herzen liegt: die Treue zu unserer staatlich-politischen Grundordnung.

Systemkritische Bewegungen haben fast immer auch eine sprachkritische Tendenz. Ähnlich wie antipluralistische Systeme neigen sie zur Ausbildung einer eigenen Ideologiesprache, die zwar nicht notwendigerweise ausdrucksseitig (also im Hinblick auf die verwendeten Wörter und Wendungen), aber immer inhaltsseitig vom herrschenden Sprachgebrauch abweicht. Und dies mit gutem Grund: die herrschende Sprache – so die Vorstellung – habe verschleiernden Charakter und diene der herrschenden Klasse zur Gefügigmachung der Bürger, mithin als Herrschaftsinstrument.

Wahres Sprechen erfordert daher eine neue Sprache – so die an ontologisierende Sprachtheorien erinnernde Position. Selten kommen daher sich als revolutionär verstehende Bewegungen ohne kritische Thematisierungen der gegenwärtigen Sprache aus, bisweilen arbeiten sie sogar sprachliche Gegenentwürfe aus.

Letzteres geschieht häufig in Textsorten, die Wörterbüchern ähnlich sind. Beispielsweise findet sich im Netz ein rechtsextremes Elaborat, das eine Liste mit 126 zentralen Vokabeln aus den semantischen Feldern der Staatstheorie, der Philosophie, der Theologie und der „Rassenkunde“ enthält, die im Sinne der Autoren abweichend vom Alltagssprachgebrauch definiert werden. „Diskriminierung“ wird darin beispielsweise wie folgt bestimmt: „Kulturtugend. Abgrenzung (gegeneinander), Unterscheidung des Häßlichen vom Schönen, des Bösen vom Guten, des Falschen vom Wahren, des Schädlichen vom Nützlichen. Die Diskriminierung ist die grundlegende Fähigkeit, die menschliches Handeln auf den Gebieten der Kunst, der Religion, des Wissens, der Wirtschaft und der staatlichen wie bürgerlichen Ordnung der Gemeinwesen erst ermöglicht.“ Die Definition bezieht sich auf die Bedeutung des lateinischen Verbs „discriminare“, in der das Wort auch ins Deutsche entlehnt wurde. Die Bedeutungsdimensionen der Herabsetzung und der Benachteiligung, die seit dem frühen 20. Jahrhundert die Verwendung des Wortes prägen, werden getilgt.

Die Existenz solcher wörterbuchartigen Umdeutungen von Begriffen ist Symptom einer elaborierten und systematischen Kritik der „herrschenden“ Semantik. Häufiger jedoch findet sich in systemkritischen Texten eine eher unsystematische Ad-hoc-Kritik am gängigen Sprachgebrauch, indem die entsprechenden Ausdrücke metasprachlich markiert werden. Damit wird die Ablehnung der traditionellen Verwendungsweise der markierten Vokabeln zum Ausdruck gebracht. Diese Ablehnung kann sich entweder gegen die Wortform selbst oder gegen das Konzept, das dem Ausdruck zugrunde liegt, richten. Ein rechtskonservativer Politiker übt beispielsweise mit der Formulierung „Einwohner mit ‚Migrationshintergrund'“ Kritik an der in Anführungszeichen gesetzten Wortform und drückt damit aus, dass diese nicht Teil seines persönlichen politischen Vokabulars ist. Kritik am Konzept, das hinter einem Ausdruck steht, wird etwa geübt, wenn von der „sogenannten Demokratie“ die Rede ist. Solche Sprachthematisierungen haben eine strategische Funktion. Daneben gibt es natürlich noch weitere Sprachthematisierungen, die ausschließlich erläuternden Charakter besitzen. Hier werden Wörter definiert, erklärt, oder es wird ihr Gebrauch legitimiert.

Sprachkritische Markierungen bieten somit einen Ansatzpunkt für die informatische Operationalisierung von Einstellungen gegenüber der herrschenden Ordnung, insofern sie als Indikatoren der Kritik an zentralen politischen Konzepten und der herrschenden Semantik insgesamt gedeutet werden können.

Um zu überprüfen, ob die linguistische Kategorie der metasprachlichen Markierung als Indikator für Distanz zur herrschenden Semantik und damit als Marker systemkritischer Gesinnung gelten kann, habe ich zusammen mit Kollegen ein paar Proberechnungen an den Pressemitteilungen der Bundesparteien in der Legislaturperiode von 2005-2009 vorgenommen. Im Folgenden findet ihr die Frequenz von metasprachlichen Markierungen je 10.000 Wörtern (SPD und CDU stehen hier deshalb neben einander, weil sie eine Koalition bildeten; PDL-KPF steht für die Kommunistische Plattform innerhalb der Partei DIE LINKE.).

 


Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter in den Pressemitteilungen von Parteien (2005-2009)

Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter
in den Pressemitteilungen von Parteien (2005-2009)



Die Parteien und Gruppierungen an den Rändern des politischen Spektrum weisen eine höhere Frequenz metasprachlicher Markierungen auf als die im Bundestag vertretenen Parteien. Während bei letzteren der Höchstwert bei rund 20 Sprachthematisierungen je 10.000 Wörtern liegt (CDU), liegt er bei den anderen Parteien, die vom Verfassungsschutz überwiegend als extremistisch bezeichnet werden, zwischen rund 33 (MLPD) und 80 (DKP).

Auch eine qualitative Auswertung der metasprachlichen Ausdrücke, die in den Pressemitteilungen auftreten, bestätigt, dass die Parteien an den Rändern des politischen Spektrums ihre Ablehnung der freiheitlich-demokratischen Grundordnung mit sprachlichen Mitteln explizit machen. Die folgende Abbildung zeigt den Anteil der metasprachlich markierten Ausdrücke zur Bezeichnung von Institutionen beziehungsweise Grundwerten des demokratischen Verfassungsstaates an allen metasprachlicher Markierungen.

 


Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates und seiner Organe an allen metasprachlich markierten Ausdrücken (Pressemitteilungen von Parteien 2005-2009)

Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates
und seiner Organe an allen metasprachlich markierten Ausdrücken
(Pressemitteilungen von Parteien 2005-2009)



Insbesondere bei den rechtsextremen Parteien, aber auch bei der MLPD findet sich demnach ein vergleichsweise hoher Anteil antipluralistisch intendierter metasprachlicher Markierungen. Zwar liegt der Wert bei den Grünen auch vergleichsweise hoch, allerdings ist die Frequenz metasprachlicher Markierungen bei den Grünen insgesamt derart gering, dass die 3,2 % markierter Ausdrücke, die Grundwerte und Institutionen des Verfassungsstaates bezeichnen, nicht ins Gewicht fallen.

Es scheint also, als seien Quantität und Qualität metasprachlich markierter Ausdrücke ein Indikator für eine kritische Haltung gegenüber der herrschenden politischen Ordnung. Allerdings muss ich noch ergänzen: bei Diskussionsforen ist die explorative Kraft metasprachlicher Markierungen viel geringer. Ein weiterer Beleg dafür, wie zentral die Kategorie Textsorte für die automatisierte Sprachanalyse ist.

Ach so, eins noch: klar werden hier Parteien vergleichen und einige gelten dem Verfassungsschutz als links- und andere als rechtsextrem. Ich möchte aber nicht den Eindruck erwecken, dass das Vergleichen ein Gleichsetzen ist.