Die Sterne lügen nicht — sie wiederholen sich aber ständig: Text-Re-use in Horoskopen

Posted on 15th Februar 2016 in Datengeleitete Analysen, n-Gramme, Off Topic, Textklassifikation

Kaum ein großes Online-Medium jenseits des Qualitätsjournalismus kommt ohne Horoskop aus. Und das, obwohl schon Adorno der Astrologie vor mehr als 50 Jahren bescheinigte, dass die sozialen und psychologischen Bedingungen, die sie ermöglichten, mit dem (damaligen) allgemeinen Aufklärungszustand unvereinbar seien.


Astrologie zwischen Rationalität und Irrationalität

Aus Sicht der Astrologie wirken Gestirnkonstellationen unmittelbar auf den irdischen Gang der Dinge. Sie vermittelt damit ein Weltbild, in dem jeder Mensch unter dem Einfluss objektiver, abstrakter und depersonalisierter Kräfte handelt. So objektiv mess- und berechenbar der Lauf der Gestirne auch sein mag, über die Art und Weise ihres (vermeintlichen) Einflusses auf die Schicksale der Menschen lässt die Astrologie uns im Dunkeln. Dieses Nebeneinander von Rationalität, Empirismus und Transzendenz hat Adorno im Oxymoron des naturalistischen Supranaturalismus gefasst. Folgt man Adorno, korrespondiert dieses Weltbild der Wahrnehmung vieler Menschen in funktional hochgradig differenzierten Gesellschaften: die Unübersichtlichkeit der Welt und die Sinnlosigkeit und Berdohlichkeit sozialer Prozesse wird durch den Glauben an eine Instanz kompensiert, die ein Versprechen auf rationale Begründbarkeit des ansonsten Unerklärlichen gibt. Auf diese Weise wirkt die Astrologie in doppelter Hinsicht stabilisierend auf die Gesellschaft, indem sie den herrschenden Rationalitätstyp bestätigt und die Irrationalitäten der sozialen Ordnung erklärbar macht.

Das Horoskop ist ein Text. Dieser Text leitet bestimmte Aspekte des Lebens einer Personengruppe, die über den Zeitpunkt ihrer Geburt definiert ist, aus einer aktuellen Gestirnkonstellation kausal ab; das klingt dann etwa so: „Unter dem aktuellen Jupiter-Uranus-Einfluss wird Ihr scharfer Zwillinge-Geist noch einmal geschärft.“ Je ausführlicher ein Horoskop ist, desto gründlicher wird die Gestirnkonstellation als argumentative Ressource genutzt. In den knappen Pressehoroskopen fällt sie dagegen sogar häufig zugunsten deutungsoffener und deshalb für jeden mit individuellem Sinn füllbarer Aussagen weg.

Sprachliche Analysen wie die von Katja Furthmann haben an Pressehoroskopen eine Reihe von Themen (Liebe, Beruf, Freizeit und Freundschaft, Gesundheit, Finanzen) und wiederkehrenden Topoi, die sich um den Metatopos des erfüllten, ausgeglichenen Lebens gruppieren („Sie haben hohe Ansprüche – gut so. Aber bitte verlangen Sie nichts Unmögliches“, „So schön die Sommerpartys auch sind, Sie sollten mal wieder richtig ausschlafen“), herausgearbeitet.


Reverse Engineering des Transzendenten mittels maschineller Textanalyse?

Wenn Horoskoptexte Übersetzungen von Gestirnkonstellationen in für den Einzelnen anschlussfähige Darstellungen künftigen Erlebens sind, dann müsste in der Analyse sprachlicher Muster von Horoskoptexten und ihrer Distribution die höhere Ordnung, die den Gang unserer aller Leben bestimmt, zumindest aufscheinen — so dachte ich. Vielleicht wäre es sogar möglich wie bei einem Reverse Engineering die Strukturen und Verhaltensweisen der Konstruktionselemente unserer Welt zu extrahieren. Ich machte mich also daran, Horoskope zu sammeln.

Das Sammeln der Horoskope gestaltete sich jedoch schwieriger als gedacht. Denn obwohl jedes größere Online-Medium täglich ein Horoskop veröffentlicht, werden die Horoskoptexte nicht archiviert. Meist ist nur das tagesaktuelle Horoskop verfügbar, selten noch das vom Tag vorher und die Horoskope weiterer Tage. Und fast immer stammen die Horoskope aus derselben Quelle, die mit lizensierten Astrologen, Content nach Maß und flexiblen Push- bzw. Pullservices wirbt.

Endlich wurde ich aber in den Tiefen und Oberflächen des Netzes fündig und konnte gemeinsam mit einem Kollegen für den Zweck der Erforschung von Textmustern 383 Tageshoroskope für jedes der zwölf Sternzeichen extrahieren. Eine simple datengeleitete Analyse gängiger Phrasen zeigte schon, dass die insgesamt 4596 Texte hochgradig rekurrent sind. Das ganze Ausmaß der Text-Re-use wurde mir aber erst deutlich, als ich die längste Überschneidung zwischen zwei Texten (longest common substring) berechnete. Mehrere Horoskoptexte waren völlig deckungsgleich. Und nicht nur das.


Im Himmel nichts Neues

Die 4596 Tageshoroskope wurden mit gerade einmal 894 unterschiedlichen Texten bestückt. Von diesen wurden 568 Texte, das sind 65.5%, mehrfach benutzt. 146 von ihnen sogar zehn mal und mehr. Der am häufigsten gebrauchte Text fand 88 mal Verwendung! Der Text besteht aus zwei Sätzen, die den Angehörigen der Zielgruppe am betreffenden Tag eine außerordentliche Selbstreflexion hinsichtlich ihrer Emotionen und Ziele voraussagt und ihnen auch einen erfüllten Kontakt mit ihren Mitmenschen prophezeit:

Sie sind sich Ihrer Gefühle, Wünsche und Bedürfnisse auf ungewöhnlich klare Weise bewusst und können entsprechend für Ihr Wohlbefinden sorgen. Auch für die Anliegen anderer sind Sie offen und begegnen ihnen mit einer menschlichen und warmen Herzlichkeit.

Positive Emotionen und herzliche Kontaktfreude sind durchweg die Themen der am häufigsten verwendeten Tageshoroskope, auch bei dem mit 72 mal am vierthäufigsten verwendeten Text:

Mehr als üblich sprechen Sie über Ihre Gefühle. Durch das Gespräch finden Sie leicht Kontakt und zeigen vermutlich auch Interesse für das Seelenleben anderer. Sie formulieren Ihre Gedanken nicht besonders sachlich und logisch, dafür umso menschlicher.

Der Traum vom Reverse-Engineering platzte endgültig, als ich die Distribution der Text über die Zeit und die Sternzeichen analysierte. Beim häufigsten Horoskoptext lässt diese Verteilung auf den ersten (und auch nicht auf den zweiten) Blick keine Muster erkennen.



Der Text streut unsystematisch über alle Sternzeichen und den gesamten Zeitraum. Einzige Restriktion: Der Text kann am selben Tag nicht bei zwei Sternzeichen gleichzeitig erscheinen. Dagegen ist es aber durchaus möglich, dass er beim gleichen Sternzeichen an zwei aufeinanderfolgenden Tagen erscheint, ja sogar an drei, wie das Beispiel des dritthäufigsten Textes belegt:



Die Analysen über das gesamte Sample zeigten keine nennenswerte Kovariation, der tiefere Sinn der Textwahl blieb ihnen ebenso verborgen wie die für den Uneingeweihten unsichtbaren Kräfte, die unsere Schicksale steuern.

Mein heutiges Horoskop lautet: „Sag es mit einem Lächeln! heißt Ihr Tagesmotto.“ Ich sei heute mitteilsam und kompromissbereit. Meine freundliche, friedfertige Stimmung werde mit mit vielen Menschen in Kontakt bringen und könne zwischen unterschiedlichen Meinungen vermitteln und eine gemeinsame Basis schaffen. Ein guter Tag, um endlich mal wieder zu bloggen, denke ich mir. Und mein heutiger Horoskoptext kommt in meinem Korpus sogar nur neun mal vor! Das ist gemessen an der sonstigen Wiederverwertungsorgie nachgerade ein individueller Text und wird ganz sicher stimmen. Wie alle Horoskope.


Literatur

Adorno, Theodor: Aberglaube aus zweiter Hand. In: Gesammelte Schriften. Band 8. Frankfurt am Main: Suhrkamp 1997, S. 142-167.

Aphek, Edna, Yishai Tobin: The Semiotics of Fortune Telling. Amsterdam u.a.: Benjamins 1989.

Furthmann, Katja: Die Sterne Lügen nicht. Eine linguistische Analyse der Textsorte Pressehoroskop. Göttingen: V&R unipress 2006.


Maschinelle Analyse narrativer Muster: Wie Männer und Frauen vom “Ersten Mal” erzählen

Posted on 5th September 2014 in Kollokationen, n-Gramme, Off Topic, Visualisierung

Ich hatte mein erstes Mal -> mein erstes Mal mit # -> nahm mich in den Arm -> fragte er mich ob ich -> wir bei ihm zu Hause -> seine Eltern nicht da waren -> kam er auf mich zu -> mich zu küssen und ich -> legten uns auf sein Bett -> fragte mich was los sei -> noch nie einen Freund gehabt -> zogen wir uns gegenseitig aus -> Wir küssten uns leidenschaftlich und -> Dann zog ich ihm seine -> Er schaute mich an und -> schaute mich an und fragte -> an und fragte ob ich -> mit ihm schlafen wolle und -> Er holte ein Kondom aus -> Dann drang er vorsichtig in -> er vorsichtig in mich ein -> Er fragte mich ob ich -> Als er merkte dass ich -> nahm mich in den Arm -> seit # Jahren zusammen und

Diese Phrasen bleiben von einer Geschichte vom „Ersten Mal“, wenn man von ihr das Vereinzelnde, Individualisierende wegnimmt und nur jene Teile der sprachlichen Gestaltung übrig lässt, die auch in anderen Geschichten zum gleichen Thema häufig vorkommen.

Wenn wir unseren Alltag erzählen, dann bedienen wir uns kulturell geprägter Muster. Diese Narrative sind sozial akzeptierte Interpretationsmuster, die unsere Wahrnehmung und Darstellung von Zusammenhängen überhaupt erst ermöglichen, aber gleichzeitig auch begrenzen. Obwohl sie höchst Persönliches und Individuelles zu codieren vorgeben, folgen auch Narrative vom „Ersten Mal“ kulturell geprägten Mustern, denen man sich mit maschinellen Methoden nähern kann. Zusammen mit Noah Bubenhofer und Nicole Müller habe ich 3376 Geschichten vom „Ersten Mal“ auf geschlechtsspezifische Unterschiede hin untersucht.

Sämtliche Geschichten wurden auf den Internet-Plattformen rockundliebe.de (2094 Erzählungen), Erstes-Mal.com (385 Erzählungen) und planet-liebe.de (897 Erzählungen) gesammelt. Die Webseiten wurden automatisiert heruntergeladen, die Texte extrahiert, mit Metainformationen (Alter beim Ersten Mal und Geschlecht) versehen, mit Hilfe des TreeTagger lemmatisiert und mit Part-of-speech-Informationen annotiert. Zusätzlich wurden alle Zahlen durch ein Raute-Symbol ersetzt. Insgesamt umfasst das Korpus 1.886.588 laufende Wortformen. Im Hinblick auf die Dimension Geschlecht ist das Korpus ungleich verteilt: rund 73% der Geschichten stammen von Frauen, nur rund 27% von Männern. Geschichten von Frauen waren mit durchschnittlich 567.9 Wörtern um rund 33 Wörter länger als die von Männern (534.5). Das Durchschnittsalter beim Ersten Mal, wie es von den Autorinnen und Autoren angegeben wurde, lag bei Frauen bei 15.8, bei Männern bei 16.8 Jahren.

Als Analysekategorien dienten uns die Distribution und Verkettung von n-Grammen. Die folgende Tabelle zeigt einen Vergleich der für das jeweilige Korpus typischsten n-Gramme:


Männer-Korpus Frauen-Korpus
llr n-gram f(1) f(2) llr n-gram f(1) f(2)
145,33 fragte sie mich ob ich 0 54 80,84 drang er in mich ein 134 0
88,81 fragte ich sie ob sie 0 33 77,82 ob ich mit ihm schlafen 129 0
75,36 drang ich in sie ein 0 28 68,97 fragte er mich ob ich 167 5
67,28 Ich fragte sie ob sie 0 25 60,93 in mich ein Es tat 101 0
64,59 drang langsam in sie ein 0 24 60,93 legte er sich auf mich 101 0
64,59 setzte sie sich auf mich 0 24 47,66 legte sich auf mich und 79 0
64,59 und zog es mir ueber 0 24 47,66 und drang in mich ein 79 0
61,9 setzte sich auf mich und 0 23 45,85 nahm mich in den Arm 76 0
59,21 sie sich auf mich und 0 22 44,64 und legte sich auf mich 74 0
56,52 ob ich mit ihr schlafen 0 21 44,04 fing er an mich zu 73 0
53,83 Sie fragte mich ob ich 0 20 43,43 er sich auf mich und 72 0
53,83 in sie ein Es war 0 20 42,83 in mich ein Es war 71 0
53,83 mir ein Kondom ueber und 0 20 41,81 Er fragte mich ob ich 123 6
53,83 und ich fragte sie ob 0 20 41,02 und zog es sich ueber 68 0
51,13 fluesterte sie mir ins Ohr 0 19 40,42 ihn in mir zu spueren 67 0
51,13 ich fragte sie ob sie 0 19 40,42 Er legte sich auf mich 67 0
48,44 an mir einen zu blasen 0 18 38 er fragte mich ob ich 63 0
48,44 ich drang in sie ein 0 18 38 mich ob ich mit ihm 63 0
48,44 legte sich auf den Ruecken 0 18 35,59 fragte mich ob ich es 59 0
48,44 mir das Kondom ueber und 0 18 34,38 Ich war mit meinem Freund 57 0


Aus diesen Listen wird unter anderem erkennbar, dass die verbale Handlung des Fragens, oder präziser: des Einholens von Einverständnis, offenbar häufig Bestandteil von Erstes-Mal-Erzählungen sind. Ebenso zeigen sich einige wenige geschlechtsspezifische Unterschiede: etwa die Referenz auf die Dauer der Beziehung („Ich war mit meinem Freund“).

Als eine erste Annäherung an die narrative Struktur haben wir die typischen Positionen von n-Grammen in den Texten bestimmt. Hierfür haben wir alle Texte in mehrere jeweils gleich große Teile geteilt und dann untersucht, in welchen Teilen der Erzählungen die n-Gramme mit welcher Frequenz vorkommen. Die folgenden Abbildungen zeigen die Distribution einiger n-Gramme, deren Positionierung im Text geschlechtsspezifische Unterschiede aufweist. Dies sind beispielsweise n-Gramme, die sexuelle Erfahrung und Beziehungsstatus betreffen:



Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte)

Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte)



Während das n-Gramm „für uns beide das erste“ von Frauen im ersten und vorletzten Abschnitt am häufigsten gebraucht wird, erwähnen Männer die Tatsache, dass es für beide das Erste Mal war, erst am Ende ihrer Erzählungen. Auch das n-Gramm „schon # Monate zusammen und“ wird von Frauen dominant in den ersten Teilen ihrer Geschichten verwendet, Männer hingegen benutzen es am Ende. Eine Kontextanalyse zeigt allerdings, dass bei Verwendung des n-Gramms am Ende einer Erzählung der Geschlechtsakt der Auftakt der Beziehung war, die ihre Fortsetzung bis in die Gegenwart zum Zeitpunkt des Schreibens hat; die Verwendung des n-Gramms zu Beginn einer Erzählung stellt die Dauer der bereits bestehenden Beziehungen dar.

Größere Differenzen in der Distribution zeigen sich auch bei n-Grammen, die auf Schlüsselhandlungen im Kerngeschehen verweisen.



Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte).

Distribution von n-Grammen in den Geschichten von Männern und Frauen (normalisierte Werte).



So sind die n-Gramme „uns in die Augen und“ und „gab mir einen Kuss und“ je gegensätzlich verteilt. Während in den Erzählungen der Frauen der Kuss am Anfang jener Abschnitte zu finden ist, die sich mit sexuellen Handlungen befassen, berichten Männer hier vorwiegend von Blicken in die Augen; Männer berichten, am Ende der sexuellen Aktivitätsphase geküsst zu werden, Frauen erzählen hier dagegen vom Austausch von Blicken. Dies könnte man so deuten, dass für Frauen mit dem Vollzug des Geschlechtsaktes eine Intensivierung der Beziehung einhergeht, die für den Mann durch die Gabe des Einverständnisses zum Geschlechtsakt durch den tiefen Blick bereits erreicht ist und sich dann im Akt manifestiert. Ein weiterer Aspekt könnte sein, dass Männer narratologisch versichern wollen, dass Einverständnis vorgelegen hat, Frauen dagegen, dass zwischen den Partner emotionale Nähe herrschte. Dies könnte ein Hinweis darauf sein, dass sich aufgrund kultureller Stereotype geschlechtsspezifische Ängste mit dem „Ersten Mal“ verbinden. In diesen Kontext passen auch die Positionsdifferenzen des n-Gramms „küssten uns die ganze Zeit“. Während das fortwährende Küssen in den Erzählungen der Männer Teil von „Vor-“ bzw. „Nachspiel“ zu sein scheint, schildern Frauen ihr Erstes Mal so, dass das Küssen Bestandteil aller Phasen des Kerngeschehens sein kann.

Unser Verfahren zur Rekonstruktion narrativer Muster auf der Makroebene kombiniert typische Musterpositionen mit n-Gramm-Verkettungen (d.h. kookkurierenden n-Grammen) und visualisiert sie als hierarchischen Graphen. Der folgende Graph (hier als PDF zum Vergrößern), der Tetragrammverkettungen in den Geschichten von Frauen illustriert, bildet die Abfolge von Mustern in der vertikalen Dimension (von oben nach unten) ab. Mehrere voneinander unabhängige narrative Muster im gleichen Abschnitt, das heißt an ähnlichen Erzählpositionen, werden nebeneinander dargestellt. In diesem Graphen sind Bereiche von geringer phraseologischer Durchdringung und Verdichtungsbereiche sichtbar.



Narrationsgraph für die Erzählungen von Frauen

Narrationsgraph für die Erzählungen von Frauen



Muster in 1 referieren auf das Alter der Hauptpersonen der Erzählung:

Mein erstes Mal hatte – ich mit meinem Freund – hatte ich mit # – erstes Mal mit # – Bei meinem ersten Mal – ersten Mal war ich – Freund und ich waren – Ich war damals # – Ich war # und – # und er war – älter als ich und – ist # Jahre älter

Muster in 2 referieren auf die Dauer der Beziehung:

# Monate mit meinem – Monate mit meinem Freund – # Wochen mit meinem – mit mei-nem Freund zusammen – # Monate mit ihm – Monate mit ihm zusammen

Muster in 3 referieren auf die Frage des Mannes nach dem Einverständnis:

schaute mir tief in die – schaute mir lange in die – in die Augen und – fragte mich ob ich – Er fragte mich ob – mit ihm schlafen – ich es wirklich will – ich es wirklich wollte

Muster in 4 referieren auf das sexuelle Geschehen, in dem vor allem der Mann aktiv ist:

Er holte ein Kondom – Kondom aus seiner Hosentasche – aus seiner Tasche – Kondom aus seinem Nachttisch – holte ein Kondom raus – und streifte es sich – zog es sich über – sich über und drang – ganz vorsichtig in mich – langsam und vorsichtig in – langsam in mich ein – drang in mich ein – in mich ein Es – Es tat überhaupt nicht – tat überhaupt nicht weh

Muster in 5 referieren auf den gegenwärtigen Beziehungsstatus:

Und wir sind immer – immer noch zusammen und – immer noch mit ihm – noch mit ihm zusammen – Schatz ich liebe dich – liebe dich über alles

Die Umrisse der typischen Erzählung vom Ersten Mal aus der Sicht von Frauen werden anhand dieses Verfahrens gut sichtbar. Alternative Erzählstränge, die sich teilweise paral-lel zu den grau hinterlegten Teilen befinden, beziehen sich auf die Aspekte Schmerz („erst tat es ein“, „ein bisschen weh aber“, „dann war es einfach“, „es einfach nur noch“), praktische Unerfahrenheit („versuchte in mich einzudringen“) und die Evaluation („Es war ein wunderschönes“, „Es war ein unbeschreibliches“, „war ein unbeschreibliches Gefühl“, „Ich hätte nie gedacht“).

Aus dem folgenden Narrationsgraph (hier als PDF zum Vergrößern), der die Muster aus männlicher Perspektive verfasster Geschichten visualisiert, will ich nur zwei Auffälligkeiten aufgreifen.



Narrationsgraph der Geschichten von Männern

Narrationsgraph für die Erzählungen von Männern



Zum einen sind dies jene sprachlichen Muster im mit 1 bezeichneten Bereich, die auf die Einholung des Einverständnisses zum Geschlechtsakt verweisen. Hier ist es so, dass die Frage von männlicher wie weiblicher Seite kommen kann („fragte sie mich ob“, „ich fragte sie ob“). Zum anderen findet sich im mit 2 bezeichneten Bereich (siehe die nächste Abbildung) eine auffällige Verbindung mehrerer n-Gramme mit der Mehrworteinheit „Sie meinte ich solle“.



Ausschnitt aus dem Narrationsgraphen der Männer

Ausschnitt aus dem Narrationsgraphen der Männer



Die Analysen zeigen, dass Geschichten vom Ersten Mal von Männern und Frauen recht ähnlich erzählt werden und zwar nicht nur im Hinblick auf das sexuelle Geschehen, sondern auch im Hinblick auf die verbalen Handlungen, die ihm vorausgehen und es begleiten. Zentraler Bestandteil typischer Erzählungen beider Geschlechter ist die verbale Verständigung über die Bereitschaft zum Geschlechtsakt und die explizite Gabe des Einverständnisses durch die Frau. Das von der Paarsoziologie als Schwellen-Wendepunkt bezeichnete Erste Mal wird also als eine durch Einverständnis der Frau legitimierte Handlungsfolge erzählt, in der der Mann mehr Handlungsmacht hat als die Frau.

Die Ergebnisse der Analyse haben wir in folgendem Artikel zusammengefasst, den es auch als Preprint gibt:

Bubenhofer, Noah / Nicole Müller / Joachim Scharloth (2014): Narrative Muster und Diskursanalyse: Ein datengeleiteter Ansatz. In: Zeitschrift für Semiotik. Band 35, Heft 3-4 (2013), S. 419-444.


comments: Kommentare deaktiviert für Maschinelle Analyse narrativer Muster: Wie Männer und Frauen vom “Ersten Mal” erzählen tags: , , , , , , , , , , ,

Franz Josef Wagner liebt, hasst, ist froh, hat Angst, weiß, weiß aber vor allem nicht und schämt sich

Posted on 10th Juni 2014 in n-Gramme, Off Topic

Franz Josef Wagner hat mit seinen Briefen ein eigenes Genre geschaffen. Nun hat er seinen Vertrag als Kolumnist verlängert. Zeit, ihn mit einem korpuslinguistischen Porträt zu würdigen. Denn während seine Leserinnen und Leser vor allem Vergnügen bei der Lektüre seiner Texte empfinden, wenn sie sich in der Lage sehen, diese als Satire aufzufassen, entfaltet Wagner in seinen Briefen einen außerordentlich facettenreichen Gefühlshaushalt, der in rekkurrenten sprachlichen Mustern greifbar wird.

Im Folgenden daher eine Zusammenstellung von Ich-Botschaften des Meister-Kolumnisten, die ausgehend von frequenten Emotionsausdrücken (Ich liebe, Ich hasse, Ich habe Angst, …) typische Verästelungen der Seele als Äste und Blattwerk eines n-Gramm-Baumes nachzeichnen. Und dies auf der Basis von mehr als 1300 Briefen.


Wagner liebt

74 mal beginnt Wagner seine Sätze mit den Worten „Ich liebe“. Wagner liebt außerordentliche Persönlichkeiten: „Ich liebe meine Kanzlerin“ und „Ich liebe Schäuble im Rollstuhl“, hat aber auch ein Herz für Normalsterbliche „Ich liebe Basis-Menschen“. Und Wagner liebt die alltäglichen Dinge, darunter „mein Auto“, „mein Kino“, „mein Kätzchen“, „mein Land“, „meinen Buchladen“.

wagner_liebt_ausschnitt

Den gesamten Graph als PDF oder als SVG


Eine erotische Komponente scheint bei „Ich liebe Frauen“ (4x) auf, wenn Wagner gesteht „Ich liebe himmlisch riechende Frauen“ und „Ich liebe nackte Beine“. Seine Verbundenheit mit den elemantaren Dingen des Lebens drückt sich auch in einer tiefen Zuneigung zu den folgenden Gegenständen aus: „Ich liebe die Sonne“, „Ich liebe den Sommer“, „Ich liebe den Winter“, „Ich liebe Berlin“.


Wagner hasst

Doch wo viel Liebe ist, dort ist auch Hass. 35 mal beginnt er Sätze mit „Ich hasse“.

wagner_hasst_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wenn Franz Josef Wagner hasst, dann sind es das Wetter (Schnee, Frühfrost, Nebel, Winter, Affenhitze), Leute, die was zu sagen haben (Schiedsrichter, Hitler), bestimmte Erscheinungen der deutschen Sprache (gebrochenes Deutsch, Krüppel-Sprache, Sprache der Klugscheißer, Mobilfunk-Sprache), Dinge im Fernsehen (ARD-Reportagen, TV-Doktoren, Werbeunterbrechungen) und Dinge, die uns vermeintlich unabänderlich erscheinen (Arterien, die Farbe Weiß, Werbeunterbrechungen, Hochmut der Deutschen, das Rauchen), die ihn erzürnen.


Wagner ist froh

Wenn Franz Josef Wagner froh ist, dann darüber, dass er Franz Josef Wagner und am Leben ist. Daneben freut er sich über Olympiaden, Mauerfälle und wenn mal wieder jemand zurückgetreten ist.

ich_bin_froh_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wagner weiß, weiß aber vor allem nicht

130 mal sagt Wagner „Ich weiß“! Das ist mal ein verständnisvolles „Ich weiß, dass Sie leiden“, mal ein von Einsicht für das Unverständnis seiner Mitmenschen getragenes „Ich weiß , dass mein Prügelimpuls Befremden auslöst“. In 105 Fällen freilich gesteht Wagner sein Nichtwissen ein.

wagner_weiss_ausschnitt

Den gesamten Graph als PDF oder als SVG


Neun mal konstatiert er souverän „Ich weiß es nicht.“, vier mal ist sein Wissen dem Vergessen anheim gefallen („Ich weiß nicht mehr“). Darüber hinaus räumt er (in der Reihenfolge ihrer Frequenz) ehrlich ein „Ich weiß nicht, wie“ (34x), „Ich weiß nicht, ob“ (16x), „Ich weiß nicht, was“ (14x), „Ich weiß nicht, wer“ (6x), „Ich weiß nicht, warum“ (6x). Dabei hat das Unwissen durchaus universalen Charakter in seiner Kolumne:

niemand_weiss_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wenn Wagner konstatiert „Niemand weiß, wann und warum“, „Niemand weiß, wer Sie wirklich sind.“, „Niemand weiß, was sie denken.“, „Niemand weiß, wer er ist.“ oder „Niemand weiß, was uns droht.“, dann wird das Unwissen als tragischer Zustand alles Seienden sichtbar.



Wagner hat Angst

Wer so wenig weiß, hat Angst. Selten hat er „Angst um“ seine Adressaten oder „um Jogis Jungs“, obwohl diese durchaus angebracht wäre.

wagner_hat_angst_ausschnitt

Den gesamten Graph als PDF oder als SVG


Wagner hat vielmehr Angst davor, Rentner oder ein Pflegefall in Deutschland zu werden, vor Krebs, vor den letzten Tagen. Aber auch vor Kim Jong-un und einem Wachs-Hitler (und bemerkenswerte Koinzidenz: Angst auf der Autobahn). Und schließlich hat er Angst nachts in Berlin, Angst vor Berlin und Angst, nachts durch Berlin zu gehen.


Wagner schämt sich

Häufig kann Wagner auch umhin, sich für die Untaten seiner Adressaten oder für uns alle zu schämen.

ich_schaeme_mich_ausschnitt

Den gesamten Graph als PDF oder als SVG


Doch was wäre das Psychogramm des Kolumnisten ohne sein Bewusstsein, von Zeit zu Zeit selbst soziale Erwartungen enttäuschen zu müssen, das sich im Gefühl der Scham äußert. Etwa wenn er schreibt: „Ich schäme mich für mein Talent“. Der Meister leidet an seinem Talent und der empfindsame Leser ist in diesem Gefühl ganz bei ihm.


Peer Steinbrücks Lieblingsphrasen

Posted on 8th Juli 2013 in Fachsprachen, n-Gramme, Politik

Politik ist Kommunikation. Und nicht nur das: Damit Politiker mit ihrer Deutung der Wirklichkeit möglichst viele Wähler und Wählerinnen erreichen, müssen sie in leichter Variation immer wieder das Gleiche sagen. Der politische Sprachschatz stellt eine große Reihe sprachliche Matritzen bereit, in die (vermeintlich) öffentlichkeitstauglich unterschiedlichste Inhalte verpackt werden können. Wir haben 87 Reden von Peer Steinbrück auf sprachliche Ready-mades untersucht, auf Versatzstücke, die der Kanzlerkandidat der SPD immer wieder verwendet.
Die folgende Tabelle zeigt die Distribution jener Phrasen, derer sich Kanzlerkandidat Peer Steinbrück in seinen Reden am häufigsten bedient. Für die Analyse wurden die Reden in fünf gleich lange Teile gesplittet und die Phrasen jeweils jenem Teil zugeordnet, in dem sie am häufigsten auftraten. Die blauen Balken zeigen die normalisierte relative Frequenz des Auftretens einer Phrase im jeweiligen Redeteil.



Leider scheint das Wahlkampfteam von Peer Steinbrück nicht viel von Open Data zu halten. Auf der Kampagnenwebsite findet sich nur eine kleine Auswahl all jener Reden, die der Kanzlerkandidat Woche für Woche hält.


comments: Kommentare deaktiviert für Peer Steinbrücks Lieblingsphrasen tags: , , , , , , , ,

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.


Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.


Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

  • gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
  • gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

  • Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
  • das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

  • Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
  • Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

  • die Texte der Revolutionären Zellen (203.492) und
  • die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

  • bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

  • Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
  • Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

  • 15 Anschlagserklärungen (27.828)
  • 4 mg express (7.679)
  • 14 Texte zur Militanzdebatte (50.078)
  • 8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.


Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:



Dendrogramm Funktionswörter



Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.



Dendrogramm Inhaltswörter



Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.



Dendrogramm komplexe n-Gramme



Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.


Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

  • relative Frequenz intensivierende Partikel (Gradpartikel)
  • durchschnittliche Satzlänge
  • Wortschatzkomplexitätsmaß Yule‘s K
  • relative Frequenz Passiv-Konstruktionen
  • relative Frequenz Konjunktiv I
  • relative Frequenz Konjunktiv II
  • relative Frequenz von Partizipialkonstruktionen
  • relative Frequenz von Präpositionalgruppenclustern
  • Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.



Aus den Trainingsdaten abgeleiteter Entscheidungsbaum



Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.



Entscheidungsbaum mit markierter Entscheidungsregel



Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.


Gibt es einen sprachlichen Fingerabdruck?

Liebe Freunde der Sicherheit,

oftmals sind sprachliche Spuren das einzige, was wir von vermeintlichen Täterinnen und Tätern haben. Besonders im Internet, wo Kriminelle ihre digitalen Identitäten trotz aller Bemühungen noch immer verschleiern können, sind die anonymen sprachlichen Äußerungen von Gefährdern oder geistigen Brandstiftern die einzige Möglichkeit, ihre wahre Identität aufzudecken.

So wie ein Einbrecher bei seinen Untaten Fingerabdrücke hinterlässt, so wie ein Vergewaltiger anhand seiner DNA-Spuren identifiziert werden kann, so können forensische Linguisten Täter anhand ihrer Sprache dingfest machen. So wie man durch den Abgleich von Fingerabdrücken und Zellresten mit einer Fingerabdruck- oder DNA-Datenbank einen Täter identifizieren kann, brauchen Sprachforensiker nur die sprachlichen Spuren des Täters am Tatort mit Texten abzugleichen, die einem Verdächtigen sicher zugeordnet werden können. Und wenn das sprachmaterial mit den Spuren übereinstimmen, dann klicken die Handschellen. Der sprachliche Fingerabdruck hat den Täter überführt.

So jedenfalls wollen uns so manche Informatiker glauben machen, die ihre Aufsätze mit so viel versprechenden Titeln wie „From Fingerprint to Writeprint“ betiteln. Ich bin mir nicht sicher, ob sie wirklich daran glauben oder ob es Teil einer Strategie ist, sich mehr Drittmittel einzuverleiben. Denn: einen sprachlichen Fingerabdruck gibt es nicht. Höchstens als irreführende Metapher.

Was ist ein Fingerabdruck?

Dazu muss man zunächst verstehen, was ein Fingerabdruck ist. Bei einem Fingerabdruck handelt es sich um eine Visualisierung der Papillarleisten am Endglied eines Fingers. Diese bilden offenbar abhängig von den Erbanlagen und von der Ernährung des ungeborenen Kindes eine individuelle Form aus, die sich im Laufe des Lebens nicht mehr oder kaum mehr verändert. Damit ein Fingerabdruck für eine computergestützte Forensik brauchbar ist, d.h. zum Beispiel in einer Datenbank erfasst und maschinell abgleichbar ist, wird ein Merkmalsset standardisiert erfasst. Die jeweilige Merkmalskombination gilt als einmalig.

Ähnlich verhält es sich mit dem sogenannten genetischen Fingerabdruck. Hier wird für forensische Zwecke keineswegs die gesamten Erbgutinformationen gespeichert und für einen Datenbankabgleich verfügbar gemacht. Vielmehr werden bestimmte Stellen in der DNA daraufhin untersucht, wie häufig an ihnen sogenannte short tandem repeats (STRs), also Wiederholungen von bestimmten Sequenzen vorkommen. Die variable Anzahl der Wiederholungen an diesen Punkten ergibt eine individuelles Profil, das einer Person zugeordnet werden und zu deren Identifizierung benutzt werden kann. Die DNA eines Menschen ist im Prinzip invariant und eignet sich daher gut, um Personen zu identifizieren.

Beide Verfahren beruhen also auf der Analyse messbarer Entitäten, die ihren Ursprung in biochemischen Prozessen haben, die sich einem unmittelbaren individuellen oder sozialen Einfluss entziehen.

Man könnte es sich nun leicht machen und sagen: Sprache ist im Gegensatz dazu etwas Soziales. Um verständlich kommunizieren zu können, müssen wir uns auf soziale Konventionen beziehen, auf übliche Verwendungsweisen von Wörtern (vulgo: Bedeutung) und auf Regeln, wie diese Wörter zu Sinneinheiten (vulgo: Grammatik) zusammengesetzt werden. Zudem kommunzieren wir auch nicht nur nach unseren Vorstellungen, sondern richten unsere Äußerungen auf unser intendiertes Publikum hin aus und konstruieren damit auch einen sozialen Kontext. Unseren Papillarleisten ist es aber egal, wem wir die Hand geben oder für wen wir Kaffee kochen. Sie sehen immer gleich aus. Wir treffen auch kontextabhängig keine Auswahl aus unserer DNA wie wir aus den in der Sprache möglichen Ausrucksweisen wählen, je nach dem, was wir gerade stilistisch für angemessen halten.

Abdruck wovon?

Aber so leicht würden es uns die Informatiker nicht machen. Sie würden vielleicht sagen, dass wir das Ontologisieren bleiben lassen sollten, denn abstrakt hätten wir es eben doch mit dem gleichen Problem zu tun: immer geht es darum, Merkmalsmuster zu finden, die als typisch für eine Person gelten sollen. Bei Papillarleisten oder der DNA kommen wir mit weniger Merkmalen aus als bei der Sprache, aber auch bei der Sprache ermöglicht die sprachliche Kompetenz und die Auswahl, die jeder Mensch aus den ihm zur Verfügung stehenden sprachlichen Mitteln trifft, die Erstellung eines individuellen Merkmalprofils. Und mal ehrlich: die short tandem repeats haben schon eine große Ähnlichkeit mit den n-Grammen aus der Linguistik.

Hier kommen wir aber nun an den Punkt, wo es sich lohnt über die Bedeutung des Wortes „Abdruck“ zu reflektieren. Während wir wissen, dass ein Fingerabdruck immer ein Abbild des einen betreffenden Fingers ist, dass die DNA in einer Zelle eine exakte Kopie der DNA aller anderer Zellen im Körper der betreffenden Person ist, so wissen wir überhaupt nicht, auf was eigentlich der sprachliche „Abdruck“ verweisen soll. Was drückt sich denn da ab, wenn wir schreiben?

Um von einem sprachlichen Fingerabdruck zu sprechen, müsste es etwas sein, das garantiert, dass beim nächsten Mal exakt das gleiche Muster wieder sichtbar wird. Das einzige, was mir als Linguist hier einfiele, ist die sprachliche Kompetenz. Aber gerade die ist nicht fest, sie wandelt sich ständig. Mit jedem Wort, das ich spreche, mit jedem Satz, den ich schreibe oder lese, aktualisiert sie sich. Und jede Aktualisierung ist eine (wenn auch kleine) Veränderung. Deshalb gibt es auch keinen sprachlichen Fingerabdruck: Es gibt kein festes Muster, an dem wir die Typizität einer Äußerung messen könnten.

Wir können lediglich Ähnlichkeiten zwischen Texten berechnen und mit Wahrscheinlichkeiten operieren. Mit der Evidenz eines Fingerabdrucks oder einer DNA-Spur hat das wenig zu tun. Und gegen gut gemachte sprachliche Maskeraden sind wir ohnehin machtlos.

 

Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse

Heute möchte ich eine Methode zur Klassifikation von Texten vorstellen, in der sprachliche Einheiten nicht isoliert betrachtet werden, sondern jeweils kleine Fetzen sprachlichen Materials analysiert werden. Je größer die analysierten Fetzen sind, desto eher kann man natürlich davon ausgehen, dass sie irgendwelche relevanten Informationen transportieren: Ein Satz enthält mehr Informationen als zwei Wörter. Je größer allerdings die Einheiten sind, desto unwahrscheinlicher ist es, dass sie in der gleichen Form wieder auftreten. Das ist wiederum problematisch, weil man bei der Analyse ja nach wiederkehrenden Mustern sucht und je größer die Einheiten sind, desto mehr Text braucht man, damit man wiederkehrende Muster in aussagekräftiger Zahl bekommt. Alles eine Frage der Skalierung also. Die im Folgenden beschriebene und erprobte Methode könnte man als komplexe n-Gramm-Analyse bezeichnen.

komplexe n-Gramme

n-Gramme sind Einheiten, die aus n Elementen bestehen. Normalerweise werden n-Gramme als Folge von Wortformen verstanden. Im Rahmen einer n-Gramm-Analyse werden alle im Korpus vorkommenden n-Gramme berechnet, wobei bestimmte Parameter wie Länge der Mehrworteinheit (aus zwei, drei oder mehr Wörtern bestehend) oder Spannweite (sind Lücken zwischen den Wörtern erlaubt?) festgelegt werden. Die hier verwendete n-Gramm-Analyse betrachtet jedoch nicht nur Wortformen als Einheiten, sondern auch weitere interpretative linguistische Kategorien. Dies können zum einen Elemente sein, die sich auf die Tokenebene beziehen und die Wortform funktional oder semantisch deuten (als Repräsentant einer Wortart oder als Teil einer semantischen Klasse). Zum anderen aber auch Elemente, die über die Tokenebene hinausgreifen, etwa das Tempus oder die Modalität einer Äußerung (direkte vs. indirekte Rede).

Kombinationen von n Einheiten

Welche Elemente in die Analyse mit einbezogen werden, hängt einerseits von der jeweiligen Forschungsfrage ab, andererseits forschungspraktisch auch davon, welche Ressourcen für die Annotation des Korpus zur Verfügung stehen. Bei standardsprachlichen Korpora können Lemma- und Wortarteninformationen durch Tagger wie dem TreeTagger leicht und effizient annotiert werden. Eine Wortformenfolge wie „Ich glaube, dass“ hat dann in einem XML-annotierten Korpus etwa folgende Form:

<w pos=“PPER“ lemma=“ich“>Ich</w>
<w pos=“VVFIN“ lemma=“glauben“>glaube</w>
<w pos=“$,“ lemma=“,“>,</w>
<w pos=“KOUS“ lemma=“dass“>dass</w>

Berechnet man nun beispielsweise Tetragramme, die nicht nur die Wortformen, sondern auch Lemmata und Wortarteninformationen als weitere Elemente mit einzubeziehen, dann ergeben sich bei drei Dimensionen 3^4=81 Vier-Einheiten-Kombinationsmöglichkeiten:

Ich glaube , dass
ICH GLAUBEN , DASS
PPER glaube , dass
PPER GLAUBEN, dass
Ich VVFIN , dass
Ich glaube , KOUS
PPER VVFIN , dass

Jedes der Tetragramme, das sich in einem der beiden Korpora findet, kann nun als eine Variable aufgefasst werden, aufgrund deren Verteilung sich die Texte im Korpus potenziell stilistisch unterscheiden.

Das GerMov-Korpus

Die folgenden Untersuchungen werden anhand des GerMov-Korpus, einem Korpus zur gesprochenen und geschriebenen Sprache der 68er-Bewegung durchgeführt. Das Korpus habe ich im Rahmen einer umfangreichen Studie zum Einfluss von 68er-Bewegung und Alternativmilieu auf die Kommunikationsgeschichte der Bundesrepublik Deutschland erstellt. Bei der Zusammenstellung des Korpus und seiner Subkorpora waren zunächst außersprachliche Gesichtspunkte, in einem zweiten Schritt textlinguistische Überlegungen leitend. Das Korpus sollte es u. a. erlauben, unterschiedliche Stile der verbalen face-to-face-Interaktion innerhalb der 68er-Bewegung zu rekonstruieren. Dabei wurde ausgehend von der Forschung zum Kleidungsverhalten  und zur medialen Vermittlung expressiver Formen des Protests  von einer lebensstilistischen Dualität innerhalb der Bewegung ausgegangen, die ihre Wurzeln auch in konkurrierenden Ideologien hatte.

Sozialstilistik der 68er-Bewegung

Auf der einen Seite standen die Träger eines intellektuell-avantgardistischen Stils. Bei ihnen handelte es sich um Angehörige unterschiedlicher sozialer Gruppen, die während der 68er-Bewegung aber intensiv kooperierten: zum einen die Studierenden, vornehmlich solche, die in linken Studentenverbänden organisiert waren, zum anderen Linksintellektuelle, die in Politik, Universität, Verwaltung oder im kulturellen Sektor bereits Karriere gemacht hatten, die sich beispielsweise in Republikanischen Clubs zusammenfanden. Sie pflegten einen auf symbolische Distinktion zunächst weitgehend verzichtenden Lebensstil, trugen Anzug oder Freizeitkleidung (Hemd und Pullovern, Jacket und Cordhose) und praktizierten Lebensformen wie andere Menschen ihrer Berufsgruppen. Nur in einem Bereich legten sie Wert auf Unterscheidung: Sie inszenierten sich als intellektuelle Informations- und Diskussionselite.

Auf der anderen Seite standen die Träger eines hedonistischen Selbstverwirklichungsstils, der in Kommunen und Subkulturen geprägt wurde. Sie entdeckten den eigenen Körper als zentrales Medium des expressiven Protestes, griffen – ähnlich den amerikanischen Hippies – tief in den Fundus von Kostümverleihen und Second-Hand-Läden, spielten mit Nacktheit und Schmuck, ließen sich Bärte und Haare wachsen und praktizierten eine ostentativ informelle Körpersprache. Sie verschmolzen antibürgerliche symbolische Formen mit denen jugendlicher Populärkultur zu einem sich als individualistisch verstehenden, lustbetonten Lebensstil: Die Revolution sollte bei jedem Einzelnen beginnen und vor allem Spaß machen. Während die intellektuellen Avantgarden das Ziel der 68er-Bewegung in einer Umwälzung der Besitz- und Produktionsverhältnisse sahen, begriffen die hedonistischen Kommunarden also die Bewegung als Chance für die Entwicklung und Praktizierung neuer Lebensformen, die eine gesellschaftliche Veränderung zwangsläufig mit sich bringen würde.

Zusammensetzung des Korpus

Die Kriterien der Milieuzugehörigkeit der Textproduzenten, der Medialität / Textsorte und der Kommunikationssituation setzte der Textauswahl sehr enge Grenzen. Die einzige Textsorte, für die hinsichtlich aller Kriterien eine hinreichende Menge an Texten gefunden werden konnte, waren Tonbandprotokolle. Insgesamt konnten 29 Tonbandprotokolle aus den Jahren 1967 bis 1969 in Archiven und zeitgenössischen Buch- und Zeitschriftenpublikationen gefunden werden, davon stammen 21 aus dem hedonistischen Selbstverwirklichungsmilieu, 8 aus dem linksintellektuellen Milieu. Die Zuordnung erfolgte beim linksintellektuellen Milieu anhand der identifizierbaren Gesprächsteilnehmer und deren Zugehörigkeit zu politischen Gruppen, die jeweils den Milieus eindeutig zuzuordnen waren. Die Protokolle aus dem Kommunemilieu waren ausnahmslos als solche betitelt und wurden in szenetypischen Kontexten publiziert, was auch hier eine zweifelsfreie Zuordnung ermöglichte.

Das GerMov-Korpus wurde mit Hilfe des TreeTaggers tokenisiert, mit Wortarten-Informationen annotiert und lemmatisiert. Beim verwendeten Tagset handelt es sich um das Stuttgart-Tübingen-Tagset (STTS).  Darüber hinaus wurden einige Kategorien auf der Token-Ebene wie Kommunikationsverben, Intensivierer und Schlagwörter der Neuen Linken annotiert.

Textclustering mittels komplexer n-Gramme

Berechnungsparameter: Berechnet wurden komplexe Pentagramme ohne Leerstellen, die aus den Dimensionen Wortarteninformation (einschließlich semantischer Klassen) und Wortformen zusammengesetzt wurden, wobei auf der Dimension Wortform nur Funktionswörter und Satzzeichen in die Analyse einbezogen wurden. Auf die Dimension Lemma wurde gänzlich verzichtet. Die Pentagramme wurden über Satzgrenzen hinaus berechnet. Es wurden nur solche n-Gramme in die Analyse aufgenommen, die im Gesamtkorpus mindestens vier Mal auftraten. Um den Einfluss der Textlängendifferenz zu reduzieren, wurden für die hierarchische Clusteranalyse nach dem Ward-Verfahren die Frequenzen der n-Gramme nach der Textlänge gewichtet.

Nun aber zu den Ergebnissen der Clusteranalyse: Im folgenden Dendrogramm sind die Namen der Texte so gewählt, dass die anhand außersprachlicher Kriterien erfolgte Milieuzuteilung ersichtlich ist. „Linksintellektuell“ steht für das linksintellektuell-avantgardistische Milieu, „Hedonistisch“ für das hedonistische Selbstverwirklichungsmilieu. Die Ziffer im Anschluss an die Milieubezeichnung ist lediglich eine Identifizierungsnummer. Fünf der 21 Protokolle aus dem hedonistischen Selbstverwirklichungsmilieu stammen aus einer einzigen Kommue, der sog. Linkseckkommune. Sie wurden zusätzlich mit einem „l“ nach der ID gekennzeichnet.

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Dendrogramm des Textclusterings anhand komplexer n-Gramme von Tonbandprotokollen der 68er-Bewegung

Die Clusteranalyse zeigt, dass die Protokolle aus dem linksintellektuellen Milieu ein Cluster bilden, das sich deutlich von den Protokollen des hedonistischen Selbstverwirklichungsmilieus unterscheidet. Innerhalb der Protokolle des hedonistischen Selbstverwirklichungsmilieus bilden die fünf Protokolle aus der Linkeckkommune wiederum ein eigenes Cluster. Die größte Differenz jedoch besteht zwischen Protokoll 14 aus dem hedonistischen Selbstverwirklichungsmilieu und allen anderen Protokollen. Wie ist dieser Unterschied zu erklären? Offensichtlich werden hier Effekte der Textlänge sichtbar. Das Protokoll Nummer 14 ist mit einer Länge von gerade einmal 71 Wörtern das kürzeste und enthält damit offenbar nicht hinreichend viel Text, um aus ihm eine für stilistische Analysen hinreichend große Menge an n-Grammen zu bilden. Die Gewichtung der Frequenz der auftretenden n-Gramme nach der Textlänge dürfte den Effekt noch verstärkt haben.

Geht man von der Annahme aus, dass den sozialstilistischen Unterschieden, auf deren Basis die Zuweisung der Texte zu Milieus erfolgte, auch kommunikationsstilistische Unterschiede korrespondieren, so deuten die Ergebnisse darauf hin, dass das gewählte Verfahren dazu ziemlich gut geeignet ist, stilistische Unterschiede aufzudecken.

Man muss aber der Ehrlichkeit halber hinzufügen, dass die stilistischen Unterschiede in den Texten wirklich sehr ausgeprägt sind und auch bei einer einigermaßen aufmerksamen Lektüre hätten auffallen müssen. Wirklich überrascht war ich allerdings davon, dass sich alle Protokolle der Linkeckkommune tatsächlich in einem Cluster wiederfanden.


Ausführlich nachlesen kann man das Ganze übrigens hier:

Scharloth, Joachim / Noah Bubenhofer (2011): Datengeleitete Korpuspragmatik: Korpusvergleich als Methode der Stilanalyse. In: Ekkehard Felder / Marcus Müller / Friedemann Vogel (Hrsg.): Korpuspragmatik. Thematische Korpora als Basis diskurslinguistischer Analysen von Texten und Gesprächen. Berlin, New York: de Gruyter.

Scharloth, Joachim / Noah Bubenhofer / Klaus Rothenhäusler (2011): „Anders schreiben“ aus korpuslinguistischer Perspektive: Datengeleitete Zugänge zum Stil. In: Britt Marie Schuster / Doris Tophinke: Anders schreiben. Berlin: Erich Schmidt Verlag.




comments: Kommentare deaktiviert für Textklassifikation und Autorenidentifikation mit Hilfe komplexer n-Gramm-Analyse tags: , , , , , ,

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler