Wortschatz-Komplexitätsmaße und Autoridentifizierung

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

  • Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
  • Konzentration: Anteil (n mal) wiederkehrender Wörter
  • Vielfalt: Anteil nur selten vorkommender Wörter
  • Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

  • Anzahl der Token (= Wortzahl eines Textes): N
  • Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
  • Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
  • Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
  • Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler

Traditionelle Forensische Linguistik

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich  sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier  inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert für Traditionelle Forensische Linguistik tags: , , , ,