Gängige Irrtümer bei der maschinellen Autorenidentifikation — Vortrag online

Liebe Freunde der Sicherheit,

bei den diesjährigen Datenspuren des C3D2 in Dresden habe ich einen Vortrag zum Thema „Gibt es einen sprachlichen Fingerabdruck? Gängige Irrtümer bei der maschinellen Autorenidentifikation“ gehalten. Das Video zum Vortrag ist nun online.





Vielen Dank an das Orga-Team für die interessante und perfekt organisierte Tagung!


Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der „militanten gruppe“

Liebe Freunde der Sicherheit,

Die Verfahren, die bei der maschinellen Autorenidentifizierung zum Einsatz kommen, wurden im Verlauf der Geschichte immer mächtiger, analog zur Entwicklung der Rechenleistung von Computern. Die computergestützte Autorenerkennung kann grob in drei Phasen eingeteilt werden.

1. Die Suche nach globalen Konstanten
Ausgehend von der Annahme, dass dem Stil eines Autors etwas Invariantes eignen müsse, waren die ersten Versuche, Autorschaft aufgrund sprachlicher Merkmale zuzuschreiben, von der Suche nach einem Maß geprägt, das die stilistische Einmaligkeit in einem einzigen Wert ausdrückt. Ich habe an anderer Stelle (hier und hier) einige Werte zur Wortschatzkomplexität vorgestellt und getestet, die in der Forschung als Repräsentanten von Ideolekten verstanden wurden.

2. Autorenidentifizierung mittels multivariater Statistik
Während die Klassifikation mittels einer autorspezifischen Konstanten ein univariates Verfahren ist, wurde ab den 1960er Jahren damit begonnen, mehrere Merkmale von Texten zur Identifizierung von Autorschaft heranzuziehen. Das grundlegende Verfahren dabei ist, einzelne Dokumente als Punkte in einem mehrdimensionalen Raum aufzufassen. Der wahrscheinliche Autor eines in Frage stehenden Textes ist dann jener, dessen Texte die größte Nähe zum Punkt des anonymen Textes im multidimensionalen Raum haben.

3. Klassifikation mittels maschinellen Lernens
Bei der Autorenidentifikation wird seit den 1990er Jahren mit überwachtem maschinellen Lernen gearbeitet. Ziel des maschinellen Lernens ist es, einen Klassifikator zu finden, der ein Set an Texten möglichst gut in Klassen einteilt, um danach zu prüfen, welcher Klasse der Klassifikator den anonymen Text zuordnen würde. Hierfür werden Merkmale von Trainingstexten, also von Texten, von denen die Autoren bekannt sind, als numerische Vektoren abgebildet. Mit Methoden maschinellen Lernens sucht man dann im Vektorraum nach Klassengrenzen, die eine Klassifikation mit möglichst wenigen Fehlern ermöglicht.

Im Folgenden möchte ich die verschiedenen Verfahren anhand diverser linguistischer Merkmale illustrieren, vor allem mit dem Ziel, einen kritischen Blick darauf zu ermöglichen, was eigentlich gemessen wird, wenn Autorenidentifikation betrieben wird. Zur Illustration wähle ich einen fünf Jahre zurückliegenden Fall, bei dem das BKA linguistisches Profiling betrieb.


Der „Fall“

Am 31. Juli 2007 brannten in Brandenburg / Havel mehrere Fahrzeuge der Bundeswehr. Drei mutmaßliche Täter wurden bei der Ausführung des Brandanschlags verhaftet. Am 1. August 2007 stürmte ein Sondereinsatzkommando auch die Wohnung des Soziologen Andrej Holm. Ihm wird vorgeworfen, Mitglied der „militanten gruppe“, einer damals als terroristisch eingestuften linksradikalen Gruppierung zu sein, die auch für die Brandanschläge in Brandenburg verantwortlich war. Die Polizei hielt ihn für den intellektuellen Kopf der Gruppe und den Verfasser der zahlreichen Bekennerschreiben und Diskussionspapiere, die die militante Gruppe veröffentlicht hatte. Die militante gruppe wird für 25 Brandanschläge, vornehmlich auf Fahrzeuge von Polizei und Bundeswehr, aber auch auf Sozial- und Arbeitsämter in den Jahren 2001-2007 verantwortlich gemacht. Sie gab 2009 ihre Selbstauflösung bekannt. Sie wird nicht mehr als terroristische, sondern als linksradikale kriminelle Vereinigung angesehen.

Andrej Holm hatte sich in den Augen der Polizei dadurch verdächtig gemacht, dass seine wissenschaftlichen Arbeiten in sprachlicher Hinsicht Ähnlichkeiten mit den Bekennerschreiben der Gruppe hatten: die Polizei stellte fest, dass Lemmata wie „Gentrifizierung“ und „Prekarisierung“ in den Texten Holms und der mg signifikant häufig vorkamen. Die Polizei hatte gegooglet, berichteten die Medien. Immerhin auch ein computergestütztes Verfahren. Da Verfassungsschutzbehörden sicherlich auch in den Fall involviert waren, kann jedoch auch gemutmaßt werden, dass andere, evtl. auch komplexere Verfahren der maschinellen Autorenidentifizierung zum Einsatz kamen, auch wenn diese im Ermittlungsverfahren gegen Andrej Holm keine weitere Rolle spielen konnten.


Die „Verdächtigen“

Aus Sicht der forensischen Linguistik soll nun der Fall neu aufgerollt werden. Um es gleich zu Beginn zu sagen: Das hier ist kein ernst zu nehmendes linguistisch-forensisches Gutachten und die Ergebnisse sind in keiner Weise dazu geeignet, Verdächtige zu überführen. Das zeigt auch schon die Liste jener, die ich „verdächtige“, Autoren der mg-Texte zu sein, die mithin mit Texten in meinen Trainingsdaten vertreten sind.

Zunächst folge ich unseren Strafverfolgungsbehörden und nehme zwei Korpora des vom BKA Verdächtigten Andrej Holm:

  • gentrification blog, Blog von Andrej Holm: 491 Posts, 304.406 laufende Wortformen, 2008-2012
  • gentrification Theorie, wissenschaftliche Aufsätze von Andrej Holm: 5 Aufsätze, 40.853 laufende Wortformen, 2004-2012.

Wenn Terrorverdacht im Raum steht, dürfen natürlich auch Ermittlungen in islamistischen Kreisen nicht fehlen:

  • Ich nehme zwei Korpora mit allen Forenbeiträgen der Autoren aus einem salafistischen Forum (derW****, 570.016 / Muu****, 268.165), die sich irgendwann einmal zur Situation auf dem Wohnungsmarkt geäußert haben, und
  • das Blog der Islambruderschaft Deutschland, 129.965 laufende Wortformen

Auch muss man aufpassen, sich nicht dem Vorwurf auszusetzen, auf dem rechten Auge blind zu sein:

  • Ich nehme zwei Autorenkorpora aus dem inzwischen geschlossenen NPD-Forum Gernot (88.161), Spinne (147.144) und
  • Michael Kühnens „Schriften“, 111.873 laufende Wortformen.

Zudem will ich überprüfen, ob nicht Alt-RAFler oder andere ehemalige Linksterroristen als militante Gruppe wieder aktiv sind. Daher nehme ich:

  • die Texte der Revolutionären Zellen (203.492) und
  • die Texte der Roten Armee Fraktion (195.939).

Ich nehme auch noch zwei Diskutanden aus dem Diskussionsforum eines globalisierungskritischen Netzwerks hinzu, weil Globalisierungskritiker nunmal verdächtig sind:

  • bur*** (102.955 laufende Wortformen), Pom*** (21.241 laufende Wortformen), 2007-2009.

Hinzu kommen noch zwei Autoren, die sich durch ihre publizistisches Wirken verdächtig gemacht haben:

  • Fefe, wegen Verbreitung von Verschwörungstheorien in seinem Blog: 24.239 Posts, 1.928.027 laufende Wortformen, 2005-2012
  • Franz Josef Wagner mit seiner Kolumne „Post von Wagner“, die von manchem als schwer staatsgefährdend empfunden wird: 1.390 „Briefe“, 233.008 laufende Wortformen, 2006-2012.

Später kommen dann noch die Texte der militanten gruppe dazu:

  • 15 Anschlagserklärungen (27.828)
  • 4 mg express (7.679)
  • 14 Texte zur Militanzdebatte (50.078)
  • 8 thematische Beiträge (90.328)

Die Suche nach globalen Konstanten ist so wenig zeitgemäß, dass ich hier auf die älteren Blogbeiträge verweise. Weil sich die Ergebnisse so gut veranschaulichen lassen, illustriere ich das Vorgehen bei der Autorenidentifizierung mittels multivariater Statistik anhand der Clusteranalyse.


Textclustering

Die Clusteranalyse ist ein strukturentdeckendes Verfahren der multivariaten Statistik. Sie entdeckt Gruppen von „ähnlichen“ Objekten. In unserem Fall sind die Objekte Texte, die aufgrund ihrer Ähnlichkeit bzw. Unähnlichkeit im Hinblick auf linguistische Merkmale gruppiert werden. Natürlich ist es von entscheidender Bedeutung, anhand welcher linguistischer Merkmale ich die Gruppierung vornehmen. Die folgenden drei Analysen zeigen eindrucksvoll, wie unterschiedlich die Ergebnisse bei je unterschiedlichen linguistischen Kategorien sind. Der Übersichtlichkeit halber habe ich mit den Gesamtkorpora gerechnet.

Sicherheitsinformatiker halten Funktionswörter für besonders gute linguistische Kategorien, weil sie glauben, dass sie unbewusst verwendet werden und daher auch nicht manipuliert werden können. Führt man eine Clusteranalyse anhand der Distribution von Funktionswörtern (z.B. Artikel, Präpositionen, Konjunktionen) durch, dann erhält man folgendes, eher unklare Bild:



Dendrogramm Funktionswörter



Die Texte Andrej Holms und der militanten Gruppe sind jeweils gelb gekennzeichnet, jedoch durch verschiedene Schriftfarben von einander abgesetzt. Eine Autorschaft Andrej Holms kann auf der Basis dieser Daten nicht abgeleitet werden — im Gegenteil. Zusammen mit anderen eher weltanschaulich-theorielastigen Texten (RZ, RAF, Islambruderschaft, Kühnen) bilden die Textkorpora der militanten Gruppe ein eigenes Cluster. Offenbar fungiert hier die Textsorte als Hintergrundvariable. Dass Fefe sich in der Nachbarschaft von Franz Josef Wagner befindet, ist ein interessantes Detail.

Führt man eine Clusteranalyse anhand der Distribution von Inhaltswörtern durch, kommt man zu einer anderen Gruppierung der Texte.



Dendrogramm Inhaltswörter



Die Texte zur Rechtfertigung linker Gewalt (RAF, RZ, mg) bilden ein Cluster. Auch Andrej Holms wissenschaftliche Texte und Blogbeiträge lassen sich zusammen als eigene Gruppe interpretieren, die aber einen großen Abstand zum Cluster der mg-Texte aufweist. Obwohl also bestimmte Inhaltswörter das BKA dazu verleitet haben, Andrej Holm zu verdächtigen, ergibt die Analyse von Inhaltswörtern, dass auf ihrer Basis eine Autorschaft kaum wahrscheinlich ist. Ansonsten zeigt das Dendrogramm, das Inhaltswörter sich nur leidlich gut für die Identifizierung inhaltlicher Gemeinsamkeiten eignen. Zwar liegen die Texte von Islambruderschaft und Salafisten in einem Cluster, allerdings befindet sich dort auch Franz Josef Wagner. Auch irritiert die Nachbarschaft, in der sich Fefe befindet.

Ein weitere Kategorie, mittels derer man Texte in interessanter Weise gruppieren kann, sind komplexe n-Gramme; vgl. hierzu einen älteren Beitrag.



Dendrogramm komplexe n-Gramme



Die Ananlyse zeigt hier zwar, dass die Texte Andrej Holms zusammen mit den Texten der militanten Gruppe ein Cluster bilden, allerdings ist auch hier offensichtlich, dass Texte, die entweder wissenschaftlich argumentieren oder sich stilistisch den Anschein von Wissenschaftlichkeit (Kühnen, RAF, RZ) geben wollen, gemeinsam gruppiert wurden. Es ist damit relativ offensichtlich, dass wir hier nicht Autorschaft messen, sondern Stilkonventionen oder Textsorten.


Maschinelles Lernen

Beim maschinellen Lernen sind die oben beschriebenen Korpora die Trainingsdaten, mit deren Hilfe ein Klassifikator berechnet wird. Der Klassifikator kann dann dazu benutzt werden, die anonymen Texte einer Klasse zuzuweisen. Bei der Autorenidentifizierung mittles maschinellem Lernen benutzt man üblicherweise eine große Vielzahl an linguistischen Merkmalen. Ich habe mich auf folgende beschränkt:

  • relative Frequenz intensivierende Partikel (Gradpartikel)
  • durchschnittliche Satzlänge
  • Wortschatzkomplexitätsmaß Yule‘s K
  • relative Frequenz Passiv-Konstruktionen
  • relative Frequenz Konjunktiv I
  • relative Frequenz Konjunktiv II
  • relative Frequenz von Partizipialkonstruktionen
  • relative Frequenz von Präpositionalgruppenclustern
  • Schwierigkeit der Präpositionalgruppencluster (durchschnittliche Häufigkeitsklasse (Quelle: DeReKo) der in Präpositionalgruppenclustern auftretenden Präpositionen)

Anders als bei den Untersuchungen vorher wurde nicht mit Gesamtkorpora gerechnet. Zum Trainieren des Klassifikators wurden alle Einzeltexte benutzt, die mindestens 800 laufende Wortformen haben.

Um zu illustrieren, wie so ein Klassifikator aussehen kann, habe ich das Entscheidungsbaumverfahren benutzt. Beim Entscheidungsbaumverfahren wird eine Datensatz Schritt für Schritt in Unterklassen geteilt.



Aus den Trainingsdaten abgeleiteter Entscheidungsbaum



Im obigen Graph kodiert jeder Pfad vom Wurzelknoten zu einem Blatt eine Entscheidungsregel. Berechnet man nun die linguistischen Merkmale der anonymen Texte, in unserem Fall der Texte der militanten Gruppe, dann können diese mit Hilfe der Entscheidungsregeln einem Autor zugewiesen werden.

Von den 41 Texten der militanten Gruppe werden mittels dieses Klassifikators 13 den Revolutionären Zellen zugeschrieben, 4 einem Diskutanden aus einem Forum, einen Beitrag zur Militanzdebatte soll Fefe verfasst haben, und 23 Texte der militanten Gruppe werden als den Blogbeiträgen von Andrej Holm am ähnlichsten klassifiziert. Dabei ist es bei den allermeisten Blogbeiträgen nur eine Kombination zweier Merkmale, die für die Klassifikation als Holm-Text verantwortlich sind: eine geringe Anzahl von Konjunktiv-II-Formen und ein relativ hoher Anteil Partizipialkonstruktionen. Ich habe die betreffende Entscheidungsregel in der folgenden Abbildung farblich markiert.



Entscheidungsbaum mit markierter Entscheidungsregel



Der Konjunktiv II ist eine grammatische Form, die häufig zum Ausdruck von Höflichkeit benutzt wird oder der Formulierung von Irrealem (etwa in irrealen Konditionalsätzen) dient. Es ist daher nicht falsch anzunehmen, dass es Zusammenhänge zwischen dem Inhalt des Gesagten und der Frequenz von Konjunktiv-II-Formen gibt. Partizipialkonstruktionen sind hingegen typische Merkmale eines Nominalstils, die in einem Wissenschaftler-Blog durchaus erwartbar sind, auch in meinem.

Messen wir hier also tatsächlich einen Individualstil? Oder nicht doch eher inhaltliche und kommunikationsbereichsspezifische Merkmale? Und wenn wir nicht genau wissen, ob unsere Messinstrumente valide sind, wie verhält es sich dann eigentlich mit der prognostischen Güte unseres Modells? Die Frage ist natürlich eine rhetorische, denn wenn die Merkmale nicht valide sind, dann ist der Klassifikator zwar gut genug, um die Trainingsdaten zu klassifizieren, aber er hat keinerlei prognostischen Wert.

Die Analyse zeigt, wie sehr die maschinelle Autorenidentifikation davon abhängig ist, anhand welcher linguistischer Merkmale wir die Klassifikation vornehmen und ob diese Merkmale tatsächlich als Repräsentanten eines Individualstils gelten können. Die Bedeutung kommunikationsbereichs-, textsortenspezifischer und inhaltlicher Faktoren ist bislang von der Forschung noch nicht annähernd hinreichend gewürdigt. Die Gefahr fälschlicherweise in Verdacht zu geraten, ist daher groß.


Autorenidentifizierung: Grundkonstellation und Variationen

Posted on 22nd Januar 2012 in authorship identification, Textklassifikation

Liebe Freunde der Sicherheit,

solange es noch keine Klarnamenpflicht im Internet gibt und noch keine wirksamen Mittel, sie durchzusetzen, ist die Autorenidentifizierung eines der Kerngeschäfte von Sicherheitsinformatikern.

Die Grundkonstellation bei der Autorenidentifizierung sieht wie folgt aus: Zu einem anonymen Text wird ein Autor gesucht. Es gibt eine begrenzte Anzahl möglicher Autoren, von denen jeweils ein Korpus von Texten existiert. Dieses Problem ist im Kern ein Kategorisierungsproblem: Wir müssen die Texte, bei denen die Autoren bekannt sind, anhand ihrer Merkmale in Klassen einteilen und dann untersuchen, in welche Klasse der anonyme Text aufgrund seiner spezifischen Merkmale einteilen würden. Dokumente werden hierfür als numerische Vektoren dargestellt, die die Ausprägung möglicher relevanter Merkmale dieser Texte abbilden. Dann wendet man Methoden des maschinellen Lernens an, um Klassifikatoren zu finden, die die Texte, die zu unterschiedlichen Klassen gehören, voneinander unterscheiden.

Es gibt aber auch eine Reihe von Problemen, die sich nicht mit den Standardverfahren maschinellen Lernens lösen lassen und bei denen die Autorenidentifikation noch nicht so erfolgreich ist:

  1. Das Verifikationsproblem: Es gibt kein geschlossenes Set an Kandidaten, aber einen Verdächtigen. Ziel ist es, Kriterien dafür zu finden, ob der Verdächtige der Autor ist oder nicht. Im Prinzip handelt es sich hier um ein Klassifikationsproblem mit nur einer Klasse – unschön!
  2. Das Nadel-im-Heuhaufen-Problem: Es gibt eine große Anzhal von Kandiadten von denen nur kleine Trainingskorpora zur Verfügung stehen. Wegen der großen Anzahl Kandidaten (und damit Klassen) können hier (noch) keine Lern-Modelle eingesetzt werden.
  3. Das Profiling-Problem: Es gibt keine Trainingskorpora, anhand derer wir Kandidatenprofile errechnen können; Ziel ist dann, möglichst viel über die Eigenschaften des Autors herauszufinden. Insbesondere Geschlecht, Muttersprache und Alter, aber auch charakterliche Grundeigenschaften sind Gegenstand der Analysen.

Dennoch ist die Klassifikation mittels Methoden maschinellen Lernens eine zentrale Technik bei der Autorenidentifizierung, aber auch in anderen Bereichen. Diese Methoden sollen im Blog nach und nach vorgestellt werden.


Gibt es einen sprachlichen Fingerabdruck?

Liebe Freunde der Sicherheit,

oftmals sind sprachliche Spuren das einzige, was wir von vermeintlichen Täterinnen und Tätern haben. Besonders im Internet, wo Kriminelle ihre digitalen Identitäten trotz aller Bemühungen noch immer verschleiern können, sind die anonymen sprachlichen Äußerungen von Gefährdern oder geistigen Brandstiftern die einzige Möglichkeit, ihre wahre Identität aufzudecken.

So wie ein Einbrecher bei seinen Untaten Fingerabdrücke hinterlässt, so wie ein Vergewaltiger anhand seiner DNA-Spuren identifiziert werden kann, so können forensische Linguisten Täter anhand ihrer Sprache dingfest machen. So wie man durch den Abgleich von Fingerabdrücken und Zellresten mit einer Fingerabdruck- oder DNA-Datenbank einen Täter identifizieren kann, brauchen Sprachforensiker nur die sprachlichen Spuren des Täters am Tatort mit Texten abzugleichen, die einem Verdächtigen sicher zugeordnet werden können. Und wenn das sprachmaterial mit den Spuren übereinstimmen, dann klicken die Handschellen. Der sprachliche Fingerabdruck hat den Täter überführt.

So jedenfalls wollen uns so manche Informatiker glauben machen, die ihre Aufsätze mit so viel versprechenden Titeln wie „From Fingerprint to Writeprint“ betiteln. Ich bin mir nicht sicher, ob sie wirklich daran glauben oder ob es Teil einer Strategie ist, sich mehr Drittmittel einzuverleiben. Denn: einen sprachlichen Fingerabdruck gibt es nicht. Höchstens als irreführende Metapher.

Was ist ein Fingerabdruck?

Dazu muss man zunächst verstehen, was ein Fingerabdruck ist. Bei einem Fingerabdruck handelt es sich um eine Visualisierung der Papillarleisten am Endglied eines Fingers. Diese bilden offenbar abhängig von den Erbanlagen und von der Ernährung des ungeborenen Kindes eine individuelle Form aus, die sich im Laufe des Lebens nicht mehr oder kaum mehr verändert. Damit ein Fingerabdruck für eine computergestützte Forensik brauchbar ist, d.h. zum Beispiel in einer Datenbank erfasst und maschinell abgleichbar ist, wird ein Merkmalsset standardisiert erfasst. Die jeweilige Merkmalskombination gilt als einmalig.

Ähnlich verhält es sich mit dem sogenannten genetischen Fingerabdruck. Hier wird für forensische Zwecke keineswegs die gesamten Erbgutinformationen gespeichert und für einen Datenbankabgleich verfügbar gemacht. Vielmehr werden bestimmte Stellen in der DNA daraufhin untersucht, wie häufig an ihnen sogenannte short tandem repeats (STRs), also Wiederholungen von bestimmten Sequenzen vorkommen. Die variable Anzahl der Wiederholungen an diesen Punkten ergibt eine individuelles Profil, das einer Person zugeordnet werden und zu deren Identifizierung benutzt werden kann. Die DNA eines Menschen ist im Prinzip invariant und eignet sich daher gut, um Personen zu identifizieren.

Beide Verfahren beruhen also auf der Analyse messbarer Entitäten, die ihren Ursprung in biochemischen Prozessen haben, die sich einem unmittelbaren individuellen oder sozialen Einfluss entziehen.

Man könnte es sich nun leicht machen und sagen: Sprache ist im Gegensatz dazu etwas Soziales. Um verständlich kommunizieren zu können, müssen wir uns auf soziale Konventionen beziehen, auf übliche Verwendungsweisen von Wörtern (vulgo: Bedeutung) und auf Regeln, wie diese Wörter zu Sinneinheiten (vulgo: Grammatik) zusammengesetzt werden. Zudem kommunzieren wir auch nicht nur nach unseren Vorstellungen, sondern richten unsere Äußerungen auf unser intendiertes Publikum hin aus und konstruieren damit auch einen sozialen Kontext. Unseren Papillarleisten ist es aber egal, wem wir die Hand geben oder für wen wir Kaffee kochen. Sie sehen immer gleich aus. Wir treffen auch kontextabhängig keine Auswahl aus unserer DNA wie wir aus den in der Sprache möglichen Ausrucksweisen wählen, je nach dem, was wir gerade stilistisch für angemessen halten.

Abdruck wovon?

Aber so leicht würden es uns die Informatiker nicht machen. Sie würden vielleicht sagen, dass wir das Ontologisieren bleiben lassen sollten, denn abstrakt hätten wir es eben doch mit dem gleichen Problem zu tun: immer geht es darum, Merkmalsmuster zu finden, die als typisch für eine Person gelten sollen. Bei Papillarleisten oder der DNA kommen wir mit weniger Merkmalen aus als bei der Sprache, aber auch bei der Sprache ermöglicht die sprachliche Kompetenz und die Auswahl, die jeder Mensch aus den ihm zur Verfügung stehenden sprachlichen Mitteln trifft, die Erstellung eines individuellen Merkmalprofils. Und mal ehrlich: die short tandem repeats haben schon eine große Ähnlichkeit mit den n-Grammen aus der Linguistik.

Hier kommen wir aber nun an den Punkt, wo es sich lohnt über die Bedeutung des Wortes „Abdruck“ zu reflektieren. Während wir wissen, dass ein Fingerabdruck immer ein Abbild des einen betreffenden Fingers ist, dass die DNA in einer Zelle eine exakte Kopie der DNA aller anderer Zellen im Körper der betreffenden Person ist, so wissen wir überhaupt nicht, auf was eigentlich der sprachliche „Abdruck“ verweisen soll. Was drückt sich denn da ab, wenn wir schreiben?

Um von einem sprachlichen Fingerabdruck zu sprechen, müsste es etwas sein, das garantiert, dass beim nächsten Mal exakt das gleiche Muster wieder sichtbar wird. Das einzige, was mir als Linguist hier einfiele, ist die sprachliche Kompetenz. Aber gerade die ist nicht fest, sie wandelt sich ständig. Mit jedem Wort, das ich spreche, mit jedem Satz, den ich schreibe oder lese, aktualisiert sie sich. Und jede Aktualisierung ist eine (wenn auch kleine) Veränderung. Deshalb gibt es auch keinen sprachlichen Fingerabdruck: Es gibt kein festes Muster, an dem wir die Typizität einer Äußerung messen könnten.

Wir können lediglich Ähnlichkeiten zwischen Texten berechnen und mit Wahrscheinlichkeiten operieren. Mit der Evidenz eines Fingerabdrucks oder einer DNA-Spur hat das wenig zu tun. Und gegen gut gemachte sprachliche Maskeraden sind wir ohnehin machtlos.

 

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Liebe Freund der Sicherheit,

netzpolitik.org kommentiert die Tatsache, dass offenbar ein vom FBI verfasstes Profiling der führenden Köpfe von Anonymous geleakt ist. Sie stammt von der „Behavioral Science Unit“. Aus linguistischer Perspektive sind diese Profile insofern interessant, als sie ausschließlich aus der Analyse von chat logs, twitter logs und sonstigen Publikationen von Anonymous gewonnen wurden. Sprachkompetenz und Sprachgebrauch werden also zum Maßstab der Persönlichkeit.

Wenn man sich die Bewertungskategorien ansieht, dann zeigt sich, dass das die betreffenden Profiler FBI vorwiegend in den Kategorien der traditionellen forensischen Linguistik denken. Sie bewerten die sprachliche Performanz nach folgenden Kriterien:

  • Den souveränen Umgang mit einer sprachlichen Normen, insbesondere der Standardnorm des American English: über Sabu schreiben die Profiler „His use of netspeak is interspersed with proper American English diction and grammar that implies he is an American citizen and has been educated“ (3). Standardsprachenideologie in Reinform: die Beherrschung der Standardnorm ist eine kulturelle Leistung und zugleich ein Identitätsakt, denn Sprache schafft nationale Identität („Uns knüpft der Sprache heilig Band“). Zudem wird der Gebrauch der Standardnorm auch mit der Variable Alter korreliert.

  • Sprachliche Fehler bzw. Abweichungen von den Normen des American English: Über JoePie91 schreiben die Profiler „There are times when the syntax and grammar infer that JoePie is not an American and may in fact be in the EU.“ (5) Interessant ist, dass nicht die Frage diskutiert wird, ob er Muttersprachler oder Nichtmuttersprachler des Englischen ist.

  • Fachsprache: der Gebrauch von „netspeak“ und die Art ihres Gebrauchs: über JoePie91 schreiben die Profiler „He tends not to use as much netspeak as the others and makes relevant arguments in correct grammatical syntax.“ (5)

  • Die intraindividuelle Variation im Sprachgebrauch: eine zu starke Variation wird als mit einer kohärenten Persönlichkeit nicht vereinbar angesehen; daraus schließen die Profiler entweder mehrfachen Gebrauch eines Pseudonyms oder bewusste Verstellungsabsichten: so unterstellt man Sabu, er benutze netspeak, um sich als „script kiddie“ zu maskieren, weil er sonst durchaus in der Lage sei, grammatikalisch korrekte Sätze zu bilden. Zugleich konstatiert man: „Varying logs from online IRC […] sessions have borne out the possibility however, that the user ID „Sabu“ is sometimes also used by others to confuse auhtorities and others as to who the real person is behind the keyboard.“ Die Hypothese wird jedoch mit dem Hinweis auf die Vielzahl letztlich doch kohärenter Dokumente zurückgewiesen.

Die Profiler lassen im Unklaren, ob sie quantitative Methoden benutzt haben. An einer Stelle schreiben sie über Sabu und die Möglichkeit der Nutzung seines Nicks durch unterschiedliche Personen: „through an amalgam of transcripts the tell tale signs of a consistent individual can be clearly seen and assessed.“ (3) Mit viel Fantasie könnte man hier den Gebrauch quantitativer Analysen hineinlesen. Ich habe aber eher den Eindruck, dass die Profiler die Texte vor allem mit nicht-maschinellen Mitteln analysiert haben.

Eine Datenbank mit IRC-Chats und Twitter-Logs, anhand derer Aussagen über die Spannbreite möglicher intraindividueller Variation möglich wären, stand ihnen offenbar nicht zu Verfügung. Geschweige denn eine Datenbank mit personenspezifischen Textkorpora, die eine Identifizierung der Real-Life-Identitäten ermöglichen würde.

Wenn ich ein Profil der Profiler erstellen sollte (nicht ganz ernst gemeint!): keine Linguisten, sondern Psychologen, die im Studium auch ein bisschen Sprachpsychologie gehört haben, und Soziologen. Der Gebrauch von Ausdrücken wie „slang“ und „diction“ verweist m.E. auf eine Generation, die mit Konzepten der neueren Soziolinguistik und Sprachsoziologie nicht vertraut ist. Ich tippe daher auf ein Alter der Angehörigen der „Behavioral Science Unit“ zwischen 45 und 60 Jahren.

comments: Kommentare deaktiviert für IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen tags: , , , , ,

Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Rezension zu: Drommel, Der Code des Bösen

Liebe Freunde der Sicherheit,

das Ende der Anonymität wird überall ausgerufen: getarnt als Zeitgeistphänomen „Post-privacy“ von den Spacken der datenschutzkritischen Spackeria, von Google+ und Facebook, die sich weniger Cybermobbing und Trolling verprechen, wenn alle im Internet mit Klarnamen auftreten, und nicht zuletzt im Namen der Demokratie von unserem geschätzten Internet-Experten und Innenminister Hans-Peter Friedrich. Solche Überlegungen könnten sich schon bald als überflüssig erweisen, dann nämlich, wenn es gelänge, alle Internetbewohner anhand ihres individuellen Schreibstils zu identifizieren. Dass dies bald der Fall sein könnte, das verspricht uns ein Buch, das kürzlich beim Wilhelm Heyne Verlag erschienen ist und den Titel „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ trägt.

Sein Autor ist Raimund H. Drommel, der verdienstvolle Begründer der akademisch fundierten forensischen Linguistik in Deutschland. Mit seinem Buch liefert er einen Rückblick auf die spektakulärsten seiner „mehr als 1000“ Fälle und „über 300 Gerichtsgutachten“. Und was uns Freunde der Sicherheit freut und hoffnungsfroh in die Zukunft schauen lässt: Drommel „lag immer richtig“ (8).

Die sprachtheoretische Annahmen, die Drommels Arbeit zugrunde liegt, lässt sich anhand eines Vergleichs erläutern. Er schreibt:

„Was kaum jemand weiß: Jeder Mensch bedient sich einer ganz eigenen Sprache; sie ist beinah so unverwechselbar wie unsere DNS. Liegen adäquate Sprachproben vor, kann sie fast ebenso wie diese zweifelsfrei zugeordnet werden. Wir hinterlassen linguistische Spuren, wenn wir etwas sagen oder schreiben.“ (17)

Vom Vergleichsgegenstand DNS überträgt Drommel damit die folgenden Eigenschaften auf den Sprachgebrauch:

  1. Einmaligkeit: der Sprachgebrauch eines Menschen ist so einmalig, dass er seine Identifizierung ermöglicht; Sprachgebrauch ist verräterisch
  2. Unbewusstheit: wir gebrauchen die Sprache (oder zumindest die verräterischen Teile von ihr) unbewusst
  3. Unveränderbarkeit: man kann seinen Sprachgebrauch nicht willkürlich ändern
  4. Wissenschaftliche Erschließbarkeit: um die „sprachliche DNS“ zu entschlüsseln, braucht man wissenschaftliche Methoden; sie ist nicht jedem Intellekt zugänglich

Drommel, früher Professor an der Universität zu Köln, ist ein gestandener Sprachwissenschaftler und weiß natürlich, dass der Vergleich in vielerlei Hinsicht hinkt und sprachtheoretisch nicht haltbar ist. Die Rede von der sprachlichen DNS und – an anderer Stelle – von einem sprachlichen Fingerabdruck (21f) oder einem individuellen Sprachprogramm (40) in jedem Menschen sind Versuche, sprachwissenschaftliche Zusammenhänge durch Anschluss an das Alltagswissen verständlicher zu machen. So setzt sich Drommel selbst kritisch mit Ausdrücken wie „sprachlicher Fingerabdruck“ auseinander, die gerne von sprachwissenschaftlich unbefleckten Sicherheitsinformatikern benutzt werden, um mehr Forschungsgeld einzustreichen.

Cover des Buchs "Der Code des Bösen"

Cover des Buchs "Der Code des Bösen"

Trotz dieser kritischen Selbstreflexionen sind die Gutachten, die Drommel mit seinen Methoden erstellt, vor Gericht als Beweismittel anerkannt. Drommel war Gutachter für den Generalbundesanwalt und hat entscheidend dazu beigetragen, den geheimen Code der RAF zu entschlüsseln. Darüber durfte er jedoch im vorliegenden Buch nichts schreiben. Dennoch lesen sich die einzelnen Kapitel wie eine kleine Geschichte jener Ereignisse, die die Bundesrepublik (und die Schweiz und Österreich) seit den 1980er Jahren bewegten: Entführungen reicher Unternehmer, fingierte Selbstmorde von am Waffenhandel beteiligten Rechtsanwälten, Vorwürfe sexueller Nötigung gegen Medienschaffende, aber auch handfeste politische Skandale wie die niedersächsischen Spielbankaffäre, die Lotto-Affäre in Hessen oder der Tod Uwe Barschels und die Verwicklungen der Kieler CDU-Spitze in die Machenschaften gegen Engholm. In allen Fällen spielten Texte aus der Feder von Opfer oder Täter eine gewichtige Rolle. Und Drommel weiß spannend und detailreich über die Fälle zu erzählen. Allerdings, und es schmerzt mich als Linguisten, das zugeben zu müssen: Die Spannung ergibt sich meist aus dem breiteren kriminalistischen oder zeithistorischen Kontext, weniger aus der Schilderung der sprachlichen Analysen, von denen man den Eindruck gewinnt, dass sie sehr mühsam sein müssen.

Drommel unterscheidet grundsätzlich zwei Fallkonstellationen:

  1. Der Täter ist unbekannt, mit Hilfe einer sprachlichen Analyse soll aber etwas über seine soziale Herkunft in Erfahrung gebracht werden, um so den Kreis möglicher Täter einzugrenzen. Diese Tätigkeit nennt Drommel Sprachprofiling.
  2. Es gibt einen engen Kreis Tatverdächtiger und anhand der vorliegenden sprachlichen Daten soll entschieden werden, wer der Verdächtigen mit größter Wahrscheinlichkeit der Urheber eines Textes ist, der im Kontext eines Verbrechens entstanden ist. Bei dieser Tätigkeit würde ich von Autorenidentifikation sprechen.

Häufig folgen die beiden Fallkonstellationen freileich auf einander, d.h. dass mit Hilfe des Profiling und anderer kriminalistischer Mittel der Täterkreis so weit eingeschränkt wird, dass im Anschluss eine Autorenidentifikation möglich ist.

Wenn Drommel Texte analysiert, dann tut er dies auf allen Ebenen: auf der Ebene des Textkörpers (optische Gestaltung wie Absätze, Überschriften etc.), der grammatischen Formen und Partikeln, des Satzbaus, des Wortgebrauchs und auch auf der Ebene allgemeinerer stilistischer Merkmale, die die Satzebene überschreiten. Wichtige Indizien sind natürlich sprachliche Fehler.

Insbesondere auf der Ebene der Partikeln und der Lemmata benutzt er computergestützte Verfahren, von denen er die „computerbasierte Konkordanzanalyse“ als wichtigstes bezeichnet. Dabei „werden die zu analysierenden Texte in ein spezielles Programm eingelesen und Wort für Wort, Satz für Satz miteinander verglichen.“ (55) Auf diese Weise zeigen sich dem geübten Auge die Unterschiede und Ähnlichkeiten zwischen Texten. Konkordanzen zeigen das jeweilige sprachliche Phänomen in allen sprachlichen Kontexten, in denen sie auftreten. Den Vergleich der Gebrauchsweisen und die Bewertung scheint Drommel selbst ‚von Hand‘ vorzunehmen. Es handelt sich also um eine Mischung aus maschinellem und qualitativem Verfahren. Dies mag solange funktionieren, wie der Umfang der Texte noch einigermaßen überschaubar ist. Für größere Textmengen wäre eine Automatisierung des Abgleichs und eine Quantifizierung der Ergebnisse mittels Signifikanztests sicher die effizientere und womöglich auch die gerichtsfestere Art des Vorgehens. Es verwundert auch, dass Drommel trotz seiner großen Verdienste um die Standardisierung der forensischen Linguistik und seine Bemühungen um die Objektivierung seiner Ergebnisse nicht auf Verfahren maschinellen Lernens setzt, die in der informatischen Autorenidentifikation inzwischen Standard geworden sind.

Insgesamt liegt mit „Dem Code des Bösen“ ein Buch vor, das das Potenzial von Sprachprofiling und Autorenidentifikation einem breiteren Publikum vorstellt. Es gewährt uns Einblick in die Arbeitsweise eines erfahrenen Gutachters, der mit viel kriminalistischer Akribie, aber auch wissenschaftlicher Begeisterung und großem persönlichem Engagement bei der Sache ist.


Bibliographische Angabe:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation

Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.

Textkomplexität

  • durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
  • durchschnittlich Wortzahl pro Satz
  • Verhältnis von Types zu Token
  • Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)

Funktionswörter

  • Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
  • Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
  • Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt

Syntax und Wortarten

  • relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
  • Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
  • Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen

Funktionale lexikalische Taxonomien

  • bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
  • diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden

Inhaltswörter

  • eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
  • üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
  • als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen

Buchstaben n-Gramme

  • einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
  • der Vorteil: man braucht überhaupt kein linguistisches Wissen
  • offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten

Weitere Merkmale

  • morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
  • Frequenz und Verteilung von Satzzeichen
  • orthographische und/oder grammatikalische Fehler

Traditionelle Forensische Linguistik

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich  sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier  inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert für Traditionelle Forensische Linguistik tags: , , , ,