Sprachliche Fehler | surveillance and security - Computer- und korpuslinguistische Methoden des politisch motivierten Internet-Monitorings

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Posted on 15th September 2011 in authorship identification, Fachsprachen, Sprachliche Fehler, Stilometrie / stylometry, Wortschatz

Liebe Freund der Sicherheit,

netzpolitik.org kommentiert die Tatsache, dass offenbar ein vom FBI verfasstes Profiling der führenden Köpfe von Anonymous geleakt ist. Sie stammt von der „Behavioral Science Unit“. Aus linguistischer Perspektive sind diese Profile insofern interessant, als sie ausschließlich aus der Analyse von chat logs, twitter logs und sonstigen Publikationen von Anonymous gewonnen wurden. Sprachkompetenz und Sprachgebrauch werden also zum Maßstab der Persönlichkeit.

Wenn man sich die Bewertungskategorien ansieht, dann zeigt sich, dass das die betreffenden Profiler FBI vorwiegend in den Kategorien der traditionellen forensischen Linguistik denken. Sie bewerten die sprachliche Performanz nach folgenden Kriterien:

Den souveränen Umgang mit einer sprachlichen Normen, insbesondere der Standardnorm des American English: über Sabu schreiben die Profiler „His use of netspeak is interspersed with proper American English diction and grammar that implies he is an American citizen and has been educated“ (3). Standardsprachenideologie in Reinform: die Beherrschung der Standardnorm ist eine kulturelle Leistung und zugleich ein Identitätsakt, denn Sprache schafft nationale Identität („Uns knüpft der Sprache heilig Band“). Zudem wird der Gebrauch der Standardnorm auch mit der Variable Alter korreliert.

Sprachliche Fehler bzw. Abweichungen von den Normen des American English: Über JoePie91 schreiben die Profiler „There are times when the syntax and grammar infer that JoePie is not an American and may in fact be in the EU.“ (5) Interessant ist, dass nicht die Frage diskutiert wird, ob er Muttersprachler oder Nichtmuttersprachler des Englischen ist.

Fachsprache: der Gebrauch von „netspeak“ und die Art ihres Gebrauchs: über JoePie91 schreiben die Profiler „He tends not to use as much netspeak as the others and makes relevant arguments in correct grammatical syntax.“ (5)

Die intraindividuelle Variation im Sprachgebrauch: eine zu starke Variation wird als mit einer kohärenten Persönlichkeit nicht vereinbar angesehen; daraus schließen die Profiler entweder mehrfachen Gebrauch eines Pseudonyms oder bewusste Verstellungsabsichten: so unterstellt man Sabu, er benutze netspeak, um sich als „script kiddie“ zu maskieren, weil er sonst durchaus in der Lage sei, grammatikalisch korrekte Sätze zu bilden. Zugleich konstatiert man: „Varying logs from online IRC […] sessions have borne out the possibility however, that the user ID „Sabu“ is sometimes also used by others to confuse auhtorities and others as to who the real person is behind the keyboard.“ Die Hypothese wird jedoch mit dem Hinweis auf die Vielzahl letztlich doch kohärenter Dokumente zurückgewiesen.

Die Profiler lassen im Unklaren, ob sie quantitative Methoden benutzt haben. An einer Stelle schreiben sie über Sabu und die Möglichkeit der Nutzung seines Nicks durch unterschiedliche Personen: „through an amalgam of transcripts the tell tale signs of a consistent individual can be clearly seen and assessed.“ (3) Mit viel Fantasie könnte man hier den Gebrauch quantitativer Analysen hineinlesen. Ich habe aber eher den Eindruck, dass die Profiler die Texte vor allem mit nicht-maschinellen Mitteln analysiert haben.

Eine Datenbank mit IRC-Chats und Twitter-Logs, anhand derer Aussagen über die Spannbreite möglicher intraindividueller Variation möglich wären, stand ihnen offenbar nicht zu Verfügung. Geschweige denn eine Datenbank mit personenspezifischen Textkorpora, die eine Identifizierung der Real-Life-Identitäten ermöglichen würde.

Wenn ich ein Profil der Profiler erstellen sollte (nicht ganz ernst gemeint!): keine Linguisten, sondern Psychologen, die im Studium auch ein bisschen Sprachpsychologie gehört haben, und Soziologen. Der Gebrauch von Ausdrücken wie „slang“ und „diction“ verweist m.E. auf eine Generation, die mit Konzepten der neueren Soziolinguistik und Sprachsoziologie nicht vertraut ist. Ich tippe daher auf ein Alter der Angehörigen der „Behavioral Science Unit“ zwischen 45 und 60 Jahren.

comments: Kommentare deaktiviert tags: Anonymous, authorship detection, FBI, forensische Linguistik, Hacktivism, Profiling

Traditionelle Forensische Linguistik

Posted on 14th April 2011 in Allgemein, authorship identification, Sprachliche Fehler, Textklassifikation

Ziel der forensischen Linguistik ist es, aus sprachlichen Äußerungen Informationen über deren Urheber zu gewinnen. Das Attribut „forensisch“ bezieht sich darauf, dass die Äußerung im Kontext von mutmaßlichen Straftaten getätigt wurden oder für deren Aufklärung oder Vorbeugung relevant sind. Dieser Eintrag beschäftigt sich mit der traditionellen forensischen Linguistik, die beispielsweise bei der Analyse von Erpresser- oder Drohbriefen zum Einsatz kommt. Sie hat es mit eher wenig sprachlichem Material zu tun, das einer genauen Analyse unterzogen wird. Mit der computergestützten Stilometrie als Methode der forensischen Linguistik werde ich mich in späteren Beiträgen beschäftigen. Für die Stilmoetrie sind größere Datenmengen erforderlich.

Der linguistische Fingerabdruck: „From Fingerprint to Writeprint“?

Wenn Sicherheitsinformatiker ihre Software verkaufen wollen, dann sprechen sie gerne vom linguistischen Fingerabdruck. Um es gleich vorweg zu sagen: das ist vollkommen unseriös. Außer im Bereich der Stimmidentifizierung (forensische Phonetik) lassen sich sprachliche Äußerungen nicht eindeutig einer Person zuordnen. Der Vergleich sprachlicher Merkmale von Äußerungen mit einem Fingerabdruck, der für die Identifizierung einer Person verwendet werden kann, ist daher irreführend. Sprachliche „Spuren“ sind keineswegs eindeutig. Der im digitalen Zeitalter von Kriminologen herbeigesehnte „Schreibabdruck“ kann den anaolgen Fingerabdruck nicht ersetzen.

Fehler und Normverstoß

Die traditionelle forensische Linguistik identifiziert also keine Täter, hilft aber dabei, Täterprofile zu erstellen. Sie tut dies, indem sie sprachliche Eigenschaften von Texten mit sozialen Merkmalen in Beziehung setzt. Wichtige Anhaltspunkte sind dabei Verstöße gegen die Regularitäten einer Sprache und gegen sprachliche oder stilistische Normen. Verstöße gegen die Regularitäten einer Sprache können Anzeichen dafür sein, dass der Produzent einer Äußerung kein Muttersprachler ist, insbesondere dann, wenn sie systematisch auftreten. Wenn also in einem Text mehrere Äußerungen wie

… Ich warte für die Übergabe … Ich möchte zu jemandem reden … Suchen Sie nicht für mich …

dann kann man davon ausgehen, dass der Verfasser kein Muttersprachler ist oder sich als Nichtmuttersprachlier inszenieren möchte. Wenn solche Verstöße als Interferenzen interpretiert werden können, d.h. als Übertragung einer grammatikalischen Struktur aus der Muttersprache, können sie auch als Hinweise auf die Herkunft des Verfassers eines Textes gedeutet werden. Die Beispiele legen den Schluss nah, dass es sich um einen Muttersprachler des Englischen handelt, der hier schrieb und aufgrund mangelnder Kenntnisse des Deutschen feste Verb-Präposition-Verbindungen aus dem Englischen übernommen hat (… I’m waiting for … I want to talk to … Don’t look for …).

Autorprofil — Täterprofil

Neben der Frage, ob es sich um einen Muttersprachler handelt, bieten Texte häufig auch Anhaltspunkte dafür, aus welcher Region ein Autor kommt bzw. ob es Interferenzen mit einem regionalen Dialekt gibt. Wer „größer wie“ statt „größer als“ schreibt, kommt wahrscheinlich nicht aus Norddeutschland. Wer die regionale Variante „benützen“ gebraucht, kommt eher aus dem Süden des deutschen Sprachraums, wahrscheinlich aus dem Südwesten. Die Beherrschung der Rechtschreibung und Interpunktionsregeln, aber auch der richtige bzw. falsche Gebrauch von Fremdwörtern und die syntaktische Komplexität können Hinweise auf den Bildungsstand des Autors liefern. Die Einhaltung bestimmter stilistischer Normen kann zudem auch als Hinweis auf das Alter gedeutet werden. Rückschlüsse auf das Geschlecht des Verfassers sind allerdings nicht möglich.

Forensische Linguistik beim BKA

Das Bundeskriminalamt arbeitet mit dem Kriminaltechnischen Informationssystem Texte (KISTE), das die systematische Erfassung, Annotation, Interpretation und den Vergleich von Texten unterstützt. Aus der verlinkten Powerpoint-Präsentation einer Mitarbeiterin des BKA geht hervor, dass mehr als die Hälfte der untersuchten Texte Schreiben von Erpressern sind; Bedrohung und Volksverhetzung folgen in weitem Abstand. Terrorismus und Extremismus machen gerade einmal 5% der Fälle aus.

Fehleranalyse vs. Stilometrie

Die Fehleranalyse ist besonders dann ein erfolgversprechendes Vorgehen, wenn nur eine geringe Menge sprachlicher Daten vorliegt, die sich für statistische Analysen nicht oder kaum eignet. Bei größeren Datenmengen, in denen signifikante sprachliche Muster identifiziert werden können, kann ein breiteres Spektrum linguistischer Phänomene für die Zuordnung von Texten zu außersprachlichen Merkmalsbündeln herangezogen werden. Dazu demnächst mehr in einer kleinen Serie über Methoden der Stilometrie.

comments: Kommentare deaktiviert tags: Bundeskriminalamt, Fehleranalyse, forensische Linguistik, linguistischer Fingerabdruck, Stilometrie

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Traditionelle Forensische Linguistik

Kategorien

Neueste Beiträge

Archive

About

IRC-Sprachforensik: „Psychological Profiles of Anonymous Leadership“ auf der Basis von Chatprotokollen

Traditionelle Forensische Linguistik

Kategorien

Neueste Beiträge

Archive

Wordcloud

About