Liebe Freunde der Sicherheit,
eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.
Linguistische Differenzialanalyse
Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:
„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)
Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.
Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.
Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode
Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.
Hierfür habe ich dreierlei benötigt:
-
Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.
-
eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.
-
einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.
Ergebnisse: gerne | mit Freude | gern | mit Vergnügen
Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.
Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:
Standardabweichung | Varianten |
---|---|
0.396034689707957 | gerne | mit Freude | gern | mit Vergnügen |
0.384572324926231 | Glaube | Bekenntnis | Konfession | Denomination |
0.383741494895807 | kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig |
0.381850019132707 | gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend |
0.380304172683078 | passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren |
0.378560699614743 | weg | Fern | fern |
0.372789498557065 | Information | Schalter | Auskunftsschalter | Auskunft |
0.371710005433523 | Realität | Praxis |
0.371674963099053 | rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen |
0.36944693958052 | betreiben | nachgehen | ausüben |
0.36617435642474 | Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All |
0.363908308274997 | billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig |
0.363872962376017 | heraus | hervor |
0.362606570091546 | Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa |
0.362155688620303 | verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen |
0.361149279496628 | verantwortlich | zuständig |
0.360881847188603 | passen | geeignet |
0.360877848087947 | drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen |
0.36060656555393 | Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung |
0.360040253521303 | vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen |
0.359950475146227 | anschließen | beitreten | Mitglied werden |
0.359570245588916 | richten | urteilen |
0.358943241670499 | aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam |
0.35883310781789 | unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste |
0.357590418501272 | Öffentlichkeit | Allgemeinheit | Gemeinwesen |
0.357565689315277 | überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant |
0.357282147746873 | Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation |
0.357222116951858 | aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen |
0.356676679221292 | Schule | Lager | Strömung |
0.356337633441186 | Reihe | Anzahl |
0.355919880776704 | kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen |
0.355352816416153 | sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln |
0.355209713591625 | Kommentar | Notiz | Anmerkung |
0.354982488402154 | hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig |
0.354591844205998 | langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich |
0.354328900327031 | Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss |
0.354060472670956 | merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen |
0.353578904341922 | Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung |
0.353533447923133 | stimmen | aussprechen | plädieren |
0.353483316676806 | Zahl | Wert |
0.35347391485945 | Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho |
0.352956200168923 | schützen | beschützen | sichern |
0.352517940599203 | herrschen | regieren |
0.35232461896263 | Studie | Analyse |
0.352296794150891 | gestalten | einrichten |
0.352192163220551 | verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen |
0.352048952616805 | Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung |
0.351173408423386 | beantragen | vorschlagen |
Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.
Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…
Literatur:
Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.