Off Topic: Einige Fakten zu Spiegel Online – Statistik zur Ressortentwicklung von 2000-2010

Posted on 21st August 2011 in Off Topic

Liebe Freunde der Sicherheit,

heute mal etwas, was uns vom eigentlichen Thema des Blogs wegführt. Die am 25. Oktober 1994 als Onlineversion des Nachrichtenmagazins Der Spiegel gegründet Plattform ist die meistgeklickte Nachrichtenseite im deutschen Sprachraum. Aber wo Erfolg und publizisitische Macht sind, dort ist auch Kritik. Stefan Niggemeier kritisierte letzthin die zunehmende Fixierung auf Spannung statt auf die Nachrichteninhalte. Und Fefe spricht schon lange nur noch vom „ehemaligen Nachrichtenmagazin“. Medienkritische Blogs und Zeitschriften befassen sich ebenfalls mit Spiegel Online, etwa die von Timo Rieg verantwortete Zeitschrift Spiegelkritik (SpKr) oder der vom Journalisten Torsten Engelbrecht betriebene Spiegel-Blog, in dem Recherchefehler und Einseitigkeiten in der Berichterstattung des Leitmediums kritisch reflektiert werden.

Für ein kleines Forschungsprojekt beschäftige ich mich zurzeit ein wenig mit dem Sprachgebrauch auf Spiegel Online. Gewissermaßen als Nebenergebnis habe ich eine Statistik über die Artikel- und Textmengen in den Ressorts des Online-Magazins in den letzten 11 Jahren berechnet. Um der Diskussion um Spiegel Online eine breitere empirische Basis zu geben, habe ich gedacht, ich stelle die Zahlen mal als Grafiken online.

Zur Quelle: Ich habe alle Artikel im Online-Archiv von Spiegel Online gezählt. Manche Ressort-Archive gingen zum Zeitpunkt des Crawlens bis auf das Jahr 1997 zurück. Allerdings war ich mir unsicher, wie vollständig die Archive waren. Andere Ressortarchive begannen erst mit dem Jahr 2000. Daher sind m.E. die Ergebnisse erst ab dem Jahr 2000 valide. Die durchschnittliche Wortzahl pro Artikel ließ sich natürlich auch schon vorher mit dem vorhandenen (selektiven) Material berechnen. Es rauscht immer ein bisschen in den Daten. Die vorgestellten Tendenzen sind aber eindeutig. Ich kommentiere die Ergebnisse nicht, das habe ich schon hinreichend durch meine Auswahl gemacht.

Die folgende Grafik zeigt die Entwicklung der Artikelzahl in den jeweiligen Ressorts:


Spiegel Online: Absolute Anzahl Artikel je Ressort


Wenn man den prozentualen Anteil der Ressorts an der jährlichen Gesamttextmenge berechnet, dann ergibt sich folgende Grafik:


Spiegel Online: Anteil der Artikel der Ressorts an der Gesamtzahl der Artikel (jahresweise)


Für den, der es gerne etwas übersichtlicher hat: Hier mal die Entwicklung der Anzahl der Artikel in den Ressorts Panorama, Politik – Deutschland und Politik – Ausland:


Spiegel Online: Anzahl Artikel Panorama und Politik im Vergleich


Allerdings muss man der Fairness halber sagen, dass die Artikel im Ressort Panorama durchschnittlich kürzer sind, als die in den Politik-Ressorts. Die folgende Grafik zeigt die Entwicklung der durchschnittlichen Artikellängen in den Ressorts. Interessant ist der Knick nach 2009:


Spiegel Online: Entwicklung der durchschnittlichen Wortzahl je Artikel in den Ressorts


Schaut man sich die Gesamtwortzahl an, die in den jeweiligen Ressorts produziert wurde, dann fallen die Unterschiede zwischen Politik und Panorama nicht so krass aus:


Spiegel Online: Entwicklung der Wortzahl in den Ressorts Panorama und Politik im Vergleich


Hier auch noch ein Blick auf die anteilsmäßige Verteilung der Wortzahl auf die Ressorts:


Spiegel Online: Entwicklung der Anzahl Wörter je Ressorts an der Gesamtwortzahl


Wer die Ergebnisse in einer wissenschaftlichen Arbeit zitieren will, kann das so machen:
Scharloth, Joachim (2011): Einige Fakten zu Spiegel Online – Statistik zur Ressortentwicklung von 2000-2010. Online: http://www.security-informatics.de/blog/?p=372.
Ich schicke euch auch gerne die Zahlen zu. Aber WordPress und Tabellen sind halt keine Freunde und meine Zeit ist begrenzt. Die unveränderten Grafiken darf man natürlich verwenden, wenn die Quelle genannt wird.


comments: 10 » tags: ,

Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Rezension zu: Drommel, Der Code des Bösen

Liebe Freunde der Sicherheit,

das Ende der Anonymität wird überall ausgerufen: getarnt als Zeitgeistphänomen „Post-privacy“ von den Spacken der datenschutzkritischen Spackeria, von Google+ und Facebook, die sich weniger Cybermobbing und Trolling verprechen, wenn alle im Internet mit Klarnamen auftreten, und nicht zuletzt im Namen der Demokratie von unserem geschätzten Internet-Experten und Innenminister Hans-Peter Friedrich. Solche Überlegungen könnten sich schon bald als überflüssig erweisen, dann nämlich, wenn es gelänge, alle Internetbewohner anhand ihres individuellen Schreibstils zu identifizieren. Dass dies bald der Fall sein könnte, das verspricht uns ein Buch, das kürzlich beim Wilhelm Heyne Verlag erschienen ist und den Titel „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ trägt.

Sein Autor ist Raimund H. Drommel, der verdienstvolle Begründer der akademisch fundierten forensischen Linguistik in Deutschland. Mit seinem Buch liefert er einen Rückblick auf die spektakulärsten seiner „mehr als 1000“ Fälle und „über 300 Gerichtsgutachten“. Und was uns Freunde der Sicherheit freut und hoffnungsfroh in die Zukunft schauen lässt: Drommel „lag immer richtig“ (8).

Die sprachtheoretische Annahmen, die Drommels Arbeit zugrunde liegt, lässt sich anhand eines Vergleichs erläutern. Er schreibt:

„Was kaum jemand weiß: Jeder Mensch bedient sich einer ganz eigenen Sprache; sie ist beinah so unverwechselbar wie unsere DNS. Liegen adäquate Sprachproben vor, kann sie fast ebenso wie diese zweifelsfrei zugeordnet werden. Wir hinterlassen linguistische Spuren, wenn wir etwas sagen oder schreiben.“ (17)

Vom Vergleichsgegenstand DNS überträgt Drommel damit die folgenden Eigenschaften auf den Sprachgebrauch:

  1. Einmaligkeit: der Sprachgebrauch eines Menschen ist so einmalig, dass er seine Identifizierung ermöglicht; Sprachgebrauch ist verräterisch
  2. Unbewusstheit: wir gebrauchen die Sprache (oder zumindest die verräterischen Teile von ihr) unbewusst
  3. Unveränderbarkeit: man kann seinen Sprachgebrauch nicht willkürlich ändern
  4. Wissenschaftliche Erschließbarkeit: um die „sprachliche DNS“ zu entschlüsseln, braucht man wissenschaftliche Methoden; sie ist nicht jedem Intellekt zugänglich

Drommel, früher Professor an der Universität zu Köln, ist ein gestandener Sprachwissenschaftler und weiß natürlich, dass der Vergleich in vielerlei Hinsicht hinkt und sprachtheoretisch nicht haltbar ist. Die Rede von der sprachlichen DNS und – an anderer Stelle – von einem sprachlichen Fingerabdruck (21f) oder einem individuellen Sprachprogramm (40) in jedem Menschen sind Versuche, sprachwissenschaftliche Zusammenhänge durch Anschluss an das Alltagswissen verständlicher zu machen. So setzt sich Drommel selbst kritisch mit Ausdrücken wie „sprachlicher Fingerabdruck“ auseinander, die gerne von sprachwissenschaftlich unbefleckten Sicherheitsinformatikern benutzt werden, um mehr Forschungsgeld einzustreichen.

Cover des Buchs "Der Code des Bösen"

Cover des Buchs "Der Code des Bösen"

Trotz dieser kritischen Selbstreflexionen sind die Gutachten, die Drommel mit seinen Methoden erstellt, vor Gericht als Beweismittel anerkannt. Drommel war Gutachter für den Generalbundesanwalt und hat entscheidend dazu beigetragen, den geheimen Code der RAF zu entschlüsseln. Darüber durfte er jedoch im vorliegenden Buch nichts schreiben. Dennoch lesen sich die einzelnen Kapitel wie eine kleine Geschichte jener Ereignisse, die die Bundesrepublik (und die Schweiz und Österreich) seit den 1980er Jahren bewegten: Entführungen reicher Unternehmer, fingierte Selbstmorde von am Waffenhandel beteiligten Rechtsanwälten, Vorwürfe sexueller Nötigung gegen Medienschaffende, aber auch handfeste politische Skandale wie die niedersächsischen Spielbankaffäre, die Lotto-Affäre in Hessen oder der Tod Uwe Barschels und die Verwicklungen der Kieler CDU-Spitze in die Machenschaften gegen Engholm. In allen Fällen spielten Texte aus der Feder von Opfer oder Täter eine gewichtige Rolle. Und Drommel weiß spannend und detailreich über die Fälle zu erzählen. Allerdings, und es schmerzt mich als Linguisten, das zugeben zu müssen: Die Spannung ergibt sich meist aus dem breiteren kriminalistischen oder zeithistorischen Kontext, weniger aus der Schilderung der sprachlichen Analysen, von denen man den Eindruck gewinnt, dass sie sehr mühsam sein müssen.

Drommel unterscheidet grundsätzlich zwei Fallkonstellationen:

  1. Der Täter ist unbekannt, mit Hilfe einer sprachlichen Analyse soll aber etwas über seine soziale Herkunft in Erfahrung gebracht werden, um so den Kreis möglicher Täter einzugrenzen. Diese Tätigkeit nennt Drommel Sprachprofiling.
  2. Es gibt einen engen Kreis Tatverdächtiger und anhand der vorliegenden sprachlichen Daten soll entschieden werden, wer der Verdächtigen mit größter Wahrscheinlichkeit der Urheber eines Textes ist, der im Kontext eines Verbrechens entstanden ist. Bei dieser Tätigkeit würde ich von Autorenidentifikation sprechen.

Häufig folgen die beiden Fallkonstellationen freileich auf einander, d.h. dass mit Hilfe des Profiling und anderer kriminalistischer Mittel der Täterkreis so weit eingeschränkt wird, dass im Anschluss eine Autorenidentifikation möglich ist.

Wenn Drommel Texte analysiert, dann tut er dies auf allen Ebenen: auf der Ebene des Textkörpers (optische Gestaltung wie Absätze, Überschriften etc.), der grammatischen Formen und Partikeln, des Satzbaus, des Wortgebrauchs und auch auf der Ebene allgemeinerer stilistischer Merkmale, die die Satzebene überschreiten. Wichtige Indizien sind natürlich sprachliche Fehler.

Insbesondere auf der Ebene der Partikeln und der Lemmata benutzt er computergestützte Verfahren, von denen er die „computerbasierte Konkordanzanalyse“ als wichtigstes bezeichnet. Dabei „werden die zu analysierenden Texte in ein spezielles Programm eingelesen und Wort für Wort, Satz für Satz miteinander verglichen.“ (55) Auf diese Weise zeigen sich dem geübten Auge die Unterschiede und Ähnlichkeiten zwischen Texten. Konkordanzen zeigen das jeweilige sprachliche Phänomen in allen sprachlichen Kontexten, in denen sie auftreten. Den Vergleich der Gebrauchsweisen und die Bewertung scheint Drommel selbst ‚von Hand‘ vorzunehmen. Es handelt sich also um eine Mischung aus maschinellem und qualitativem Verfahren. Dies mag solange funktionieren, wie der Umfang der Texte noch einigermaßen überschaubar ist. Für größere Textmengen wäre eine Automatisierung des Abgleichs und eine Quantifizierung der Ergebnisse mittels Signifikanztests sicher die effizientere und womöglich auch die gerichtsfestere Art des Vorgehens. Es verwundert auch, dass Drommel trotz seiner großen Verdienste um die Standardisierung der forensischen Linguistik und seine Bemühungen um die Objektivierung seiner Ergebnisse nicht auf Verfahren maschinellen Lernens setzt, die in der informatischen Autorenidentifikation inzwischen Standard geworden sind.

Insgesamt liegt mit „Dem Code des Bösen“ ein Buch vor, das das Potenzial von Sprachprofiling und Autorenidentifikation einem breiteren Publikum vorstellt. Es gewährt uns Einblick in die Arbeitsweise eines erfahrenen Gutachters, der mit viel kriminalistischer Akribie, aber auch wissenschaftlicher Begeisterung und großem persönlichem Engagement bei der Sache ist.


Bibliographische Angabe:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.