Hier mal eine kleine Illustration, welche Ergebnisse die Wortschatz-Komplexitätsmaße für die Klassifikation von Texten liefern. Als Beispielkorpus habe ich die Texte der militanten gruppe gewählt, weil deren Texte vom BKA schon einmal einer forensischen Analyse unterzogen wurden: einer Analyse im Hinblick auf die Ähnlichkeit mit den Texten eines Soziologen, den man verdächtigte Mitglied der Gruppe zu sein. Dabei sollen Inhaltswörter das Hauptkriterium gewesen sein, wollen uns der Spiegel und andere Medien glauben machen. Die Analyse wurde zu einem jener Indizen, mit denen Überwachung, Festnahme und U-Haft des Soziologen gerechtfertigt wurden. Die folgenden Proberechnungen sind keine ernst zu nehmenden forensischen Analysen, die irgend etwas über die Autoren der Texte der mg aussagen. Sie sollen vielmehr zeigen, wie problematisch der Umgang mit Wortschatz-Komplexitätsmaßen ist. Ich halte es daher auch für unproblematisch, sie zu veröffentlichen.
- Eine Übersicht über die Texte der mg findet sich in der Tabelle am Ende dieses Blog-Eintrags.
- Die Texte der militanten gruppe gibt es übrigens unter http://www.semtracks.com/cosmov/ als Korpus für sprachlich-sozialwissenschaftliche Analysen.
Die Analyse erfolgte in zwei Schritten: Zuerst wurden für jeden der 52 Texte die Werte Yule’s K, Sichel’s S, Brunet’s W und Honoré’s R berechnet; im Anschluss wurden die Texte auf der Basis der Werte mittels einer hierarchischen Clusteranalyse gruppiert. Die Ergebnisse in Kürze:
- Die Dendrogramme unterscheiden sich kaum im Hinblick auf die Anzahl der Cluster. Je nach Lesart könnte man drei bis fünf unterschiedlichen Autoren in den Reihen der militanten gruppe annehmen.
- Allerdings unterscheiden sich die Dendrogramme stark im Hinblick auf die Zusammensetzung der Cluster; d.h. die Texte, die man den potenziellen Autoren zuweist, variieren stark. Dies hat natürlich Konsequenzen für die Validität der Ergebnisse von (1.)
- Besonders bei Honoré’s R und Brunet’s W werden Frequenzeffekte sichtbar, wenn auch in unterschiedlicher Ausprägung.
- Variablen wie Textsorte oder Entstehungszeit scheinen keinen Einfluss auf die Gruppierung der Texte zu haben. Dies überrascht insbesondere im Hinblick auf die Textsorte, denn es wäre zu erwarten, dass argumentative Texte sprachlich anders gestaltet sind als Bekennerschreiben oder Pressemitteilungen.
Honoré’s R
Die Clusteranalyse zeigen, wie stark das Maß von der Wortzahl abhängig ist. So finden sich alle längeren Texte im Cluster links, das sich am stärksten von den anderen unterscheidet.
Brunet’s W
Brunet’s W neigt interessanterweise dazu, die sehr kurzen und die sehr langen Texte als einer Gruppe zugehörig zu klassifizieren.
Sichel’s S
Im Fall von Sichel’s, das auf der Auswertung von hapax dislegomena beruht, lässt sich keine Hintergrundvariable wie Textlänge, Textsorte oder Entstehungszeit finden, die die Gruppierung der Texte plausibel machen würde.
Yule’s K
Gleiches gilt für Yule’s K.
Je nach gewähltem Maß kommen man also zu einer sehr unterschiedlichen Gruppierung der Texte. Auch die Maße, in denen sich keine starken Frequenzeffekte zeigen, differieren in ihren Clustern. Die Interpretation dieser Ergebnisse im Hinblick auf die Autorschaft ist daher mehr als fragwürdig.
Nr. | Token | Datum | Titel |
---|---|---|---|
0 | 213 | 2001-06-12 | Auch Kugeln markieren einen Schlußstrich … |
1 | 1632 | 2001-06-14 | Die „Stiftungsinitiative der deutschen Wirtschaft“ zur Rechenschaft ziehen – Wolfgang Gibowski, Manfred Gentz und Otto Graf Lambsdorff ins Visier nehmen! |
2 | 1615 | 2001-06-21 | Anschlagserklärung gegen den Niederlassungszweig der Mercedes-Benz AG auf dem DaimlerChrysler-Werk in Berlin-Marienfelde |
3 | 3239 | 2002-02-05 | Anschlagserklärung |
4 | 788 | 2002-04-29 | Anschlagserklärung |
5 | 569 | 2002-12-31 | Anschlagserklärung |
6 | 2032 | 2003-02-25 | Anschlagserklärung |
7 | 845 | 2003-10-29 | Anschlagserklärung – Alba in den Müll! Entsorgt Alba! |
8 | 1121 | 2003-12-31 | Anschlagserklärung |
9 | 1533 | 2004-03-29 | Anschlagserklärung |
10 | 1596 | 2004-05-06 | Anschlagserklärung |
11 | 1681 | 2004-09-23 | Anschlagserklärung |
12 | 816 | 2005-01-10 | Anschlagserklärung |
13 | 857 | 2005-04-29 | Anschlagserklärung |
14 | 1777 | 2005-11-08 | Anschlagserklärung!!! |
15 | 1584 | 2006-02-16 | Anschlagserklärung |
16 | 1209 | 2006-03-20 | Anschlagserklärung |
17 | 2520 | 2006-04-10 | Anschlagserklärung |
18 | 510 | 2006-05-05 | Glückwunschtelegramm & Nachschlag |
19 | 844 | 2006-05-23 | Anschlagserklärung |
20 | 1139 | 2006-09-03 | Anschlagserklärung |
21 | 517 | 2006-09-10 | Anschlagserklärung |
22 | 1824 | 2006-10-13 | Dementi & ein bisschen Mehr |
23 | 1253 | 2006-12-19 | Anschlagserklärung: Das war Mord! |
24 | 419 | 2007-01-14 | Anschlagserklärung |
25 | 505 | 2007-05-18 | Anschlagserklärung |
26 | 2023 | Winter 2005 | mg-express No.1 |
27 | 2114 | Sommer 2006 | mg-express No.3 |
28 | 2547 | Herbst 2006 | mg-express No.4 |
29 | 2384 | Frühjahr 2007 | mg-express no.5 |
30 | 3421 | 2001-11-23 | Ein Debattenversuch der militanten gruppe (mg) |
31 | 9093 | 2002-08-01 | Eine Auseinandersetzung mit den Autonomen Gruppen und Clandestino über die Organisierung militanter Gruppenstrukturen |
32 | 12021 | Sommer 2005 | Wir haben uns mit einer Menge Puste auf den Weg gemacht |
33 | 1494 | 2005-01-29 | Versuch eines Streitgespräches – Reaktion auf das Interview mit Norbert „Knofo“ Kröcher in der Jungle World Nr. 4/26.1.2005 |
34 | 1407 | 2005-02-15 | Zum Interim-Vorwort der Nr. 611 vom 10.2.2005 |
35 | 1175 | 2005-04-01 | Anmerkungen zum barricada-Interview mit den Magdeburger Genossen |
36 | 1859 | 2005-04-01 | Zur jw-Artikelserie „Was tun? In der Stadt, auf dem Land oder Papier: Guerillakampf damals und jetzt“ |
37 | 3752 | 2005-06-01 | Zur „postautonomen und konsumistischen“ Sicht auf die Militanzdebatte |
38 | 1355 | 2005-07-01 | Was machen wir als militante gruppe (mg) auf einem Sozialforum – haben wir denn nichts Besseres zu tun? |
39 | 2912 | 2005-08-01 | Mut zur Lücke? Zu Wolf Wetzels „postfordistischer Protestwelt“ |
40 | 8358 | Mitte Mai 2006 | Clandestino – was wollt ihr eigentlich? |
41 | 2475 | 2006-06-03 | Zur „Roggan“-Anschlagserklärung der autonomen gruppen |
42 | 2993 | 2007-04-11 | Das „Gnadengesuch“ von Christian Klar und der Instrumentalisierungsversuch einer militanten Aktion |
43 | 8086 | Ende Mai 2007 | Erklärung zur BWA-Razzia und „Gewaltdebatte“ im Rahmen der Anti-G8-Proteste |
44 | 5172 | 2002-05-09 | Für einen revolutionären Aufbauprozess – Für eine militante Plattform |
45 | 1859 | 2002-12-19 | Presseerklärung – Nr. 1/2002 |
46 | 1841 | 2003-04-17 | Presseerklärung zum revolutionären 1. Mai 2003 in Berlin – Nr. 1/2003 von der militanten gruppe (mg) |
47 | 7200 | 2003-06-15 | Ein Beitrag zum Aufruf „27. Juni 1993 – 10 Jahre nach dem Tod von Wolfgang Grams. Glaubt den Lügen der Mörder nicht! Kein Vergeben – Kein Vergessen! Gemeinsam den Kampf um Befreiung organisieren! |
48 | 2623 | 2004-06-08 | Eine Nachbetrachtung zum revolutionären 1. Mai 2004 in Berlin |
49 | 57053 | 2004-07-01 | Bewaffneter Kampf – Aufstand – Revolution bei den KlassikerInnen des Frühsozialismus, Kommunismus und Anarchismus, 1. Teil |
50 | 15696 | 2004-12-01 | (Stadt)guerilla oder Miliz? |
51 | 21701 | 2006-01-01 | Kraushaars Buch „Die Bombe im Jüdischen Gemeindehaus“ und die Diskreditierung des bewaffneten Kampfes |