Metasprachliche markierte Ausdrücke in der ZEIT im Jahr 2011 und eine kleine Geschichte der BRD in Wörtern

Posted on 6th Januar 2012 in Allgemein, Linguistische Kategorien, Off Topic

Liebe Freunde der Sicherheit,

im vorletzten Post habe ich die Möglichkeit diskutiert, mittels metasprachlich markierter Ausdrücke Ideologien zu identifizieren, die von der herrschenden Semantik abweichen. Auch der publizistische Mainstream markiert Wörter oder Ausdrücke durch Anführungszeichen oder ein vorangestelltes „sogenannt“, wenn auch seltener. In Zeitungen werden vor allem neue, missverständliche oder inhaltlich umstrittene Ausdrücke markiert. Die folgende Wortwolke zeigt, welche Ausdrücke in der gedruckten ZEIT im Jahr 2011 markiert wurden:



Metasprachlich markierte Ausdrücke in der ZEIT (print) 2011



An der Wortwolke werden vor allem die wichtigsten Themen des Jahres sichtbar: Euro-Rettung, Terrorismus (Schuhbomber, Rucksackbomber, Kofferbomber und für uns Freunde der Sicherheit besonders interessant: Unterhosenbomber), arabischer Frühling, Atomkraft (Brückentechnologie, Restrisiko, Liquidator, Fukushima, Energiewende), Protestbewegungen (Wutbürgertum, Plärrer, Empörte) und Selbstverteidigungsminister KT. Es finden sich auch einige Klassiker: „drittes Reich“ und „Führer“ werden in den meisten Medien aus gutem Grund immer in Anführungszeichen gesetzt. Natürlich findet sich auch „alternativlos“ als Unwort des Jahres in der Liste.

Ich habe auch für die anderen Jahrgänge der Zeit solche wordclouds berechnet. In der Gesamtschau erhält man eine kleine Geschichte der Bundesrepublik und ihrer gesellschaftlichen Debatten in einer Liste von Wörtern.

Als Lesehilfe: Je häufiger ein Ausdruck markiert wurde, desto größer wird er dargestellt. In einem Jahr zum ersten mal als markiert auftretende Ausdrücke sind rot, im Vergleich zu den anderen Jahren signifikant häufig auftretende Ausdrücke sind braun gefärbt.





Interessant ist, dass in Jahren von Krisen und Umbrüchen besonders viele Ausdrücke metasprachlich markiert werden. Die Jahre 1966-1969, 1977, 1989/90 sind dafür ein Beleg. Zieht man den Anstieg der Markierungen im Jahr 2011 im Vergleich zu den Jahren vorher in Betracht, dann muss die Diagnose heißen: wir erleben zurzeit einen Umbruch, der den großen Krisenjahren der BRD vergleichbar ist.


Anmerkung: Eine Filterung der Listen war nötig, da insbesondere Buch- oder Filmtitel auch in Anführungszeichen gesetzt werden. Dies wurde mit Hilfe einer Stoppliste automatisiert, eine Nachbearbeitung von Hand war dennoch nötig.

Für bessere Lesbarkeit: jenseits des Blog-Layouts habe ich noch eine schlichte HTML-Seite gemacht.


Erkennung von Ideologien: Metasprachliche Markierungen als Kritik der herrschenden Semantik

Liebe Freunde der Sicherheit,

heute soll es nicht um Autorenerkennung gehen, sondern um die Frage, wie man den ideologischen Gehalt größerer Textmengen bestimmen kann. Illustrieren möchte ich dies an einem Thema, das uns besonders am Herzen liegt: die Treue zu unserer staatlich-politischen Grundordnung.

Systemkritische Bewegungen haben fast immer auch eine sprachkritische Tendenz. Ähnlich wie antipluralistische Systeme neigen sie zur Ausbildung einer eigenen Ideologiesprache, die zwar nicht notwendigerweise ausdrucksseitig (also im Hinblick auf die verwendeten Wörter und Wendungen), aber immer inhaltsseitig vom herrschenden Sprachgebrauch abweicht. Und dies mit gutem Grund: die herrschende Sprache – so die Vorstellung – habe verschleiernden Charakter und diene der herrschenden Klasse zur Gefügigmachung der Bürger, mithin als Herrschaftsinstrument.

Wahres Sprechen erfordert daher eine neue Sprache – so die an ontologisierende Sprachtheorien erinnernde Position. Selten kommen daher sich als revolutionär verstehende Bewegungen ohne kritische Thematisierungen der gegenwärtigen Sprache aus, bisweilen arbeiten sie sogar sprachliche Gegenentwürfe aus.

Letzteres geschieht häufig in Textsorten, die Wörterbüchern ähnlich sind. Beispielsweise findet sich im Netz ein rechtsextremes Elaborat, das eine Liste mit 126 zentralen Vokabeln aus den semantischen Feldern der Staatstheorie, der Philosophie, der Theologie und der „Rassenkunde“ enthält, die im Sinne der Autoren abweichend vom Alltagssprachgebrauch definiert werden. „Diskriminierung“ wird darin beispielsweise wie folgt bestimmt: „Kulturtugend. Abgrenzung (gegeneinander), Unterscheidung des Häßlichen vom Schönen, des Bösen vom Guten, des Falschen vom Wahren, des Schädlichen vom Nützlichen. Die Diskriminierung ist die grundlegende Fähigkeit, die menschliches Handeln auf den Gebieten der Kunst, der Religion, des Wissens, der Wirtschaft und der staatlichen wie bürgerlichen Ordnung der Gemeinwesen erst ermöglicht.“ Die Definition bezieht sich auf die Bedeutung des lateinischen Verbs „discriminare“, in der das Wort auch ins Deutsche entlehnt wurde. Die Bedeutungsdimensionen der Herabsetzung und der Benachteiligung, die seit dem frühen 20. Jahrhundert die Verwendung des Wortes prägen, werden getilgt.

Die Existenz solcher wörterbuchartigen Umdeutungen von Begriffen ist Symptom einer elaborierten und systematischen Kritik der „herrschenden“ Semantik. Häufiger jedoch findet sich in systemkritischen Texten eine eher unsystematische Ad-hoc-Kritik am gängigen Sprachgebrauch, indem die entsprechenden Ausdrücke metasprachlich markiert werden. Damit wird die Ablehnung der traditionellen Verwendungsweise der markierten Vokabeln zum Ausdruck gebracht. Diese Ablehnung kann sich entweder gegen die Wortform selbst oder gegen das Konzept, das dem Ausdruck zugrunde liegt, richten. Ein rechtskonservativer Politiker übt beispielsweise mit der Formulierung „Einwohner mit ‚Migrationshintergrund'“ Kritik an der in Anführungszeichen gesetzten Wortform und drückt damit aus, dass diese nicht Teil seines persönlichen politischen Vokabulars ist. Kritik am Konzept, das hinter einem Ausdruck steht, wird etwa geübt, wenn von der „sogenannten Demokratie“ die Rede ist. Solche Sprachthematisierungen haben eine strategische Funktion. Daneben gibt es natürlich noch weitere Sprachthematisierungen, die ausschließlich erläuternden Charakter besitzen. Hier werden Wörter definiert, erklärt, oder es wird ihr Gebrauch legitimiert.

Sprachkritische Markierungen bieten somit einen Ansatzpunkt für die informatische Operationalisierung von Einstellungen gegenüber der herrschenden Ordnung, insofern sie als Indikatoren der Kritik an zentralen politischen Konzepten und der herrschenden Semantik insgesamt gedeutet werden können.

Um zu überprüfen, ob die linguistische Kategorie der metasprachlichen Markierung als Indikator für Distanz zur herrschenden Semantik und damit als Marker systemkritischer Gesinnung gelten kann, habe ich zusammen mit Kollegen ein paar Proberechnungen an den Pressemitteilungen der Bundesparteien in der Legislaturperiode von 2005-2009 vorgenommen. Im Folgenden findet ihr die Frequenz von metasprachlichen Markierungen je 10.000 Wörtern (SPD und CDU stehen hier deshalb neben einander, weil sie eine Koalition bildeten; PDL-KPF steht für die Kommunistische Plattform innerhalb der Partei DIE LINKE.).

 


Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter in den Pressemitteilungen von Parteien (2005-2009)

Anzahl metasprachlich markierter Ausdrücke je 10.000 Wörter
in den Pressemitteilungen von Parteien (2005-2009)



Die Parteien und Gruppierungen an den Rändern des politischen Spektrum weisen eine höhere Frequenz metasprachlicher Markierungen auf als die im Bundestag vertretenen Parteien. Während bei letzteren der Höchstwert bei rund 20 Sprachthematisierungen je 10.000 Wörtern liegt (CDU), liegt er bei den anderen Parteien, die vom Verfassungsschutz überwiegend als extremistisch bezeichnet werden, zwischen rund 33 (MLPD) und 80 (DKP).

Auch eine qualitative Auswertung der metasprachlichen Ausdrücke, die in den Pressemitteilungen auftreten, bestätigt, dass die Parteien an den Rändern des politischen Spektrums ihre Ablehnung der freiheitlich-demokratischen Grundordnung mit sprachlichen Mitteln explizit machen. Die folgende Abbildung zeigt den Anteil der metasprachlich markierten Ausdrücke zur Bezeichnung von Institutionen beziehungsweise Grundwerten des demokratischen Verfassungsstaates an allen metasprachlicher Markierungen.

 


Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates und seiner Organe an allen metasprachlich markierten Ausdrücken (Pressemitteilungen von Parteien 2005-2009)

Anteil von Wendungen zur Bezeichnung des demokratischen Verfassungsstaates
und seiner Organe an allen metasprachlich markierten Ausdrücken
(Pressemitteilungen von Parteien 2005-2009)



Insbesondere bei den rechtsextremen Parteien, aber auch bei der MLPD findet sich demnach ein vergleichsweise hoher Anteil antipluralistisch intendierter metasprachlicher Markierungen. Zwar liegt der Wert bei den Grünen auch vergleichsweise hoch, allerdings ist die Frequenz metasprachlicher Markierungen bei den Grünen insgesamt derart gering, dass die 3,2 % markierter Ausdrücke, die Grundwerte und Institutionen des Verfassungsstaates bezeichnen, nicht ins Gewicht fallen.

Es scheint also, als seien Quantität und Qualität metasprachlich markierter Ausdrücke ein Indikator für eine kritische Haltung gegenüber der herrschenden politischen Ordnung. Allerdings muss ich noch ergänzen: bei Diskussionsforen ist die explorative Kraft metasprachlicher Markierungen viel geringer. Ein weiterer Beleg dafür, wie zentral die Kategorie Textsorte für die automatisierte Sprachanalyse ist.

Ach so, eins noch: klar werden hier Parteien vergleichen und einige gelten dem Verfassungsschutz als links- und andere als rechtsextrem. Ich möchte aber nicht den Eindruck erwecken, dass das Vergleichen ein Gleichsetzen ist.


Linguistische Differenzialanalyse und Autorenidentifikation

Liebe Freunde der Sicherheit,

eine der Methoden zur Bestimmung der Autorschaft von Texten, die Raimung Drommel in seinem Buch „Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers“ beschreibt, trägt den sperrigen Titel „linguistische Differenzialanalyse“. Es handelt sich hierbei um keine Methode, die man aus den einschlägigen Publikationen der von der NSA oder dem israelischen Verteidigungsministerium finanzierten Forschungsinstituten kennt. Es lohnt sich daher, einen genaueren Blick darauf zu werfen.

Linguistische Differenzialanalyse

Nach Drommel besteht die Methode „in einem computergestützten Abgleich des ‚Tatmaterials‘ mit Vergleichstexten“ (7). Die Beispiele, die der deutsche Sprachprofiler in seinem Buch nennt, lassen darauf schließen, dass er dabei untersucht, wie die jeweiligen Autoren Variablen auf den unterschiedlichsten sprachlichen Ebenen realisieren. Das Wort „Variable“ kann dabei als Menge an Ausdrucksmöglichkeiten verstanden werden, die in einer bestimmten sprachlichen Umgebung eingesetzt werden können, ohne dass es dabei zu größeren Sinnverschiebungen kommen würde. Hier ein Beispiel aus Drommels Buch, in dem es um die Verwendung von der Partikeln „ja“ und „dann“ geht:

„So wie es Linkshänder und Rechtshänder gibt, so wie manche Menschen immer das linke über das rechte Bein schlagen und andere stets umgekehrt – genauso verwenden die meisten Menschen diese beiden Wortzwerge in einer festgelegten Reihenfolge. Die einen sagen ‚ja dann‘, die anderen ‚dann ja‘. Das ist im jeweils individuellen Sprachprogramm eines deutschen Muttersprachlers fest verankert.“ (40)

Das gemeinsame Auftreten mehrerer solcher Varianten, so Drommel, macht den Individualstil eines Menschen aus. Durch ihn lassen sich Autoren identifizieren.

Zwar ist es in der Soziolinguistik üblich, kookkurierende (d.h. gemeinsam auftretende) Varianten als konstitutiv für einen „Soziolekt“ (auch „Varietät) aufzufassen, d.h. für ein Sprachsystem, das von den Angehörigen einer sozialen Gruppen gesprochen und / oder geschrieben wird. Es gibt meines Wissens jedoch kaum Forschung zu individuellen Sprachen, sogenannten Idiolekten, aus variationslinguistischer Perspektive. Schon gar keine Forschung, die sich auf eine breite empirische Basis stützen könnte.

Intraindividuelle lexikalische Variation in Texten aus einem NPD-Forum: Berechnungsmethode

Daher habe ich spaßeshalber untersucht, ob es tatsächlich so ist, dass Sprecherinnen oder Sprecher sich sehr einseitig aus dem Variantenrepertoire bedienen, so einseitig, dass sie praktisch immer eine einzige Variante aus einer Vielzahl möglicher wählen und die andere(n) nicht.

Hierfür habe ich dreierlei benötigt:

  1. Autorenkorpora: ich habe 80 autorenspezifische Korpora mit einem Umfang zwischen 15.000 und 105.000 Wörtern aus einem Diskussionsforum der NPD extrahiert.

  2. eine Liste von Variablen mit möglichen Realisierungsvarianten: hier habe ich einen Thesaurus benutzt, der rund 21.500 Variablen enthält. Weil ein Thesaurus nur Varianten von lexikalisch-semantischen Variablen enthält, deckt die kleine Proberechnung nur einen kleinen Teil des möglichen Variantenspektrums ab.

  3. einen Algorithmus: hier bot sich ein Vektorenmodell an. Für jede Variable wurde in jedem Text ein Vektor berechnet, der die (normalisierte) Frequenz der jeweiligen Varianten enthielt. Im Anschluss wurde der Abstand jedes textspezifischen Vektors zu den Vektoren aller anderen Texte berechnet. Die Standardabweichung der Vektorenabstände kann dann wie folgt interpretiert werden: Ist die Standardabweichung gering, unterscheiden sich die Autoren kaum in der Wahl der Varianten; ist sie hingegen groß ist die Variable ein viel versprechender Kandidat für die Autorenidentifizierung. Sie verweist damit auf eine hohe intraindividuelle Stabilität in der Variantenwahl und eine große interindividuelle Variation.

Ergebnisse: gerne | mit Freude | gern | mit Vergnügen

Da ich mit dem Cosinus-Koeffizienten als Abstandsmaß für Vektoren gearbeitet habe, liegen die Abstandswerte zwischen 0 und 1, die Standardabweichung ebenso. Eine Standardabweichung von 0 bedeutet, dass es zwischen den Schreibern überhaupt keine Unterschiede bei der Variantenwahl gibt, entweder weil alle die gleichen bevorzugen, oder weil der Gebrauch der einzelnen Varianten bei allen gleich verteilt ist. Eine hohe Standardabweichung bedeutet dagegen, dass ein Teil der Autoren eine Variable bevorzugt mittels der einen Variante realisiert, ein anderer Teil der Autoren einer anderen Variante den Vorzug gibt.

Hier kommt die Liste mit den Variablen, die die höchste Standardabweichung aufwiesen:


Standardabweichung Varianten
0.396034689707957 gerne | mit Freude | gern | mit Vergnügen
0.384572324926231 Glaube | Bekenntnis | Konfession | Denomination
0.383741494895807 kriminell | verbrecherisch | auf der schiefen Bahn | delinquent | straffällig
0.381850019132707 gütlich | friedlich | geruhsam | gewaltfrei | sanft | gütig | friedfertig | ohne Gewalt | verträglich | amikal | gewaltlos | herzensgut | friedliebend
0.380304172683078 passen | zurückstellen | aufschieben | aussetzen | verschieben | vertagen | intermittieren
0.378560699614743 weg | Fern | fern
0.372789498557065 Information | Schalter | Auskunftsschalter | Auskunft
0.371710005433523 Realität | Praxis
0.371674963099053 rechnen | rentieren | auszahlen | amortisieren | lohnenswert | lohnen | Früchte tragen | bezahlt machen
0.36944693958052 betreiben | nachgehen | ausüben
0.36617435642474 Raum | Kosmos | Weltraum | Weltall | Universum | Sphäre | All
0.363908308274997 billig | kostengünstig | kosteneffektiv | preiswert | wohlfeil | kostenwirksam | preisgünstig | günstig | spottbillig
0.363872962376017 heraus | hervor
0.362606570091546 Vater | Erzeuger | Daddy | Vati | Senior | der Alte | Papi | Kindsvater | Paps | alter Herr | leiblicher Vater | Dad | Papa | Pa
0.362155688620303 verurteilen | verdonnern | bestrafen | für schuldig erklären | aburteilen | schuldig sprechen | mit Strafe belegen | Strafe verhängen
0.361149279496628 verantwortlich | zuständig
0.360881847188603 passen | geeignet
0.360877848087947 drücken | knautschen | pressen | zwängen | pferchen | stopfen | quetschen | pfropfen | proppen
0.36060656555393 Entwicklung | Änderung | Tapetenwechsel | Dynamik | Veränderung
0.360040253521303 vergessen | übersehen | verschwitzen | verschlafen | verfehlen | verpassen | versäumen | verpennen
0.359950475146227 anschließen | beitreten | Mitglied werden
0.359570245588916 richten | urteilen
0.358943241670499 aktiv | umtriebig | engagiert | unter Strom stehend | rege | betriebsam
0.35883310781789 unbedingt | mit aller Macht | ganz und gar | auf Gedeih und Verderb | bedingungslos | auf Biegen und Brechen | um jeden Preis | rückhaltlos | mit aller Gewalt | auf Teufel komm raus | ohne Rücksicht auf Verluste
0.357590418501272 Öffentlichkeit | Allgemeinheit | Gemeinwesen
0.357565689315277 überlegen | dominierend | tonangebend | am stärksten ausgeprägt | übermächtig | führend | herrschend | beherrschend | am ausgeprägtesten | dominant
0.357282147746873 Stelle | Ortsangabe | Position | Lokalität | Örtlichkeit | Lokalisation
0.357222116951858 aufnehmen | einwerfen | reinziehen | konsumieren | reinzischen | schlucken | einnehmen | ingestieren | reinpfeifen | zu sich nehmen
0.356676679221292 Schule | Lager | Strömung
0.356337633441186 Reihe | Anzahl
0.355919880776704 kaufen | ankaufen | erwerben | aufkaufen | erkaufen | erstehen
0.355352816416153 sammeln | regenerieren | wiederherstellen | neu erstellen | erholen | berappeln
0.355209713591625 Kommentar | Notiz | Anmerkung
0.354982488402154 hart | grausam | empfindungslos | hartherzig | kalt | kaltherzig | eisig
0.354591844205998 langsam | nach und nach | gemütlich | allmählich | geruhsam | gemach | ruhig | gemächlich
0.354328900327031 Wert | Rang | Bedeutung | Wichtigkeit | Geltung | Einfluss
0.354060472670956 merken | realisieren | registrieren | perzipieren | zur Kenntnis nehmen | wahrnehmen | mitbekommen
0.353578904341922 Pflicht | Agenda | Obliegenheit | Schuldigkeit | Verbindlichkeit | Verpflichtung
0.353533447923133 stimmen | aussprechen | plädieren
0.353483316676806 Zahl | Wert
0.35347391485945 Gewalt | Heftigkeit | Schwung | Wucht | Vehemenz | Kraft | Ungestüm | Schmackes | Karacho
0.352956200168923 schützen | beschützen | sichern
0.352517940599203 herrschen | regieren
0.35232461896263 Studie | Analyse
0.352296794150891 gestalten | einrichten
0.352192163220551 verantwortlich | verantworten | den Hut aufhaben | verantwortlich zeichnen | Verantwortung tragen
0.352048952616805 Zustimmung | Zuspruch | Beipflichtung | Bestätigung | Bejahung | Affirmation | Bekräftigung | Zusagung
0.351173408423386 beantragen | vorschlagen


Grundsätzlich muss man sagen, dass die Werte nicht sehr hoch sind, die Zahlen also nicht gerade darauf hindeuten, dass zumindest auf lexikalisch-semantischer Ebene die individuelle Wahlfreiheit zugunster einiger Favoriten stark eingeschränkt wäre. Freilich, man kann einwenden, dass die Anhänger der NPD als besonders wortgewandt und gebildet gelten dürfen und sich daher das hohe Maß an interindividueller Variation erklären lässt. Aber auch Proberechnungen mit Autorenbeiträgen aus anderen Foren haben keine höheren Werte hervorgebracht.

Dennoch lassen sich die Ergebnisse sicherlich noch optimieren, wenn man statt eines unbearbeiteten Thesaurus eine Anzahl präziser bestimmter Varianten abgefragt hätte. Und wenn man weitere Sprachränge als ausschließlich den lexiko-semantischen in die Analyse einbeziehen würde. Aber das wäre dann doch ein bisschen zu viel Arbeit für einen Blogeintrag…


Literatur:

Drommel, Raimund H. (2011): Der Code des Bösen. Die spektakulären Fälle des Sprachprofilers. München: Wilhelm Heyne Verlag.

 

 

comments: Kommentare deaktiviert für Linguistische Differenzialanalyse und Autorenidentifikation tags: , , , , , , , , ,

Wortschatz-Komplexitätsmaße und Autoridentifizierung

Die Hoffnung, Autoren anhand eines einzigen Indikators unterscheiden oder identifizieren zu können, stand am Anfang der Stilometrie. Der Fokus richtete sich dabei auf Maße, die unterschiedliche Aspekte des Wortschatzgebrauchs modellieren. Sie erlauben Aussagen über eine oder mehrere der folgenden vier linguostatistischen Dimensionen:

  • Verteilung: die Verteilung der Häufigkeit der verwendeten Wörter
  • Konzentration: Anteil (n mal) wiederkehrender Wörter
  • Vielfalt: Anteil nur selten vorkommender Wörter
  • Abdeckung: modelliert das Verhältnis von bestimmten Teilen des Wortschatzes zum Gesamttext (wie viel Prozent eines Textes wird mit den n häufigsten Wörtern / mit Funktionswörtern / … realisiert)

Die Wortschatz-Komplexitätsmaße beruhen meist auf einer teilweisen Verrechnung der folgenden textstatistischen Größen:

  • Anzahl der Token (= Wortzahl eines Textes): N
  • Anzahl der Types (= Anzahl der unterschiedlichen Wörter in einem Text): V
  • Anzahl der hapax legomena (= Types, die genau ein Mal im Text vorkommen): V1
  • Anzahl der dislegomena (= Types, die genau zwei Mal im Text vorkommen): V2
  • Anzahl der Types, die i Mal im Text vorkommen: Vi

Sie erheben den Anspruch, eine Aussage über die Wortschatzdifferenziertheit zu erlauben, das heißt über die Komplexität oder Schlichtheit des in einem Text zum Einsatz kommenden Wortschatzes.

Im Folgenden eine unvollständige Liste prominenter Maße für die Wortschatzkomplexität.

Honoré’s R (1979)

Das von Antony Honoré 1979 vorgeschlagene Maß R basiert auf der Frequenz von nur einmal vorkommenden Wörtern, sogenannten hapax legomena. Es wird wie folgt berechnet:

R = 100 * log N/(1-(V1/V))

Es geht davon aus, dass je häufiger ein Autor Wörter nur einmal benutzt (also beispielsweise Wortwiederholungen vermeidet), desto differenzierter sein Wortschatz ist.

R variiert typischerweise in einer Spanne von 1000 bis 2000, wobei höhere Werte auf einen komplexeren Wortschatz im Text verweisen und zwar in dem Sinn, dass eine große Anzahl Wörter selten im Text auftritt.

Das Maß R ist so konstruiert, dass es unabhängig von der Länge des Textes ist. Es impliziert die Annahme, dass das Verhältnis von hapax legomena zur Menge aller Types bezüglich der logarithmierten Textgrösse konstant ist. Leider ist dies aber nicht der Fall, wie Tweedie und Baayen nachweisen konnten, nimmt es mit zunehmender Textlänge ab.

Sichel’s S (1975)

Dieses Maß beruht auf dem Verhältnis der Frequenz der dislegomena, also von Wörtern, die genau zwei Mal vorkommen, zur Anzahl der Types in einem Text:

S = V2/V

Sichels Untersuchungen ergaben, dass diese Zahl für einen Autor bei Texten zwischen 1000 und 400.000 Wörtern annähernd konstant blieben, sich also robust gegenüber Textlängenschwankungen verhielten.

Brunet’s W (1978)

Ein Maß, das Aussagen weitgehend unabhängig von der Textlänge erlaubt ist Brunet’s W. Es wird wie folgt bestimmt:

W = N^V^-a (lies: N hoch V hoch -a), wobei a eine Konstante ist; Brunet verwendete: a = 0.172

Das Ergebnis variiert gewöhnlich zwischen 10 und 20, wobei ein kleiner Wert eine höhere Komplexität anzeigt.

Yule’s K (1938)

Dieses bereits 1938 vom Statistiker George Udny Yule entwickelte Wortfrequenzmaß gibt an, wie groß die Wahrscheinlichkeit ist, dass beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort gewählt wird. Es wird wie folgt berechnet:

K = 10,000 * (M/N2 – 1/N), wobei M = ∑ i^2*Vi ist.

Ein K-Wert 220 bedeutet, dass die Wahrscheinlichkeit, beim zufälligen Auswählen zweier Wörter aus einem Text zweimal das gleiche Wort zu erhalten, 1 zu 220 ist. Durch die Quadrieriung der Frequenz der Typegruppen (i^2) werden hochfrequente Wörter stärker gewichtet als hapax legomena.

Unter der Annahme, dass die Wahl der Wörter unabhängig von einander erfolgte, d.h. eine Poisson-Verteilung vorliegt, ist Yule’s K von der Textlänge unabhängig. Allerdings gibt es viele sprachtheoretische Gründe und empirische Evidenzen anzunehmen, dass die Wahl der Wörter nicht unabhängig von einander erfolgt.