Will man Texte klassifizieren, z.B. Zeitungstexte automatisch in die Kategorien Nachrichten, Kommentar und Feature sortieren, oder untersuchen, ob Texte unbekannter Herkunft von einem bestimmten Autor stammen, dann muss Merkmale festlegen, anhand derer die Texte mit einander verglichen werden sollen, um sie nach Ähnlichkeit zu ordnen. Im Folgenden eine Liste von Merkmalskategorien, die in der Stilometrie häufig zum Einsatz kommen.
Textkomplexität
- durchschnittliche Wortlänge bzw. Verteilung der Wortlängen im Hinblick auf Silben- oder Buchstabenzahl
- durchschnittlich Wortzahl pro Satz
- Verhältnis von Types zu Token
- Frequenzen von Wörtern, die bestimmten Häufigkeit angehören, beispielsweise Wörter, die nur einmal vorkommen (hapax legomena)
Funktionswörter
- Grundannahme 1: Funktionswörter variieren nicht oder kaum mit dem Thema des Textes, sondern bilden eine Art stilistische Konstante
- Grundannahme 2: Funktionswörter werden nicht bewusst manipuliert
- Für das Englische werden typischerweise folgende Wortklassen (mit insgesamt einigen hundert Vertretern) verwendet: Pronomen, Präpositionen, Hilfsverben, Modalverben, Konjunktionen und Artikel; daneben auch Zahlen und Interjektionen, auch wenn es sich dabei nicht um Funktionswörter im engeren Sinn handelt
Syntax und Wortarten
- relative Frequenz bestimmter syntaktischer Konstruktionen, anhand von:
- Verteilung der Ergebnisse syntaktischer Text-Chunker und Parser
- Verteilung von Wortartensequenzen oder Verteilung aus Folgen der Kombination von Wortarten und bestimmten Wortklassen
Funktionale lexikalische Taxonomien
- bestimmte Wortarten und Funktionswörter werden in ein Klassifikationsschema gebracht, das semantische und grammatikalische Unterschiede zwischen unterschiedlichen Klassen auf unterschiedlichen Ebenen der Abstraktion repräsentiert
- diese Taxonomien können dann benutzt werden, um Merkmale zu konstruieren, die stilistisch relevant sein können: auf der untersten Ebene können dies Funktionswörter oder part-of-speech-Unigramme sein; aber auch abstraktere Ebenen (Verteilung von semantischen Wortklassen) können für die Stilbestimmung eingesetzt werden
Inhaltswörter
- eine problematische Kategorie, da Inhaltswörter je nach Thema und Kommunikationsbereich variieren
- üblicherweise können sehr seltene Wörter und solche, die im Korpus eine stabile Verteilung aufweisen, ausgesondert werden
- als erfolgreich haben sich auch Inhaltswort-n-Gramme und Kollokationen von Inhaltswörtern erwiesen
Buchstaben n-Gramme
- einige Autoren behaupten, Buchstaben n-Gramme seien nützlich für die Identifizierung lexikalischer Präferenzen, ja sogar für grammatikalische und orthographische Vorlieben
- der Vorteil: man braucht überhaupt kein linguistisches Wissen
- offenbar gibt es gewisse Erfolge bei der Anwendung: insbesondere bei der Textsortenidentifikation oder bei der Messung der Ähnlichkeit von Dokumenten
Weitere Merkmale
- morphologische Analyse: erfolgreich bei morphologisch komplexeren Sprachen
- Frequenz und Verteilung von Satzzeichen
- orthographische und/oder grammatikalische Fehler
One Response to "Sprachliche Merkmale bei der Textklassifikation und Autorenidentifikation"
Pings responses to this post
[…] am häufigsten für die Autorenidentifizierung benutzten linguistischen Feature habe ich in einem früheren Post zusammengestellt. Mir geht es aber hier um die Grundidee des maschinellen Lernens: Man benutzt eine […]