Liebe Freunde der Sicherheit,
solange es noch keine Klarnamenpflicht im Internet gibt und noch keine wirksamen Mittel, sie durchzusetzen, ist die Autorenidentifizierung eines der Kerngeschäfte von Sicherheitsinformatikern.
Die Grundkonstellation bei der Autorenidentifizierung sieht wie folgt aus: Zu einem anonymen Text wird ein Autor gesucht. Es gibt eine begrenzte Anzahl möglicher Autoren, von denen jeweils ein Korpus von Texten existiert. Dieses Problem ist im Kern ein Kategorisierungsproblem: Wir müssen die Texte, bei denen die Autoren bekannt sind, anhand ihrer Merkmale in Klassen einteilen und dann untersuchen, in welche Klasse der anonyme Text aufgrund seiner spezifischen Merkmale einteilen würden. Dokumente werden hierfür als numerische Vektoren dargestellt, die die Ausprägung möglicher relevanter Merkmale dieser Texte abbilden. Dann wendet man Methoden des maschinellen Lernens an, um Klassifikatoren zu finden, die die Texte, die zu unterschiedlichen Klassen gehören, voneinander unterscheiden.
Es gibt aber auch eine Reihe von Problemen, die sich nicht mit den Standardverfahren maschinellen Lernens lösen lassen und bei denen die Autorenidentifikation noch nicht so erfolgreich ist:
- Das Verifikationsproblem: Es gibt kein geschlossenes Set an Kandidaten, aber einen Verdächtigen. Ziel ist es, Kriterien dafür zu finden, ob der Verdächtige der Autor ist oder nicht. Im Prinzip handelt es sich hier um ein Klassifikationsproblem mit nur einer Klasse – unschön!
- Das Nadel-im-Heuhaufen-Problem: Es gibt eine große Anzhal von Kandiadten von denen nur kleine Trainingskorpora zur Verfügung stehen. Wegen der großen Anzahl Kandidaten (und damit Klassen) können hier (noch) keine Lern-Modelle eingesetzt werden.
- Das Profiling-Problem: Es gibt keine Trainingskorpora, anhand derer wir Kandidatenprofile errechnen können; Ziel ist dann, möglichst viel über die Eigenschaften des Autors herauszufinden. Insbesondere Geschlecht, Muttersprache und Alter, aber auch charakterliche Grundeigenschaften sind Gegenstand der Analysen.
Dennoch ist die Klassifikation mittels Methoden maschinellen Lernens eine zentrale Technik bei der Autorenidentifizierung, aber auch in anderen Bereichen. Diese Methoden sollen im Blog nach und nach vorgestellt werden.
Sehr spannend, bitte weitermachen! Habe heute mit einem ähnlichen Problem zu tun gehabt und händisch gelöst. Ein anonymer Text musste einer Person aus einem begrenzten Verdächtigenkreis (Textproben vorhanden) zugeordnet werden. Ich habe dann einfach ein paar linguistisch markante Wörter ‚rausgesucht und mit der Verteilung in den Texten der „Verdächtigen“ abgeglichen. Das Ergebnis war eindeutig. Da ich in Machine Learning forsche, bin ich jetzt natürlich gespannt, wie solche Aufgaben „richtig“ angegangen werden. MfG