Die Zukunft der deutschen Sprache (im digitalen Zeitalter)

Posted on 11th September 2014 in Digitale Revolution, Meta

Wenn man Texte über die Zukunft der deutschen Sprache liest, dann werden immmer wieder drei Tendenzen genannt:

  • wir werden in Zukunft noch mehr Wörter und Wendungen aus dem Englischen entlehnen
  • die Tendenz von synthetischen Formen zu analytischen Konstruktionen wird sich fortsetzen
  • (Multi-)Ethnolekte werden die Strukturen des Deutschen beeinflussen

So interessant und richtig diese Beobachtungen sein mögen, so scheint mir doch, dass die Zukunft der deutschen Sprache — und auch anderer Sprachen — am meisten davon beeinflusst wird, dass Computer einen immer größer werdenden Anteil an der Kommunikation haben. Aber nicht im trivialen Sinn, dass in der computervermittelten Kommunikation die Sprache verfällt. Computer sind vielmehr direkt oder indirekt immer tiefer in Transferprozesse im Medium der Sprache involviert. Und das hat Folgen in mindestens drei Bereichen:


1. Sprachliche Äußerungen werden nicht mehr nur von Menschen für Menschen produziert

Wenn Menschen früher geschrieben haben, dann haben sie das immer mit der Absicht und im Bewusstsein dessen getan, dass andere Menschen das Geschriebene lesen. Im digitalen vernetzten Zeitalter ist dies längst nicht mehr so. Viele Texte im Netz werden heute in dem Bewusstsein geschrieben, dass die Texte von Suchmaschinen durchsucht werden; und sie werden auf die Indexierungs- und Ranking-Algorithmen der Suchmaschinen hin optimiert. Die Adressaten bei suchmaschinenoptimierten Texten sind also nicht mehr nur die Menschen, sondern auch die Suchmaschine. Auf den Webseiten von „Textoptimierern“ liest sich das dann so: „Ob Blogbeitrag, Produktbeschreibungen, Artikel oder große Webprojekte zu den vielfältigsten Themen: NN ist der schnelle Weg für qualitativ hochwertigen Text-Content, der nicht nur Ihre User, sondern auch Suchmaschinen überzeugt.“ Und es gibt schon lange Texte, die ausschließlich für Suchmaschinen verfasst werden, viele Seiten in Webshops etwa werden nur für Google getextet. Hier ist es Usus, für jedes „Keyword“, also jedes Such-Lexem, das für den eigenen Geschäftsbereich relevant ist, und seine Kombinationen mit anderen Keywords eine eigenständige Landing Page mit „einzigartigem Content, der sich ausschließlich mit dem jeweiligen Keyword beschäftigt“ zu erstellen.

Parallel kommunizieren wir zunehmend natürlichsprachlich mit Computern und nicht mehr ausschließlich vermittelt über eigens für die Mensch-Maschine-Kommunikation entwickelte Sprachen, die wir mühsam erlernen müssen (vulgo: Programmiersprachen), oder von Sprache begleitet ikonische Systeme (vulgo: User Interfaces). Softwareunternehmen arbeiten vielmehr daran, dass wir unsere Anfragen und Befehle an Computer möglichst alltagssprachlich formulieren können, so dass wir den Eindruck bekommen, mit Computern wie mit Menschen interagieren zu können. Siri lässt grüßen.

Gleichzeitig produzieren Computer mehr und mehr auch natürlichsprachliche Texte: Sie verfassen Wikipedia-Artikel oder standardisierte Nachrichtentexte, formulieren Gutachten oder geben Antworten in Dialogsystemen. Und sie produzieren sogar natürlichsprachige Texte, die gar nicht für Menschen gemacht sind: Algorithmen der automatischen Textoptimierung schreiben menschliche Text so um, dass sie von Suchmaschinen höher gerankt werden, oder sie kompilieren die Texte gleich selbst aus natürlichsprachlichem Material. Computer schreiben für Computer.

Ob wir also Texte für Suchmaschinen optimieren, beim Schreiben von E-Mails oder im Chat bestimmte Schlagwörter vermeiden, um nicht in das Visier von Geheimdiensten oder Polizei zu geraten, oder einen Tweet mit einem Hashtag versehen: immer handeln wir im Bewusstsein dessen, dass Computer mitlesen, analysieren und ordnen, um Inhalte auffindbar zu machen. Aber Computer sind immer häufiger auch die Adressaten natürlichsprachiger Äußerungen und produzieren im Zuge dessen auch selbst natürlichsprachlich daherkommende Äußerungen und zwar für Menschen und Computer gleichermaßen. Vielleicht ist es noch nicht an der Zeit zu sagen, dass Sprache damit in letzter Konsequenz nicht mehr eine exklusive Eigenschaft der Spezies Mensch ist; denn Computer sind keine Spezies. Aber Computer haben einen wachsenden Einfluss, auch auf das soziale Konstrukt Sprache.


2. Die Mensch-Maschine-Kommunikation verlangt nach einer Standardisierung der Sprache

Immer dann, wenn Menschen direkt sprachlich mit Maschinen interagieren, sind sie gezwungen, ihre Sprache den Verarbeitungsmöglichkeiten des Computers anzupassen. Schon bei Speech-to-text-Anwendungen, wenn die Maschine nicht mehr ist als ein intelligentes Werkzeug, müssen sie deutlich sprechen oder zumindest auf die Art, wie sie die Maschine trainiert haben. Der adressatenspezifische Zuschnitt von Beiträgen zu einem Gespräch, das die Linguistik recipient design nennt, ist freilich nicht ungewöhnlich, er bedeutet aber beim jetzigen Stand der computerlinguistischen Möglichkeiten auch eine massive Reduktion der sprachlichen Möglichkeiten. Die Folge ist eine Standardisierung unseres Sprachverhaltens, eine Reduzierung der Variation und eine Vermeidung von Ambiguitäten, die zum Misslingen der Kommunikation führen könnten.

Die Chance, dass Computer unsere sprachlichen Äußerungen im von uns intendieren Sinn verarbeiten kann, steigen dramatisch, wenn unsere Äußerung geringe phonetische oder orthographische Variation aufweist, eine einfache, zuverlässig parsbare Syntax hat und wir Kernwortschatz oder terminologisierter Ausdrücke benutzen. Die computerinduzierte Standardisierung unserer Sprache führt also zu Vereinheitlichung, Vereinfachung und Logisierung.

Standardisierung freilich ist nichts, was erst mit dem Computer in die Sprache kam. In allen Sprachen formieren sich Sprachstandards und viele Sprachgemeinschaften haben sogar kodifizierte Standardsprachen ausgebildet. Diese Standardsprachen und ihre Beherrschung werden zweckrational (Verständigung optimieren), kulturelitär (differenzierte Literatursprache als kulturelle Errungenschaft) und gesellschaftspolitisch (Integration durch gemeinsame Sprache) begründet. Sprachvorbilder, die bei der Konstruktion der Standardnorm herangezogen wurden, waren historisch gesehen die Sprache der Schriftsteller, die Sprache der oberen Schichten in den kultiviertesten Regionen oder die Sprache der überregionalen Zeitungen. Die Digitalisierung macht hier einen Paradigmenwechsel möglich: Im Internet kann jeder Mensch sprachliche Spuren hinterlassen, die technisch auf die gleiche Weise zugänglich sind und mit dem gleichen Aufwand erfasst werden können wie die Texte überregionaler Zeitungen. Eine Standardnorm, die sich stärker am Sprachgebrauch aller Angehörigen einer Sprachgemeinschaft orientiert, ist denkbar. Doch just in diesem historischen Moment wird der Computer selbst zum Faktor der Standardisierung: Sprachnormen werden nicht mehr allein von Menschen auf der Basis menschlichen Handelns gemacht, die Kommunikation mit, für und von Computern führt vielmehr neue Begründungsmuster in den Sprachnormendiskurs ein. Standardsprache wird in Zukunft auch daran gemessen, wie gut sie maschinell verarbeitbar ist.


3. Vom Gewebe zur Struktur: Die Vertextung von Wissen tritt zurück hinter die Repräsentation von Wissen in der Form strukturierter Daten

Der Text ist die klassische Form der Wissensspeicherung, der Wissensvermittlung und der diskursiven Verhandlung von Wissen. Und das mit gutem Grund: in Texten kann Wissen begründet, hinterfragt und durch Verweise auf andere Texte mit Kontextwissen verknüpft werden. Texte sind kohärente, d.h. thematisch orientierte, Sprachhandlungen, die aus transphrastischen semantischen und syntaktischen Beziehungen, kulturellen Konventionen und Stilprinzipien ihre Einheit erhalten. Als Gewebe sind Texte nicht linear, auch wenn ihre graphische Repräsentation das suggeriert. Ihre Bestandteile sind komplex miteinander verknüpft und die Gesamtheit der Verknüpfungen lassen den Text überhaupt erst als solchen entstehen. Und Texte sind offen für Interpretationen, ihr Sinn liegt nicht fest, bestenfalls gibt es Auslegetraditionen.

Mit all diesen Dingen sind Computer überfordert. Im Textmining war ein Text lange eine bag of words, ein Sack voller Wörter. Die grundlegende Idee hinter diesem schon in den 1960er Jahren entwickelten Ansatz ist, dass sich die Bedeutung eines Textes mit Hilfe des Gewichts der im Dokument vorkommenden Terme operationalisieren ließe. Ein Text wird dann als Vektor repräsentiert, dessen Elemente die dokumentenspezifischen Werte jedes einzelnen Terms enthält. Auch wenn die Merkmalsvektoren komplexer geworden sind und mehr Eigenschaftsdimensionen natürlicher Sprachen abbilden, so sind Informatik und Computerlinguistik noch weit davon entfernt, den menschlichen Umgang mit Texten modellieren zu können.

Und solange dieses Defizit besteht, solange wird immer dann, wenn Wissen nicht nur für Menschen, sondern auch für Computer bereitgestellt werden soll, die Datenbank den Vorrang vor dem Text erhalten. Die Entstehung von Wikidata ist ein Symptom für diese Entwicklung. Die vermeintliche Eindeutigkeit der strukturierten Daten, der Versuch, die Komplexität der Welt in einem Datenmodell abzubilden, mag zwar einen Gewinn an Präzision und Eindeutigkeit mit sich bringen, die Computer für ihre Operationen benötigen; diese Eindeutigkeit ist aber per se eine Beschränkung der möglichen Bedeutungen von kulturellen Einheiten, Phänomenen, ja von Fakten und entspricht nicht der Art, wie bislang in unserer Gesellschaft mit Wissen umgegangen wird. Und die Kultur der strukturierten Daten, die maschinell verarbeitet, verknüpft, verbreitet und universell importiert werden können, ist offener für Manipulation und Missbrauch als die Textkultur.


Auch wenn an einzelnen Stellen Kritik anklingt, will ich die geschilderten Tendenzen nicht negativ beurteilen. Denn neben dem Verlust eines Alleinstellungsmerkmals unserer Spezies, an alleiniger Definitionsmacht der Menschen über Sprachnormen und dem Verlust des Primats von Texten gegenüber strukturierten Daten gewinnen wir durch die Digitalisierung der Sprache und ihre maschinelle Modellierung auch unendlich viele neue kommunikative Möglichkeiten. Und an Möglichkeiten, die digitalisierte Sprache zu hacken.



Für die Sächsische Zeitung hat Dominique Bielmeier mit mir über das Thema gesprochen.

2 Responses to "Die Zukunft der deutschen Sprache (im digitalen Zeitalter)"

  1. Pompeius sagt:

    Dieser Text über Sprachwandel ist völlig unnütz, denn er taugt nicht, um sich über Ausländer, Jugendliche oder Gender Mainstreaming zu echauffieren. Nicht mal auf Google, als Dämon des Digitalen, wird in gebührlicher Weise eingedroschen, wo das doch so nah gelegen hätte. Bitte heben Sie dringend ihren Anspruch!