Google Labs hat ein neues Werkzeug veröffentlicht: den Google Books NGram Viewer. Auf der Grundlage eines Corpus der im Google-Books-Projekt eingescannten Texte kann man sich den Verlauf der Verwendungshäufigkeit von Wörtern und Phrasen zwischen 1800 (Voreinstellung, aber auch früheres Datum einstellbar) und 2000 anzeigen lassen — besonders interessant: auch im Vergleich.

Unter den Sprachen, die zur Verfügung stehen, ist auch das Deutsche. So lässt sich also graphisch anzeigen, dass Krieg und Frieden immer etwa miteinander Konjunktur haben (wenn auch häufiger über den Krieg geschrieben wird), dass nach ca. 1730 erst seit den 1930ern häufiger von Demokratie als von Monarchie die Rede ist oder dass anscheinend erst in den 1990ern das Lexikon das Wörterbuch überholt.

Die Datengrundlage, Listen von N-Grammen, kann man sich sogar für eigene Experimente herunterladen — falls man genug Speicherplatz und Prozessorleistung für die Verarbeitung hat.

So weit, so schön — trotzdem fallen leider gleich auf Anhieb auch einige Punkte auf, die bei der Interpretation der Ergebnisse zu berücksichtigen sind:

  • Es treten OCR-Fehler bei älteren Texten in Frakturschrift auf — nur ein Beispiel: Die Suche nach Google ergibt auch Treffer im 19. Jahrhundert. Einer davon beruht auf der inkorrekten Erkennung des Worts Gesagte, ein anderer auf der des Wortes Annales (letzteres sogar in Antiqua-Druck) auf derselben Seite eines alten Journals.
  • Die Bücher scheinen zeitlich nicht immer korrekt einsortiert zu sein — nur ein Beispiel: Ein Text, der angeblich von 1970 stammt, der aber tatsächlich 2006 entstand und in dem diesmal korrekt (u.a.) von Google die Rede ist.
  • Während für das Englische wenigstens eine kleine Möglichkeit der Auswahl von Subcorpora bestimmter Genres oder Varietäten möglich ist (Amerikanisches oder Britisches Englisch, fiktionale englische Texte), ist für das Deutsche nur ein großer Haufen Text ohne weitere Untergliederung vorhanden. Es gibt zwar die Möglichkeit, den Zeitraum einzuschränken, aber z.B. eine Unterscheidung zeitgleich entstandener bundesdeutscher ggü. deutschdemokratischer Texte ist anscheinend nicht möglich. Woher die Texte sind, muss im Anschluss an die Suche mühsam und per Strichliste aus der verlinkten Google-Books-Seite entnommen werden. Wissenschaftliche oder fiktionale Texte, österreichische oder schweizerische Texte — Annotation und Suchfilter Fehlanzeige.
  • Unschön ist auch, dass auch die Namen der Buchautoren als Treffer in die Suchergebnisse eingehen. Wer also etwa nach Schneider sucht, findet in den Ergebnissen auch alle Bücher, die von einer Frau oder einem Herrn Schneider verfasst wurden. Wäre natürlich interessant, ob der Anteil des Autorennamens in jeder Zeitspanne gleich bleibt — unwahrscheinlich, aber auch mühselig herauszufinden.

Wie gesagt, diese Punkte sind bei der Interpretation der Ergebnisse zu berücksichtigen. Ich will damit aber nicht sagen, dass dieses Werk- nicht auch ein nettes Spielzeug wäre, das mich vermutlich noch häufiger von der Arbeit abhalten wird ich noch hin und wieder zur Hypothesengenerierung nutzen werde.