Der Tagesspiegel bringt in seiner Online-Ausgabe heute eine kleine Vorstellung des Goethe-Wörterbuchs von Michael Niedermeier, Leiter der Arbeitsstelle an der Berlin-Brandenburgischen Akademie der Wissenschaften.

Der Artikel hat mich zu einer kleinen Fingerübung gereizt. Dazu habe ich Goethes Faust I als Textdatei gesucht (Quelle, von mir im Anschluss leicht modifiziert, daher gebe ich bei Zahlen auch nur circa- und rund-Angaben an) und ihn mit ein paar Werkzeugen (insb. dem TreeTagger, der auch nicht jedes veraltete Dativ-e erkennt, und ein paar selbstgehackten und wirklich nur semiprofessionellen Scripts) in Listenform gebracht (hatte ich schon einmal erwähnt, dass ich ein Freund von Listen bin?). Das ist nichts, was nicht schon zig Leute vor mir gemacht hätten, aber man darf ja spielen und kann dabei ein paar ganz generelle Texteigenschaften zeigen.

Goethes Faust I in ganz platten Zahlen:

  • ca. 3400 Sätze
  • ca. 30830 Wortformen (also ca. 9 pro Satz)
  • ca. 6260 Wortform-Types (flektiert)
  • ca. 4865 Worttypes (Lemmas, Lexeme)

Die häufigsten 20 Worttypes (lemmatisiert mit dem TreeTagger) sind die folgenden:

Lemma Anzahl kum. %
d 2198 7,13%
ich 1202 11,03%
und 918 14,00%
sein 851 16,77%
du 544 18,53%
es 513 20,19%
ein 493 21,79%
nicht 424 23,17%
ihr 416 24,52%
zu 380 25,75%
er 357 26,91%
in 308 27,91%
so 292 28,85%
Mephistopheles 283 29,77%
mit 274 30,66%
er|es|sie 267 31,53%
Faust 266 32,39%
was 230 33,13%
wie 226 33,87%
haben 223 34,59%

Die Pronomina er, sie, es kommen sowohl in je eigenen Zellen als auch in einer gemeinsamen Zelle in der Tabelle vor, da der TreeTagger reflexive (er|es|sie) und irreflexive Pronomina (eigene Zelle) auf diese Weise unterschiedlich lemmatisiert. Mephistopheles und Faust kommen naturgemäß in diesem Text häufig vor, aber hier auch deswegen, weil ich die Regieanweisungen “FAUST:”, “MEPHISTOPHELES (zu Faust):” etc. im Text belassen habe. Ohne wüsste man also gar nicht, ob ich nicht in Wirklichkeit einen anderen Text analysiert habe.

Das “d” bezeichnet die bestimmten Artikel und Pronomina der, die, das. In jedem “normalen” Text (da ist auch egal, ob er aktuell oder 200 Jahre alt ist) zählen diese zu den häufigsten Wörtern, die hier alleine rund 7% aller in Faust I verwendeten Wortformen ausmachen.

Wie man anhand der dritten Spalte, die die kumulierten Prozentzahlen auflistet, sehen kann, decken die 19 am häufigsten verwendeten Worttypes bereits mehr als ein Drittel aller verwendeten Wortformen des Texts ab, die 61 am häufigsten verwendeten Worttypes (61 von rd. 4865, das sind nicht einmal 1,5%!) decken mehr als die Hälfte aller verwendeten Wortformen (15428 von rd. 30830) ab.

Blickt man ans andere Ende der Tabelle (das ich, wie gleich klar werden wird, aus Platzgründen nicht abdrucke), zeigt sich, dass im Text 2950 Worttypes nur ein einziges Mal vorkommen — 2950 von rd. 4865, also rd. 60% aller Worttypes! Am gesamten Text haben diese Wörter, etwa Bürgersleut, Feuerluft, Ängstesprung, Abendstrahl, erpflegen, durchschmarutzen oder eingeteufelt, einen Anteil von rd. 10%.

Während also die nur 61 am häufigsten verwendeten Wortformen mehr als die Hälfte aller Textwörter abdecken, machen die 2950 nur einmal vorkommenden Wörter lediglich ein rundes Zehntel aus. Diese Verhältnisse sind allerdings keine Spezialität von Goethe, sondern sind einigermaßen normal. In jedem nicht ganz kurzen Text gibt es wenige Worttypes, die den Großteil aller Wortformen im Text ausmachen, und sehr viele Worttypes, die nur einmal vorkommen und auch zusammengenommen insgesamt nur einen kleinen Teil aller Wortformen ausmachen (dieses Verhältnis ist sogar regelhaft, vgl. weiterführend etwa Wikipedia: Zipfsches Gesetz).

Wenn man diese Verhältnisse auch nur ganz annähernd auf das Goethe-Wörterbuch übertragen kann*, wo von einem Wortschatz von (weit über) 90000 Wörtern (man muss wohl von Worttypes ausgehen) die Rede ist, bedeutet das, dass von diesen 90000 Wörtern um die 54000 nur ein einziges Mal vorkommen und damit für eine hohe Artikelzahl im Wörterbuch mit verantwortlich sind. Und dass nur die 50 häufigsten Worttypes derart häufig in Goethes Gesamtwerk vorkommen, dass man sich jetzt vielleicht vorstellen kann, was es heißt, wenn Niedermeier von “Fleißarbeit” spricht.

* Die Übertragung ist (natürlich) nicht so einfach möglich. Zum einen wird ein Corpus, je größer es ist, desto gesättigter. Irgendwann kommen mit einem neuen Text einfach keine unbekannten Wörter mehr, sondern nur solche, die in früheren Texten bereits enthalten waren. Andererseits beinhaltet Faust I aber nicht einmal 5000 von mehr als 90000 Wörtern des Goethe-Wortschatzes, so dass klar ist, dass hier wirklich nur ein kleiner Ausschnitt vorliegt.

About these ads