[Warnung: Der folgende Beitrag enthält mehrere Meter breite Diagramme! :-) ]

Immer mal wieder (und trotz eigentlich besseren Wissens) werden Google-Trefferzahlen herangezogen, um Aussagen über die Verwendungshäufigkeit eines sprachlichen Ausdrucks zu geben. Dabei wissen wir eigentlich, 1) dass wir nicht genau wissen, welche Texte Google überhaupt indiziert hat (m.a.W.: wir kennen das Corpus nicht), und 2) dass die Google-Trefferzahlen beim Klick auf die fünfte, zehnte oder fünfzehnte Ergebnisseite auf einmal ganz anders aussehen können (wenn die fünfzehnte Ergebnisseite überhaupt vorhanden ist und nicht zehn Milliarden Treffer auf einmal zu nur zwölf Ergebnisseiten zusammenschrumpfen). Und 3) ist mir auch irgendwann aufgefallen, dass sich die Trefferzahlen ändern, und zwar nicht, wie mit gesundem Menschenverstand zu erwarten, langsam ansteigend, sondern teilweise sehr sprunghaft nach oben und auch nach unten. Dieses Phänomen wollte ich etwas genauer unter die Lupe nehmen.

Ich habe deshalb für verschiedene Suchausdrücke über 18 Monate hinweg (vom 18. März 2013 bis zum 18. September 2014) zweimal täglich (je um 0:30 Uhr und um 12:30 Uhr) die Trefferzahlen ermittelt, um anschließend deren Verlauf zu betrachten.(*) Auf diese Weise sind pro Suchausdruck 1.100 Werte zusammengekommen. NB: Es handelt sich um die Trefferzahlen der ersten Ergebnisseite; wie bereits angedeutet, können die Zahlen auf Folgeseiten abweichen.

Die Suchausdrücke lauteten (alphabetisch; gesucht je mit Anführungszeichen): crowdfunden, Fracking, gehen, haben, Haus, Rüsselhündchen, sehen, Sprachwissenschaft sowie werden; sie sind einer damaligen Laune zu verdanken sowie der Überlegung, neben sehr häufigen Wörtern (gehen, haben, sehen, werden; Haus) auch solche mittlerer oder niedriger Frequenz und solche mit Aussicht auf erkennbare Häufigkeitssteigerung (v.a. Fracking) aufzunehmen.

Die Ergebnisse, die im Folgenden in Diagrammform gezeigt werden (ein Klick öffnet jeweils eine seeeehr breite Grafik), bestätigen den Eindruck, dass sich die Trefferzahlen sprunghaft ändern können, und zwar teilweise um ein Vielfaches des vorherigen Messwertes (Anstiege um 100% sind keine Seltenheit); genauso schnell können sie auf einen Bruchteil abfallen. Dabei ist mir keine Systematik offensichtlich: Die Ausreißer finden sich unregelmäßig, an verschiedenen Wochentagen, und ein starker Ausreißer bei einem Suchausdruck geht nicht in jedem Fall automatisch mit einem ebenso starken Ausreißer bei den anderen Suchausdrücken einher.

Das erste Diagramm zeigt dies bereits zusammenfassend anhand der prozentualen Abweichungen zu jedem Messzeitpunkt relativ zum jeweiligen Medianwert (= Null-Linie) für jeden Suchausdruck (mit Ausnahme von crowdfunden, da die außergewöhnlich hohen Abweichungen dort die Darstellung aller anderen Ausdrücke zu stark gestaucht hätte, siehe unten). Der Median schien mir geeignet als ein Wert, der von den Ausreißern (hoffentlich) nicht betroffen ist. Die Linienverläufe zeigen die starken Abweichungen, die teilweise als isolierte Spitzen, teilweise aber auch über mehrere Messzeitpunkte hinweg auftreten. Ende Oktober/Anfang November 2013 scheint es etwas mehr Aufregung zu geben, auch wenn diese sich bei einigen Ausdrücken viel deutlicher zeigt als bei anderen. Und in den vergangenen Wochen scheint mir das Hin und Her immer schlimmer zu werden:

Prozentuale Abweichung relativ zum Median für jeden Suchausdruck

Prozentuale Abweichung relativ zum jeweiligen Median für jeden Suchausdruck

Die folgenden Diagramme zeigen die Verläufe der absoluten Zahlwerte für jeden einzelnen Suchausdruck.

Bei crowdfunden gibt es relativ wenige Abweichungen, diese sind jedoch so groß, dass der übliche Frequenzbereich (der Median liegt innerhalb des Untersuchungszeitraums bei 1.860 „Treffern“) im Diagramm optisch nicht von der Null-Linie zu unterscheiden ist, da die Ausreißer nach oben Werte von 1,2 Mio. bis hin zu über 10 Mio. (!) annehmen (und damit, ausgehend vom vorherigen Wert von 1.280, einen Sprung von schlappen 820.212,5% hinlegen) — genauso schnell aber wieder zurückspringen:

Google-Ergebnisse für "crowdfunden"

Google-Ergebnisse für „crowdfunden“

Auch das relativ seltene Substantiv Rüsselhündchen (Median: 2.350; Minimum: 712; Maximum: 22.200) zeigt noch vergleichsweise wenig Auf und Ab:

Google-Ergebnisse für "Rüsselhündchen"

Google-Ergebnisse für „Rüsselhündchen“

Fracking (Median: 1.510.000; Minimum: 163.000; Maximum: 15.200.000) zeigt insbesondere Ende Oktober/Anfang November 2013, aber auch zu anderen Zeitpunkten große Ausschläge. Die erhoffte „erkennbare Häufigkeitssteigerung“ ist allerdings nicht wirklich gut zu erkennen:

Google-Ergebnisse für "Fracking"

Google-Ergebnisse für „Fracking“

Sprachwissenschaft ist mit einem Median von 1.630.000 (Minimum: 241.000; Maximum: 15.600.000) in einer vergleichbaren Liga wie Fracking, zeigt aber einen ganz anderen Trefferverlauf, was schon im Vergleich der winzigen Vorschauen sichtbar wird:

Google-Ergebnisse für "Sprachwissenschaft"

Google-Ergebnisse für „Sprachwissenschaft“

Noch ein abschließendes Substantiv: das im Vergleich sehr häufige Haus (Median: 234.500.000; Minimum: 4.630.000; Maximum: 2.490.000.000) hat mehr und höhere Ausreißer als beispielsweise Sprachwissenschaft:

Google-Ergebnisse für "Haus"

Google-Ergebnisse für „Haus“

Und schließlich die hochfrequenten Verben gehen (Median: 137.000.000; Minimum: 4.900.000; Maximum: 1.240.000.000), sehen (Median: 200.000.000; Minimum: 938.000; Maximum: 1.530.000.000), haben (Median: 811.000.000; Minimum: 14.400.000; Maximum: 4.730.000.000) und werden (Median: 948.000.000; Minimum: 2.670.000; Maximum: 4.490.000.000); hier einfach zum Vergleich untereinander:

Google-Ergebnisse für "gehen"

Google-Ergebnisse für „gehen“

Google-Ergebnisse für "sehen"

Google-Ergebnisse für „sehen“

Google-Ergebnisse für "haben"

Google-Ergebnisse für „haben“

Google-Ergebnisse für "werden"

Google-Ergebnisse für „werden“

Die Lehre, die man aus diesen Schluckauf-Zahlen ziehen kann, kann nur lauten: Man sollte Google-Trefferzahlen wirklich nicht verwenden, um Aussagen über die Verwendungshäufigkeit sprachlicher Ausdrücke zu geben — und wenn schon, dann sollte man im Abstand mehrerer Tage mehrere Trefferzahlen einholen und prüfen, ob die Häufigkeitsaussage nicht auf Ausreißern basiert.

(*) Genauer gesagt, habe ich mir mittels eines Cronjobs zweimal täglich die Google-Ergebnisseite durch den Textbrowser Lynx ausgeben lassen und habe sie dann durch ein Perl-Script gejagt, das mir die Trefferzahl herausgefiltert hat. Der Cronjob lief auf dem Server des Rechenzentrums der Friedrich-Alexander-Universität Erlangen-Nürnberg — was auch immer das für Auswirkungen auf die Personalisierungs-Einstellungen von Google hat.

[Nachtrag] In den Kommentaren ist anhand von „Fracking“ und „haben“ stellvertretend gezeigt, in welchem Rahmen sich die Häufigkeitsverteilung der Google-Trefferzahlen bewegt.

Werbung