[Warnung: Der folgende Beitrag enthält mehrere Meter breite Diagramme! :-) ]
Immer mal wieder (und trotz eigentlich besseren Wissens) werden Google-Trefferzahlen herangezogen, um Aussagen über die Verwendungshäufigkeit eines sprachlichen Ausdrucks zu geben. Dabei wissen wir eigentlich, 1) dass wir nicht genau wissen, welche Texte Google überhaupt indiziert hat (m.a.W.: wir kennen das Corpus nicht), und 2) dass die Google-Trefferzahlen beim Klick auf die fünfte, zehnte oder fünfzehnte Ergebnisseite auf einmal ganz anders aussehen können (wenn die fünfzehnte Ergebnisseite überhaupt vorhanden ist und nicht zehn Milliarden Treffer auf einmal zu nur zwölf Ergebnisseiten zusammenschrumpfen). Und 3) ist mir auch irgendwann aufgefallen, dass sich die Trefferzahlen ändern, und zwar nicht, wie mit gesundem Menschenverstand zu erwarten, langsam ansteigend, sondern teilweise sehr sprunghaft nach oben und auch nach unten. Dieses Phänomen wollte ich etwas genauer unter die Lupe nehmen.
Ich habe deshalb für verschiedene Suchausdrücke über 18 Monate hinweg (vom 18. März 2013 bis zum 18. September 2014) zweimal täglich (je um 0:30 Uhr und um 12:30 Uhr) die Trefferzahlen ermittelt, um anschließend deren Verlauf zu betrachten.(*) Auf diese Weise sind pro Suchausdruck 1.100 Werte zusammengekommen. NB: Es handelt sich um die Trefferzahlen der ersten Ergebnisseite; wie bereits angedeutet, können die Zahlen auf Folgeseiten abweichen.
Die Suchausdrücke lauteten (alphabetisch; gesucht je mit Anführungszeichen): crowdfunden, Fracking, gehen, haben, Haus, Rüsselhündchen, sehen, Sprachwissenschaft sowie werden; sie sind einer damaligen Laune zu verdanken sowie der Überlegung, neben sehr häufigen Wörtern (gehen, haben, sehen, werden; Haus) auch solche mittlerer oder niedriger Frequenz und solche mit Aussicht auf erkennbare Häufigkeitssteigerung (v.a. Fracking) aufzunehmen.
Die Ergebnisse, die im Folgenden in Diagrammform gezeigt werden (ein Klick öffnet jeweils eine seeeehr breite Grafik), bestätigen den Eindruck, dass sich die Trefferzahlen sprunghaft ändern können, und zwar teilweise um ein Vielfaches des vorherigen Messwertes (Anstiege um 100% sind keine Seltenheit); genauso schnell können sie auf einen Bruchteil abfallen. Dabei ist mir keine Systematik offensichtlich: Die Ausreißer finden sich unregelmäßig, an verschiedenen Wochentagen, und ein starker Ausreißer bei einem Suchausdruck geht nicht in jedem Fall automatisch mit einem ebenso starken Ausreißer bei den anderen Suchausdrücken einher.
Das erste Diagramm zeigt dies bereits zusammenfassend anhand der prozentualen Abweichungen zu jedem Messzeitpunkt relativ zum jeweiligen Medianwert (= Null-Linie) für jeden Suchausdruck (mit Ausnahme von crowdfunden, da die außergewöhnlich hohen Abweichungen dort die Darstellung aller anderen Ausdrücke zu stark gestaucht hätte, siehe unten). Der Median schien mir geeignet als ein Wert, der von den Ausreißern (hoffentlich) nicht betroffen ist. Die Linienverläufe zeigen die starken Abweichungen, die teilweise als isolierte Spitzen, teilweise aber auch über mehrere Messzeitpunkte hinweg auftreten. Ende Oktober/Anfang November 2013 scheint es etwas mehr Aufregung zu geben, auch wenn diese sich bei einigen Ausdrücken viel deutlicher zeigt als bei anderen. Und in den vergangenen Wochen scheint mir das Hin und Her immer schlimmer zu werden:
Die folgenden Diagramme zeigen die Verläufe der absoluten Zahlwerte für jeden einzelnen Suchausdruck.
Bei crowdfunden gibt es relativ wenige Abweichungen, diese sind jedoch so groß, dass der übliche Frequenzbereich (der Median liegt innerhalb des Untersuchungszeitraums bei 1.860 „Treffern“) im Diagramm optisch nicht von der Null-Linie zu unterscheiden ist, da die Ausreißer nach oben Werte von 1,2 Mio. bis hin zu über 10 Mio. (!) annehmen (und damit, ausgehend vom vorherigen Wert von 1.280, einen Sprung von schlappen 820.212,5% hinlegen) — genauso schnell aber wieder zurückspringen:
Auch das relativ seltene Substantiv Rüsselhündchen (Median: 2.350; Minimum: 712; Maximum: 22.200) zeigt noch vergleichsweise wenig Auf und Ab:
Fracking (Median: 1.510.000; Minimum: 163.000; Maximum: 15.200.000) zeigt insbesondere Ende Oktober/Anfang November 2013, aber auch zu anderen Zeitpunkten große Ausschläge. Die erhoffte „erkennbare Häufigkeitssteigerung“ ist allerdings nicht wirklich gut zu erkennen:
Sprachwissenschaft ist mit einem Median von 1.630.000 (Minimum: 241.000; Maximum: 15.600.000) in einer vergleichbaren Liga wie Fracking, zeigt aber einen ganz anderen Trefferverlauf, was schon im Vergleich der winzigen Vorschauen sichtbar wird:
Noch ein abschließendes Substantiv: das im Vergleich sehr häufige Haus (Median: 234.500.000; Minimum: 4.630.000; Maximum: 2.490.000.000) hat mehr und höhere Ausreißer als beispielsweise Sprachwissenschaft:
Und schließlich die hochfrequenten Verben gehen (Median: 137.000.000; Minimum: 4.900.000; Maximum: 1.240.000.000), sehen (Median: 200.000.000; Minimum: 938.000; Maximum: 1.530.000.000), haben (Median: 811.000.000; Minimum: 14.400.000; Maximum: 4.730.000.000) und werden (Median: 948.000.000; Minimum: 2.670.000; Maximum: 4.490.000.000); hier einfach zum Vergleich untereinander:
Die Lehre, die man aus diesen Schluckauf-Zahlen ziehen kann, kann nur lauten: Man sollte Google-Trefferzahlen wirklich nicht verwenden, um Aussagen über die Verwendungshäufigkeit sprachlicher Ausdrücke zu geben — und wenn schon, dann sollte man im Abstand mehrerer Tage mehrere Trefferzahlen einholen und prüfen, ob die Häufigkeitsaussage nicht auf Ausreißern basiert.
—
(*) Genauer gesagt, habe ich mir mittels eines Cronjobs zweimal täglich die Google-Ergebnisseite durch den Textbrowser Lynx ausgeben lassen und habe sie dann durch ein Perl-Script gejagt, das mir die Trefferzahl herausgefiltert hat. Der Cronjob lief auf dem Server des Rechenzentrums der Friedrich-Alexander-Universität Erlangen-Nürnberg — was auch immer das für Auswirkungen auf die Personalisierungs-Einstellungen von Google hat.
[Nachtrag] In den Kommentaren ist anhand von „Fracking“ und „haben“ stellvertretend gezeigt, in welchem Rahmen sich die Häufigkeitsverteilung der Google-Trefferzahlen bewegt.
Danke für diese hochwichtige Grundlagenforschung! Nun würde natürlich eine Folgeuntersuchung zu den Trefferzahlen auf zweiten, dritten und fünfzehnten Ergebnisseiten interessieren.
Danke. Mal sehen, ob ich dafür noch einmal 18 Monate Zeit finde ;-)
Sehr interessante Lektüre!
Soweit ich sehe, sind alle Diagramme nur mit 0:30-Uhr-Daten gespeist, oder? Gibt es (systematische) Unterschiede zwischen 0:30 und 12:30?
Interessant fände ich noch, wie es im direkten Vergleich aussieht: Möchte ich etwa klären, ob Wendung A gebräuchlicher ist als Wendung B, dann würde mir sowohl das Abfragepaar (1.000.000 vs. 10.000) vom Monatsersten als auch das Paar (200.000.000 vs. 40.000), das etwa in der Monatsmitte aufgezeichnet wurde, helfen. In Teilen des Großdiagramms steigen Paare von Begriffen gemeinsam an, bspw. am 15.01.2014. Dann aber gibt es Fälle bei denen eine Wendung zulegt, eine andere abgestraft wird (z.B. am Valentinstag (Meinten Sie: „Blumenexpresslieferung“??)). Eine erste – wenn auch sicherlich noch nicht die beste – Idee für eine Fortsetzung könnte daher auch eine (Rang-)Korrelation der Ergebnisse sein(?)
NB: Freitags im Februar 2014 scheint mir ein Testlauf zu sein – die Ausschläge scheinen mir jedenfalls einigermaßen konsistent zu sein…
Danke, Christian!
Die Diagramme sind übrigens mit allen Daten gespeist, aber wenn Excel auch noch die 12:30-Beschriftung hätte hinzufügen sollen, hätte das Diagramm noch breiter werden müssen — das ist der einzige Grund, warum das nicht da steht; ich war schon ganz froh, überhaupt jeden Tag gekennzeichnet zu haben. Systematische Unterschiede zwischen den beiden Tageszeiten habe ich noch nicht ausgerechnet; dem Augenschein nach gibt es aber keine. Ich hatte aber tatsächlich schon überlegt, eine kleine Untersuchung nachzuschieben, in der ich stündlich Werte nehme … mal sehen, ob dabei was rauskommt … wenn ich es tatsächlich mache.
Auch eine Korrelation der Werte [oder eine ANOVA oder so] klingt natürlich ganz vernünftig — werde ich bei Gelegenheit mal nachreichen!
Mich würde noch interessieren, ob du die Suchergebnisse über google.de/com oder ein bestimmtes Datacenter über IP abgefragt hast. Eventuell würden sich dann die Ergebnisse relativieren, da vielleicht verschiedene Datacenters mit unterschiedlichen Datenbeständen beteiligt waren.
Gesucht wurde über URL-Parameter, z.B. http://www.google.de/search?q=„Fracking“+site:.de — also so, wie (vermutlich) jeder „normale“ Nutzer, der nach der „Häufigkeit“ eines Ausdrucks sucht, auch suchen würde.
Google betreibt mehrere Datencenter, um alle Suchanfragen zu beantworten. Nach einer Algorithmusänderung dauert es einige Zeit, bis die Datencenter angepasst sind – je nach Datencenter kann das Suchergebnis also recht unterschiedlich aussehen. Laut Matt Cutts wurden allein im Jahre 2012 etwa 665 Änderungen am Ranking-Algorithmus vorgenommen. Das kann zahlreiche Sprünge recht einfach erklären.
Danke für den Hinweis und die (mögliche/wahrscheinliche) Erklärung für die Sprünge. An der Grundaussage meines Posts, dass die angegebenen Google-Trefferzahlen keine verlässlichen und vergleichbaren Rückschlüsse auf die Häufigkeit eines sprachlichen Ausdrucks ermöglichen, ändert das natürlich um so weniger.
Die Algorithmenänderungen beziehen sich aber eher auf das Ranking und wenige auf die absoluten Trefferzahlen. Die werden mehr durch das Crawling beeinflusst. Rückschlüsse auf die absolute Häufigkeit eines sprachlichen Ausdrucks sind ja eh nicht möglich. Eher relative Häufigkeiten, wenn man mehrere Ausdrücke miteinander vergleicht. Und da kann ich mir zumindest vorstellen, das die Benutzung eines bestimmten Datacenters vergleichbarere Ergebnisse bringt. Eine alte List gibt es z.B. hier http://www.sistrix.de/news/google-datacenter-liste/ . – Aber sicher können da Leute, die sich intensiv mit Suchmaschinenoptimierung beschäftigt haben, auch noch ein bisschen mehr zu sagen.
Hallo, dies ist eine interessante Statistik – hätte ich nicht gedacht, daß es zu solchen Abweichungen kommt. Normalerweise hätte ich gedachte, daß alle Werte stetig steigen, da immer mehr Internet-Seiten hinzukommen – zumindest mehr als verschwinden. Das es zu solchen Schwankungen kommt, ist wirklich seltsam.
Ich „spinne“ mal 2 gegensätzliche Vermutungen: 1. Google ist eine Suchmaschine, bei der jeder Suchabfrage eine bestimmte Crawling-Zeit zugeordnet wird. Je nach Auslastung schafft er dann mal mehr mal weniger Treffer. Dies würde bedeuten, daß an den hohen Peaks wenig los ist bei Google und der einzelne User mehr Abfrage-Zeit hat. Würde vielleicht erklären, warum bei 16Mrd. Treffern nur 15 Seiten gefüllt werden. Die Treffer sind die aus der Suche, die Seiten aus dem Cache im Datacenter – dies unter der Prämisse das Google keine absoluten Anzahlen von Suchbegriffen speichert sondern immer wieder neu sucht.
Die andere Vermutung: Die Ausreißer werden auf News-Seiten gefunden und werden einem aktuellen Ereignis zugeordnet und verfallen recht schnell, nachdem Duplicate Content gefunden wurde.
Eventuell könnte man in Wikipedia die Weltereignisse mit den Daten der Peaks abgleichen.
Nur mal so meine Gedanken.
Ach ja, noch ein Nachtrag. Personalisierte Suchanfragen. In einem Firmennetzwerk hängt das Netzwerk an redundanten Hardware-Firewalls, die auf der WAN-Seite eine IP-Range haben. Die Suchanfragen aller Netzwerk-Nutzer an Google werden vermutlich über 1 bestimmte IP ins Internet geroutet – so sollte es sich für Google als 1 Nutzer darstellen. Unter dem Aspekt könnte man schauen, ob die Peaks an Tagen mit besonderen Ereignissen der Uni übereinstimmen. Oder aber, da man der IP eine Region/Land zuordnen kann, Ereignisse in der Region im Land.
Das ist ja wirklich eine schöne Datensammlung! Vielen Dank dafür!
Eine Verständnisfrage: du hast den Mittelwert gebildet, die einzelnen Daten davon abgezogen und dann wiederum mit dem Mittelwert normiert, korrekt? Dies ist die übliche Darstellung bei normalverteilten Größen, doch liegt überhaupt eine vor?
Mich würde daher die Darstellung als Histogramm interessieren. Damit meine ich Folgendes: trage auf der x-Achse deine Trefferzahlen auf (beispielsweise 712 bis 22.200 für ‚Rüsselhündchen‘), trage auf der y-Achse die Häufigkeiten/Anzahl der Trefferzahlen auf (Bsp: ‚Wie oft kam der Wert 712 vor?‘). Danach trägst du ebenfalls deinen Mittelwert ein. Mit Hilfe dieser Diagramme könntest du Rückschlüsse auf die Art der Verteilung der einzelnen Wörter machen.
Zumindest für gebräuchliche Wörter wie ‚haben‘ oder ‚Haus‘ sollte sich doch dann etwas Normalverteiltes zeigen, also eine Glockenkurve?! Warum dies nicht so sein könnte, wurde ja in vorherigen Kommentaren bereits angeschnitten.
Aber das rüttelt natürlich alles nicht an deiner Kernaussage — es ist zweifelhaft, die Trefferzahlen einer einzigen Anfrage als repräsentativ zu betrachten.
Beim ersten Diagramm bin ich im Wesentlichen vorgegangen, wie von Dir beschrieben, ja (wenn Du mit „Mittelwert“ den Median meinst). Ich hatte nicht geprüft, ob die Daten normalverteilt sind, aber mir ist auch außer dem Median kein Lagemaß eingefallen, das ich zum Vergleich hätte heranziehen können. Die folgenden Diagramme zeigen anhand von „Fracking“ und „haben“, dass die Daten unterschiedliche Charakteristika aufweisen: Das obere Diagramm ist jeweils ein Diagramm der Häufigkeiten, das zu jeder vorkommenden Google-Trefferzahl angibt, wie häufig sie vorgekommen ist (NB: In der Achsenbeschriftung wird nicht jeder vorkommende Wert aufgeführt!). In den unteren Diagrammen ist der Wertebereich der Google-Trefferzahlen zu 25 Klassen zusammengefasst worden und die Balken zeigen an, wie häufig Google-Trefferzahlen innerhalb einer Häufigkeitsklasse lagen.

Bei den unteren Diagrammen ist (stellvertretend) zu sehen, dass sich die Werte in der unteren Hälfte des Wertebereichs ballen, im Großen und Ganzen sind sie linkssteil, wobei ich den Einbruch bei „haben“ erstaunlich finde. In den oberen Diagrammen ist zu sehen, dass bei „haben“ relativ häufig einige hohe Ausreißer mit demselben Wert vorkommen, allerdings nicht so viele, dass diese im Häufigkeitsklassen-Diagramm stark auffallen würden. Bei „Fracking“ sind die Ausreißer im oberen Wertebereich stärker verstreut.
Für mich verstärkt sich dadurch nur der Eindruck des Durcheinanders …