google-trefferzahlen zur häufigkeitsbestimmung?

[Warnung: Der folgende Beitrag enthält mehrere Meter breite Diagramme! :-) ]

Immer mal wieder (und trotz eigentlich besseren Wissens) werden Google-Trefferzahlen herangezogen, um Aussagen über die Verwendungshäufigkeit eines sprachlichen Ausdrucks zu geben. Dabei wissen wir eigentlich, 1) dass wir nicht genau wissen, welche Texte Google überhaupt indiziert hat (m.a.W.: wir kennen das Corpus nicht), und 2) dass die Google-Trefferzahlen beim Klick auf die fünfte, zehnte oder fünfzehnte Ergebnisseite auf einmal ganz anders aussehen können (wenn die fünfzehnte Ergebnisseite überhaupt vorhanden ist und nicht zehn Milliarden Treffer auf einmal zu nur zwölf Ergebnisseiten zusammenschrumpfen). Und 3) ist mir auch irgendwann aufgefallen, dass sich die Trefferzahlen ändern, und zwar nicht, wie mit gesundem Menschenverstand zu erwarten, langsam ansteigend, sondern teilweise sehr sprunghaft nach oben und auch nach unten. Dieses Phänomen wollte ich etwas genauer unter die Lupe nehmen.

Ich habe deshalb für verschiedene Suchausdrücke über 18 Monate hinweg (vom 18. März 2013 bis zum 18. September 2014) zweimal täglich (je um 0:30 Uhr und um 12:30 Uhr) die Trefferzahlen ermittelt, um anschließend deren Verlauf zu betrachten.(*) Auf diese Weise sind pro Suchausdruck 1.100 Werte zusammengekommen. NB: Es handelt sich um die Trefferzahlen der ersten Ergebnisseite; wie bereits angedeutet, können die Zahlen auf Folgeseiten abweichen.

Die Suchausdrücke lauteten (alphabetisch; gesucht je mit Anführungszeichen): crowdfunden, Fracking, gehen, haben, Haus, Rüsselhündchen, sehen, Sprachwissenschaft sowie werden; sie sind einer damaligen Laune zu verdanken sowie der Überlegung, neben sehr häufigen Wörtern (gehen, haben, sehen, werden; Haus) auch solche mittlerer oder niedriger Frequenz und solche mit Aussicht auf erkennbare Häufigkeitssteigerung (v.a. Fracking) aufzunehmen.

Die Ergebnisse, die im Folgenden in Diagrammform gezeigt werden (ein Klick öffnet jeweils eine seeeehr breite Grafik), bestätigen den Eindruck, dass sich die Trefferzahlen sprunghaft ändern können, und zwar teilweise um ein Vielfaches des vorherigen Messwertes (Anstiege um 100% sind keine Seltenheit); genauso schnell können sie auf einen Bruchteil abfallen. Dabei ist mir keine Systematik offensichtlich: Die Ausreißer finden sich unregelmäßig, an verschiedenen Wochentagen, und ein starker Ausreißer bei einem Suchausdruck geht nicht in jedem Fall automatisch mit einem ebenso starken Ausreißer bei den anderen Suchausdrücken einher.

Das erste Diagramm zeigt dies bereits zusammenfassend anhand der prozentualen Abweichungen zu jedem Messzeitpunkt relativ zum jeweiligen Medianwert (= Null-Linie) für jeden Suchausdruck (mit Ausnahme von crowdfunden, da die außergewöhnlich hohen Abweichungen dort die Darstellung aller anderen Ausdrücke zu stark gestaucht hätte, siehe unten). Der Median schien mir geeignet als ein Wert, der von den Ausreißern (hoffentlich) nicht betroffen ist. Die Linienverläufe zeigen die starken Abweichungen, die teilweise als isolierte Spitzen, teilweise aber auch über mehrere Messzeitpunkte hinweg auftreten. Ende Oktober/Anfang November 2013 scheint es etwas mehr Aufregung zu geben, auch wenn diese sich bei einigen Ausdrücken viel deutlicher zeigt als bei anderen. Und in den vergangenen Wochen scheint mir das Hin und Her immer schlimmer zu werden:

Prozentuale Abweichung relativ zum Median für jeden Suchausdruck

Prozentuale Abweichung relativ zum jeweiligen Median für jeden Suchausdruck

Die folgenden Diagramme zeigen die Verläufe der absoluten Zahlwerte für jeden einzelnen Suchausdruck.

Bei crowdfunden gibt es relativ wenige Abweichungen, diese sind jedoch so groß, dass der übliche Frequenzbereich (der Median liegt innerhalb des Untersuchungszeitraums bei 1.860 “Treffern”) im Diagramm optisch nicht von der Null-Linie zu unterscheiden ist, da die Ausreißer nach oben Werte von 1,2 Mio. bis hin zu über 10 Mio. (!) annehmen (und damit, ausgehend vom vorherigen Wert von 1.280, einen Sprung von schlappen 820.212,5% hinlegen) — genauso schnell aber wieder zurückspringen:

Google-Ergebnisse für "crowdfunden"

Google-Ergebnisse für “crowdfunden”

Auch das relativ seltene Substantiv Rüsselhündchen (Median: 2.350; Minimum: 712; Maximum: 22.200) zeigt noch vergleichsweise wenig Auf und Ab:

Google-Ergebnisse für "Rüsselhündchen"

Google-Ergebnisse für “Rüsselhündchen”

Fracking (Median: 1.510.000; Minimum: 163.000; Maximum: 15.200.000) zeigt insbesondere Ende Oktober/Anfang November 2013, aber auch zu anderen Zeitpunkten große Ausschläge. Die erhoffte “erkennbare Häufigkeitssteigerung” ist allerdings nicht wirklich gut zu erkennen:

Google-Ergebnisse für "Fracking"

Google-Ergebnisse für “Fracking”

Sprachwissenschaft ist mit einem Median von 1.630.000 (Minimum: 241.000; Maximum: 15.600.000) in einer vergleichbaren Liga wie Fracking, zeigt aber einen ganz anderen Trefferverlauf, was schon im Vergleich der winzigen Vorschauen sichtbar wird:

Google-Ergebnisse für "Sprachwissenschaft"

Google-Ergebnisse für “Sprachwissenschaft”

Noch ein abschließendes Substantiv: das im Vergleich sehr häufige Haus (Median: 234.500.000; Minimum: 4.630.000; Maximum: 2.490.000.000) hat mehr und höhere Ausreißer als beispielsweise Sprachwissenschaft:

Google-Ergebnisse für "Haus"

Google-Ergebnisse für “Haus”

Und schließlich die hochfrequenten Verben gehen (Median: 137.000.000; Minimum: 4.900.000; Maximum: 1.240.000.000), sehen (Median: 200.000.000; Minimum: 938.000; Maximum: 1.530.000.000), haben (Median: 811.000.000; Minimum: 14.400.000; Maximum: 4.730.000.000) und werden (Median: 948.000.000; Minimum: 2.670.000; Maximum: 4.490.000.000); hier einfach zum Vergleich untereinander:

Google-Ergebnisse für "gehen"

Google-Ergebnisse für “gehen”

Google-Ergebnisse für "sehen"

Google-Ergebnisse für “sehen”

Google-Ergebnisse für "haben"

Google-Ergebnisse für “haben”

Google-Ergebnisse für "werden"

Google-Ergebnisse für “werden”

Die Lehre, die man aus diesen Schluckauf-Zahlen ziehen kann, kann nur lauten: Man sollte Google-Trefferzahlen wirklich nicht verwenden, um Aussagen über die Verwendungshäufigkeit sprachlicher Ausdrücke zu geben — und wenn schon, dann sollte man im Abstand mehrerer Tage mehrere Trefferzahlen einholen und prüfen, ob die Häufigkeitsaussage nicht auf Ausreißern basiert.

(*) Genauer gesagt, habe ich mir mittels eines Cronjobs zweimal täglich die Google-Ergebnisseite durch den Textbrowser Lynx ausgeben lassen und habe sie dann durch ein Perl-Script gejagt, das mir die Trefferzahl herausgefiltert hat. Der Cronjob lief auf dem Server des Rechenzentrums der Friedrich-Alexander-Universität Erlangen-Nürnberg — was auch immer das für Auswirkungen auf die Personalisierungs-Einstellungen von Google hat.

[Nachtrag] In den Kommentaren ist anhand von “Fracking” und “haben” stellvertretend gezeigt, in welchem Rahmen sich die Häufigkeitsverteilung der Google-Trefferzahlen bewegt.

monumentale terminologie

In Kipfenberg in Bayern gibt es ein Denkmal.

Schulkinder würden sagen: Für das, was uns die Römer angetan haben.
Latein-Freaks würden sagen: Für das, was die Römer für uns getan haben.
Ich sage: Wer denkt sich denn so was aus, das muss ins Lexikographieblog:

Limes-Denkmal Kipfenberg: Grammatik-Termini Limes-Denkmal Kipfenberg

es war ja nicht alles schlecht: ein zeitgenössisches wörterbuch der ddr-jugendsprache

Ich komme an dieser Stelle nicht umhin, ein paar — eher distanziert-amüsierte als wissenschaftlich-analysierende — Worte zu einem kürzlich erstandenen Jugendsprach-Wörterbuch zu verlieren bzw. daraus zu zitieren; genau gesagt handelt es sich um folgenden Titel:

Margot Heinemann: Kleines Wörterbuch der Jugendsprache. 2., unveränd. Auflage. Leipzig: VEB Bibl. Institut, 1990 [1. Aufl. 1989].

Margot Heinemann: Kleines Wörterbuch der Jugendsprache. 2., unveränd. Auflage. Leipzig: VEB Bibl. Institut, 1990 [1. Aufl. 1989].

Das Buch versteht sich als “eine Sammlung von lexikalischen Einheiten, die zusammengenommen als eine Art Querschnitt von Jugendspezifika in der DDR anzusehen sind. Genauer gesagt sind es Jugendspezifika der 80er Jahre, da Jugendsprachliches einem relativ schnellen Wechsel unterworfen ist” (Vorwort, S. 7). Zur Basis und Methodik findet man folgende Aussage:

“Das zugrunde gelegte Material stammt aus verschiedenen Bereichen: aus Studentenarbeiten, aus Funk und Fernsehen, Leserbriefen, Privatbriefen und — seltener — aus der Belletristik. Dabei wurden unterschiedliche Methoden angewandt: Befragungen durchgeführt, Tonkonserven aufgenommen und vor allem sehr viele Hörbelege gesammelt.” (Vorwort, S. 8)

Unter anderem finden wir dort bereits einen Eintrag für “cool” (S. 85), positiv bezogen auf Personen und auf Musik. Dazu ist zu sagen, dass in den DDR-Rechtschreibduden “cool” gar nicht verzeichnet ist; im BRD-Duden steht “cool” ab der 18. Aufl. (1980): ‘ugs. für ruhig, überlegen, kaltschnäuzig'; erst ab der 22. (längst gesamtdeutschen) Aufl. (2000) dann auch: ‘Jugendspr. für hervorragend’.

Wir lernen auch, dass “Joint” in der DDR-Jugendsprache nicht für eine THC-haltige, sondern für eine normale ‘Zigarette’, aber auch für ‘Kaffee’ (!?) gestanden hat (S. 19); oder dass “Über-“ damals schon ein fröhlich verwendetes ‘positiv wertendes Wortbildungselement bei Substantiven’ (S. 91) war, bevor es im Englischen angekommen ist.

Wir erfahren desweiteren, dass

“Chaote” die Synonyme “Buschplahudi”, also “Gesichtseimer” hat, also als ‘negative Anrede bzw. Schimpfwort für Jungen’ gebraucht wird (S. 34), dass aber

“Chaote” auch “urster Kunde”, also “Scheich” bedeutet, also positiv für ‘Junge, junger Mann’ stehen kann (S. 43), wenn ich den Eintrag richtig interpretiere, worüber ich nicht ganz sicher bin.

Das auch heute noch von vielen spaßig verwendete, von vielen anderen gehasste “Tschüssikowski” ist hier bereits als Jugendwort lexikographisch bearbeitet.

Wir lesen jede Menge amüsanter Beispielsätze wie “Der hört nichts, der poft ‘ne satte Wimper” (‘fest schlafen’), “Wir gehen noch in eine Destille eine Ziehung machen” (‘(Bier) trinken gehen’) oder “Das sind bärische Werke, die neuen Musiktitel!” (‘sehr gute Lieder’). Im Satz “Ich flipp’ aus. Der Klaus kommt wirklich zu meiner Fete” ist “Klaus” allem Anschein nach ganz wertneutral als Vorname gebraucht — in einem heutigen Jugendsprachwörterbuch wäre das evtl. anders.

An manchen Stellen blitzt dann doch auch der Abstand der Autorin von der untersuchten Sprechergruppe hervor, man beachte etwa die Parenthese in folgendem Satz (im Anschluss an ein Dialogbeispiel):

“Das wäre an und für sich noch nicht bemerkenswert, wenn es sich nicht um Jugendliche gehandelt hätte, die mit überweiten Pluderhosen und mit blonden Strähnen (es waren Jungen!) eingefärbtem und mit Zuckerwasser oder Gel gestyltem Haarschopf auffällig genug waren.” (S. 22)

Damit ist dann auch der Bogen zum Heute geschlossen, denn überweite Hosen und blonde Strähnchen haben sich ja ganz offensichtlich durchsetzen können, gerade und vor allem bei Jungen. Natürlich könnte man noch viel mehr Beispiele geben, aber ich will das Wörterbuch ja nicht ganz abtippen. Fazit zum Buch: im Großen und Ganzen ein sahne Ding, protoprima, fundamental!

ich darf beispiele nicht ungeprüft übernehmen

Habe gerade eine E-Mail von “suppourt@apple.nz” bekommen. Bestimmt wollten sie mir eine neue Uhr verkaufen oder Vergleichbares. Neugierig war ich dann aber schon — und habe mal “suppourt” bei Google eingegeben, um zu sehen, ob diese Schreibung häufig verwendet wird.

Eines der ersten Ergebnisse war das Wordnik-Wörterbuch (oder: Wörterbuchportal). Das hat eine große Seite für suppourt, auf der zwar unter “Definitions” nur steht “Sorry, no definitions found.” (analog bei “Etymologies”), aber unter “Examples” werden doch ein paar aufgelistet:

suppourt (Wordnik)

As a veteren of Oporation Iracky Freidom, I suppourt yur positions on High Skuul edumication. [...]

Do to her ethnicity she seems to outcast anyone who doesent suppourt the injustices and oppresion that her precious Israel has bestowed upon this world. [...]

In addition, while I doubt that I will get much suppourt here, the backlash against Kelo was somewhat overblown; while it is certainly a cause celebre in some circles, I don’t think that Joe Q. [...]

Die Beispiele werden offensichtlich von irgendwelchen Internetseiten geholt und nicht redaktionell überprüft; auch Tweets mit dem entsprechenden (falschen) Ausdruck werden in einem eigenen Bereich angezeigt.

Sucht man sich mal eine Seite häufiger Falschschreibungen des Englischen (z.B. von oxforddictionaries.com) und gibt ein, zwei davon bei Wordnik ein (z.B. appearence oder commitee [siehe auch ...]), erhält man wenig überraschend auch zu diesen Falschschreibungen eigene Artikelseiten, die zwar keine Definitionen, aber doch Beispielsätze zeigen, die einem Benutzer das Gefühl geben könnten, das Wort sei so schon ganz richtig, es stehe ja “im Wörterbuch” und es gebe Beispiele dafür. Bei appearence finden sich sogar noch Einträge im “reverse dictionary”, da in zwei Artikeln der Ausdruck appearence tatsächlich in Wörterbuchtexten vorkommt (jeweils aus der GNU version of the Collaborative International Dictionary of English).

Eine andere Variante ist etwa bei calender zu beobachten, einem Wort, das es im Englischen gibt (dt.: Kalander), das aber auch häufig fälschlich für calendar (dt.: Kalender) verwendet wird. In diesem Fall steht sogar unter “Definitions”: “Common misspelling of calendar” — aber sämtliche Beispielsätze beziehen sich exakt auf diese Bedeutung, auf den Kalender (z.B. “Desktop calender is nice, download the free version”).

Liebes Wordnik, du schreibst also bis zum Wochenende hundert Mal: Ich darf Beispiele nicht ungeprüft übernehmen, ich darf Beispiele nicht ungeprüft übernehmen …

auf der suche nach verbotenen subjekten und objekten

Je länger ich folgendes Sprachkonstrukt ansehe, desto interessanter finde ich es:

"Werfen Sie das Altglas nur von 7.00 bis 20.00 Uhr ein. An Sonn- und Feiertagen verboten!"

“Werfen Sie das Altglas nur von 7.00 bis 20.00 Uhr ein. An Sonn- und Feiertagen verboten!”

In dem frei stehenden elliptischen Konstrukt “An Sonn- und Feiertagen verboten” ist zum einen kein Subjekt zu dem Prädikat “[ist] verboten” zu finden. Wer oder was ist denn verboten? Aus dem Kontext erschließt sich schnell, dass es sich nur um das Einwerfen von Altglas handeln kann (und nicht etwa auf das Rücksichtnehmen auf die Mitbürger), obwohl die sprachliche Referenz auch hier einigermaßen holprig ist. Alles, was von diesem kontextuellen Subjekt sichtbar ist, hat nämlich überhaupt nicht die Form eines Subjekts: “Werfen Sie das Altglas nur von 7.00 bis 20.00 Uhr ein ist an Sonn- und Feiertagen verboten”? Nein, da muss die Leserin doch noch einige gedankliche Kunststückchen vollbringen, um diese Anweisung in eine grammatisch wohlgeformte und inhaltlich sinnvolle Äußerung zu überführen.

Zum anderen ist in dem elliptischen Satz zwar kein Subjekt, aber dafür eine adverbiale Bestimmung der Zeit (auch: Temporalangabe etc.) zu finden: “An Sonn- und Feiertagen verboten”, was vielleicht auf den ersten Blick vom fehlenden Subjekt ablenken kann, aber auch nur bei sehr flüchtiger Betrachtung. Solche adverbialen Bestimmungen sind aus syntaktischer Sicht häufig nicht notwendig und können daher (nur aus syntaktischer Sicht!) auch weggelassen werden. Dann steht da nur noch “Verboten!”.

Damit ist dieser Aufkleber noch ein Stück kurioser als andere, vergleichbare Verbotshinweise wie dieser hier:

Ankleben verboten!

“Ankleben verboten!”

In dieser rudimentären Äußerung ist immerhin ein Subjekt zu erkennen: “[Das] Ankleben [ist] verboten!”. Ein (gedankliches) Objekt zu “Ankleben” (das hier die Form eines Präpositionalattributs zum Substantiv haben müsste) ist dann allerdings schon nicht mehr zu finden: Wen oder was darf man denn nicht ankleben? Antwort: alles. Auch wenn ich immer den Eindruck habe, dass dieses “Ankleben verboten” eine sehr reflexive Lesart nahe legt, eher im Sinne von “kleben bleiben”, obwohl das dort natürlich gar nicht steht …

altersfreigabe für wörterbücher?

Die Duden-Wörterbücher im Mac-App-Store sind übrigens freigegeben ab 12 Jahren.

Man muss sich bei der Lektüre auf Folgendes gefasst machen:

Freigabeinformationen im Mac App Store

Freigabeinformationen im Mac App Store

What the f***!? (← Das Lexikographieblog hat übrigens meines Wissens keine Altersbeschränkung.)

neue zeitschrift: lexicography – journal of asialex

Es gibt eine neue Fachzeitschrift für Lexikographie:

Lexicography — Journal of ASIALEX

Editor-in-Chief: Yukio Tono

Erscheint bei: Springer

Für die ersten Beiträge (Volume 1, Issue 1) ist ein kostenloser Zugriff eingerichtet: http://link.springer.com/journal/40607/1/1/page/1

Weitere Fachzeitschriften für Lexikographie sind auf der Seite Lexikographische Zeitschriften gelistet.

Folgen

Erhalte jeden neuen Beitrag in deinen Posteingang.

Schließe dich 338 Followern an