Das habe ich nun davon. Zugesagt, als Jurymitglied an der Wahl des Anglizismus 2010 teilzunehmen, und jetzt sitze ich da und mühe mich, jenseits meines eigenen Bauchgefühls einigermaßen brauchbare Kriterien zu finden, um die Wortkandidaten zu bewerten. Nicht nur für eine flüchtige Hypothesenbildung, sondern für eine einigermaßen haltbare Stellungnahme. Wo sucht der empirisch orientierte Sprachwissenschaftler nach Wörtern, Verwendungen, Häufigkeiten? In einem Corpus natürlich. Oder in mehreren, aber eines wäre ja schonmal ein Anfang. Ich wünsche mir also ein möglichst großes, nach durchschaubaren und ausgewogenen Kriterien aufgebautes Corpus der vergangenen fünf Jahre — und natürlich besonders für das Jahr 2010. Ha, ha.

Das COSMAS-Corpus enthält, wenn überhaupt, nur die Zeitungsausgaben des ersten Halbjahres 2010, so dass damit relativ wenig anzufangen ist (aber besser als nix). Das ist aber schon das aktuellste (das mir bekannt und frei verfügbar ist). Bei den DWDS-Corpora geht Die Zeit immerhin bis 2009, aber auch das ist (i) zu wenig für diesen Zweck und (ii) dann eben doch nur auf ein Publikationsorgan beschränkt. Die WebCorp-Abfrage ist für meine Zwecke nicht geeignet; das gilt auch für das Leipziger Wortschatz-Portal, das auch bei Stichproben nichts bringt. Es gäbe noch Spezialcorpora, aber die sind erstens eben zu speziell und zweitens mit Sicherheit auch nicht so aktuell. Sonst noch Vorschläge? Ich könnt’s ja mal mit LIMAS versuchen …

Also lande ich schweren Herzens doch wieder bei … man ahnt es. Das Internet als Corpus, und Google als Corpusabfragewerkzeug. Lieber Anatol, ich weiß, dass Du Google liebst — ich nicht. Ich benutze Google und seine Werkzeuge und halte es für eine ziemlich gute Suchmaschine (muss ich leider zugeben, obwohl ich sonst der Meinung bin, dass die schon lange nicht mehr „die Guten“ sind), aber es treibt mich auch manchmal nicht selten zur Weißglut. Warum, dafür im Folgenden drei Beispiele. Es soll darum gehen, wie weit man den Angaben und Zahlen, die Google bei seinen Suchergebnissen präsentiert, trauen kann. Manches davon ist bestimmt bekannt, anderes war (zumindest mir) neu (zu den Videos: die sind von der Qualität noch etwas durchwachsen, ich experimentiere da gerade. Falls jemand ein Videoschnittprogramm kennt, mit dem man Internetvideos in guter Bildqualität und kleiner Dateigröße erstellen kann, gerne melden):

1) Google weiß alles besser. Die „Meinten Sie etwa …“-Funktion ist ja an und für sich eine schöne Sache — aber zeitweise „verbessert“ Google die Suchanfrage automatisch und gibt nicht einmal einen Hinweis auf diesen Eingriff aus. Da wird schon mal einfach ein n gestrichen und entfrienden zu entfrieden entstellt, siehe Screenshot:

Google Suche: entfrie(n)den (Screenshot)

Das finde ich höchst ärgerlich, aber gut, inzwischen weiß man, dass man in solchen Fällen das Suchwort in Anführungszeichen eingeben muss, um Google davon zu überzeugen, dass man wirklich nach diesem Wort sucht und nicht nach dem, von dem Google glaubt, man würde danach suchen.

2) Angabe der Zahl der Suchergebnisse: Google gibt bei unterschiedlichen Suchoptionen Werte aus, die einfach nicht zusammenpassen. Dazu ein kleines Video(*) (QuickTime-.mov-Datei, 1 Min.). (Multi-Touch-Screen war ein Kandidat, der es nicht in die zweite Runde geschafft hat. Natürlich kann es in diesem Fall sein, dass die Ergebnisse, die eindeutig 2010 zuzuordnen sind, viel kleiner sind als die, die nicht datiert sind — aber auch das ist der Klärung der Verhältnisse nicht unbedingt zuträglich.)

(*) Wenn das Video nicht im Browser läuft, mit rechter Maustaste speichern und von der Festplatte aus abspielen.

3) Die grafische Ergebnisanzeige im Google-News-Archiv stimmt nicht mit den Zahlen überein, die pro Jahr ermittelt werden. Auch hier ein kleines Video (QuickTime-.mov-Datei, 1 Min.) am Beispiel Nacktscanner — ebenfalls einer der Kandidaten, die aussortiert wurde. Nach den Zahlen-Daten könnte man also schon von steigender Relevanz dieses Wortes ausgehen, allerdings legen wieder andere Daten (siehe Google Insights), in die man allerdings auch nicht einfach „hineinschauen“ kann, nahe dass Nacktscanner 2008 schon einmal sehr relevant war und daher zu recht für die Wahl 2010 ausscheidet. Im Gegensatz etwa zu App, das nach allen mir vorliegenden Werten steigende Tendenz hat und daher drinnen bleibt (das auch als Antwort aus der Ferne auf den Einwand von Jan Wohlgemuth im Sprachlog).

Diese Beispiele sind natürlich genau das: Beispiele. Ich habe durchaus auch auf den österreichischen und Schweizer Seiten gesucht, ich habe mit Flexionsformen und Wortgruppen gesucht und auch nicht nur mit und bei Google. Das soll nur mal gesagt sein, nicht dass sich jemand beschwert. Aber um zu zeigen, dass die Zahlen und Grafiken, die Google auf seinen unterschiedlichen Seiten so zeigt, mit Vorsicht zu genießen sind, sollte das ausreichen. Lasst Euch das gesagt sein, liebe Studenten, die ich in kommenden Methodik-Seminaren auf diese Seite schicken werde.

About these ads