Big Data heißt der heutige Kandidat, und wir wollen uns im Folgenden einmal ansehen, welche Spuren dieser Ausdruck in der Sprache hinterlassen hat.

Bedeutung: In den Texten fallen grob zwei Lesarten auf:

(1) Big Data als große Datenmengen, viele große Datensätze; so etwa in der deutschen Wikipedia:

Big Data bezeichnet große Datenmengen aus vielfältigen Quellen, die mit Hilfe neu entwickelter Methoden und Technologien erfasst, verteilt, gespeichert, durchsucht, analysiert und visualisiert werden können.

(2) Außerdem wird Big Data nicht zur auf die Daten an sich, sondern auch auf die Verfahren zu deren Verarbeitung bezogen:

Vielmehr bezeichnet Big Data ein Bündel neu entwickelter Methoden und Technologien, die die Erfassung, Speicherung und Analyse eines großen und beliebig erweiterbaren Volumens unterschiedlich strukturierter Daten ermöglicht. (bundestag.de, 2013)
Das Thema „Big Data“, also der intelligente Umgang mit großen Datenmengen, […]. (heise.de, 2012)

Für Big Data als „große Datenmengen“ ist charakteristisch, dass diese nicht mehr mit herkömmlichen Programmen verwaltet werden können, sondern dass aufgrund ihrer Masse mit neuen Verfahren gearbeitet werden muss; so spielt etwa die Auslagerung der Daten auf die vielen Server einer Cloud eine Rolle, oder die Echtzeit-Filterung der einkommenden Daten. Was die absolute „Größe“ angeht, so ist diese von Fall zu Fall unterschiedlich: »What is considered „big data“ varies depending on the capabilities of the organization managing the set, and on the capabilities of the applications that are traditionally used to process and analyze the data set in its domain.« (en.wikipedia.org). Die Erklärung im Macmillan Dictionary (»the data generated by online activity […]«) ist m.E. (auch was das Englische angeht) nicht zutreffend, es sei denn, „online activity“ würde sehr weit gefasst (z.B. auch Messdaten, die automatisch-sensorisch gesammelt werden). Die englischen Erklärungen passen dennoch weitestgehend auch auf die Verwendung im Deutschen, vgl. etwa die Oxford Dictionaries, insbesondere aber diejenige im OED, die auch Lesart (2) nennt: »data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data.«

Die Bedeutungsspezifizierung (die aufgrund der technischen Entwicklung notwendig wurde) rechtfertigt auch eine Benennung dieses neuen Sachverhalts: Big Data ist — auch in der Lesart, die die neuen Methoden und Verfahren nicht mit einschließt — etwas anderes als „nur“ große Datenmengen. (Etwas anderes bedeutet Big Data etwa bei digitalen Bildformaten — dies ist aber nicht das Thema dieser Besprechung.)

Beleglage: Der erste Beleg von 1996 aus dem Deutschen Referenzkorpus (DeReKo) ist (mal wieder) ein „falscher Freund“; er bezieht sich auf eine Erweiterung eines UNIX-Netzwerkprotokolls namens Big Data Service. Die nächsten Belege stammen dann bereits aus 2010 bzw. 2011 und später, z.B.:

[…] Analysten mahnen zur Umstellung der Strategie in der Verarbeitung von „Big Data“. Die Menge und Vielfalt von Daten, die Unternehmen verarbeiten müssen, nimmt exponentiell zu. [VDI nachrichten, 09.09.2011, S. 9]

Das mobile Internet, Cloud-Dienste, soziale Netzwerke und Technologien zur Analyse von «Big Data» etablieren sich zunehmend und treiben das Wachstum des IT-Sektors an. [St. Galler Tagblatt, 23.01.2012, S. 24]

Unter dem Stichwort „Big Data“ gibt es Technologien, die auch gewaltige Datenbestände immer schneller durchforsten können. [Nürnberger Zeitung, 08.06.2013, S. 4]

Die DeReKo-Beleglage ist dabei etwas erstaunlich: Insgesamt gibt es (abzüglich des Treffers von 1996) 120 Belege, davon bislang die meisten, nämlich 71, aus dem Jahr 2012. 69 dieser 71 Belege stammen jedoch aus nur einer einzigen Quelle, nämlich den VDI nachrichten, die diesem Thema ganz offensichtlich relativ früh Platz eingeräumt haben (auch alle [!] sieben Treffer des Jahres 2011 sind in diesem Blatt zu finden; bei Komposita mit Big-Data-* ist die Situation vergleichbar). Erst 2013 taucht der Ausdruck dann auch beispielsweise in der Hannoverschen Allgemeinen, dem Mannheimer Morgen, der Nürnberger Zeitung oder den Niederösterreichischen Nachrichten auf, wird aber insgesamt (bis jetzt) nur 27 Mal genannt (es sei noch einmal daran erinnert, dass das DeReKo für 2013 noch nicht vollständig vorliegt: von einigen Quellen, etwa den VDI nachrichten, sind noch überhaupt keine Texte vorhanden, von anderen Quellen fehlen die Texte der zweiten Jahreshälfte). Dies zeigt aber doch, dass das Thema Big Data seinen Weg von einer primär an Ingenieurinnen adressierten Zeitung nun auch in Tageszeitungen für die breite Bevölkerung gefunden hat.

Zu berücksichtigen ist, dass in der zweiten Jahreshälfte mit dem Bekanntwerden des NSA-Skandals auch das Thema Big Data immer wieder angesprochen wurde; entsprechende Belege können leicht gefunden werden. Laut Google Trends stieg das Informationsbedürfnis nach Big Data zwar nicht gleichermaßen wie das zur NSA, das Interesse an Big Data findet dennoch 2013 seinen bisherigen Höhepunkt:

Big Data (Google Trends)

Suchinteresse nach Big Data (links) und Big Data vs. NSA (rechts) (Google Trends)

In den Archiven von faz.net, spiegel.de und zeit.de lassen sich jeweils für 2013 (teils deutlich) mehr Treffer für Big Data finden als für den gesamten Zeitraum von 2000 bis 2012 zuvor (faz.net: 115 für 2013, davor 23; spiegel.de: 48/41; zeit.de: 49/21).

Im Englischen ist die Belegrecherche etwas schwieriger, da „big data“ auch (sehr häufig) in Wortfolgen wie big data sets, big data banks u.Ä. vorkommt und das Adjektiv big hier auf den gesamten folgenden Ausdruck data set/bank bezogen ist. Im OED, das big data seit 2013 als Eintrag führt, wird ein erster Beleg aus einem Aufsatz von Charles Tilly von 1980 genannt. 1982 galten aber, laut Google Books, auch „files and databases“ noch als big data; in einem von Google auf 1998 datierten Buch zum (relevanten) Thema Data Mining verwendet Sholom M. Weiss den Ausdruck; ab Mitte der 2000er Jahre ist er häufiger aufzutreiben. 2008 hat die Zeitschrift Nature dem Thema eine Ausgabe gewidmet.

Grammatik, Wortbildung: Grammatisch lässt sich Big Data nicht leicht fassen, dies liegt am Teilausdruck Data, der hier Grundwort/Kopf ist und auch im Englischen nicht einheitlich verwendet wird, was die Verwendung als Singular- oder Pluralwort angeht:

Data leads a life of its own quite independent of datum, of which it was originally the plural. It occurs in two constructions: as a plural noun (like earnings), taking a plural verb and plural modifiers (as these, many, a few) but not cardinal numbers, and serving as a referent for plural pronouns (as they, them); and as an abstract mass noun (like information), taking a singular verb and singular modifiers (as this, much, little), and being referred to by a singular pronoun (it). Both constructions are standard. The plural construction is more common in print, evidently because the house style of several publishers mandates it. (merriam-webster.com, s.v. data)

In den DeReKo-Belegen wird das Problem meist umschifft, indem Big Data ohne Artikel als Schlagwort oder in Kontexten verwendet wird, in denen Singular oder Plural gleichermaßen möglich ist (z.B. »Zum Safer Internet Day diskutierten in Berlin Vertreter aus Wirtschaft und Politik sowie Datenschützer über Vorteile und Risiken von „Big Data“.«, Hannoversche Allgemeine, 06.02.2013). Nur in wenigen Fällen lässt sich eindeutig der Numerus bestimmen (dann meist Singular, z.B. den Prozessen des Big Data; die sich nicht am „Big Data“ berauscht; Big Data erfordert neue Hardware; Big Data kommt schneller, als viele denken!; …, greife Big Data direkt ins Kerngeschäft ein; Auslöser dafür ist „Big Data“; ein eindeutiger Fall für Plural: „Big Data“ liegen oft unstrukturiert und in unterschiedlichen Formaten vor). Gut möglich, dass Lesart (1) eher Plural, Lesart (2) eher Singular nach sich zieht; das kann aber noch nicht mit Sicherheit gesagt werden. Gleichermaßen problematisch ist eine Genusbestimmung: zwei der oben genannten Belege legen Maskulinum oder Neutrum nahe, meist wird der Ausdruck aber so verwendet, dass eine genauere Bestimmung nicht möglich ist.

In Wortbildungen bildet Big Data üblicherweise das Erstglied, so beispielsweise in Big-Data-Analysen, Big-Data-Dienste, Big-Data-Könner, Big-Data-Lösungen, Big-Data-Technologien, Big-Data-Trends.

Lexikographische Bearbeitung: Auf duden.de gibt es keinen Eintrag „zwischen“ Big Business und Big Point; auch bei Pons online, im Wiktionary und selbst im VDS-Anglizismenindex ist Big Data noch nicht verzeichnet. Die deutsche Wikipedia hat seit Januar 2011 einen Artikel (die englische seit April 2010). Drei Artikel aus englischsprachigen Wörterbüchern wurden oben bereits zitiert bzw. verlinkt.

Fazit: Ein Kandidat, der in mehrfacher Hinsicht relevant ist: Einerseits betrifft das Thema Big Data viele Forschungsdisziplinen und auch die Industrie; andererseits betrifft es ebenso die Gesellschaft an sich und die Frage, wie weit wir Daten (von deren Erhebung wir in vielen Fällen höchstens ahnen) für wen und welche Zwecke freigeben wollen, insbesondere wenn wir erkennen, dass mit neuen Methoden eigentlich recht unpersönliche Zahlen doch schnell einem Individuum zugeordnet werden können. Big Data jedenfalls ist 2013 in den Massenmedien und in der Diskussion angekommen. Grammatisch muss sich noch zeigen, ob eine weitere Integration dieses Ausdrucks ins Deutsche möglich und notwendig ist; inhaltlich besteht jedenfalls aktuelles Interesse an dem Thema. Somit ein recht guter Kandidat für den Anglizismus des Jahres 2013!