Ich bin ein großer Freund von Listen. Insbesondere auch davon, selbst Listen zu erstellen oder auszuwerten. Davon wird in diesem und folgenden Einträgen Zeugnis abgelegt. Bei Wikipedia habe ich, nach längerer Suche, endlich eine Liste der Seitentitel („list of page titles“) der deutschen Wikipedia vom 26.03.2010 gefunden. Ich verwende diese Liste so, als wäre es die Liste der Artikeltitel — sie enthält aber auch alle Titel von Weiterleitungsseiten und auch von etlichen (über 20000) Listen zu allem möglichen (das wird bestimmt ein eigener Eintrag). Mal sehen, was uns dabei so auffällt.

Zunächst einmal ganz allgemein:

Insgesamt hat die Liste 1798369 Einträge, von denen 705672 Einträge zu Ein-Wort-Ausdrücken sind (die anderen enthalten jeweils ein Leerzeichen, bzw. in der Liste einen Unterstrich).

Der längste Seitentitel in Wikipedia lautet Verordnung über Sicherheit und Gesundheitsschutz bei der Bereitstellung von Arbeitsmitteln und deren Benutzung bei der Arbeit, über Sicherheit beim Betrieb überwachungsbedürftiger Anlagen und über die Organisation des betrieblichen Arbeitsschutzes (247 Zeichen).

Der längste Titel, der aus einem Ein-Wort-Ausdruck besteht, lautet Tetaumatawhakatangihangakoauaotamateaurehaeaturipukapihimaungahoronukupokaiwhenuaakitanatahu (92 Zeichen).

Es handelt sich jeweils um Weiterleitungen.

Die durchschnittliche Länge (arithmetisches Mittel) über alle Seitentitel ist 16 Zeichen, bei den Ein-Wort-Ausdrücken 10,25 Zeichen, wobei die absolut meisten Seitentitel, nämlich 110755, 12 Zeichen lang sind (Modalwert); bei den Ein-Wort-Ausdrücken sind mit 70155 Seitentiteln die meisten 8 Zeichen lang — d.h., die Verteilungen sind jeweils rechtsschief/linkssteil, wie man auch auf diesem Diagramm (für alle Seitentitel) sehen kann:

Verteilung der Zeichen pro Seitentitel

Verteilung der Zeichen pro Seitentitel

Schließlich noch ein paar erste Listen, um auf das eingangs erwähnte Thema zurück zu kommen.

Zeichen in der Häufigkeit ihres Vorkommens als erste Zeichen in Wikipedia-Seitentiteln (bis zu einem minimalen Vorkommen von 500):

S  —  163265
A  —  123187
B  —  115199
M  —  112002
K  —  98456
L  —  93257
H  —  90891
P  —  88378
G  —  85401
D  —  81034
C  —  79626
R  —  75520
F  —  74751
T  —  74265
E  —  67268
J  —  65917
W  —  61414
N  —  50473
V  —  38500
O  —  35271
I  —  35139
U  —  23888
Z  —  19608
Y  —  6742
1  —  5233
Q  —  4803
2  —  3978
X  —  3011
Ö  —  2989
(  —  2923
3  —  1371
Ü  —  1119
4  —  977
Ä  —  962
É  —  903
Č  —  842
Š  —  787
5  —  698
7  —  661
6  —  577
8  —  575
9  —  530

Und hier noch die Zeichen in der Häufigkeit ihres Vorkommens als letzte Zeichen (m.a.W. rückläufig nach Frequenz) in Wikipedia-Seitentiteln (bis zu einem minimalen Vorkommen von 500):

n  —  218406
e  —  201426
r  —  148213
)  —  132037
s  —  131939
a  —  103441
t  —  101156
g  —  81316
l  —  70872
i  —  61466
d  —  49955
h  —  47796
k  —  44990
o  —  44182
m  —  41860
y  —  38200
z  —  30307
u  —  20936
f  —  19963
w  —  14834
.  —  11046
p  —  10894
0  —  10084
c  —  8644
2  —  7686
1  —  7541
x  —  7156
v  —  6589
3  —  6122
b  —  6035
5  —  5915
4  —  5884
6  —  5424
8  —  5386
9  —  5309
7  —  5269
I  —  4873
G  —  4395
A  —  4069
S  —  3827
C  —  3239
é  —  2860
ß  —  2695
ć  —  2688
H  —  2552
R  —  2505
D  —  2372
V  —  2363
M  —  2258
B  —  2161
P  —  2144
T  —  2086
L  —  2085
E  —  1998
j  —  1717
K  —  1620
O  —  1582
F  —  1572
N  —  1400
á  —  1373
ō  —  1365
X  —  1250
!  —  1144
U  —  1066
W  —  1051
Z  —  776
q  —  601
J  —  509
í  —  502
ý  —  502

Dabei ist zu beachten, dass Wikipedia-Seitentitel immer mit einem Großbuchstaben beginnen, aber nicht unbedingt auf mit einem solchen enden müssen.

Kann schon jemand dabei etwas erkennen? Besonders aufregend ist es noch nicht. Aber in Kürze folgen weitere Listen. Bis dann!