Lagemaße

Um die Mitte, oder das Zentrum einer Datenmenge zu bestimmen verwendet man sogenannte Lagemaße. Diese beschreiben das Zentrum durch einen Zahlenwert. Der wohl bekannteste Vertreter ist das arithmetische Mittel, auch Mittelwert genannt.

arithmetische Mittel:

Das arithmetische Mittel wird ermittelt aus der Summe der Ausprägungen, dividiert durch die Gesamtanzahl der Ausprägungen. Als Beispiel dient die folgende Tabelle:

AusprägungAbsolute HäufigkeitRelative Häufigkeit
155/30 = 0,167
299/30 = 0,300
399/30 = 0,300
477/30 = 0,233

\(x=\frac{1}{n}(x_1+…+x_n)\)

Mittelwert = (5+9+9+7) / 4 = 7,5


Um den Mittelwert für die relative Häufigkeit zu ermitteln wird jede absolute Häufigkeit mit der dazugehörigen relativen Häufigkeit multipliziert und die Summe der Ergebnisse gebildet:

\(x=(x_1f_1+…+x_nf_1)\)

Mittelwert für Relative Häufigkeiten = 5*0,167+9*0,3+9*0,3+7*0,233 = 7,866


Um den Mittelwert bei klassierten Daten zu ermitteln, muss man die einzelnen Klassenmitten ermitteln. Dazu schauen wir uns die folgende Tabelle an.

Gruppe1234
Gruppe/Klasse0-20002000-40004000-60006000-8000
Anzahl Personen1784
Dichte0,0000250,0001750,00020,0001

Die Gruppen stellen Gehaltsklassen dar. Die Klassenmitte für die erste Gruppe wäre 1000, für die zweite 3000, für die dritte 5000 und für die vierte 7000. Als Nächstes brauchen wir die relativen Häufigkeiten der Klassen. Diese ergeben sich wie folgt:

  • 0,000025*2000 = 0,05
  • 0,000175*2000 = 0,35
  • 0,0002 *2000 = 0,4
  • 0,0001*2000 = 0,2

Jetzt können wir folgende Formel anwenden.

\(x=(m_1f_1+…+m_ff_k)\)

Mittelwert für kl. Daten = 1000*0,05+3000*0,35+5000*0,4+7000*0,2 = 4500


getrimmtes Mittel

Im Gegensatz zu anderen Lagemaßen reagiert das arithmetische Mittel empfindlich auf Ausreißer. Aus diesem Grund gibt es die Möglichkeit auf resistentere Lagemaße auszuweichen. Eines davon ist das getrimmte Mittel.

Beim getrimmten Mittel werden die Daten, der Größe nach sortiert. Dann schneidet man einen festgelegten Prozentsatz am Anfang und am Ende der Datenmenge ab. Zum Beispiel 10% der niedrigsten Werte und 10% der höchsten Werte. Aus den verbleibenden Daten wird dann, das arithmetische Mittel berechnet.

Angenommen wir haben folgende Daten: 17, 2 , 11 ,15 , 9, 14, 18, 8, 4, 10 (arithmetisches Mittel = 10,8)

Diese ordnen wir der Größe nach: 2, 4, 8, 9, 10, 11, 14, 15, 17, 18.

Dann lassen wir die niedrigsten 10% und die höchsten 10% weg, also die 2 und die 18. Das arithmetische Mittel berechnen wir dann aus übrigen Zahlen, also von der 4 bis zur 17. Dies ergibt ein getrimmtes Mittel von 11.


winsorisiertes Mittel

Beim winsorisierten Mittel werden keine Daten weggelassen, sondern ersetzt mit den Extremwerten am Anfang und am Ende der Datenreihe. Auch hier kann eine beliebige Prozentzahl gewählt werden. Wir ersetzen 10% am Anfang und am Ende.

Bei unserer sortierten Datenreihe 2, 4, 8, 9, 10, 11, 14, 15, 17, 18 ersetzen wir die 2 mit der 4 und die 18 mit der 17.

Wir erhalten dann: 4, 4, 8, 9, 10, 11, 14, 15, 17, 17 und ein

winsorisiertes Mittel von 10,9


Median

Ein resistentes Lagemaß ist der Median. Diesen erhält man, indem man eine Liste der Größe nach ordnet und den Wert ermittelt, der genau in der Mitte liegt, sodass 50% der Werte oberhalb und 50% der Werte unterhalb dieses Wertes liegen.

Nehmen wir wieder die folgende Datenreihe als Beispiel:

2, 4, 8, 9, 10, 11, 14, 15, 17, 18, 19.

Der Median in diesem Fall ist 11, da sich 50% unterhalb (2,4,8,9,10) und 50% oberhalb(14, 15, 17, 18, 19) befinden.

Dies funktioniert, weil die Anzahl der Werte ungerade ist. Bei einer geraden Anzahl an Werten bildet man das arithmetische Mittel der in der Mitte liegenden Werten.

\(x=\frac{1}{2}(x_(n/2)+x_(n/2+1))\)

Wenn wir die Zahlenreihe nehmen und die 19 weg lassen, erhalten wir eine Liste mit 10 Werten.

2, 4, 8, 9, 10, 11, 14, 15, 17, 18

Der Median in diesem Fall wäre: (10 +11) /2 = 10,5


Modus

Der Modus gibt an, welche Ausprägung/Wert am Häufigsten in einer Datenmenge vorkommt. Bei der Zahlenreihe 2, 4, 8, 9, 10, 11, 14, 15, 17, 18 ist der Modus = 18


geometrisches Mittel

Das geometrische Mittel wird in der Regel im Zusammenhang mit Wachstums oder Zinsfaktoren verwendet, die sich über verschiedene Zeitperioden erstrecken. Es können Tage, Monate oder Jahre sein.


Ein Beispiel:
Gegeben sei eine Tabelle die von einer Spareinlage von 6000 EUR ausgeht. Auf diese 6000 Euro gibt es jedes Jahr eine Zinsrate, die höher liegt als die im Vorjahr.

JahrZinssatzXi = ZinsrateErgebnis
0  6000 EUR
11,016,0606363,60 EUR
21,306,0786750,38 EUR
31,506,0907161,48 EUR

Die Berechnung des geometrischen Mittels sieht nun folgendermaßen aus:

\(x_g=(\sqrt[3]{x_1*x_2*x_3})=(\sqrt[3]{6,06*6,078*6,09})=6,076\)

In diesem Beispiel wurden drei Zinsraten miteinander multipliziert, also muss zur Ermittlung des mittleren Wertes die dritte Wurzel aus dem Produkt gezogen werden.


harmonisches Mittel

Das harmonische Mittel ist manchen Fällen dem arithmetischen Mittel vorzuziehen, zum Beispiel dann, wenn es um die Ermittlung von Durchschnittsgeschwindigkeiten geht.

Angenommen man ist mit dem Auto fünf verschiedene Strecken gefahren und was man dokumentiert hat, ist die Dauer und die Geschwindigkeit mit der man gefahren ist.

StreckeDauer in StundenGeschwindigkeit in km/h
15140
28110
31080
43160
57100

Das harmonische Mittel würde wie folgt ermittelt werden:

\(x_h=\frac{v_1*t_1+v_2*t_2+v_3*t_3+v_4*t_4+v_5*t_5}{t_1+t_2+t_3+t_4+t_5}\)

\(x_h=\frac{140*5+110*8+80*10+160*3+100*7}{5+8+10+3+7}\)=107,88 km/h