Um die Mitte, oder das Zentrum einer Datenmenge zu bestimmen verwendet man sogenannte Lagemaße. Diese beschreiben das Zentrum durch einen Zahlenwert. Der wohl bekannteste Vertreter ist das arithmetische Mittel, auch Mittelwert genannt.
arithmetische Mittel:
Das arithmetische Mittel wird ermittelt aus der Summe der Ausprägungen, dividiert durch die Gesamtanzahl der Ausprägungen. Als Beispiel dient die folgende Tabelle:
Ausprägung | Absolute Häufigkeit | Relative Häufigkeit |
1 | 5 | 5/30 = 0,167 |
2 | 9 | 9/30 = 0,300 |
3 | 9 | 9/30 = 0,300 |
4 | 7 | 7/30 = 0,233 |
\(x=\frac{1}{n}(x_1+…+x_n)\)
Mittelwert = (5+9+9+7) / 4 = 7,5
Um den Mittelwert für die relative Häufigkeit zu ermitteln wird jede absolute Häufigkeit mit der dazugehörigen relativen Häufigkeit multipliziert und die Summe der Ergebnisse gebildet:
\(x=(x_1f_1+…+x_nf_1)\)
Mittelwert für Relative Häufigkeiten = 5*0,167+9*0,3+9*0,3+7*0,233 = 7,866
Um den Mittelwert bei klassierten Daten zu ermitteln, muss man die einzelnen Klassenmitten ermitteln. Dazu schauen wir uns die folgende Tabelle an.
Gruppe | 1 | 2 | 3 | 4 |
Gruppe/Klasse | 0-2000 | 2000-4000 | 4000-6000 | 6000-8000 |
Anzahl Personen | 1 | 7 | 8 | 4 |
Dichte | 0,000025 | 0,000175 | 0,0002 | 0,0001 |
Die Gruppen stellen Gehaltsklassen dar. Die Klassenmitte für die erste Gruppe wäre 1000, für die zweite 3000, für die dritte 5000 und für die vierte 7000. Als Nächstes brauchen wir die relativen Häufigkeiten der Klassen. Diese ergeben sich wie folgt:
- 0,000025*2000 = 0,05
- 0,000175*2000 = 0,35
- 0,0002 *2000 = 0,4
- 0,0001*2000 = 0,2
Jetzt können wir folgende Formel anwenden.
\(x=(m_1f_1+…+m_ff_k)\)
Mittelwert für kl. Daten = 1000*0,05+3000*0,35+5000*0,4+7000*0,2 = 4500
getrimmtes Mittel
Im Gegensatz zu anderen Lagemaßen reagiert das arithmetische Mittel empfindlich auf Ausreißer. Aus diesem Grund gibt es die Möglichkeit auf resistentere Lagemaße auszuweichen. Eines davon ist das getrimmte Mittel.
Beim getrimmten Mittel werden die Daten, der Größe nach sortiert. Dann schneidet man einen festgelegten Prozentsatz am Anfang und am Ende der Datenmenge ab. Zum Beispiel 10% der niedrigsten Werte und 10% der höchsten Werte. Aus den verbleibenden Daten wird dann, das arithmetische Mittel berechnet.
Angenommen wir haben folgende Daten: 17, 2 , 11 ,15 , 9, 14, 18, 8, 4, 10 (arithmetisches Mittel = 10,8)
Diese ordnen wir der Größe nach: 2, 4, 8, 9, 10, 11, 14, 15, 17, 18.
Dann lassen wir die niedrigsten 10% und die höchsten 10% weg, also die 2 und die 18. Das arithmetische Mittel berechnen wir dann aus übrigen Zahlen, also von der 4 bis zur 17. Dies ergibt ein getrimmtes Mittel von 11.
winsorisiertes Mittel
Beim winsorisierten Mittel werden keine Daten weggelassen, sondern ersetzt mit den Extremwerten am Anfang und am Ende der Datenreihe. Auch hier kann eine beliebige Prozentzahl gewählt werden. Wir ersetzen 10% am Anfang und am Ende.
Bei unserer sortierten Datenreihe 2, 4, 8, 9, 10, 11, 14, 15, 17, 18 ersetzen wir die 2 mit der 4 und die 18 mit der 17.
Wir erhalten dann: 4, 4, 8, 9, 10, 11, 14, 15, 17, 17 und ein
winsorisiertes Mittel von 10,9
Median
Ein resistentes Lagemaß ist der Median. Diesen erhält man, indem man eine Liste der Größe nach ordnet und den Wert ermittelt, der genau in der Mitte liegt, sodass 50% der Werte oberhalb und 50% der Werte unterhalb dieses Wertes liegen.
Nehmen wir wieder die folgende Datenreihe als Beispiel:
2, 4, 8, 9, 10, 11, 14, 15, 17, 18, 19.
Der Median in diesem Fall ist 11, da sich 50% unterhalb (2,4,8,9,10) und 50% oberhalb(14, 15, 17, 18, 19) befinden.
Dies funktioniert, weil die Anzahl der Werte ungerade ist. Bei einer geraden Anzahl an Werten bildet man das arithmetische Mittel der in der Mitte liegenden Werten.
\(x=\frac{1}{2}(x_(n/2)+x_(n/2+1))\)
Wenn wir die Zahlenreihe nehmen und die 19 weg lassen, erhalten wir eine Liste mit 10 Werten.
2, 4, 8, 9, 10, 11, 14, 15, 17, 18
Der Median in diesem Fall wäre: (10 +11) /2 = 10,5
Modus
Der Modus gibt an, welche Ausprägung/Wert am Häufigsten in einer Datenmenge vorkommt. Bei der Zahlenreihe 2, 4, 8, 9, 10, 11, 14, 15, 17, 18 ist der Modus = 18
geometrisches Mittel
Das geometrische Mittel wird in der Regel im Zusammenhang mit Wachstums oder Zinsfaktoren verwendet, die sich über verschiedene Zeitperioden erstrecken. Es können Tage, Monate oder Jahre sein.
Ein Beispiel:
Gegeben sei eine Tabelle die von einer Spareinlage von 6000 EUR ausgeht. Auf diese 6000 Euro gibt es jedes Jahr eine Zinsrate, die höher liegt als die im Vorjahr.
Jahr | Zinssatz | Xi = Zinsrate | Ergebnis |
0 | 6000 EUR | ||
1 | 1,01 | 6,060 | 6363,60 EUR |
2 | 1,30 | 6,078 | 6750,38 EUR |
3 | 1,50 | 6,090 | 7161,48 EUR |
Die Berechnung des geometrischen Mittels sieht nun folgendermaßen aus:
\(x_g=(\sqrt[3]{x_1*x_2*x_3})=(\sqrt[3]{6,06*6,078*6,09})=6,076\)
In diesem Beispiel wurden drei Zinsraten miteinander multipliziert, also muss zur Ermittlung des mittleren Wertes die dritte Wurzel aus dem Produkt gezogen werden.
harmonisches Mittel
Das harmonische Mittel ist manchen Fällen dem arithmetischen Mittel vorzuziehen, zum Beispiel dann, wenn es um die Ermittlung von Durchschnittsgeschwindigkeiten geht.
Angenommen man ist mit dem Auto fünf verschiedene Strecken gefahren und was man dokumentiert hat, ist die Dauer und die Geschwindigkeit mit der man gefahren ist.
Strecke | Dauer in Stunden | Geschwindigkeit in km/h |
1 | 5 | 140 |
2 | 8 | 110 |
3 | 10 | 80 |
4 | 3 | 160 |
5 | 7 | 100 |
Das harmonische Mittel würde wie folgt ermittelt werden:
\(x_h=\frac{v_1*t_1+v_2*t_2+v_3*t_3+v_4*t_4+v_5*t_5}{t_1+t_2+t_3+t_4+t_5}\)
\(x_h=\frac{140*5+110*8+80*10+160*3+100*7}{5+8+10+3+7}\)=107,88 km/h