2 min read

z-Transformation / Standardization

1 Introduction

Durch eine z-Transformation / Standardisierung von Merkmalen / Variablen werden diese in der Statistik in eine andere Form überführt. Dies ist beispielsweise notwendig, um unterschiedlich verteilte Zufallsvariablen miteinander vergleichen zu können. Dazu subtrahiert man von jedem Messwert den arithmetischen Mittelwert, teilt die resultierende Differenz durch die Standardabweichung und erhält dadurch die sogenannten z-scores (z-Werte).

\[ z = \frac{x-m}{sd} \]

  • z: z-transformierte Stichprobenwerte
  • x: Originalwert der Stichprobe
  • m: Mittelwert der Stichprobe
  • sd: Standardabweichung der Stichprobe

Nach der z-Transformation ist

  • das arithmetische Mittel der transformierten Messreihe immer Null und
  • die Varianz sowie die Standardabweichung sind immer 1.

Liegt eine Normalverteilung vor, können auf Basis der z-Werte die entsprechenden Wahrscheinlichkeiten in einer Tabelle für die Standardnormalverteilung abgelesen werden.

2 Quick example

Einzelne Messwerte lassen sich schwer miteinander vergleichen, wenn sie von verschiedenen Messinstrumenten stammen. Dies kann man an einem einfachen Beispiel darstellen:

  • Stefan hat sein Abitur in Bayern mit 620 Punkte abgeschlossen
  • Susi hat in ihrem Abitur in Sachsen 640 Punkte erreicht

Die entscheidende Frage ist nun: Hat Susi wirklich das bessere Abitur geschrieben? Wie wir wissen, sind die Aufgaben in Bayern meist ein wenig schwieriger als in anderen Bundesländern…

Die Lösung besteht darin, die Daten auf eine einheitliche Skala zu transformieren. Bei einer z-Transformation bekommt jede Person einen neuen Wert zugewiesen, der nun vergleichbar ist. Diesem z-Wert kann ein bestimmter Flächenanteil der Standardnormalverteilung zugeordnet werden. Der Flächenanteil entspricht der Auftretenswahrscheinlichkeit für diesen Wert und alle kleineren Werte.

Für unser Beispiel mit Stefan und Susi nehmen wir folgende Mittelwerte und Standardabweichung der Abiturpunkte an:

Bundesland: Bayern Sachsen
m 570 575
sd 75 105

Somit können wir folgende z Werte berechnen:

\[ Stefan: z = \frac{620-570}{75} = 0,67\] \[ Susi: z = \frac{640-575}{105} = 0,62\]

3 Conclusion

Obwohl Susi mehr Punkte im Abitur bekam, hat Stefan im standardisierten Vergleich die bessere Leistung erreicht.

Natürlich muss man in R nicht alle seine Werte “manuell” umformen, sondern kann dafür die Funktion scale verwenden. Wie dieser Befehl anzuwenden ist, habe ich bereits im Post “Change Variables in R”“ unter Punkt 4.4 beschrieben.