- Fachartikel
- |
- Franziska Ippen
- |
- 03.08.2016
Deskriptive Statistik
Egal, ob es um das erste eigene Paper, die medizinische Doktorarbeit oder die Auswertung klinischer Studien geht: Irgendwann kommt man um Grundkenntnisse der medizinischen Statistik nicht mehr herum. Die wichtigsten Grundlagen sind in dieser Serie für dich zusammengefasst.
Grundlagen
Deskriptive oder beschreibende Statistik umfasst statistische Methoden zur Beschreibung und Darstellung von Daten anhand von Grafiken, Tabellen, Diagrammen und statistischen Kenngrößen.
Sie ist damit ein wesentlicher Bestandteil der biometrischen Analyse und die Grundlage jeder weiteren statistischen Auswertung. Vereinfacht gesagt geht es um den „ersten Eindruck“ einer Stichprobe, z.B. eines Patientenkollektivs mit einer seltenen Erkrankung an einer deutschen Universitätsklinik im Rahmen einer klinischen Studie. Jedoch können mithilfe der deskriptiven Statistik keine Rückschlüsse auf die Grundgesamtheit gezogen werden. In unserem Beispiel wären dies alle Patienten mit dieser seltenen Erkrankung in der Bevölkerung.
Dabei werden vor allem Häufigkeiten und Verteilungen von Merkmalsausprägungen innerhalb der Stichprobe analysiert. Ein Merkmal ist eine Eigenschaft eines Objekts, das untersucht werden soll (z.B. das Geschlecht) und eine bestimmte Anzahl von Merkmalsausprägungen annehmen kann (männlich/weiblich). Werden diese Merkmale in Zahlen überführt, bezeichnet man sie als Variablen (z.B. männlich= 0, weiblich=1).
Merkmale und deren zugehörige Variablen können wiederum unterschiedlich klassifiziert werden:
Klassifikationsmöglichkeiten von Merkmalen
1. Diskrete und stetige Variablen
Je nach Wertebereich können Variablen anhand der Anzahl der Werte oder Merkmalsausprägungen klassifiziert werden in diskrete und stetige Variablen.
Diskrete Variablen:
Sie besitzen endlich oder abzählbar unendlich viele Werte oder Merkmalsausprägungen. Konkret bedeutet das, dass eine diskrete Variable nur bestimmte Werte annehmen kann und dass „Sprungstellen“ zwischen den Werten existieren.
Beispiel: Anzahl der Kinder in einem Haushalt. Es sind endlich viele Werte möglich; Werte wie z.B. 3,5 Kinder dagegen nicht.
Stetige Variablen:
Stetige Variablen können als unendlich viele Werte oder Ausprägungen innerhalb eines Intervalls vorkommen. Das bedeutet, dass sie innerhalb eines Bereichs einen beliebigen Wert annehmen können und im Gegensatz zu diskreten Variablen keine „Sprungstellen“ zwischen den Werten existieren.
Beispiel: Körpergewicht und –größe: Beliebig viele Werte sind möglich, z.B. 1,785848624658…m
2. Qualitative und quantitative Variablen
Ebenfalls nach dem Wertebereich werden qualitative und quantitative Variablen unterschieden. Hier geht es jedoch darum, ob die Merkmalsausprägungen unterschiedlichen Ausmaßes sind oder sich gemäß ihrer Qualitätsstufe unterscheiden.
Qualitative Variablen:
Qualitative Variablen besitzen Zugehörigkeiten zu einer Kategorie. Es gibt nur endlich viele Ausprägungen/Qualitätsstufen. Qualitative Variablen sind immer diskret (siehe oben). Sie besitzen keine Rangfolge.
Beispiel: Geschlecht, Blutgruppe, Rhesusfaktor
Quantitative Variablen:
Quantitative Variablen beschreiben die Ausprägungen eines Merkmals. Sie können diskret oder stetig sein.
Beispiel: Körpergröße, Körpertemperatur, Alter, Anzahl von Kindern innerhalb eines Haushalts.
3. Skalenniveaus
Je nach Merkmalsausprägung können verschiedene Skalenniveaus unterschieden werden:
Nominalskala:
Bei Merkmalen/ Variablen, die nominalskaliert sind, liegen die Merkmalsausprägungen als Namen oder Kategorien vor und folgen keiner linearen Ordnung. Das heißt, die Namen/ Kategorien sind nicht rangmäßig geordnet. Sie sind endlich und es gibt keine Überschneidungen zwischen den Merkmalen. Jedes Merkmal kann damit nur einer Kategorie zugewiesen werden.
Beispiel: Geschlecht, Blutgruppe
→ Vergleichsaussagen, die getroffen werden können: =; ≠
Erklärung am Beispiel der Blutgruppe: Möglich sind die Merkmalsausprägungen A, B, AB und 0. Die Anzahl der Merkmalsausprägungen ist somit endlich. Es gibt keine Überschneidung zwischen diesen Kategorien, d.h., ein Patient kann nicht gleichzeitig die Blutgruppe 0 und die Blutgruppe AB besitzen. Zudem gibt es keine rangmäßig Ordnung, d.h. Blutgruppe A ist nicht höherwertiger als Blutgruppe B.
Ordinalskala:
Bei ordinalskalierten Merkmalen/ Variablen existiert ebenfalls nur eine endliche Zahl von Merkmalsausprägungen. Im Gegensatz zur Nominalskala können die Werte jedoch in eine Rangfolge übersetzt werden und nach dieser geordnet werden. Zwischen den einzelnen Merkmalsausprägungen liegen also Abstände vor- die Größe dieser Abstände ist allerdings nicht interpretierbar.
Beispiele: Schulnoten, Kleidergrößen, Skalen in Fragebögen (z.B. zur Zufriedenheit: nicht zufrieden, eher zufrieden, sehr zufrieden)
→ Vergleichsaussagen, die getroffen werden können: =; ≠; <; >
Erklärung am Beispiel Kleidergrößen: Diese können z.B. als Kleidergrößen XS, S, M, L und XL vorliegen. Diese können nach Größe in eine Rangfolge gebracht und miteinander verglichen werden (XS ist kleiner als S, S ist kleiner als M, etc.). Es liegen somit Abstände zwischen den Kategorien vor, deren Größe allerdings nicht interpretierbar ist – man kann z.B. nicht sagen, ob Kleidergröße S 2cm breiter und länger ist als Kleidergröße XS.
Intervallskala:
Auf einer Intervallskala können Merkmalsausprägungen anhand einer Rangfolge innerhalb eines Intervalls geordnet werden. Zudem können Abstände zwischen den Merkmalsausprägungen gebildet und interpretiert werden. Die Abstände zwischen zwei aufeinanderfolgenden Merkmalsausprägungen sind dabei gleich groß. Es gibt bei dieser Skala allerdings keinen absoluten Nullpunkt (nur einen willkürlich gewählter Nullpunkt). Damit ist es zwar möglich, Differenzen auf diesem Skalenniveau zu bilden und zu interpretieren, allerdings lassen sich keine Verhältnisse der Merkmalsausprägungen bilden.
Beispiele: Intelligenzquotient, Temperaturmessung in Grad Celsius oder Fahrenheit, Zeitrechnung
→ Vergleichsaussagen, die getroffen werden können: =; ≠; <; >; +; -
Erklärung am Beispiel Intelligenzquotient: Der Intelligenzquotient von Probanden kann anhand einer Rangfolge geordnet werden. Die Abstände zwischen zwei aufeinanderfolgenden Merkmalsausprägungen sind dabei gleich groß – der Abstand zwischen einem IQ von 53 und einem IQ von 54 ist genau gleich groß wie zwischen einem IQ von 130 und einem IQ von 131. Der Nullpunkt ist willkürlich gewählt. Differenzen sind interpretierbar – so hat Proband A mit einem IQ von 120 genau 60 IQ-Punkte mehr erreicht als Proband B mit einem IQ von 60, jedoch lässt sich nicht sagen, dass Proband A doppelt so klug ist wie Proband B.
Verhältnisskala:
Eine Verhältnisskala entspricht dem höchstmöglichen Skalenniveau. Merkmalsausprägungen von Merkmalen/ Variablen können demnach in eine Rangfolge gebracht werden, deren Abstände zueinander gebildet werden können und interpretierbar sind – zudem liegt ein absoluter Nullpunkt vor, und Aussagen über Verhältnisse zweier Merkmalsausprägungen zueinander können getroffen werden.
Beispiele: Einkommen, Temperaturmessung in Kelvin, Lebensalter, Körpergewicht und Körpergröße.
→ Vergleichsaussagen, die getroffen werden können: =; ≠; <; >; +; -; x; ÷
Erklärung anhand des Einkommens: Das monatliche Netto-Einkommen verschiedener Probanden kann in eine Rangfolge gebracht werden. Proband A verdient monatlich 1250 Euro, Proband B 2500 Euro. Ein absoluter Nullpunkt ist beim Einkommen als „kein Einkommen“ definiert. Neben der Aussage über eine Differenz, dass Proband B 1250 Euro mehr verdient als Proband A, lässt sich zudem auch eine Aussage über das Verhältnis der beiden Netto-Einkommen zueinander treffen: Proband B verdient netto doppelt so viel wie Proband A.
Zu Deskriptive Statistik Teil 2
Quellen: