next up previous index
Nächste Seite: Meßinstrumente Aufwärts: Arten von Variablen Vorherige Seite: Diskrete und kontinuierliche Zufallsvariablen   Index


Analyse kategorialer und kontinuierlicher Variablen

Jede empirische Messung liefert diskrete Meßwerte, auch wenn im Einzelfall sehr viele unterschiedliche Meßwerte möglich sind.

Beispiele: Das Lebensalter wird häufig in Jahren gemessen. Das ist eine diskrete Zeiteinheit. Daran würde auch eine feinere Messung, z.B. in Sekunden, nichts Prinzipielles ändern. Das gleiche gilt für Messungen der Körpergröße oder des sozialen Prestiges. Die Maßeinheiten (Zentimeter, Prestigepunkte) sind ebenfalls diskreter Natur.

Eine einfache und gleichzeitig umfassende Klassifikation statistischer Analyseverfahren betrachtet die Anzahl der (diskreten) »Ausprägungen« der jeweiligen »Variablen«. Es ergeben sich zwei Typen statistischer Analyseverfahren, auf denen dieses Glossar aufbaut: Verfahren zur Analyse kategorialer und zur Analyse kontinuierlicher Variablen.

Aus dieser Unterscheidung nach der Anzahl der Ausprägungen ergeben sich zwei verschiedene Vorgehensweisen bei der statistischen Datenanalyse: Da kategoriale Variablen nur eine begrenzte Anzahl von Ausprägungen aufweisen, liegt es nahe, das Auftreten der einzelnen Kategorien zu modellieren. Handelt es sich dagegen um Variablen mit sehr vielen Ausprägungen, ist dieses Vorgehen nicht mehr praktikabel. Man greift statt dessen auf Analyseverfahren zurück, die bestimmte Eigenschaften der Verteilung aller Ausprägungen dieser Variablen modellieren: z.B. das »Zentrum« oder die »Streuung« dieser Ausprägungen. Ab welcher Anzahl von Ausprägungen man eine Variable nicht mehr als kategoriale Variable betrachtet, ist dabei nicht festgelegt und hängt sowohl von inhaltlichen als auch von praktischen Gesichtspunkten ab.

Wie verhält sich diese Unterscheidung zwischen Analyseverfahren für kategoriale und für kontinuierliche Variablen zu den anderen Klassifikationen von Variablen? Mit Blick auf die Unterscheidung der mathematischen Statistik zwischen »diskreten und kontinuierlichen Zufallsvariablen« kann man kategoriale Variablen auch als diskrete Variablen bezeichnen. Die Tatsache, daß es bei diskreten Variablen klar voneinander unterscheidbare (eben diskrete) Ausprägungen gibt, prädestiniert diesen Datentyp für die statistische Modellierung des Auftretens der einzelnen Ausprägungen (Kategorien). Verfahren kategorialer Datenanalyse bauen daher auf den »Verteilungsmodellen« für diskrete Zufallsvariablen auf. Umgekehrt verwendet man bei Variablen mit vielen Ausprägungen häufig Verteilungsmodelle für kontinuierliche Zufallsvariablen, immer vorausgesetzt, die gemessene Eigenschaft ist ein kontinuierliches Merkmal. In Einzelfällen kann es notwendig sein, den diskreten Charakter der Messung durch eine sogenannte Stetigkeits- oder Kontinuitätskorrektur auszugleichen.

Beispiele: Das Merkmal Lebenszeit, das in Jahren gemessen wurde, soll als kontinuierliche Variable betrachtet werden, also als eine Variable, bei der zwischen zwei Werten $ a<b$ auch jeder Zwischenwert im Intervall $ [a,b]$ möglich ist, sei dieses Intervall auch noch so klein. Betrachtet man die diskreten Meßwerte 20, 21 und 22 Jahre, dann sind sie eigentlich nur ungenaue, sozusagen gerundete Messungen einer an sich kontinuierlichen Eigenschaft, die sehr viel genauer gemessen werden könnte. Der ungenaue Meßwert 20 Jahre repräsentiert alle exakten Lebenszeitwerte im Intervall von 19,5 bis unter 20,5 Jahre. Für die anderen Meßwerte gelten analog die Intervalle [20,5, 21,5) und [21,5, 22,5). Eine Stetigkeitskorrektur berücksichtigt genau diese Rundungsgrenzen.

Im Prinzip können kategoriale Variablen sowohl metrisches als auch nicht-metrisches »Meßniveau« haben, durch eine geeignete Spezifikation des statistischen Analyseverfahrens lassen sich die unterschiedlichsten Meßniveaus berücksichtigen. Da aber nicht-metrische Variablen in der Regel eine begrenzte Anzahl von Ausprägungen aufweisen, machen sie einen Großteil der kategorialen Variablen aus. Metrische Variablen haben dagegen häufig viele Ausprägungen und werden daher oft als kontinuierliche Variablen betrachtet. Sie lassen sich nur dann sinnvoll als kategoriale Variablen analysieren, wenn sie eine begrenzte Anzahl von Ausprägungen aufweisen. Das ist z.B. dann der Fall, wenn es sich um Zählvariablen handelt, die in der Praxis keine sehr hohen Werte annehmen (Anzahl der Kinder, Anzahl der Mitbewohner, Anzahl der Wohnsitze usw.), oder wenn der Wertebereich der metrischen Variablen in eine begrenzte Anzahl von Klassen unterteilt wurde (vgl. »klassifizierte Variablen«).


next up previous index
Nächste Seite: Meßinstrumente Aufwärts: Arten von Variablen Vorherige Seite: Diskrete und kontinuierliche Zufallsvariablen   Index
HJA 2001-10-01