Beispiele: Das Lebensalter wird häufig in Jahren gemessen. Das ist eine diskrete Zeiteinheit. Daran würde auch eine feinere Messung, z.B. in Sekunden, nichts Prinzipielles ändern. Das gleiche gilt für Messungen der Körpergröße oder des sozialen Prestiges. Die Maßeinheiten (Zentimeter, Prestigepunkte) sind ebenfalls diskreter Natur.
Eine einfache und gleichzeitig umfassende Klassifikation statistischer Analyseverfahren betrachtet die Anzahl der (diskreten) »Ausprägungen« der jeweiligen »Variablen«. Es ergeben sich zwei Typen statistischer Analyseverfahren, auf denen dieses Glossar aufbaut: Verfahren zur Analyse kategorialer und zur Analyse kontinuierlicher Variablen.
Beispiele: Das Geschlecht einer Befragungsperson mit den Ausprägungen männlich und weiblich; ihre Parteipräferenz unterschieden nach SPD, CDU/CSU, FDP, Grüne, Republikaner und sonstige Parteien; die Anzahl der Mitbewohner im Haushalt dieser Person (0, 1, 2, 3 und mehr); die soziale Schicht, der sich die Person zuordnet (Unterschicht, Mittelschicht, Oberschicht) oder ihr Einkommen, wenn dieses mit einer begrenzten Anzahl von Einkommensklassen erhoben wird (z.B. unter 1.000 DM, 1.000-2.000 DM, 2.000-3.000 DM, 3.000 und mehr DM).
Beispiele: Das Einkommen in genauen DM-Beträgen oder das Lebensalter in Jahren sind Variablen mit sehr vielen Ausprägungen. Beiden liegt eine kontinuierliche Eigenschaft zugrunde (Zahlungsfähigkeit, Lebenszeit). Sie sollen daher wie kontinuierliche Variablen behandelt werden. Die Variablen Staatsangehörigkeit oder ausgeübter Beruf haben ebenfalls viele Ausprägungen. Die Welt hat mehr als hundert Nationalitäten, und die internationale Standardklassifikation der Berufe kennt mehrere tausend berufliche Tätigkeiten. Da beiden Variablen jedoch keine kontinuierliche Eigenschaft zugrundeliegt, kann man sie nicht als kontinuierliche Variablen behandeln, sondern muß einzelne Berufe oder Nationalitäten als kategoriale Variablen verwenden.
Wie verhält sich diese Unterscheidung zwischen Analyseverfahren für kategoriale und für kontinuierliche Variablen zu den anderen Klassifikationen von Variablen? Mit Blick auf die Unterscheidung der mathematischen Statistik zwischen »diskreten und kontinuierlichen Zufallsvariablen« kann man kategoriale Variablen auch als diskrete Variablen bezeichnen. Die Tatsache, daß es bei diskreten Variablen klar voneinander unterscheidbare (eben diskrete) Ausprägungen gibt, prädestiniert diesen Datentyp für die statistische Modellierung des Auftretens der einzelnen Ausprägungen (Kategorien). Verfahren kategorialer Datenanalyse bauen daher auf den »Verteilungsmodellen« für diskrete Zufallsvariablen auf. Umgekehrt verwendet man bei Variablen mit vielen Ausprägungen häufig Verteilungsmodelle für kontinuierliche Zufallsvariablen, immer vorausgesetzt, die gemessene Eigenschaft ist ein kontinuierliches Merkmal. In Einzelfällen kann es notwendig sein, den diskreten Charakter der Messung durch eine sogenannte Stetigkeits- oder Kontinuitätskorrektur auszugleichen.
Beispiele: Das Merkmal Lebenszeit, das in Jahren gemessen wurde, soll als kontinuierliche Variable betrachtet werden, also als eine Variable, bei der zwischen zwei Werten auch jeder Zwischenwert im Intervall
möglich ist, sei dieses Intervall auch noch so klein. Betrachtet man die diskreten Meßwerte 20, 21 und 22 Jahre, dann sind sie eigentlich nur ungenaue, sozusagen gerundete Messungen einer an sich kontinuierlichen Eigenschaft, die sehr viel genauer gemessen werden könnte. Der ungenaue Meßwert 20 Jahre repräsentiert alle exakten Lebenszeitwerte im Intervall von 19,5 bis unter 20,5 Jahre. Für die anderen Meßwerte gelten analog die Intervalle [20,5, 21,5) und [21,5, 22,5). Eine Stetigkeitskorrektur berücksichtigt genau diese Rundungsgrenzen.
Im Prinzip können kategoriale Variablen sowohl metrisches als auch nicht-metrisches »Meßniveau« haben, durch eine geeignete Spezifikation des statistischen Analyseverfahrens lassen sich die unterschiedlichsten Meßniveaus berücksichtigen. Da aber nicht-metrische Variablen in der Regel eine begrenzte Anzahl von Ausprägungen aufweisen, machen sie einen Großteil der kategorialen Variablen aus. Metrische Variablen haben dagegen häufig viele Ausprägungen und werden daher oft als kontinuierliche Variablen betrachtet. Sie lassen sich nur dann sinnvoll als kategoriale Variablen analysieren, wenn sie eine begrenzte Anzahl von Ausprägungen aufweisen. Das ist z.B. dann der Fall, wenn es sich um Zählvariablen handelt, die in der Praxis keine sehr hohen Werte annehmen (Anzahl der Kinder, Anzahl der Mitbewohner, Anzahl der Wohnsitze usw.), oder wenn der Wertebereich der metrischen Variablen in eine begrenzte Anzahl von Klassen unterteilt wurde (vgl. »klassifizierte Variablen«).