next up previous index
Nächste Seite: Arten von Variablen Aufwärts: Datenaufbereitung Vorherige Seite: Gruppierte Daten   Index


Klassifizierte Variable

Aus praktischen Gründen ist es häufig sinnvoll, Variablen mit sehr vielen Ausprägungen zu klassifizieren, d.h., mehrere Werte zu einem Wertebereich zusammenzufassen (engl.: classified variable). Dies kann bereits bei der Datenerhebung geschehen oder aber erst bei der späteren statistischen Analyse.

Beispiele: Das monatliche Haushaltsnettoeinkommen wurde im Mikrozensus 1998 in insgesamt neun Einkommensklassen erfaßt: unter 1.000 DM, 1.000-1.800 DM, 1.800-2.000 DM usw. bis 7.500 DM und mehr.[*] Auf diese Weise versucht man, zum einen die Anzahl der Antwortverweigerungen bei dieser sensiblen Frage zu verringern und zum anderen die Beantwortung für die Befragten zu erleichtern, weil die Angabe eines exakten Haushaltseinkommens eine Menge von Informationen und Berechnungen auf seiten der Befragten erfordert. Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften[*] (ALLBUS) erfragt dagegen das Haushaltseinkommen in genauen DM-Beträgen. Für spätere statistische Analysen (z.B. für eine Darstellung der Häufigkeitsverteilung der Einkommen) wird jedoch eine Variable bereitgestellt, in der erfaßten Einkommensangaben in mehreren Einkommensklassen zusammengefaßt sind.

Die Wahl der Klassen und ihrer Grenzen hängt weitgehend von inhaltlichen Kriterien ab. Formal muß eine Klassifikation drei Anforderungen genügen: Eindeutigkeit, Ausschließlichkeit und Vollständigkeit. Eine Klassifikation ist eindeutig, wenn jeder empirisch vorkommende Wert einer Klasse zugeordnet werden kann. Sie ist ausschließlich, wenn jeder Wert nur in eine und nicht in mehrere Klassen fällt. Und sie ist schließlich vollständig, wenn beide vorherigen Bedingungen zutreffen, also kein Wert existiert, der keiner Klasse zugeordnet werden kann. Insbesondere müssen die Klassengrenzen so definiert sein, daß eindeutig ist, welcher Klasse ein Wert zugewiesen, der exakt auf die Klassengrenze fällt.

Beispiele: Bei der Mikrozensus-Klassifikation muß eindeutig sein, in welche Klassen Einkommenswerte wie 1.000 DM, 1.800 DM oder 2.000 DM eingeordnet werden sollen. Dazu wurde vereinbart, daß jedes Klassenintervall jeweils bis unter, aber nicht bis einschließlich die obere Grenze reicht. Demnach fallen die drei Einkommenswerte in die zweite, dritte und vierte Klasse.

Unter statistischen Gesichtspunkten ist es vorteilhaft, wenn die Klassenbreiten gleich groß sind und offene Klassen vermieden werden. Aus den folgenden Gründen lassen sich diese Forderungen jedoch nicht immer einlösen:

Mit der Klassifizierung ist immer ein Informationsverlust verbunden, so daß man, wenn möglich, die Originalwerte verwenden sollte, es sei denn, es gibt inhaltliche Gründe für die Unterscheidung verschiedener Klassen von Variablenwerten.

Beispiele: Möchte man das Durchschnittsalter einer Stichprobe von Personen bestimmen, sollte man auf die exakten Altersangaben zurückgreifen. Möchte man aber aus inhaltlichen Gründen zwischen verschiedenen Lebensphasen unterscheiden, z.B. zwischen Personen im Jugendalter, in der Übergangsphase zwischen Erwerbstätigkeit und Beruf, in der Erwerbsphase und im Ruhestand, dann interessieren bestimmte Altersklassen: z.B. unter 18 Jahre, 18-24 Jahre, 25-65 Jahre und über 65 Jahre.

Von diesen (inhaltlichen) Entscheidungen hängt auch ab, wie man die klassifizierte Variable bei der späteren statistischen Analyse behandeln kann. Im zweiten Beispiel (Lebensphasen) werden die einzelnen Klassen als voneinander verschiedene Kategorien betrachtet, die allenfalls eine Rangordnung aufweisen. Im ersten Beispiel (Durchschnittsalter) sollte man eigentlich auf die Originalwerte zurückgreifen. Falls diese nicht vorliegen, verwendet man ersatzweise die Klassenmitten als Schätzer für die in der Klasse zusammengefassten Originalwerte.

Notation: $ c_{1}, c_{2}, \ldots, c_{k}$ seien die oberen Grenzen der Klassen $ 1, \ldots, k$. Mit eckigen und runden Klammern wird dann verdeutlicht, ob die jeweilige Klassengrenze noch zu dem Klassenintervall gehören soll (eckige Klammer) oder nicht (runde Klammer). $ [c_{0}, c_{1}), [c_{1}, c_{2}), \ldots, [c_{k-1}, c_{k}]$ besagt beispielsweise, daß die zweite Klasse alle Werte von $ c_{1}$ einschließlich bis unter $ c_{2}$ umfaßt: $ c_{1}\leq x<c_{2}$. Anders ausgedrückt: Die untere Grenze gehört mit zu dieser Klasse, die obere jedoch nicht. Die eckigen Klammern vor $ c_{0}$ und nach $ c_{k}$ weisen schließlich darauf hin, daß am unteren und oberen Ende der Klassifikation keine offenen Klassen verwendet werden. Man ist sich also sicher, daß der Wertebereich der zu klassifizierenden Variablen von $ c_{0}$ bis $ c_{k}$ reicht und keine kleineren oder größeren Werte auftauchen können.


next up previous index
Nächste Seite: Arten von Variablen Aufwärts: Datenaufbereitung Vorherige Seite: Gruppierte Daten   Index
HJA 2001-10-01