next up previous index
Nächste Seite: (Konditionale) Anteilswerte Aufwärts: Tabellenanalyse Vorherige Seite: Tabellenanalyse   Index


Kreuztabelle

Eine Kreuztabelle (engl.: crosstabulation) ist eine tabellarische Darstellung der gemeinsamen (bivariaten) Häufigkeitsverteilung zweier »Variablen« $ X$ und $ Y$. Sie wird auch Kontingenz-Tabelle genannt (engl.: contingency table). Kreuztabellen eignen sich besonders für die Analyse »kategorialer Variablen«. Haben beide Variablen $ X$ und $ Y$ dagegen sehr viele »Ausprägungen«, ist diese Form der Darstellung nicht besonders übersichtlich.

Die Kreuztabelle sollte so aufgebaut sein, daß die »unabhängige Variable« $ X$ die Spalten und die »abhängige Variable« $ Y$ die Zeilen definiert. Ist eine Unterscheidung in abhängige und unabhängige Variable nicht möglich (»symmetrische Fragestellung«), dann sollte man entscheiden, im Hinblick auf welche der beiden Variablen man die Daten anschaulicher interpretieren kann, und diese zur Zielvariablen $ Y$ erklären. Die zweite Variable wird dann zur Spaltenvariablen $ X$.

In den Zellen der Tabelle wird notiert, wie häufig die jeweilige Kombination der Ausprägungen von $ X$ und $ Y$ bei allen Untersuchungseinheiten vorkommt (Zellenhäufigkeit). An den Rändern der Tabelle wird jeweils die Gesamthäufigkeit der Ausprägungen von $ X$ bzw. $ Y$ festgehalten (Rand- oder Marginalverteilungen). Für die Analyse des statistischen Zusammenhangs beider Variablen interessieren vor allem die bedingten Verteilungen, die sogenannten Konditionalverteilungen der abhängigen Variablen. Sie zeigen die Häufigkeitsverteilung der Variablen $ Y$ unter der Bedingung, daß die unabhängige Variable $ X$ einen bestimmten Wert aufweist. Wenn man die Tabelle so aufgebaut hat, daß $ X$ die Spalten definiert, dann entspricht die bedingte Verteilung für $ X=j$ den Zellhäufigkeiten der Spalte, in der die Ausprägung $ j$ der Variablen $ X$ abgetragen wird. Ein statistischer Zusammenhang zwischen $ X$ und $ Y$ existiert dann, wenn die bedingten Verteilungen der abhängigen Variablen für verschiedene Ausprägungen von $ X$ voneinander abweichen.

Kreuztabellen, in denen die bivariate Häufigkeitsverteilung zweier Variablen dargestellt ist, bezeichnet man auch als zweidimensionale Tabellen. Prinzipiell kann eine Kreuztabelle aber auch mehr als zwei Dimensionen aufweisen. Drei-, vier- oder fünfdimensionale Tabellen zeigen die multivariate Häufigkeitsverteilung von drei, vier oder fünf kategorialen Variablen.

Notation: Hat die Zeilenvariable $ R$ insgesamt $ r$ Ausprägungen und die Spaltenvariable $ C$ insgesamt $ c$, dann besteht die Tabelle aus $ r$ Zeilen (engl.: rows) und $ c$ Spalten (engl.: columns). Man spricht auch von einer zweidimensionalen $ r\times c$-Tabelle oder von einer Mehrfelder-Tabelle. Ein Spezialfall ist die sogenannte $ 2\times 2$- oder auch Vierfelder-Tabelle. Die Häufigkeiten (engl.: frequency) werden mit einem $ f$ abgekürzt, wobei die Ausprägungskombination, deren Häufigkeit dargestellt wird, im Index und die beiden Variablen im Superskript angegeben werden. $ f^{RC}_{ij}$ bezeichnet die Anzahl der Untersuchungseinheiten, die bei der Zeilenvariablen $ R$ die Ausprägung $ R=i$ und bei der Spaltenvariablen $ C$ die Ausprägung $ C=j$ aufweisen. Die Superskripte können jedoch weggelassen werden ($ f_{ij}$), wenn aus dem Kontext deutlich wird, welche Variablen betrachtet werden. Die Randhäufigkeiten ergeben sich, indem man alle Häufigkeiten einer Spalte (Zeile) summiert. Sie werden mit $ f_{.j}$ bzw. $ f_{i.}$ bezeichnet, wobei der Punkt im Index angibt, ob in der Spalte ($ f_{.j}$) oder in der Zeile ($ f_{i.}$) summiert wurde. Die Gesamthäufigkeit $ f_{..}$ wird schließlich berechnet, indem man die Häufigkeiten über alle Zeilen und Spalten summiert (daher bei beiden Indizes ein Punkt).


next up previous index
Nächste Seite: (Konditionale) Anteilswerte Aufwärts: Tabellenanalyse Vorherige Seite: Tabellenanalyse   Index
HJA 2001-10-01