Die Kreuztabelle sollte so aufgebaut sein, daß die »unabhängige Variable« die Spalten und die »abhängige Variable«
die Zeilen definiert. Ist eine Unterscheidung in abhängige und unabhängige Variable nicht möglich (»symmetrische Fragestellung«), dann sollte man entscheiden, im Hinblick auf welche der beiden Variablen man die Daten anschaulicher interpretieren kann, und diese zur Zielvariablen
erklären. Die zweite Variable wird dann zur Spaltenvariablen
.
In den Zellen der Tabelle wird notiert, wie häufig die jeweilige Kombination der Ausprägungen von und
bei allen Untersuchungseinheiten vorkommt (Zellenhäufigkeit). An den Rändern der Tabelle wird jeweils die Gesamthäufigkeit der Ausprägungen von
bzw.
festgehalten (Rand- oder Marginalverteilungen). Für die Analyse des statistischen Zusammenhangs beider Variablen interessieren vor allem die bedingten Verteilungen, die sogenannten Konditionalverteilungen der abhängigen Variablen. Sie zeigen die Häufigkeitsverteilung der Variablen
unter der Bedingung, daß die unabhängige Variable
einen bestimmten Wert aufweist. Wenn man die Tabelle so aufgebaut hat, daß
die Spalten definiert, dann entspricht die bedingte Verteilung für
den Zellhäufigkeiten der Spalte, in der die Ausprägung
der Variablen
abgetragen wird. Ein statistischer Zusammenhang zwischen
und
existiert dann, wenn die bedingten Verteilungen der abhängigen Variablen für verschiedene Ausprägungen von
voneinander abweichen.
Kreuztabellen, in denen die bivariate Häufigkeitsverteilung zweier Variablen dargestellt ist, bezeichnet man auch als zweidimensionale Tabellen. Prinzipiell kann eine Kreuztabelle aber auch mehr als zwei Dimensionen aufweisen. Drei-, vier- oder fünfdimensionale Tabellen zeigen die multivariate Häufigkeitsverteilung von drei, vier oder fünf kategorialen Variablen.
Notation: Hat die Zeilenvariable insgesamt
Ausprägungen und die Spaltenvariable
insgesamt
, dann besteht die Tabelle aus
Zeilen (engl.: rows) und
Spalten (engl.: columns). Man spricht auch von einer zweidimensionalen
-Tabelle oder von einer Mehrfelder-Tabelle. Ein Spezialfall ist die sogenannte
- oder auch Vierfelder-Tabelle. Die Häufigkeiten (engl.: frequency) werden mit einem
abgekürzt, wobei die Ausprägungskombination, deren Häufigkeit dargestellt wird, im Index und die beiden Variablen im Superskript angegeben werden.
bezeichnet die Anzahl der Untersuchungseinheiten, die bei der Zeilenvariablen
die Ausprägung
und bei der Spaltenvariablen
die Ausprägung
aufweisen. Die Superskripte können jedoch weggelassen werden (
), wenn aus dem Kontext deutlich wird, welche Variablen betrachtet werden. Die Randhäufigkeiten ergeben sich, indem man alle Häufigkeiten einer Spalte (Zeile) summiert. Sie werden mit
bzw.
bezeichnet, wobei der Punkt im Index angibt, ob in der Spalte (
) oder in der Zeile (
) summiert wurde. Die Gesamthäufigkeit
wird schließlich berechnet, indem man die Häufigkeiten über alle Zeilen und Spalten summiert (daher bei beiden Indizes ein Punkt).