Zunächst kann man die Regressionsanalyse als deskriptives Modell verwenden, um in einem »Streudiagramm« zweier Variablen und
den linearen Trend der Punktwolke mit Hilfe einer Geraden zu beschreiben. Die Funktionsgleichung dieser Geraden lautet für alle
»Untersuchungseinheiten«:
.
ist jeweils der Wert der Zielvariablen, der aufgrund dieses deskriptiven Modells vorhergesagt wird. Er sollte nicht zu sehr von den jeweiligen beobachteten Werten
abweichen. Die Gerade wird daher so in die Punktwolke eingezeichnet, oder anders ausgedrückt: die Parameter
und
werden so berechnet, daß die Summe der quadrierten Abweichungen für alle Untersuchungseinheiten minimiert wird.
und
bezeichnet man auch als »Regressionskoeffizienten«.
Neben der Verwendung als deskriptives Verfahren wird die Regressionsanalyse vor allem inferenzstatistisches Modell eingesetzt, um Hypothesen über eine (unbekannte) »Grundgesamtheit« mit Hilfe einer »Stichprobe« von »Untersuchungseinheiten« empirisch zu überprüfen. In den meisten Fällen wird dabei, wie beim deskriptiven Modell, ein linearer Zusammenhang unterstellt. Zusätzlich wird angenommen, daß man die abhängige Variable nur teilweise mit der unabhängigen Variablen vorhersagen kann. Das Regressionsmodell enthält daher zusätzlich eine Restkomponente
:
. Die Regressionskoeffizienten werden mit einem griechischen Buchstaben bezeichnet, um deutlich zu machen, daß dieses Modell die Verhältnisse in der »Grundgesamtheit« beschreibt. Unter dieser Perspektive sind die in einer Stichprobe berechneten Regressionskoeffizienten
und
lediglich mehr oder wenige gute Schätzungen für den statistischen Zusammenhang der Variablen
und
in der Grundgesamtheit.
Die Linearitätsannahme besagt, daß die Zielvariable immer um den gleichen Betrag zu- oder abnimmt, wenn sich die unabhängige Variable um eine Einheit ändert, unabhängig davon, welchen konkreten Wert
aufweist. Die Restkomponente ist notwendig, weil anzunehmen ist, daß die Zielvariable neben
auch von anderen Einflüssen abhängt, von denen man nichts weiß oder über die man keine Daten hat. Zudem macht man wahrscheinlich bei der Erhebung der abhängigen Variablen Meßfehler. Somit verbleibt für jede Untersuchungseinheit ein unbekannter Rest
(engl.: unobserved), der je nach Theorieentwicklung und Datenlage größer oder kleiner sein kann. Mit
werden also Meßfehler sowie alle unbekannten Einflüsse auf die untersuchte Zielvariable bezeichnet, die nicht im Modell kontrolliert werden.
wird auch Störterm des Regressionsmodells genannt.
Mit Hilfe empirischer Daten und eines Schätzverfahrens, das die Summe der quadrierten Abweichungen der Modellvorhersagen von den empirischen Werten minimiert, versucht man, den tatsächlichen Einfluß der unabhängigen Variablen
trotz des unerklärten Restes
so genau und unverzerrt wie möglich zu bestimmen. Falls die Störterme
aller Untersuchungseinheiten bestimmte Voraussetzungen (Schätzannahmen) erfüllen, kann man sogar zeigen, daß diese Art der Schätzung das beste aller möglichen Schätzverfahren ist. Man bezeichnet es auch als Kleinste-Quadrate-Schätzung oder kurz: als OLS-Schätzung (engl.: ordinary least squares estimation).
Mit Hilfe der beiden geschätzten Regressionskoeffzienten und
kann man durch Einsetzen in die Regressionsgleichung für jeden Wert der unabhängigen Variablen
eine entsprechende Vorhersage
für die Zielvariable machen:
. Aus den genannten Gründen wird diese Vorhersage in den wenigsten Fällen mit dem tatsächlich beobachteten Wert
exakt übereinstimmen. Die Abweichung der Vorhersage vom empirischen Wert bezeichnet man als Residuum
. Die Residuen
sind quasi Schätzer für die unbekannten Einflüsse und Meßfehler
.
Im allgemeinen Fall mit mehreren unabhängigen Variablen geht man in der Regel davon aus, daß die Effekte der einzelnen Variablen voneinander unabhängig sind und daher addiert werden können:
. Sowohl die Annahme der Linearität als auch die der Additivität können in einer konkreten Anwendung nicht zutreffen, so daß das Regressionsmodell entsprechend verallgemeinert werden muß (nicht-lineares Modell, multiplikative Effekte). Im bivariaten Fall kann man mit Hilfe eines »Streudiagramms« entscheiden, ob die Linearitätsannahme zumindest eine gute Näherung liefert. Im multivariaten Fall sind weitergehende diagnostische Werkzeuge notwendig.
Notation:
(sprich: y-Dach) für die Modellvorhersagen,
für die Residuen,
für die nicht im Modell berücksichtigten Einflüsse und Meßfehler der abhängigen Variablen.