Einführung
Die Regressionsanalyse ist ein statistisches Instrument, das zur Entwicklung und Annäherung linearer Beziehungen zwischen verschiedenen Variablen verwendet wird. Die Regressionsanalyse formuliert einen Zusammenhang zwischen einer Reihe von Variablen. Bei der Erstellung des Modells ist es notwendig, zwischen abhängigen und unabhängigen Variablen zu unterscheiden.
Regressionsmodelle werden zur Vorhersage von Trends zukünftiger Variablen verwendet. In dem Papier wird eine einfache Regressionsanalyse zwischen dem Preis von Häusern und der Fläche von Häusern durchgeführt.
Streuungsdiagramm
Ein Streudiagramm ist ein Diagramm, das zwei zusammenhängende Variablen in einer kartesischen Ebene darstellt. Die unabhängige Variable wird auf der x-Achse aufgetragen, während die abhängige Variable auf der y-Achse liegt. In diesem Fall wird der Preis von Häusern (in Tausend) auf der y-Achse aufgetragen, während die Fläche von Häusern (in Quadratfuß) auf der x-Achse aufgetragen wird.
Mit einem Streudiagramm wird versucht festzustellen, ob eine lineare Beziehung zwischen zwei Variablen besteht, die in dem Diagramm dargestellt sind. Dies lässt sich anhand des Trends der Streudiagramme feststellen.
Die Punkte im Streudiagramm neigen dazu, sich nach oben zu neigen. Dies ist ein Hinweis auf eine positive lineare Beziehung zwischen den Preisen von Häusern und der Fläche von Häusern in Quadratmetern. Dies bedeutet, dass mit zunehmender Fläche der Häuser auch der Preis steigt. Nur wenige Punkte fallen auf die im Streudiagramm eingezeichnete Regressionslinie.
Es gibt einige, die außerhalb der Regressionslinie liegen. Außerdem gibt es eine starke Konzentration um 2000 Quadratfuß. Diese Konzentration beeinträchtigt die Linearität des Modells. Dies kann ein Hinweis auf eine schwache Regressionslinie sein. Eine starke Regressionslinie wird durch eine Konzentration von Punkten entlang der Regressionslinie angezeigt.
Korrelationskoeffizient
Der Korrelationskoeffizient beträgt 0,6364. Der Koeffizient ist positiv und größer als fünf. Dies bedeutet, dass es eine positive lineare Beziehung zwischen dem Preis von Häusern und der Fläche eines Hauses gibt. Das heißt, wenn die Fläche der Häuser zunimmt, steigt auch der Preis eines Hauses.
Beziehung zwischen den Variablen
Es gibt eine Reihe von Faktoren, die den Preis von Häusern beeinflussen. Ein direkter Faktor ist die Fläche des Hauses. Dies ist jedoch nicht der einzige Faktor, der den Preis von Häusern beeinflusst. Beispiele für diese anderen Faktoren sind die Lage des Hauses und die Nähe zu verschiedenen sozialen Einrichtungen.
In dieser Regressionsanalyse wird nur ein Faktor verwendet, was zu einer einfachen Regression führt. Die abhängige Variable ist der Preis der Häuser, während die unabhängige Variable die Fläche der Häuser (in Quadratfuß) ist.
Mit der Regressionslinie wird versucht, eine lineare Beziehung zwischen dem Preis der Häuser und der Fläche der Häuser herzustellen. Zur Schätzung der Regressionsgleichung wird eine Stichprobe von zwanzig Häusern verwendet.
Die Regressionsgerade hat die Form Y = b0 + b1X
Y = Preise (in Tausend)
X = Fläche (Quadratfuß)
Theoretisch kann b0 jeden beliebigen Wert annehmen und b1 ist > 0.
Regressionsergebnisse
Das Ergebnis der Regression für jede unabhängige Variable ist in der nachstehenden Tabelle aufgeführt.
Aus der obigen Tabelle lässt sich die Regressionsgleichung wie folgt formulieren: Y = 160,40 + 0,0667X. Der Achsenwert von 160,39619 ist nicht von der Fläche des Hauses abhängig, sondern von anderen Faktoren wie dem Standort des Hauses. Der Wert erfasst alle anderen Faktoren, die bei der Modellierung der Regressionsgeraden nicht berücksichtigt wurden.
Der Koeffizientenwert von 0,066744 bedeutet, dass der Preis eines Hauses um 0,0667 Einheiten steigt, wenn die Fläche (Quadratfuß) des Hauses um eine Einheit zunimmt. Der positive Wert des Koeffizienten impliziert eine positive Beziehung zwischen dem Preis und der Fläche von Häusern.
Bewertung des Regressionsmodells
Die Bewertung des Regressionsmodells kann durch Testen der statistischen Signifikanz der Variablen erfolgen. Die Prüfung der statistischen Signifikanz zeigt, ob die erklärende Variable eine signifikante Determinante für den Preis von Häusern ist. Da der Stichprobenumfang gering ist, wird ein t-Test verwendet.
Es wird ein zweiseitiger t-Test mit einem Vertrauensniveau von 95 % durchgeführt.
Nullhypothese: Ho: bi = 0
Alternativhypothese: Ho: bi ≠ 0
In der nachstehenden Tabelle sind die Ergebnisse der t-Tests zusammengefasst.
Die Nullhypothese besagt, dass die Variablen keine signifikanten Determinanten der Nachfrage sind. Die Alternativhypothese besagt, dass die Variablen signifikante Determinanten der Nachfrage sind. Aus der obigen Tabelle ist ersichtlich, dass die berechneten t-Werte größer sind als die tabellierten t-Werte.
Daher wird die Nullhypothese abgelehnt, was bedeutet, dass die Fläche (in Quadratfuß) eine signifikante Determinante der erklärenden Variable ist. Somit ist die Fläche (in Quadratfuß) mit einem Signifikanzniveau von 95 % statistisch signifikant.
Der Wert des Achsenabschnitts ist für die Prüfung der Signifikanz der Regressionsvariablen nicht relevant. Da die erklärende Variable statistisch signifikant ist, bedeutet dies, dass die Regressionsgerade für die Vorhersage verwendet werden kann.
Das Regressionsmodell zeigt, dass die Steigung nicht stark genug ist, obwohl der Regressionskoeffizient eine positive Beziehung zwischen den Preisen und der Fläche der Häuser zeigt.
Das Modell kann also zur Vorhersage der Preise verwendet werden, da mit dem Preisanstieg auch die Fläche der Häuser entsprechend zunimmt. Der Regressionslinie sollten weitere Variablen hinzugefügt werden, um die Regressionsgleichung zu verbessern.
R-Quadrat-Wert
Das Bestimmtheitsmaß schätzt den Anteil der Variationen der abhängigen Variable, der durch die unabhängigen Variablen erklärt wird. Ein hohes Bestimmtheitsmaß bedeutet, dass die erklärenden Variablen die Variationen der Nachfragefunktion angemessen erklären.
Ein niedriger Wert des Bestimmtheitsmaßes deutet darauf hin, dass die erklärenden Variablen die Preisschwankungen bei Häusern nicht hinreichend erklären. Für diese Regression beträgt der Wert von R2 40,5 %. Dies bedeutet, dass die Fläche (in Quadratmetern) nur 40,5 % der Preisschwankungen bei Häusern erklärt.
Dies ist ein Hinweis auf eine schwache erklärende Variable. Auch der Wert des bereinigten R2 ist mit 37,20 % niedrig. Der Wert von R2 kann verbessert werden, indem mehr Variablen in das Regressionsmodell aufgenommen werden.
Regressionsgleichung
Die Regressionsgerade ist Y = 160,39619 + 0,06674X.
Vorhersage
Anhand der Regressionsgeraden lassen sich die Preise von Häusern schätzen. Die Regressionsgerade kann zum Beispiel verwendet werden, um den Preis eines Hauses mit einer Größe von 3000 Quadratmetern zu schätzen. Die Berechnung des Preises ist unten dargestellt.
Regressionsgleichung Y = 160,39619 + 0,06674 X
Der Hauspreis ($ 1, 000) = (0,0667 × Hausfläche (Quadratfuß)) + 160.3962
= (0.0667 × 3, 000) + 160.396 = 360.63114
= 360.63114 × 1, 000
= $360,631.14
Ein Haus mit einer Fläche von 3.000 Quadratmetern kostet 360.631,14 $.