În secțiunea precedentă, am evaluat un model care previziona PIBul din mărimea Populației unei țări, estimând termenul liber β₀ și coeficientul β₁ pentru predictorul Populație. În această secțiune, vom compara acel model de regresie simplă cu unul de regresie multiplă, în care vom folosi mai mult de un predictor, limitându-ne la termeni de bază, descriptivi.
Scurtă descriere a modelului de regresie simplă
Pentru exemplificare, vom obține informații despre un eșantion de 8 state UE, care se va modifica la fiecare 30 minute:
Fără a reface calculele din secțiunea precedentă, caracteristicile unui model de regresie simplă similar celui din acel capitol, dar calculat pe eșantionul din acest tabel, sunt:
R² este un număr între 0 și 1, cu valori apropiate de 1 indicând un model ce se potrivește valorilor din eșantion și probabil, și valorilor din restul populației. Pentru un eșantion de această dimensiune modică, un R² peste 0,7 este încurajator pentru a folosi modelul în previzionări.
Interpretarea estimațiilor din modelul de regresie liniară multiplă
Putem formula un model alternativ de forma \(PIB_i = \beta_0 + \beta_1 \times Pop_i + \beta_2 \times RPFM_i + \epsilon\), unde RPFM este rata participării la forța de muncă (procentul dintre persoanele de peste 15 ani care fie lucrează, fie caută activ un loc de muncă). Modalitățile în care acești parametri β₀, β₁ și β₂ pot fi estimați sunt detaliate în secțiunea despre calcul matricial al estimațiilor sau în cea despre calcul cu software, dar în această secțiune să considerăm că deja am obținut valorile β̂₀, β̂₁ și β̂₂:
Vom interpreta aceste rezultate astfel:
Evaluarea inițială a calității modelului de regresie multiplă
Având aceste valori pentru β̂₀, β̂₁, β̂₂, putem verifica validitatea lor aplicând formula din model valorilor deja cunoscute pentru predictori:
Ca și la modelul de regresie simplă, SStotal (suma pătratelor abaterilor lui Y de la media sa, Syy) va fi suma dintre SSresiduals (suma pătratelor reziduurilor) și SSregression. Putem calcula din numerele de mai sus SSresiduals și din seria de date inițială Syy, ceea ce ne permite calcularea rapidă a SSregression:
Putem deci calcula ce proporție din variabilitatea lui Y (PIB) este captată de model:
Comparația inițială între modele de regresie liniară cu număr diferit de predictori
Cele două modele de regresie liniară, cel simplu cu care am început capitolul și cel multiplu analizat până aici au același SStotal (Syy). Este o certitudine că cel de-al doilea model va avea reziduuri mai mici, pentru că fiecare predictor suplimentar permite micșorarea adițională a reziduurilor. Deci R² va fi mai mare în cazul modelului de regresie multiplu, comparat cu cel simplu, deși, nu de multe ori, modelul multiplu va fi mai slab pentru previzionări.
Pentru a compara mai multe modele și a neutraliza beneficiul adăugării de predictori suplimentari, comparațiile între modele se vor face, inițial pe baza lui R²adj, coeficientul de determinare ajustat. Pentru eșantion de efectiv n (aici 8) și un număr de predictori p ce exclude termenul liber (deci 1 pentru modelul de regresie simplă și 2 pentru cel de regresie multiplă folosite aici), vom avea
\( R^2_{adj} = 1 – (1-R^2) \frac{n-1}{n-p-1}\)
Astfel, pentru cele două modele
Deoarece am ales intenționat un al doilea predictor de slabă calitate, de cele mai multe ori, în tabelul de mai sus R²adj pentru modelul multiplu va fi mai mic decât cel pentru modelul simplu. În orice caz, vom prefera să păstrăm doar modelul cu R²adj superior.
Recapitulare
- La un model de regresie liniară multiplă, \( \hat{\mathbf{\beta}} = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y} \).
- La modelele de regresie liniară, se pot calcula, la fel ca la regresia simplă
- valorile estimate Ŷᵢ = β̂₀ + β̂₁Xᵢ₁ + β̂₂Xᵢ₂ + ..
- reziduurile ε̂ᵢ =Yᵢ-Ŷᵢ
- SSresiduals = Σε̂²,
- SStotal = Syy
- SSregression = SStotal – SSresiduals
- R² = SSregression / SStotal
- Comparațiile între modele cu număr diferit de predictori se vor face în mod corect pe baza coeficientului de determinare ajustat, R²ₐ = 1 – (1-R²)(n-1)/(n-p-1), unde n este efectivul eșantionului, iar p este numărul de predictori excluzând termenul liber.
Problemă propusă
Pentru un eșantion, se cunosc următoarele informații:
Am estimat parametrii a două modele pentru care sumele de pătrate relevante sunt:
Care din cele două modele este probabil superior ca performanță?
