Dacă două variabile sunt corelate liniar, este plauzibil că un polinom e grad 1 poate modela relația între ele, model ulterior aplicabil altor date pentru a formula predicții. În acest capitol, regresia este descrisă în manieră simplificată, la nivelul cursului de Semestru 1, iar calculele preliminare sunt prezentate în secțiunea precedentă.
Analiza de corelație
Am formulat, în secțiunea precedentă, ipoteza că populația și PIB-ul sunt, cel puțin în parte, corelate. Am măsurat corelația cu coeficientul de corelație Pearson, care, foarte probabil, a indicat corelație puternică. Să examinăm din nou datele pentru cele 8 state UE. (Acest tabel se modifică automat la fiecare 30 de minute.)
Acest text nu are acces la valorile numerice, dar, foarte probabil, relația dintre populație și PIB este probabil una de corelație pozitivă, cu statele mai populate având și PIBuri mai mari:
Notând Populațiile cu X și PIBurile cu Y, în capitolul precedent am calculat
- mediile fiecărei variabile, \(\overline X \) și \(\overline Y \) din eșantion, estimând mediile pentru populație \( \mu_X \) și \( \mu_Y \)
- abaterile fiecărei valori caracteristice de la media variabilei, \(d_{X_i} = X_i – \overline X \) și \(d_{Y_i} = Y_i – \overline Y\)
- sumele \(Sxx =\sum{d^2_{X_i}}\), \(Syy =\sum{d^2_{Y_i}}\), \(Sxy = \sum{d_{X_i}d_{Y_i}}\)
- covarianța \(cov(X,Y) = cov(Y,X) = \frac{Sxy}{n-1}\), și varianțele (dispersiile) \(Var[X] = \frac{Sxx}{n-1}\) și \(Var[Y] = \frac{Syy}{n-1}\)
- abaterile pătratice medii \( \sigma_X \approx s_X = \sqrt{\frac{Sxx}{n-1}} \) și \( \sigma_Y \approx s_Y= \sqrt{\frac{Syy}{n-1}} \)
- coeficientul de corelație liniară Pearson r, \(\rho \approx r = \frac{cov(X,Y)}{s_X s_Y}\).
La nivel de unitate statistică, am completat tabelul cu coloanele:
La nivelul întregului eșantion am calculat:
Deși eșantionul este regenerat periodic, valorile lui Pearson r se vor găsi între 0,5 și 0,9, sugerând de fiecare dată o corelație liniară pozitivă puternică. Existența unei corelații puternice sugerează posibilitatea de a construi o funcție matematică, care să lege populațiile de PIBul aceleiași țări, cu forma polinomului de grad 1, y=ax+b.
Estimarea parametrilor regresiei liniare simple
Modelul de regresie este o ecuație ce ne va permite estimarea PIBurilor pentru țări la care cunoaștem doar Populația. Ca regulă generală, modelele de regresie sunt construite pentru a previziona valori ale unei variabile Y, pentru unități statistice la care cunoaștem doar X (sau mai multe X-uri, după cum veți afla în secțiunile următoare). Spunem că Y este variabila previzionată (variabilă dependentă, variabilă explicată, variabilă exogenă etc), iar X – predictor (variabilă independentă, variabilă explicativă, variabilă endogenă etc).
În analiza de corelație nu a fost necesar să alegem un X și un Y, deoarece \( \sum{(X_i – \overline X)(Y_i – \overline Y)} = \sum{(Y_i – \overline Y)(X_i – \overline X)} \), și deci \( cov(X,Y) = cov(Y,X) \), iar \(r_{X,Y} = r_{Y,X}\). Dar în analiza de regresie, va trebui să alegem între două modele:
- PIB = a’ * Pop + b’, sau
- Pop = a” * PIB + b”.
Alegerea depinde de ce dorim să facem mai departe cu această formulă. Să presupunem că dorim să estimăm PIBul altor state, și deci vom alege, dintre cele două modele, pe primul. Deci, în următoarele secțiuni, PIB este variabila previzionată (“Y”), iar Populația este predictor (“X”).
Modelul simplist y=ax+b ar funcționa dacă punctele din graficul de mai sus ar fi aliniate perfect pe o dreaptă. În realitate, orice a și b am obține, nu va fi posibil ca punctele să se alinieze perfect cu acea linie. Numim distanța dintre punctele din graficul de mai sus și linia ce descrie ax+b “erori”, fiecare unitate statistică având propria eroare:
- \(PIB_{Italia} = a \times Pop_{Italia} + b + Eroare_{Italia}\)
- \(PIB_{Romania} = a \times Pop_{Romania} + b + Eroare_{Romania}\)
- \(PIB_{Spania} = a \times Pop_{Spania} + b + Eroare_{Spania}\)
- etc.
Prin urmare, la fel ca PIB-urile și Populațiile, erorile constituie o serie, în timp ce a sau b sunt un număr unic, aplicabil tuturor unităților statistice. Deoarece operăm cu un eșantion, dar dorim să estimăm o funcție potrivită pentru o populație, vom spune că a, b și erorile sunt parametri ideal, și îi vom nota cu litere grecești, anume β₁, β₀ și εᵢₜ, εᵣₒ, εₑₛ etc. Vom nota șirurile cu bold. Pentru ca formulele scrie aici să fie utile și alte probleme, vom nota PIBurile cu Yᵢₜ, Yᵣₒ, Yₑₛ etc, iar populațiile cu Xᵢₜ, Xᵣₒ, Xₑₛ etc. Pentru început avem un set de ecuații
- \(Y_{it} = \beta_1 \times X_{it} + \beta_0 + \epsilon_{it}\)
- \(Y_{ro} = \beta_1 \times X_{ro} + \beta_0 + \epsilon_{ro}\)
- \(Y_{es} = \beta_1 \times X_{es} + \beta_0 + \epsilon_{es}\)
- etc
Oricâte ecuații am adăuga aici, vom avea un sistem de N ecuații cu N+2 necunoscute (β₁, β₀ și cele N erori). care va avea un număr infinit de soluții. În metoda celor mai mici pătrate (CMMP), se va alege soluția care are
- eroare totală zero \(\sum\epsilon_i = 0\)
- suma pătratelor erorilor minimă, \(\sum\epsilon_i^2 = min\).
Cele n ecuații inițiale, prima condiție de mai sus și condiția ca derivata lui \(\sum\epsilon_i^2\) să fie zero ne vor duce la un sistem de N+2 ecuații cu N+2 necunoscute, care are soluție unică și se poate rezolva.
De regulă, nu vom cunoaște toate cele N perechi de valori (Xᵢ,Yᵢ) din populație, ci doar un eșantion. Nu vom putea calcula cu certitudine β₁, β₀ sau erorile, dar le vom putea estima, pe aceleași principii. Notând estimatorii lor cu β̂₀, β̂₁, ε̂ᵣₒ, ε̂ₑₛ etc, vom avea ecuații similar cu cele de mai sus:
- \(\sum\hat{\epsilon_i} = 0\)
- \(\sum\hat{\epsilon_i^2} = min\)
- \(Y_{it} = \hat{\beta_1} \times X_{it} + \hat{\beta_0} + \hat{\epsilon_{it}}\)
- \(Y_{ro} = \hat{\beta_1} \times X_{ro} + \hat{\beta_0} + \hat{\epsilon_{ro}}\)
- \(Y_{es} = \hat{\beta_1} \times X_{es} + \hat{\beta_0} + \hat{\epsilon_{es}}\)
- etc.
Valorile ε̂ᵣₒ, ε̂ₑₛ etc care estimează erorile, se numesc reziduuri.
Pentru a preciza soluția în termeni simpli, vom folosi un set de abrevieri ușor diferite pentru noțiuni deja definite în analiza de corelație. Vom nota
- media unei variabile, calculată în eșantion, cu bară, ca în \( \overline{PIB} \), \( \overline{Pop} \), \( \overline{x} \), \( \overline{y} \)
- setul de abateri al unei variabile de la media ei cu d, de exemplu \(d_{PIB,ro} = PIB_{ro} – \overline{PIB}\), \(d_{x,i} = x_{i} – \overline{x}\) etc
- suma pătratelor abaterilor unei variabile X cu \( Sxx = \sum d_{x,i}^2 \)
- suma pătratelor abaterilor unei variabile Y cu \( Syy = \sum d_{y,i}^2 \)
- suma produselor (abatere a lui X) × (abatere a lui X) cu \( Sxy = \sum d_{x,i}d_{y,i} \).
Toate acestea au fost deja calculate, Sxx, Syy și Sxy fiind numărătoarele la varianța lui X, varianța lui Y și covarianță:
Condiția de minimizare a pătratului abaterilor este îndeplinită de
- \( \hat {\beta_1} = \frac {Sxy}{Sxx}\), care, împărțind numitorul și numărătorul la n-1, devine \( \hat {\beta_1} = \frac {cov(x,y)}{s_x^2}\), unde cov(x,y) și sₓ² sunt calculate ca estimări din eșantion.
- \( \hat {\beta_0} = \overline{y} – \hat {\beta_1} \overline{x}\), care se deduce din faptul că punctul de coordonate medii \( (\overline{x}, \overline{y}) \) este poziționat pe linia \( f(x) = \hat {\beta_1} x +\hat {\beta_0}\).
Rezultatele acestea se pot descrie în cuvinte, β₁ fiind panta liniei cu reziduuri minime, iar β₀ fiind termenul liber (valoarea lui Y pentru X=0). Interpretarea necesară este deci
Previzionare pe baza modelului de regresie liniar
Utilitatea regresiei constă în abilitatea sa de previzionare. Dacă corelația permitea măsurarea sprijinului pentru propoziția “creșterea populației se asociază cu creșterea PIBului, în regresie obținem o formulă matematică care poate fi aplicată și altor unități statistice. În limitele erorilor despre care vom discuta mai jos, am putea previziona PIBul statelor dezorganizate, care nu colectează și nu publică date economice, pe ecuației de mai sus și a efectivului populației.
Aici, vom verifica abilitățile predictive ale modelului într-un mod mai neobișnuit, evaluarea corectă fiind prezentată în secțiunile ulterioare. Vom folosi totuși un stat al cărei situație economică este cunoscută:
Pentru previzionarea PIBului, vom folosi populația reală, precum și valorile estimate β̂₀ și β̂₁:
Pentru o unitate statistică nou propusă, care nu a fost inclusă în eșantionul cu care s-au estimat β̂₀ și β̂₁, valorile caracteristice se notează X₀ și Y₀. În mod normal, vom cunoaște deja pe Xₒ și îl vom estima pe Y₀ cu Ŷ₀=β̂₀+X₀β̂₁.
În mod normal, astfel de previzionări vor fi făcute în cazuri în care PIB nu este cunoscut, dar populație este cunoscută, cel puțin la un nivel aproximativ (de exemplu, Somalia). În acest exemplu, în mod excepțional, am previzionat o valoare Y₀ deja cunoscută:
Rezultatul previzionării va cu certitudine diferit de PIBul real din tabelul precedent.
- Pe de o parte, modelul este construit pe baza unui eșantion, și deci valorile estimate β̂₀ și β̂₁ sunt imperfecte.
- Pe de alta, toate modelele statistice includ și un termen de eroare, pe care calculul de mai sus nu l-a inclus. (Am folosit β̂₀ + Pop × β̂₁, nu β̂₀ + Popᵢ × β̂₁ + ε̂ᵢ, pentru că ultimul termen este necunoscut.)
- Nu în ultimul rând, estimarea parametrilor modelului folosește țări UE, dar statul cu care face verificarea este europeană, dar nu este membră UE.
Abilitatea de a face previzionări cu modelele de regresie variază amplu, în funcție de acești factori (incompletitudinea eșantionului, inabilitatea de a include în model toți predictori, gradul de similaritate între eșantion și unitățile statistice pentru care facem previzionare). Dar, chiar și cu aceste limitări, și cu un eșantion minuscul, exemplul numeric de mai sus va reda un Ŷ₀ relativ apropiat de adevăratul Y₀, ilustrând puterea de previzionare a regresiei liniare.
Cu toate acestea există, chiar și în eșantion, informații pentru a începe să cuantificăm abilitățile de previzionare ale modelului.
Prima evaluare a modelului de regresie liniară simplă
Indiferent de complexitatea modelului, o dată cu estimarea parametrilor modelului, am putea să îl aplicăm chiar datelor cu care am făcut estimarea. În cazul de față, putem aplica modelul valorilor populației. Reamintim că, pe baza eșantionului, modelul este:
Rezultatul previzionării este:
Ca și în exemplul precedent, rezultatul estimării nu reproduce identic PIBurile observate. Mai sus, enunțasem că, fiecare unitate statistică satisface \(Y_{it} = \hat{\beta_1} \times X_{it} + \hat{\beta_0} + \hat{\epsilon_{it}}\), dar în tabelul de mai sus am estimat Y cu \(\hat{\beta_1} \times X_{it} + \hat{\beta_0}\).
Numim \(\hat{\beta_1} \times X_{it} + \hat{\beta_0}\) valoarea estimată (sau valoare ajustată; eng. fitted value) a lui Yᵢₜ, notat Ŷᵢₜ. Vom avea pentru fiecare unitate statistică o valoare observată, de exemplu Yᵢₜ, și o valoare ajustată a acestuia Ŷᵢₜ. În corelogramă, punctul de coordonate (Xᵢₜ, Ŷᵢₜ) s-ar afla pe curba de regresie, și indică unde ar trebui să fie Y dacă modelul ar fi perfect.
Diferența Yᵢₜ – Ŷᵢₜ este reziduul ε̂ᵢₜ, care estimează eroarea modelului pentru acea unitate statistică, εᵢₜ. Aici, reziduurile sunt:
Una din condițiile care au dus la aceste valori ale estimațiilor lui β̂₀, β̂₁, seriei Ŷᵢ și seriei ε̂ᵢ a fost ca suma acestora din urmă să fie 0, iar suma pătratelor lor să fie minimă. Pentru a obține o primă măsură compusă a tuturor diferențelor dintre valorile observate ale lui Yᵢ și cele previzionate (Ŷᵢ) cu modelul acestea și cu β̂₀ și β̂₁ estimate din acest eșantion, vom însuma pătratele reziduurilor, obținând suma pătratelor reziduurilor, ceea ce Excel numește Sum of Squares of Residuals (SSresiduals):
Întrucât fiecare reziduu aproximează o eroare, suma pătratelor reziduurilor estimează suma pătratelor erorilor pentru o populație cu aceleași 8 unități statistice, unele manuale și aplicații denumind-o Sum of Squares of Errors. Cu cât mai apropiate valorile observate Yᵢ de cele “estimate” (ajustate) din acest model (Ŷᵢ), cu atât mai mică SSresiduals.
Complementul lui SSresiduals este suma pătratelor abaterilor estimațiilor Ŷᵢ de la media lor acestora. O consecință a modului cum au fost estimate β̂₀ și β̂₁ este că media estimațiilor Ŷᵢ este egală cu media valorilor observate Yᵢ, ceea ce ne permite calcularea acestei așa numite Sum of Squares of Regression:
Nu calculăm suma pătratelor regresiei pentru a estima variabilitatea estimațiilor Ŷᵢ. Mai importantă e o proprietate a sa, în combinație cu celelalte două sume de pătrate din această secțiune, care, în funcție de numerele din acest demo, poate fi evidentă din acest tabel:
Ce este probabil vizibil în tabelul de mai sus este că Syy, măsura variabilității totale în valorile observate ale PIBului (ale lui Y, la modul general) este suma dintre:
- suma pătratelor reziduurilor, o măsură a cât de bine se potrivește modelul cu punctele empiric observate, pe care o dorim cât mai mică
- suma pătratelor regresiei.
Dacă avem de ales între mai multe modele care încearcă să previzioneze aceeași variabilă Y cu același număr de unități statistice și același număr de predictori (aici, de exemplu, PIB, estimat cu PIB = β₀ + β₁ × Pop, PIB = β₀’ + β₁’ × Suprafață, PIB = β₀” + β₁” × (Proporție absolvenți studii superioare) etc), vom alege modelul cu SSresiduals mai mic.
În convenția în care predictorul este denumit variabilă explicată, iar variabila previzionată – variabilă explicativă, SSregression este numit suma pătratelor explicative (SSexplained).
Există o modalitate de standardizare a acestor informații. Redenumim pe Syy suma pătratelor totale (SStotal), pentru a captura faptul că SStotal = SSresiduals + SSregression.
- Numim coeficient de determinare, R², proporția din SStotal reprezentată de SSregression, despre care spunem că este proporția din variabilitatea variabilei previzionate captată de model.
- Numim coeficient de nedeterminare proporția din SStotal reprezentată de SSresiduals.
Aici:
Spunem că:
Coeficientul de determinare și coeficientul de nedeterminare sunt deci numere între 0 și 1, cu suma 1. Pentru același eșantion, aceeași variabilă previzionată și același număr de predictori, un model cu R² va fi mai apropiat, ca estimații, de valorile observate, ceea ce poate susține utilizarea sa preferențială în previzionări.
Recapitulare
- Dacă există între două variabile există corelație liniară, sugerată de un coeficient Pearson r cu valoare absolută mai apropiată de 1 decât de 0, probabil putem construi o funcție polinomială de grad 1 (“liniară”) de forma Y = aX+b. Vom nota termenul liber β₀ și panta β₁. Vom lua în considerație imperfecțiunile modelului, admițând, pentru fiecare pereche (Xᵢ, Yᵢ) o eroare εᵢ. Scopul acestei construcții, numit model de regresie, este obținerea unei ecuații care să permită previzionarea Y-urilor necunoscute pentru entități la care cunoaștem X. Spunem că Y este variabila previzionată, iar X – predictor.
- În practică, parametrii populaționali β₀, β₁ și ε₁ … εₙ vor rămâne necunoscuți pentru că vom dispune doar de un eșantion, pentru care va fi mai potrivită ecuația yᵢ = β̂₀ + β̂₁ xᵢ + ε̂ᵢ, unde β̂₀ , β̂₁, ε̂₁ … ε̂ₙ sunt doar estimații ale parametrilor.
- Pentru a estima β̂₀ și β̂₁ ne sunt necesare, din analiza de corelație, mediile fiecărei variabile x̄ și ȳ, și sumele \(Sxy= \sum{d_{x_i} d_{y_i}} \), și \(Sxx = \sum{d^2_{x_i}} \), unde \(d_{x_i} = x_i – \overline x\) și \(d_{y_i} = y_i – \overline y\) sunt abaterile fiecărei variable de la propria medie.
- În eșantion, β̂₁ = Sxy /Sxx. Deoarece punctul de coordonate medii (x̄,ȳ) se află pe curba de regresie (aici, de fapt, o dreaptă, reprezentarea grafică a funcției β̂₁x+β̂₀), β̂₀ = ȳ – β̂₁x̄.
- Pentru a testa utilitatea modelului în primă instanță, vom aplica formula din model, adică β̂₁x+β̂₀, fiecărui x din eșantion, obținând ce ar trebui să fie valoarea lui y pentru un model perfect. Numim acest ŷᵢ = β̂₁xᵢ+β̂₀ valoarea estimată sau valoarea ajustată a lui yᵢ.
- Diferența yᵢ – ŷᵢ este ε̂ᵢ, numit reziduu, și estimează eroarea εᵢ. Formulele lui β̂₀ și β̂₁ de mai sus au fost alese în așa fel încât suma reziduurilor să fie zero, iar suma pătratelor reziduurilor să fie minimă.
- Suma pătratelor reziduurilor \( SSresiduals=\sum {\hat {\epsilon_i}^2} \) este o primă măsură a imperfecțiunilor modelului. Deoarece SSresiduals estimează suma pătratelor erorilor, ea este uneori abreviată SSE și alteori SSR.
- SSresiduals se analizează prin comparație cu Syy, măsura variației totale a lui y, în acest context numit Suma Pătratelor Totale, SStotal. Întrucât SSresiduals este cuprins între 0 și Syy, raportul SSresiduals / Syy, numit coeficient de nedeterminare. este cuprins între 0 și 1. Cu cât este mai mare coeficientul de nedeterminare (mai aproape de 1), cu atât mai slab modelul.
- Numim diferența SStotal – SSregression suma pătratelor regresiei (SSregression). În convenția în care predictorul este denumit variabilă explicată, iar variabila previzionată – variabilă explicativă, SSregression este numit SSexplained, și va fi abreviat cu SSE sau SSR, după caz. Este de dorit ca SSregression să fie cât mai mare (cât mai apropiat de SStotal).
- Pentru standardizarea lui SSregression, se calculează coeficientul de determinare \( R^2 = \frac{SSregression}{SStotal} \), care va fi cuprins tot între 0 și 1. Spunem că R² măsoară cât din variabilitatea lui Y este captată de modelul propus. Un R² care sugerează că modelul este bun este apropiat de 1.
- Dacă avem date, putem construi mai multe modele pentru a prezice același Y, folosind oricare din opțiunile disponibile pentru predictor. Un model cu R² mai mare se va potrivi mai bine valorilor din eșantion și, posibil, restului datelor din populație, comparat cu un model cu R² mai mic, numai dacă eșantionul și numărul de predictori este același (opțiuni mai utile în secțiunea următoare).
Probleme propuse
1. Un model de regresie liniară simplă este folosit la previzionarea PIBurilor pe baza populației activă (15-64 ani). Pe baza eșantionului de mai jos, estimați și interpretați parametrii modelului.
Răspuns
2. Folosiți modelul pentru a previziona PIBul țării de mai jos.
Răspuns
3. Calculați ce proporție din variabilitatea PIBului este captată de modelul PIB = β̂₀ + β̂₁×Pop.activă.
Răspuns
4. Comparați acest model cu cel din exemplul din capitol. Pe care l-ați folosi pentru previzionări?
Răspuns
Dacă ambele modele ar fi folosit același eșantion, ar fi fost posibil să alegem pe cel cu R² mai mare. Însă aici eșantioanele diferă ca efectiv, și deci nu avem suficiente informații, la nivelul noțiunilor din acest capitol, pentru a face o alegere.
