Calcul simplificat al corelației liniare


În acest capitol, corelația este analizată în manieră simplificată, tipică semestrului 1, pentru a recapitula noțiuni din cursurile de Statistică, pentru a defini câteva noțiuni ce se vor regăsi în mai multe tipuri de previzionare similare, și deoarece corelația este un prim pas către regresia liniară, cea mai importantă metodă a econometriei.

Analiza de corelație

Este plauzibil ca o țară cu o populație mai mare să aibă un Produs Intern Brut mai mare (PIB). Deși luxemburghezii sunt faimoși pentru productivitatea lor, România are un PIB mai mare decât Luxemburgul. Pe de o parte, PIBul Olandei de cca 3 ori mai mare decât al României, deși populația este relativ similară ca mărime. Putem formula ipoteza că populația și PIB-ul sunt, cel puțin în parte, corelate, iar în acest capitol vom măsura corelația într-un eșantion mic de state.

Acest tabel se modifică automat la fiecare 30 de minute, și cuprinde 8 state din Uniunea Europeană:

Acest text nu are acces la valorile numerice, dar, foarte probabil, relația dintre populație și PIB este probabil una de corelație pozitivă, cu statele mai populate având și PIBuri mai mari:

Primul pas în analiza corelației este să măsurăm variabilitatea în interiorul fiecărei dimensiuni, deoarece fiecare din ele diferă de tendința centrală, iar aceste diferențe contează în aprecierea corelației. Mai precis, mediile aritmetice ale PIB-ului și populației în acest eșantion sunt:

Valorile de mai sus sunt medii ale eșantionului, notate cu bară deasupra, aici, \( \overline{Pop} \), \( \overline{PIB} \). Media eșantionului este cea mai bună estimare pentru media populației, media la nivel de colectivitate completă (\(\mu_{PIB}\), \(\mu_{Pop}\)) fiind de regulă necunoscută.

Putem măsura fiecare astfel de abatere de la medie, scăzând din valoarea observată media acelei variabile:

Pentru a sumariza într-un număr aceste variabilități, nu putem folosi suma sau media abaterilor, acestea fiind zero, din definiția medie aritmetice. Pentru sumarizare, vom folosi pătratele abaterilor, a căror sumă va fi cel puțin zero, dar din ce în ce mai mare, pe măsură ce crește diversitatea. Vom completa tabelul pentru unitățile statistice individuale cu pătratele abaterilor:

Sumele pătratele abaterilor sunt sumele ultimelor două coloane:

Aceste sume ale pătratelor abaterilor combină într-un singur număr variabilitatea populației, însă au defectele de a fi măsurate în unități absurde și de a fi proporționale cu numărul de termeni luați în calcul.

Pentru a elimina efectul numărului de unități statistice, se definește dispersia populației, numită și varianță, σ², care se calculează prin împărțirea sumei pătratelor abaterilor la numărul de astfel de abateri, \( \sigma^2_X= \frac{\sum(X_i – \mu_X)^2}{N}\), unde N este numărul de unități statistice din populație.

Populația este mulțimea completă a tuturor unităților statistice (aici, cel puțin mulțimea țărilor UE în 2019, deși mulțimi vaste se pot concepe). Însă, atunci când datele sunt limitate doar la un eșantion, așa cum e cazul aici, cea mai bună aproximare a lui σ² pentru populație se face cu o modificare a formulei de mai sus, \(\frac{\sum(x_i – \overline x)^2}{n-1}\), unde n este numărul de unități statistice din eșantion.

Acest \(\frac{\sum(x_i – \overline x)^2}{n-1}\), uneori notat s², este un estimator pentru σ². Trecerea de la numitor n la numitor (n-1) prefigurează o serie de astfel de corecții cu care ne vom întâlni în analiza regresiei.

Întrucât tabelul nostru descrie un eșantion, vom estima și noi varianța în populație σ² pe baza datelor din eșantion, adică cu acea corecție de mai sus:

Varianța va fi foarte utilă în următoarele etape, însă este ineficientă în comunicarea cu publicul larg, din prisma unităților de măsură. Un pas către transformare într-o mărime inteligibilă este calcularea rădăcinii pătrate a varianței, obținând așa-numita deviație standard sau abatere pătratică medie. Pentru o populație cunoscută incomplet, abaterea pătratică medie \(\sqrt {\frac{\sum(X_i – \mu_ X)^2}{N}}\) va fi estimată cu \(\sqrt {\frac{\sum(x_i – \overline x)^2}{n-1}}\) calculat din eșantion.

În contextul descrierii separat a populațiilor sau separat a PIBurilor, aceste abateri pătratice medii sunt prelucrate mai departe, însă acest capitol nu va continua în acea direcție.

Revenind la sarcina inițială, de a măsura gradul de corelație al populațiilor și PIBUrilor, vom avea de calculat un estimator similar cu varianța de mai sus, numit covarianță. Dacă varianța unei variabile era \( \sigma^2_X = \frac{\sum(X_i – \mu_X)^2}{N} = \frac{\sum(X_i – \mu_X)(X_i – \mu_X)}{N}\), covarianța a două variabile X și Y este \(\frac{\sum(X_i – \mu_X)(Y_i – \mu_Y)}{N}\). O corecție similară va fi necesară aici pentru estimarea din date de eșantion a covarianței la nivel de populație. Vom începe prin a construi o nouă coloană cu produsele \( (x_i – \overline x)(y_i – \overline y) \) la nivel de unitate statistică:

Însumăm aceste produse ale abaterilor:

Semnul termenilor acestei sume sunt guvernate de natura relației dintre cele două variabile.

  • Aici, țările cu populații mari vor avea, de regulă, PIBuri mari, ceea ce va face ambele abateri pozitive, iar produsul abaterilor va fi calculat între două numere pozitive.
  • Tot în acest exemplu, țările mai mici de cât media (adică cu abatere negativă a populației de la media populațiilor) vor avea de regulă și PIB mic (deci abatere negativă și a PIBului) – situație în care produsul abaterilor va fi deci pozitiv.

În alte situații, nu va exista o regulă clară privind semnul produselor abaterilor, sau va fi posibil ca majoritatea produselor abaterilor să fie negativă. Cu cât mai amplă corelația între cele două variabile, cu atât mai mare numărul de produse ale abaterilor pozitive, și deci cu atât mai mare suma lor.

Totuși, suma produselor abaterilor suferă de aceeași deficiență ca suma pătratelor abaterilor și deci va trebui corectată prin împărțire la N în cazul populaților, respectiv la (n-1) dacă dispunem doar de un eșantion.

Mărimea \(\frac{\sum(X_i – \overline X)(Y_i – \overline Y)}{N}\), numită covarianță, estimată mai sus cu \(\frac{\sum(x_i – \overline x)(y_i – \overline y)}{n-1}\), este o măsură a corelației, însă nu poate fi ușor înțeleasă, datorită unității de măsură și a dependenței de variabilitatea independentă în cele două seturi de date. Pentru a elimina aceste deficiențe, se calculează coeficientul de corelație liniară Pearson \(r = \frac {cov(X,Y)}{\sigma_X \sigma_Y}\). În acest exemplu, nu cunoaștem \(cov(X,Y)\), \(\sigma_X\) și \(\sigma_Y\), dar le vom înlocui cu estimările lor \(\frac{\sum(x_i – \overline x)(y_i – \overline y)}{n-1}\), \(s_X = \sqrt{\frac{\sum(x_i – \overline x)^2}{n-1}}\) și \(s_Y = \sqrt{\frac{\sum(y_i – \overline y)^2}{n-1}}\).

Valorile lui Pearson r se interpretează în raport cu poziția lor în intervalul în care se află toate valorile sale posibile, respectiv [-1, 1]:

  • Numere apropiate de 1 sugerează o corelație pozitivă puternică.
  • Numere apropiate de 0 sugerează lipsa corelației.
  • Numere apropiate de -1 sugerează o corelație negativă puternică.

“Apropiat de 0” și “apropiat de 1” sunt expresii vagi, al căror înțeles depinde de la domeniu la domeniu. În fizică, un |r| de peste 0,9 este necesar pentru a afirma că relația de corelație este puternică, dar în științele sociale, chiar și 0,5 poate fi considerat un |r| înalt, sprijinind ideea de corelație puternică. Valori mai mici sunt considerate indicative pentru corelație slabă, lipsa de corelație fiind cel mai frecvent atribuită valorilor |r| sub 0,1.

Acest text nu este generat dinamic, și deci nu are acces la rezultatele numerice. Cu toate acestea, în majoritatea cazurilor, valoarea lui Pearson r să fie peste 0,9, sugerând corelație pozitivă puternică. Cu încadrarea lui Pearson r în una din cele trei categorii se încheie analiza de corelație, al cărei obiectiv a fost măsurarea gradul de creștere simultană a celor două variabile.

Recapitulare

  • Media aritmetică a eșantionului \( \overline {X} \) este cel mai bun estimator al mediei aritmetice a populației \( \mu \).
  • Seria de abateri este setul de numere obținut prin scăderea din fiecare valoare a mediei acelei variabile, \(d_{x_i} = x_i – \overline x\).
  • Suma abaterilor este zero, și pentru a le combina într-un singur număr, vom folosi suma pătratelor lor. \(Sxx = \sum{d^2_{x_i}} \).
  • Pentru a caracteriza variabilitatea unei variabile, folosim dispersia (varianța). Pentru o populație, \(Var[X] = \frac{Sxx}{N}\), unde N este efectivul populației; dar dacă dispunem doar de un eșantion și dorim să estimăm variabilitatea în populația-mamă, vom aproxima cu \(Var[X] = \frac{Sxx}{n-1} \), unde n este efectivul eșantionului.
  • Tot pentru caracterizarea variabilității unei variabile, se folosește rădăcina pătrată a lui Var[X], numită abatere pătratică medie sau deviație standard. În populație, aceasta este \( \sigma = \sqrt { \frac{Sxx}{N}} \). Dar de regulă, dispunem doar de un eșantion și vom aproxima \( \sigma \) cu \( s = \sqrt { \frac{Sxx}{n-1}} \). Aceasta nu măsoară variabilitatea mediilor de eșantion, ci doar a valorilor individuale!
  • Scopul analizei de corelație este măsurarea gradului în care două variabile cresc sau scad împreună. Pentru a testa dacă două variabile sunt corelate (cresc simultan), cel puțin în progresie proporțională, vom calcula
    • \(Sxy= \sum{d_{x_i} d_{y_i}} \)
    • covarianța \(cov(X,Y) = \frac{Sxy}{N}\)
    • coeficientul de corelație Pearson \(\rho = \frac{cov(X,Y)}{\sigma_x \sigma_y} \).
  • Din nou, dacă dispunem doar de eșantion, vom aproxima covarianța cu \(cov(X,Y) = \frac{Sxy}{n-1}\), și coeficientul de corelație Pearson cu \(r = \frac{\frac{Sxy}{n-1}}{s_x s_y} \).
  • Coeficientul de corelație Pearson este un număr între -1 și 1. Valori apropiate de zero sugerând absența corelației liniare. (În funcție de domeniu, poate fi vorba de intervalul -0,1 … 0,1 sau -0,3…0,3). Valori absolute apropiate de 1 indică o corelație liniară puternică. (În funcție de domeniu, apropiat de 1 poate fi peste 0,5 sau peste 0,8.)

Problemă propusă

Evaluați corelația liniară între PIB și numărul de locuitori în intervalul de vârstă productiv (15-64 ani), folosind acest eșantion:

Răspuns