Cum rezolvăm problemele de Statistică de nivel universitar?


Problemele tipice din examenele de la Statistică și disciplinele înrudite urmează doar câteva șabloane. Pregătirea pentru rezolvarea lor urmează un singur astfel de șablon. De exemplu, să considerăm diferitele probleme ce se pot formula pe marginea noțiunii de medie ponderată.

Definiție și proprietăți

Pentru a putea rezolva orice problemă legată de orice noțiune, este necesar să cunoașteți

  • definiția, preferabil în cuvinte
  • interpretarea unor valori speciale, acolo unde este cazul
  • proprietățile acelui concept.

În cuvinte, media ponderată este o măsură a tendinței centrale a unei serii de numere, care are ca particularitate prioritizarea mai mică sau mai mare a membrilor seriei, pe baza unei alte serii-pereche de numere, numite ponderi.

Înțelegerea definiției este crucială pentru a trece mai departe. Încercați să vă formulați definiția cu cuvintele voastre, și fiți siguri că ați înțeles fiecare cuvânt. De exemplu, poate fi util să definim separat ponderile ca fiind o serie de numere ce conferă unui membru al seriei analizate o importanță mai mică sau mai mare.

Majoritatea conceptelor sunt definite și în format matematic. Aici, definiția mediei ponderată ar putea fi \(\bar{X_p} := \frac{\sum_{i=1}^{n}{p_i X_i}}{\sum_{i=1}^{n}{p_i}}\), eventual precedată de \(\forall n \in \mathbb{N},\ \forall (X_i)_{i=1}^n \subset \mathbb{R},\ \forall (p_i)_{i=1}^n \subset \mathbb{R}_{\gt 0}\) și obligatoriu urmată de definiția fiecărei abrevieri:

  • \((X_i)_{i=1}^n\) este seria de valori a căror medie ponderată este calculată
  • \((p_i)_{i=1}^n\) este seria de ponderi, numere obligatoriu pozitive non-nule.

Este important să cunoașteți în cuvinte înțelesul fiecărei abrevieri întrucât acestea diferă de la manual la manual. Tradițional, în România, terminologia a fost adaptată din franceză, însă manualele recente din România, Wikipedia, OpenStax și ChatGPT vor folosi mai mult termeni în engleză. Astfel, veți avea surpriza ca ponderile să fie notate \((w_i)_{i=1}^n\), cu w de la numele englez al ponderilor, weights, chiar și în materiale în limba română. Similar, o literă cu bară deasupra semnifică medie, însă unele manuale vor nota media ponderată, pe model englez, cu \(\bar{X_w}\), ]n loc de \(\bar{X_p}\). În rezolvările voastre va fi important să descrieți în cuvinte ce semnifică o abreviere, dacă aceasta poate fi interpretată în mai multe feluri.

De regulă, manualele și materialele de curs vor oferi întâi o serie de proprietăți, pentru ca abia apoi să treacă la exemple numerice. Este ideal ca voi să treceți la lectura a 1-2 exemple numerice, înainte de a aborda proprietățile.

Exemplul 1. Calculați media ponderată a numerelor 10, 20, 30, dacă ponderile lor în acest calcul sunt 1, 1, 2. În cuvinte, avem de calculat tendința centrală a seriei de date 1, 2, 3, dar trebuie să acordăm pondere dublă celui de-al treilea număr. În formalism matematic vom scrie:

  • Se cunosc numerele a căror medie ponderată se cere \((X_i)_{i=1}^3 = (10,20,30)\) și ponderile \((p_i)_{i=1}^3 = (1,1,2)\).
  • Se cere media ponderată \(\bar{X_p}\).

Calculul este \(\bar{X_p} = \frac{\sum_{i=1}^{3}{p_i X_i}}{\sum_{i=1}^{3}{w_i}} = \frac{p_1 X_1 + p_2 X_2 + p_3 X_3}{p_1 + p_2 + p_3} = \frac{1 \times 10 + 1 \times 20 + 2 \times 30}{1 + 1 + 2} = \frac {10 + 20 +60} {4} = \frac{90}{4} = 22,5\).

Veți afirma că “media ponderată este 22,5”, nefiind necesare interpretări suplimentare. Cum alte ocazii ar fi necesar să comparați rezultatul cu unele valori cu semnificație aparte, cel mai frecvent 0 sau 1.

Proprietățile oricărui indicator statistic vor avea nume și expresie matematică, de regulă numele fiind mai greu de înțeles. De exemplu, media ponderată are proprietățile

  • Constanță, ceea ce în cuvinte înseamnă că, pentru o serie de numere egale, media ponderată este egală cu acestea, indiferent de valorile ponderilor, sau \( \forall (p_i)_{i=1}^n, \forall i X_i = c \Rightarrow \bar{X_p} = c\).
  • Mărginire, adică limitarea la intervalul dintre minima și maxima seriei de date a cărei medie este calculată, \( \forall (p_i)_{i=1}^n, \forall (X_i)_{i=1}^n \Rightarrow \bar{X_p} \in \left[ min((X_i)), max((X_i)) \right]\). (Necesită ponderi nonnule pozitive, ceea ce unele definiții nu cer.)
  • Liniaritate, adică un răspuns previzibil la transformările de scalare (cele în care, prin înmulțire cu o constantă a, obținem o nouă serie de date \( Y_i = aX_i\)), cele de translație (cele în care, prin adunare cu o constantă b, obținem o nouă serie de date \( Z_i = X_i +b\)), și cele care combină translația cu scalarea. Mai precis, \( \forall a,b \subset \mathbb{R}, \forall (p_i)_{i=1}^n, \forall (X_i){i=1}^n, A_i = a X_i + b \Rightarrow \bar{A_p} = a \bar{X_p} + b\)

Proprietățile pot fi utile în mod direct la rezolvarea unor probleme, sau ne pot ajuta să ne verificăm răspunsurile. De exemplu, media ponderată de la Exemplul 1, fiind 22,6 este cuprinsă în intervalul delimitat de minimul seriei (10) și maximul ei (30).

Proprietățile se pot memora mai bine cu ajutorul unor exemple.

Exemplul 2. Calculați media ponderată a numerelor obținute prin înmulțirea elementelor seriei (10, 20, 30) cu 5, urmată de adunarea la fiecare valoare a constantei 6, dacă ponderile lor în acest calcul sunt 1, 1, 2. Se știe deja că media ponderată a seriei (10, 20, 30) cu aceleași ponderi este 22,5.

Recunoașterea liniarității ne scutește de calcularea noii serii, \(A_1 =5X_1 + 6 = 5 \times 10 + 6 = 56\), \(A_2 = 5X_2 +6 = 5 \times 20 + 6 = 106\), \(A_2 = 5X_2 +6 = 5 \times 30 + 6 = 156\), urmată de calcularea mediei ponderate a noii serii. Identificăm un caz de transformare liniar cu a=5 și b=6, și ne folosim de liniaritatea mediei ponderate, obținând că \(\bar{A_p} = a\bar{X_p} + b = 5 \times 22,5 + 6 = 118,5\).

Complicații artificiale ale problemelor banale

Exemplul 3. Care este nota la Statistică pentru studentul care a obținut 10 la evaluare pe parcurs (în principiu la seminar) și 1 la examenul final? Conform fișei disciplinei, ponderile în nota finală sunt 30% și 70%.

Am putea scrie că abreviem notele cu N, și deci \(N_s =10\) și \(N_f = 1\). Modul de utilizare al procentelor este însă un subiect sensibil. Accepțiunea generală este că semnul % este sinonim cu “înmulțit cu 1 / 100”, ceea ce v-ar permite să scrieți ponderile ca fiind \(p_s =30 \times \frac{1}{100} = 0,3\) și respectiv \(p_f =70 \times \frac{1}{100} = 0,7\). Iată această afirmație în Wikipedia:

Totuși, o serie de manuale de economie, și chiar de statistică economică, preferă să ignore această interpretare, și să descrie ponderile ca fiind 30 și 70. În cazurile fericite, veți întâlni adjectivul suplimentar “procentual”, ca în fraza “ponderea procentuală a examenului final este 70%”, și abrevieri cu un semn procentual, ca în \(p_s^{(\%)} = 30%\). Nu de multe ori însă, semnul procent va lipsi, și vi se va spune că \(p_s^{(\%)} + p_f^{(\%)} = 100\).

Similar, în cazul unei creșteri de la 5 la 10, e care noi am descrie-o ca dublare a notei sau “creștere de 2 ori”, acest factor 2 se numește indicele de creștere. Veți avea, foarte probabil, în manualul de statistică economică al ASE

  • indicele de creștere \( I = \frac{N_f}{N_i} = \frac{10}{5} = 2\)
  • indicele de creștere procentuală \( I^{(\%)} = 100 \times \frac{N_f}{N_i} = 100 \times \frac{10}{5} = 200\).

Este adevărat că nota a crescut cu indice de 200%, însă, în mod normal, conversia lui X în “100X %” e operație aritmetică, ce nu ar trebui să implice noi definiții și formule. Totuși, aceste convenții de notare, cu procent și fără procent, permit dublarea lungimii oricărui manual și a duratei oricărui seminar la multe dintre cursurile din ASE.

Rolul vostru nu este să obligați profesorii să renunțe la acest regim dual și să folosească notația voastră preferată, Va trebui, în astfel de situații ambigue să precizați una din două.

  • “Voi folosi convenția de normalizare conform căreia ponderile sunt numere între 0 și 1, a căror sumă este 1. În acest caz, \(p_s = 0,3\) și \(p_f = 0,7\), astfel că \(\bar{N_p} = \frac{p_s N_s + p_f N_f}{p_s + p_f} = \frac{0,3 \times 10 + 0,7 \times 1}{0,3 + 0,7} = 3,7\).” sau
  • “Voi folosi convenția de normalizare procentuală, conform căreia ponderile sunt numere între 0% și 100%, a căror sumă este 100%. În acest caz, \(p_s = 30%\) și \(p_f = 70%\), astfel că \(\bar{N_p} = \frac{p_s N_s + p_f N_f}{p_s + p_f} = \frac{30 \times 10 + 70 \times 1}{30 + 70} = \frac{370}{100} = 3,7\).”

Cele două metode conduc la același rezultat dacă nu sunt amestecate din greșeală. Specificarea cărei convenții este folosită vă poate feri de riscul de a folosi formule procentuale în convenția în care operați cu numere subunitare, sau reversul ei.

Problema tipică la examenul de Statistică

Problemele în care aplicăm formula sau procedeul din manual ca atare sunt rezervate specializărilor care studiază statistica timp de 1-2 semestre. Cel mai frecvent, problemele de la CSIE sunt bazate pe variații de la definiție, cu situații în care cunoaștem rezultatul formulei-definiție, dar ne sunt necunoscute unul sau mai multe numere cu care s-a calculat acel indice statistic.

Exemplul 4. Un student dorește să obține un 5 clar, nerotunjit în catalog, la Statistică. Are deja nota 10 la seminar, și vrea să facă minimul efort pentru examenul final. Ce notă îi este necesară la examenul final dacă ponderile sunt aceleași ca în exemplul precedent?

Vom folosi convenția de normalizare conform căreia ponderile sunt numere subunitare, ale căror sumă este 1. Deci din nou, cunoaștem \(N_s = 10\), \(p_s = 0,3\) și \(p_f = 0,7\), însă în acest exemplu mai cunoaștem \(\bar{N_p} = 5\), și ni se cere \(N_f\).

Rezolvarea implică:

  1. enunțarea formulei pentru media ponderată, adaptată la situația de față, \(\bar{N_p} = \frac{p_s N_s + p_f N_f}{p_s + p_f}\)
  2. rezolvarea simbolică pentru \(N_f\), anume \(p_s N_s + p_f N_f = \bar{N_p} (p_s + p_f)\) \(\Rightarrow\) \(p_f N_f = \bar{N_p} (p_s + p_f) – p_s N_s\) \(\Rightarrow\) \(N_f = \frac{\bar{N_p} (p_s + p_f) – p_s N_s}{p_f}\)
  3. înlocuirea valorilor numerice \(N_f = \frac{5 (0,3 + 0,7) – 0,3 \times 10}{0,7} = \frac{2}{0,7} \approx 2,85\).

Finalul ar trebui să fie afirmația “pentru a obține precis 5 ca medie ponderată, acest student ar trebui să obțină cca 2,85 la examenul final.”

Exemplul 5. Un student a obținut un 6 clar, nerotunjit, în catalog, la Statistică. El observă că ar fi trebuit să își redistribuie mai bine efortul, nota de la seminar fiind mai mar decât cea de la examenul final. Dacă ar fi fost folosite medii aritmetice în loc de medii ponderate, efortul lui de la seminar l-ar fi dus la un 7 în catalog. Ce note a luat la examenul final și la seminar studentul nostru dacă ponderile sunt aceleași ca în exemplul precedent?

Vom folosi din nou convenția conform căreia ponderile sunt numere între 0 și 1, cu sumă 1. Deci cunoaștem din nou \(\bar{N_p} = 6\), \(p_s = 0,3\) și \(p_f = 0,7\), dar ni se cer \(N_s\) și \(N_f\).

Scrierea formulei pentru media ponderată, adaptată la situația de față, \(\bar{N_p} = \frac{p_s N_s + p_f N_f}{p_s + p_f}\) nu este suficientă, având o ecuație cu două necunoscute. Va fi necesară și folosirea mediei aritmetice, precizată de problemă ca fiind \(\bar{N} = 7\) și definită ca \(\bar{N} = \frac{N_s + N_f}{2}\).

Cele două definiții formează un sistem de două ecuații cu două necunoscute. Extragem o necunoscută din a doua definiție, de exemplu \(N_s = 2\bar{N} – N_f\). Înlocuim \(N_s\) în prima ecuație, obținând \(\bar{N_p} = \frac{p_s (2\bar{N} – N_f) + p_f N_f}{p_s + p_f}\).

Deci \(2\bar{N} p_s – N_f p_s + p_f N_f = \bar{N_p}(p_s + p_f)\). \(\Rightarrow\) \(N_f (p_f – p_s) = \bar{N_p}(p_s + p_f) – 2\bar{N} p_s\) \(\Rightarrow\) \(N_f = \frac{\bar{N_p}(p_s + p_f) – 2\bar{N} p_s}{p_f – p_s}\) \(\Rightarrow\) \(N_f = \frac{6(0,3+0,7)-2 \times 7 \times 0,3}{0,7-0,3} = \frac{6 – 4,2}{0,4} = \frac{1,8}{0,4} = 4,5\).

Revenind la formula cu care am făcut înlocuirea, \(N_s = 2\bar{N} – N_f = 2 \times 7 – 4,5 = 9,5\).

Vom conchide că scenariul cu medie ponderată 6 și medie aritmetică 7 este posibil, cu ponderile date în fișa materiei, dacă studentul a luat 9,5 la seminar și 4,5 la examenul final.

Se poate ajunge la un sistem de 4 ecuații cu 4 necunoscute, însă foarte rar va fi vorba de ecuații de grad 2, de logaritmi – exponenți, sau de analiză matematică, date fiind formulele relativ simple pe care le veți învăța.

Problema de nota 10

În problemele cu adevărat grele, veți avea din nou de rezolvat sisteme de ecuații liniare, însă pentru a ajunge la ele, va fi uneori nevoie de unele presupuneri care nu sunt enunțate explicit în problemă.

Exemplul 6. La o altă disciplină studenții pot lua 5 curat, ne rotunjit luând maximum (10) la evaluarea pe parcurs și minimul (1) la examenul final. Care sunt ponderile la această disciplină?

Știm \(\bar{N_p} = 5\), \(N_s =10\) și \(N_f = 1\). Ni se cer \(p_s\) și \(p_f\). Știm și definiția \(\bar{N_p} = \frac{p_s N_s + p_f N_f}{p_s + p_f}\), pe care în primă instanță o descriem ca ecuație cu două necunoscute.

Însă, dacă ați urmărit până aici, veți putea rezolva foarte ușor, beneficiind de preferința ASE pentru procente. După cum bănuiți, în ASE, procentele ponderilor procentuale vor avea mereu suma 100%. Dar alte note, cum sunt de exemplu scorurile la testele PISA, se calculează ca medii ponderate fără ca suma ponderilor să fie 100%.

Prin urmare, va fi necesar să afirmați, de exemplu, “voi folosi convenția de normalizare conform căreia ponderile sunt procente, a căror sumă este 100%”. Matematic, această afirmație spune că ați ales \(p_s + p_f = 100\) \(\Rightarrow\) \(p_s = 100 – p_f\). Înlocuim în definiția mediei ponderate și deci \(\bar{N_p} = \frac{(100 – p_f) N_s + p_f N_f}{(100 – p_f) + p_f}\) \(\Rightarrow\) \(100 \bar{N_p} = 100 N_s – p_f N_s + p_f N_f\) \(\Rightarrow\) \(p_f (N_f – N_s) = 100 \bar{N_p} – 100 N_s\) \(\Rightarrow\) \(p_f = 100 \frac{\bar{N_p} – N_s}{N_f – N_s} = 100 \frac{5-1}{10-1} = \frac{500}{9} \approx 55,5 \). Vom spune că ponderea examenului final trebuie să fie 55,5%, iar cea a examinărilor pe parcurs, 100 – 55,5 = 44,4%.

Un rezultat la fel de acceptabil va fi dacă veți prefera să folosiți convenția de normalizare folosită până aici, respectiv cea conform căreia ponderile sunt numere între 0 și 1, a căror sumă este 1. Matematic, veți fi ales \(p_s + p_f = 1\) , a cărei utilizare, în combinație cu definiția mediei ponderate, va duce la o pondere a examenului final de 0,555 și o pondere a examinărilor pe parcurs de 0,444. Acest rezultat este la fel de corect, media ponderată a seriei (10, 1) fiind to 5, și dacă ponderile sunt (0,444; 0,555), dar și atunci când ponderile sunt (44,4; 55,5).

În concluzie, la unele probleme, ecuațiile vor trebui deduse din proprietățile indicatorilor statistici examinați, sau chiar aleși într-un mod convenient dintr-o mulțime de valori la fel de plauzibile.

Cum ne pregătim în epoca inteligenței artificiale pentru examenele de Statistică

În cursul învățări definițiilor, puteți cere lui ChatGPT să verifice încercările voastre de a reformula, în cuvintele voastre, “cu cartea închisă”, definiția. Puteți cere exemple numerice care să ilustreze calculul sau proprietățile unui indicator. Puteți chiar să îi cereți să formuleze probleme simple.

Ce nu puteți cere lui ChatGPT? Nici un agent digital nu va ști cine este X sau Y, dacă aveți o problemă cu mai multe variabile și nu le precizați în prompt. Dacă va emite o formulă, ea va fi despre un X ipotetic, care poate sau nu să se potrivească problemei voastre. Mai grav, întrucât multe noțiuni de statistică nu sunt definite consensual, ChatGPT ar putea alege notații sau convenții atipice. În cazul noțiunilor care se definesc diferit în funcție de preferințele autorului, ChatGPT ar putea să confunde două definiții, și să le folosească alternativ, fără a vă preveni (vezi mai jos). Este necesară verificarea tuturor afirmațiilor culese din ChatGPT, ceea ce reduce utilitatea sa în cursul momentelor în care un răspuns rapid este necesar, așa cum sunt examenele.