Ce este puterea statistica?

 

 

 

 

De ce este nevoie de analiza puterii statistice?

In cuvinte simple, puterea statistica este probabilitatea de a obtine rezultate semnificative statistic. Cu cat puterea statistica este mai mare cu atat probabilitatea de a obtine un rezultat semnificativ statistic este mai mare. Reversul este valabil, o putere statistica scazuta scade probabilitatea de a obtine un rezultat semnificativ statistic. Prin urmare, rolul puterii statistice este esential in procesul testarii ipotezelor si al evolutiei stiintifice a unei discipline.

Cerintele principalelor organisme decizionale in domeniul Psihologiei cu privire la nevoia unui analize a puterii statistice in articolele trimise spre publicare au drept sursa pe de o parte, neintelegerea corecta de catre majoritatea cercetatorilor a limitelor testarii ipotezelor, iar pe de alta parte, informatiile suplimentare furnizate prin includerea unor indicatori complementari precum marimea efectului si/sau estimarea unor intervale de incredere pentru indicatorii statistici calculati. In plus, informatii directe despre puterea statistisca a unui cercetari ne ofera date suplimentare despre validitatea interna a concluziilor extrase si despre importanta practica a fenomenelor studiate. Toate aceste aspecte vor fi prezentate in cele ce urmeaza intr-un mod detaliat pentru a intelege mai bine contributiile rezulatate in urma analizei puterii statistice.

Interpretarea pragului de semnificatie si limitele acestuia

Cel mai frecvent prag ales in testarea ipotezei nule este de .05, valoare stipulata initial de Fisher, parintele statisticii moderne. Ulterior aceasta valoare a fost fetisizata. Exagerand, am putea spune ca publicarea sau nepublicarea studiilor, evolutia lucrarilor de doctorat sau licenta, fericirea sau nefericirea cercetatorilor au devenit dependente de acest prag (Sava, 2004).

Dar ce inseamna aceasta valoare? Gigerenzer (1993) sintetizeaza foarte bine starea de confuzie existenta in interpretarea ei. La nivel conventional, valoarea p de .05 reprezinta nivelul acceptat de comunitatea stiintifica de a respinge sau a nu respinge ipoteza nula. La nivel de interpretare se produce frecvent greseala de a vedea pragul de semnficatie ca un indicator al veridicitatii sau falsitatii unei ipotezei de cercetare. O consecinta a acestei greseli este interpretarea eronata a pragului de semnificatie in termeni de rezultate semnificative statistic pentru p< .05, puternic semnificative statistic pentru p< .01, ori foarte puternic semnificative in cazul unui p< .001. Cu alte cuvinte, exista tendinta de a vedea in aceste valori gradul de adevar al unui ipoteze. De fapt, pragul de semnificatie se refera la probabilitatea de a obtine datele culese in conditia in care ipoteze nula este adevarata. Prin urmare, aceste praguri nu arata gradul de incredere pe care-l avem in veridicitatea ipotezei de cercetare, ci doar probabilitatea de a obtine datele observate pornind de la premisa ca ipoteza nula este adevarata.

Interpretarea pragului de semnificatie poate fi imbogatita prin discutarea a doua erori posibile ce pot aparea in testarea ipotezelor. Eroarea de tip I este situatia in care cercetatorul decide sa respinga ipoteza nula, desi aceasta nu trebuia respinsa, in timp ce eroarea de tip II este data de cazul in care ipoteza nula nu a fost respinsa, desi trebuia sa fie respinsa. Intre cele doua tipuri de erori exista o relatie de dependenta. O data ce cresc sansele de a comite eroarea de tip I, scad sansele de a comite eroarea de tip II si invers. Cel mai adesea, probabilitatea de a comite o eroare de tip I este prestabilita la .05. In schimb, probabilitatea de a comite eroarea de tip II tinde sa fie variabila. Cohen (1988, 1994) propune pentru acest caz o probabilitate de .20, o valoare de patru ori mai mare decat cea asociata erorii de tip I.

Dupa parerea noastra, problema de baza a pragului de semnificatie nu tine neaparat in interpretarea data unui rezultat semnificativ statistic, ci mai ales in dependenta pragului de semnificatie de valoarea puterii statistice a unei cercetari (Cohen, 1988, 1994).

Prin urmare, in lipsa unei analize a puterii statistice nu vom beneficia de informatii de baza pentru a analiza corect rezultatele unei cercetari. De pilda, puterea statistica este dependenta de erorile de masurare a unor indicatori statistici. Cu cat erorile de masurare sunt mai mari cu atat puterea statistica este mai mica. Insa, erorile de masurare sunt dependente de volumul esantionului. Cu cat avem mai multi subiecti testati cu atat erorile de masurare sunt mai mici, in consecinta, puterea statistica este mai mare. Multi cercetatori isi aleg numarul de subiecti ce urmeaza a fi testati in functie de resursele avute la dispozitie. Aceasta modalitate nu este insa cea mai fericita, deoarece puterea statistica si implicit, pragul de semnificatie sunt sensibile la volumul esantionului. Astfel, in cazul unui esantion redus de persoane (ex. 10 subiecti), exista mari sanse ca rezultatul sa fie nesemnificativ statistic datorita unei puteri statistice scazute, desi in realitate exista un efect. In schimb, prin alegerea unui esantion foarte mare (ex. 500 de persoane), creste puterea statistica si exista sanse mari de a obtine un rezultat semnificativ statistic, desi in realitate efectul (ex. corelatia) ar putea fi unul foarte slab.

Puterea statistica a unei cercetari

Imaginati-va puterea statistica drept o capacitate de a detecta vizual fenomene. Daca puterea statistica este mica, va fi dificil sa observam fenomenele de interes si vom concluziona, poate, ca fenomenele respective nu exista. Acest lucru s-ar intampla datorita capacitatii noastre reduse de detectare vizuala a fenomenului in cauza. In schimb, daca vom reusi sa ne imbunatatim aparatele de detectare a fenomenului, adica sa crestem puterea statistica a unui cercetari, vom avea mai multe sanse sa detectam fenomenele asteptate. Mai mult, in situatii in care puterea statistica a devenit foarte mare, vom putea detecta orice fenomene, inclusiv pe acelea minuscule sau insignifiante. In practica se intampla mai rar acest lucru, deoarece majoritatea studiilor sufera de o putere statistica scazuta. De altfel, Tversky si Kahneman (1993) sau Smith (2000) reamintesc de un studiu mai vechi a lui Cohen, care identifica, in studiile publicate in diverse reviste de specialitate, o valoare mediana a puterii statistice de .46. Acest rezultat este mult sub valoarea optima prescrisa de .80. Situatia nu s-a schimbat de atunci, rezultate modeste, similare fiind obtinute si dupa 25 de ani de la efectuarea acelui studiu (Cohen, 1990).

Puterea statistica poate fi determinata foarte usor daca tinem seama de valoarea lui β (riscul de a comite eroarea de tip II), deoarece puterea statistica este egala cu 1 – β. Astfel, daca vom alege un β de .20, puterea statistica a cercetarii respective va fi de .80, ceea ce semnifica o probabilitate de 80% de a detecta un efect daca acesta exista. Importanta practica a puterii statistice este capitala in constructia designului de cercetare, deoarece puterea statistica a unei cercetari poate fi modificata in functie de trei parametri importanti: marimea efectului (Cat de mare trebuie sa fie un efect sau o relatie dintre doua variabile?); marimea esantionului (De cati subiecti avem nevoie pentru a observa fenomenul de interes?); valoarea α (Care este pragul de semnificatie de la care vom respinge ipoteza statistica?). De asemenea, fiind o ecuatie formata din patru parametrii: puterea statistica, marimea efectului, pragul de semnificatie ales si marimea esantionului (erorile de masurare) putem deduce oricare indicator lipsa. Astfel, putem estima numarul de subiecti necesari pentru a fi testati daca cunoastem marimea efectului studiaat, daca stabilim pragul de semnificatie sub care respingem ipoteza nula (de pilda p de .05) si daca alegem o putere optima de .80 de a verifica ipoteza formulata. Similar, pe baza numarului de subiecti testati, a marimii efectului observat, si a pragului de semnificatie prestabilit se poate calcula puterea statistica a unui studiu.

Iata doua exemple concrete de utilizare a informatiilor prezentate mai sus, pentru a intelege importanta utilizarii conceptului de putere statistica a unei cercetari.

In primul caz, vom presupune ca un cercetator s-a aratat interesat de a studia in ce masura exista o corelatie pozitiva intre doua probe de inteligenta, Matricele Progresive Raven – varianta standard si scorul general obtinut la WAIS. Sa presupunem ca el a testat 25 de persoane si a obtinut o corelatie r de .30. Aceasta valoare nu este semnificativa statistic, deoarece p obtinut a fost de .07, valoare superioara pragului maxim acceptat de .05. In aceste conditii, cercetatorul nu va putea respinge ipoteza nula si va afirma ca cele doua teste de inteligenta nu coreleaza, dupa care, probabil, se va lansa in tot felul de speculatii legate de domeniile distincte pe care cele doua probe le masoara. Totusi, aceste teste ar fi trebuit sa coreleze intr-o anumita masura, deoarece, in principiu, fac referire la acelasi construct. In astfel de cazuri ne putem pune intrebarea: chiar nu exista o corelatie intre cele doua probe sau rezultatul este o consecinta a unei erori de tip II? Pentru a raspunde la intrebare vom putea face un simplu calcul pornind de la faptul ca au fost testati 25 de subiecti (marimea esantionului), valoarea α prestabilita a fost de .05 (pragul de semnificatie prestabilit), ipoteza de tip unidirectional (exista corelatie pozitiva?), iar marimea efectului r² a fost .09. Rezultatul indica o putere a cercetarii de .45, ceea ce inseamna ca exista mai putine sanse de a observa un efect de intensitatea lui r = .30, decat de a nu-l observa (.45 / .55). In aceste conditii, concluziile legate de nerespingerea ipotezei nule si de afirmarea absentei corelatiei dintre cele doua probe devin extrem de discutabile si atacabile. Daca cercetatorul ar fi cunoscut importanta puterii statistice, ar fi putut planifica mai bine studiul, pentru a ajunge la o valoare acceptabila a riscului de a comite eroarea de tip II. Astfel, daca dorea sa testeze existenta unei asocieri pozitive intre cele doua variabile, in conditiile in care se astepta la o marime a efectului in jurul lui .09 (r = .30), stabilea un p < .05, iar puterea dorita era de .80 (β = .20), ar fi avut nevoie de 64 de subiecti pentru a testa relatia dintre probe. Daca ar fi procedat astfel sansele de a comite eroarea de tip II ar fi fost mult reduse, facilitand interpretarea corecta a datelor.

Cel de-al doilea exemplu ar putea servi drept model in realizarea unui design adecvat din perspectiva erorilor de testare a ipotezelor statistice. Sa presupunem ca un cercetator doreste sa studieze rolul feedback-ului in rezolvarea unor sarcini noi. In acest scop, el grupeaza aleator participantii la studiu in patru grupe: unul de control, unul alcatuit din subiecti care primesc doar feedback negativ legat de sarcina; un al treilea grup care primeste doar feedback pozitiv legat de sarcina, respectiv un al patrulea grup care primeste atat feedback pozitiv, cat si negativ. Variabila dependenta este masurata in secunde, vizand rapiditatea rezolvarii sarcinii de catre subiecti. Subiectii din cele trei grupe experimentale primesc feedbackul in timpul rezolvarii sarcinii, in timp ce subiectii din grupul de control nu primesc nici un fel de feedback. Intr-un astfel de caz, cercetatorul poate planifica acele caracteristici ale designului astfel incat sa aiba erori de tip I si II cat mai reduse.

Probabil cercetatorul va testa ipoteza apeland la ANOVA simpla si la o serie de comparatii post hoc. In aceste conditii, el poate face o serie de calcule pentru a determina volumul esantionului in conditiile in care sunt patru grupe, α dorit este de .05, puterea statistica asteptata este de .80, iar efectul feedback-ului asupra duratei de rezolvare a sarcinii este unul mediu (f = .25). In urma calcului a rezultat ca cercetatorul va avea nevoie de un esantion de 180 de persoane, adica de 45 de subiecti in fiecare grupa pentru a putea testa optim ipoteza si a mentine scazute erorile. In cazul in care ar fi ales 100 de subiecti, cate 25 in fiecare grupa, ar fi obtinut o putere a cercetarii de .50, ceea ce ar fi insemnat sanse egale de a observa sau nu efectul feedbackului asupra performantei.

La ora actuala exista pe piata cateva instrumente software menite sa masoare puterea statistica sau indicatorii asociati acesteia insa acestea sufera de anumite neajunsuri. De pilda, SPSS-ul ofera date despre unii indicatori ai marimii efectului, fara a trata in mod egal testele de semnificatie statistica. Astfel, desi sunt date despre marimea efectului in cazul regresiei, acestea privesc eficienta globala a modelului si nu fiecare predictor in parte. Alte teste statistice precum testele t sau hi patrat nu ofera nici un fel de indicator al marimii efectului. In plus, datele despre puterea statistica sau posibilitatea de a stabili a priori numarul de subiecti necesari pentru a sesiza un anumit efect lipsesc cu desavarsire in modulul de baza, in timp ce modulul complementar, destinat marimii efectului, este extrem de costisitor si dificil de utilizat de catre cercetatorii fara cunostinte temeinice de statistica.

Un alt instrument de calcul al puterii statistice este Gpower (Faul si Erdfelder, 1992), disponibil la http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/index.html. Programul poate fi utilizat doar sub regim MS-DOS, fara a avea unele facilitati de imprimare sau de copiere a rezultatelor calculate si are drept principal neajuns imposibilitatea de a permite utilizatorilor transformarea anumitor indicatori ai marimii efectului in alti coeficienti similari. In plus, programul nu permite calcularea intervalelor de incredere asociate acestor indicatori menite sa ofere o informare mai exacta despre magnitudinea efectelor observate. De asemenea, programul nu tine cont de unele diferentieri importante. De pilda, in mod normal valorile F rezultate dintr-un design ANOVA se diferentiaza in estimarea marimii efectului in functie de tipul lor (efecte principale vs. efecte de interactiune), de design-ul oferit (variatie intergrup vs. variatie intragrup)sau de tipul de factor avut in vedere (aleatoriu vs. fix). Ele sunt tratate in acelasi fel de catre G-Power fapt inadecvat din perspectiva metodologica.

Prin urmare, prin aplicatia propusa de noi in cadrul acestui grant urmarim depasirea acestor neajunsuri. Mai mult, prin intermediul manualului de utilizare si a suportului educational pus la dispozitie, precum si a fisierelor de asistenta create pe baza unei atente analize a nevoilor beneficiarilor, aplicatia va fi usor de utilizat atat de catre cercetatori, cat si de catre studenti.