Sunt cazuri în care avem, însa, de comparat
între ele mai mult de două grupuri - să presupunem
ca vrem să vedem dacă diferă TA ale studenţilor
tuturor institutelor din Bucureşti, şi
atunci avem tot atātea grupuri cāte institute de
învăţămānt superior există.
Anul trecut am predat metodologia cercetării
ştiinţifice la patru serii de studenţi, iar notele
de la testul scris au fost cele din Figura 1
(reprezentare sub formă de boxplot).
Vă aduc aminte dintr-un articol anterior că,
la reprezentarea sub formă de boxplot, linia centrală
reprezintă mediana, marginile orizontale
ale dreptunghiului reprezintă cvartilele 25 (inferioară),
respectiv 75% (superioară), iar "T"-urile reprezintă
limitele. Se observă că boxplot-urile
sunt relativ simetrice, aşadar distribuţia este probabil
gaussiană, deci putem aplica teste statistice
parametrice, respectiv ANOVA.
Baza de date rezultată va arăta ca în Figurile
2 (în programul InStat), sau 3 (în programul
SPSS). |
 |
În ANOVA, testăm ipoteza
nulă că între seriile de studenţi
nu există o diferenţă în privinţa
pregătirii la această materie; ipoteza
alternativă este aceea că
există, totuşi, diferenţe între serii,
şi la o privire sumară a graficului
din figura 1, se pare că seria 11
are note ceva mai bune, iar seria
12 are note mai slabe. Rămāne să
vedem dacă diferenţele aparente
sunt semnificative statistic.
Dacă testul Student (t) compara
mediile şi varianţele a două
grupuri, testul ANOVA compară
media şi varianţa totale a studenţilor
celor 4 serii puşi la un
loc, cu mediile şi varianţele
fiecărei serii.
Dacă p rezultat în urma testului
(care se mai numeşte şi testul
F) este semnificativ statistic,
înseamnă că seriile de studenţi |
 |
nu sunt omogene, şi între ele
există diferenţe, fără să ne spună
unde se află aceste diferenţe
(chiar dacă noi intuim, pe baza
graficului din Figura 1). Pentru a
vedea unde sunt exact aceste diferenţe
şi dacă sunt semnificative
statistic, trebuie să facem comparaţii
utilizānd testul t între seriile
de studenţi, luate două cāte
două, deci vom face un număr
de "combinări de 4 serii luate cāte
2" comparaţii, adică 6. Problema
care apare aici este că noi vom
face cam multe comparaţii (problema
comparaţiilor multiple), şi
se ştie că, cu cāt faci mai multe
comparaţii, cu atāt este un risc
mai mare de a obţine valori semnificative
statistic numai din întāmplare
(ca să obţii un p=0,05,
la fiecare 100 de comparaţii, se
obţin în medie 5 rezultate semni- |