Tipurile de analiză multivariabilă sunt
trei, în funcţie de variabila dependentă
(efectul) (pentru Tipurile de variabile, vezi
Stetoscop nr. 30 din Septembrie 2004):
atunci când variabila dependentă este
continuă se utilizează regresia lineară
multiplă, dacă aceasta este dihotomică se
utilizează regresia logistică, iar când este
reprezentată prin durata de timp până la
apariţia unui eveniment ("supravieţuirea"),
se foloseşte analiza hazardului
proporţional (modelul lui Cox).
Regresia lineară multiplă
Să zicem că avem o bază de date cu mai mulţi
indivizi, la care sunt trecute ca variabile VEMS,
vârsta, sexul, înălţimea, eventual numărul de
ţigări fumate (în pachete-ani). Dacă facem mai
multe analize univariate, vom vedea că VEMS se
corelează pozitiv cu înălţimea, negativ cu vârsta
şi numărul de ţigări fumate şi media VEMS este
mai mare la bărbaţi decât la femei. Pentru
fiecare dintre corelaţii vom avea un coeficient de
corelaţie Pearson = r (care ia valori între 0 şi 1,
cu cât este mai aproape de 1 cu atât corelaţia
este mai bună) şi un coeficient de determinare =
r2 (care arată fracţiunea din variaţia VEMS care
este explicată de fiecare dintre ceilalţi factori).
În viaţa reală însă intervin simultan toate variabilele
independente (fiecare pacient are sex,
varstă, înălţime etc.). De aceea ne poate interesa
construirea unui model, reprezentat printr-o
ecuaţie în care variabila dependentă este Y
(VEMS), iar variabilele independente sunt X1
(vârsta), X2 (sexul), X3 (înălţimea) etc.
Y = ß0 + ß1 X1 + ß2 X2 + ß3 X3 + ....ßnXn,
adică
Y = ß0 + ß1(vârsta) + ß2(sexul) +
ß3(înălţimea) + ß4(pachete-ani).
Fiecare X poate fi o variabilă continuă (de ex.
vârsta în ani sau decade, înălţimea în centimetri
sau decimetri etc.), transformarea unei variabile
continue (de ex. radical sau logaritm din vârstă
sau înălţime) sau o variabilă nominală (de ex.
pentru sex se poate codifica masculin X2=1,
feminin X2=0; în acest caz, X se numeşte vari- |
 |
abilă fictivă, "dummy"; se pot
folosi astfel de variabile fictive şi
acolo unde există mai mult de
două categorii, codificarea fiind
puţin mai complicată).
Presupunerile regresiei
multiple:
Pentru a putea efectua o regresie
multiplă trebuie să fim siguri că:
1. Eşantionul nostru a fost extras
întâmplător din populaţia la
care ne referim; o condiţie a
tuturor testelor statistice, care
în studiile clinice nu este
niciodată îndeplinită şi atunci
trebuie să asigurăm reprezentativitatea
eşantionului nostru
prin includerea consecutivă
a tuturor pacienţilor care
îndeplinesc criteriile specificate
în protocol, nelăsând să
intervină alte criterii de
includere sau excludere mai
mult sau mai puţin subiective.
2. Linearitatea: creşterea X cu o
unitate creşte (sau descreşte)
Y cu aceeaşi valoare, la toate
valorile lui X (de exemplu, fie
că vârsta creşte de la 30 la 40
de ani, sau de la 70 la 80 de
ani, valoarea VEMS va scădea
cu acelaşi număr de ml; sau
fie că înălţimea ceşte de la
1,60 la 1,65 sau de la 1,90 la
1,95 m, VEMS va creşte cu
acelaşi număr de ml.).
3. Nu există interacţiuni între
variabile: creşterea variabilei
X cu o unitate creşte (sau descreş
te) Y cu aceeaşi valoare,
indiferent de valorile celorlalte
variabile (crescând
înălţimea cu 5 cm va modifica
VEMS cu aceeaşi cantitate,
indiferent de vârstă sau |
 |
numărul de ţigări fumate).
4. Observaţiile (pacienţii) să fie
independente: VEMS-ul unui
subiect să nu ne dea informaţ
ii despre VEMS-ul altui
subiect (de exemplu, nu vom
face mai multe măsurători în
aceeaşi familie; nu mai vorbim
de multiple măsurători la
acelaşi subiect, la vârste
diferite).
5. Distribuţia Gaussiană (normală):
pentru fiecare set de valori
ale X, Y are o distribuţie Gaussiană
(măcar aproximativ).
6. Homoscedasticitate: deviaţia
standard (SD) a Y este aceeaş
i, indiferent de variabila X
(adică SD a VEMS este aceeaşi
pentru toate vârstele şi toate
înălţimile).
Interpretarea rezultatelor
regresiei multiple:
Am spus că în baza de date avem
valorile VEMS (deci ale Y), vârsta,
greutatea, înălţimea, sexul,
nr. pachete ani şi orice altă variabilă
credem că ar mai influenţa
VEMS (deci variabilele X) pentru
fiecare subiect din studiu.
Programul de regresie multiplă
găseşte valorile care se potrivesc
cel mai bine pentru fiecare coeficient‚
împreună cu intervalul de
încredere 95% al fiecăruia.
Ne poate da, astfel, ß1 (pentru
vârstă)= -30ml, ceea ce înseamnă
că pentru fiecare an cu care
înaintăm în vârstă, pierdem 30
ml din VEMS (intervalul de încredere
al ß nu trebuie să-l cuprindă
pe 0); dacă am introdus
în baza de date vârsta în decade,
iar ß1=-317 ml, înseamnă că
pentru fiecare 10 ani înaintaţi în |