Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Rolul acestui scurt capitol introductiv este acela de a readuce în memoria studentului
principalele comenzi din programul statistic SPSS – programul cu care se va lucra în cadrul cursului
de Metode cantitative.
Informaţiile cuprinse în acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim
desigur de la premisa că toţi studenţii ştiu să utilizeze sistemul de operare Windows, fie şi numai la
nivel elementar.
Programul SPSS 10.0 conţine zece meniuri. Prezentǎm în continuare conţinutul fiecǎruia
dintre acestea.
File – cuprinde în special comenzile utilizate pentru crearea unor documente noi şi
deschiderea sau salvarea documentelor create anterior
Edit – cuprinde comenzile utilizate pentru editarea documentelor (ştergere, copiere, lipire
etc.)
View – din acest meniu se pot seta caracteristicile vizuale ale documentelor
Data – cu ajutorul comenzilor acestui meniu se realizează o serie de operaţiuni de bază
asupra datelor statistice (inserare, sortare, agregare, fuzionare fişiere etc.)
Transform – cuprinde comenzi utilizate pentru transformări (cantitative sau calitative) ale
datelor (crearea de noi variabile plecând de la cele existente, recodificarea datelor,
ierarhizarea datelor etc.)
Analyze – în acest meniu se gǎsesc toate comenzile necesare pentru realizarea analizelor
statistice
Graphs – este meniul în care se gǎsesc comenzile pentru grafice (SPSS permite realizarea
câtorva zeci de tipuri de grafice)
Utilities – este un meniu pe care nu-l vom folosi la acest curs. El cuprinde în special
comenzi care permit automatizarea facilităţilor din SPSS
Window – permite manipularea ferestrelor în care este deschis programul SPSS
Help – asigură accesul la asistenţa (ajutorul) pentru utilizatori
Întrucât meniul Analyze va fi de departe cel mai utilizat în cadrul acestui curs, vom detalia
în continuare comenzile existente în acest meniu.
Reports – este un submeniu care conţine comenzi pentru elaborarea rapoartelor sintetice
asupra datelor
Descriptive Statistics – comenzile din acest submeniu se folosesc în principal pentru
generarea indicatorilor statistici pentru variabilele studiate
Custom Tables – submeniu folosit atunci când dorim sa construim tabele pornind de la
datele dintr-un fişier
1
Compare Means – submeniu folosit pentru realizarea testelor de comparare a mediilor
(Student, ANOVA univariatǎ)
General Linear Model – comenzile din acest submeniu servesc la executarea analizei
ANOVA multivariatǎ
Correlate – cuprinde comenzile pentru studierea corelaţiei bivariate şi parţiale dintre
variabile
Regression – submeniu util pentru realizarea diverselor tipuri de analizǎ de regresie (liniarǎ
şi neliniarǎ)
Loglinear – cuprinde comenzi utlie pentru analizele de regresie de tip logaritmic
Classify – cuprinde procedurile utilizate pentru gruparea obiectelor din baza de date (analiza
de tip cluster, analiza discriminantului)
Data Reduction – cuprinde procedurile utilizate pentru gruparea variabilelor studiate
(analiza factorialǎ, analiza corespondenţelor)
Scale – cuprinde proceduri avansate pentru lucrul cu scalele de mǎsurare (scalarea
multidimensionalǎ, analiza încrederii)
Nonparametric Tests – aşa cum îi aratǎ numele, acest submeniu grupeazǎ toate testele
neparametrice (binomial, hi pǎtrat, Wilcoxon etc.)
Time Series – cuprinde procedurile de analizǎ a seriilor de timp
Survival – cuprinde procedurile utilizate în analizele de supravieţuire
Multiple Response – cu ajutorul comenzilor din acest submeniu sunt gestionate datele
provenind din întrebǎrile cu rǎspunsuri multiple
Missing Value Analysis – procedura utilizatǎ pentru analiza valorilor lipsǎ
Comenzile pentru gestionarea fişierelor în SPSS sunt foarte asemǎnǎtoare cu cele din orice
aplicaţie Windows. Astfel, pentru crearea unei noi baze de date comenzile utilizate sunt:
Primul lucru pe care trebuie să-l facem este să definim variabilele (câmpurile) noii baze de
date. În parte din stânga jos putem observa butoanele Data View/Variable View. Apăsând butonul
Variable View, SPSS ne prezintă ecranul de dialog pentru definirea variabilelor. Pentru fiecare
variabilă va trebui să specificăm, printre altele:
• numele
• tipul (numeric, caracter etc.)
• lungimea (numărul de caractere)
• numărul de zecimale (pentru variabilele numerice)
• descrierea variabilei (opţional)
• valori posibile (opţional) etc.
Odată variabilele introduse, apăsăm pe butonul Data View pentru a putea introduce datele în
fişier.
Capitolul 2
O variabilă este acea proprietate a unui fenomen care poate lua diferite valori. De exemplu:
zilele saptămânii (luni, marţi, …, duminică), înălţimea, venitul impozabil, notele studenţilor la
examenul de Statistică etc.
Orice variabilă este descrisă de un set de valori. Valoarea particulară pe care o ia variabila
pentru un anumit membru al populaţiei studiate poartă numele de scor. Exemple de scoruri ale
diverselor variabile: persoana X are înălţimea de 1.68 metri, persoana Y are un salariu lunar de 1500
de lei, studentul Z a obţinut nota 9 la examenul de Statistică.
Distribuţia unei variabile este dată de frecvenţa de apariţie a diverselor scoruri (sau valori)
care descriu variabila respectivă. Frecvenţa poate fi absolutǎ sau relativǎ. Distribuţia poate fi
ilustratǎ cu ajutorul unui tabel de frecvenţe, sau reprezentată grafic prin intermediul unei
histograme.
2. înclinarea (skewness), care ne arată dacă în distribuţie predomină valorile mici (cazul
distrubuţiilor înclinate spre stânga) sau valorile mari (cazul distrubuţiilor înclinate spre
dreapta).
3
3. boltirea (kurtosis), care ne arată cât de mult variază scorurile. O distribuţie “turtită” (sau
“aplatizată”) prezintă toate valorile posibile ale scorurilor, de la cele mai mici la cele mai
mari, pe când în cazul unei distribuţii “ascuţite” scorurile variază mai puţin (valorile extreme
au frecvenţe de apariţie reduse).
Aceşti indicatori se împart în două mari categorii: indicatorii tendinţei centrale şi indicatorii
împrăştierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie.
Aceşti indicatori exprimă tendinţa scorurilor unei variabile de a se grupa în jurul unor valori
semnificative. Cei trei indicatori ai tendinţei centrale luaţi în discuţie aici sunt media, mediana şi
modul.
Media este desigur cel mai cunoscut indicator al tendinţei centrale. Iatǎ formula de calcul a
mediei ponderate:
∑x ⋅n i i
m= i
∑n i
i
Mediana este acea valoare care împarte o distribuţie în două părţi egale. Pentru a o
determina, trebuie mai întâi să aşezăm scorurile în ordine crescătoare. În cazul în care numǎrul de
scoruri este par, mediana va fi media artimetica a scorurilor din mijloc. Dacǎ numǎrul de scoruri este
impar, mediana este dată de valoarea scorului din mijloc al seriei.
Să presupunem că ştim că mediana salariilor lucrătorilor dintr-o firmă este de 5300 de lei.
Cum interpretăm acest fapt? În felul următor: jumătate din lucrători au un salariu de până la 5300 de
lei, iar cealaltă jumătate au un salariu de peste 5300 de lei.
Modul unei distribuţii este acea valoare a distribuţiei care are cea mai mare frecvenţă de
apariţie. În cazul anterior, modul distribuţiei este egal cu 2, deoarece acest punctaj apare cel mai des
(de cinci ori). În exemplul ilustrat în tabelul 1, modul distribuţiei este 3, deoarece această valoare
apare cel mai des (de 16 ori). După cum precizam anterior, există posibilitatea ca o distribuţie să
prezinte mai multe moduri, caz în care o vom numi multimodală.
Indicatorii împrăştierii
Cel mai des folosit indicator al împrăştierii unei variabile este dispersia sau varianţa. Ea este
notatǎ cu σ2 sau uneori cu Var şi se calculeazǎ cu formula:
4
∑ (x i − m) 2
σ2 = i
N −1
sau:
∑ ( x − m) ⋅ n
i
2
i
σ2 = i
∑ n −1
i
i
Cu cât valoarea dispersiei este mai mare, cu atât distribuţia respectivă este mai împrăştiată.
Abaterea pătratică sau abaterea standard nu este altceva decât rădăcina pătrată a dispersiei:
σ = σ2
Atunci când cunoaştem media şi abaterea standard a unui eşantion dat de volum n, putem
determina dispersia de selecţie (sau eroarea standard) pentru eşantionul respectiv, cu formula:
σ
σm =
n
Aceastǎ eroare standard reprezintǎ de fapt abaterea mediilor tuturor eşantioanelor de acelaşi
volum n de la media populaţie totale. Pentru a determina un interval de încredere al acestei din urmǎ
medii, cu un nivel de încredere de 95%, vom calcula:
m ± 1.96 * σm
Distribuţia normală
( x −m ) 2
1 −
p ( x) = e 2σ 2
σ 2π
5
unde p(x) este probabilitatea (frecvenţa) de apariţie a unei valori oarecare x, iar m şi σ sunt deja
notaţii familiare (media şi abaterea pătratică a distribuţiei). Aşadar, aceşti doi parametri (media şi
abaterea standard) definesc complet o distribuţie normală. Să mai spunem că distribuţia normală de
~
medie m şi abatere σ se notează prescurtat astfel: N ( m, σ 2 ) .
Fie o variabilă aleatoare ce are media m şi abaterea standard σ. Pentru o valoare oarecare x a
acestei variabile, scorul z se calculează astfel:
x −m
z=
σ
Se observă că acest scor are un caracter sintetic, reunind într-o singură formulă media şi
abaterea standard a distribuţiei. Scorurile z nu au unitate de măsură. Tocmai acest lucru face
posibilă compararea sau adunarea lor.
Distribuţia scorurilor z se numeşte distribuţie normală standard (sau normată). Ea are media
~
0 şi dispersia 1 şi se notează uneori astfel: N (0,1) .
Pentru realizarea exemplelor practice vom folosi baza de date Employee data.sav, care
prezintă informaţii privind cei 474 de salariaţi ai unei bănci din Statele Unite, informaţii obţinute în
urma unui studiu organizat la începutul anilor 1990.
6
SPSS-ul deschide o casetă de dialog (o vom vizualiza atunci când vom face aplicaţiile
practice). Alegem pentru analiză variabila salary şi apăsăm butonul Statistics. Ni se deschide o
nouă casetă de dialog în care selectăm rmătoarele opţiuni pentru calcul: Quartiles, Mean, Median,
Mode, Std. Deviation (abaterea standard), Variance, S.E. mean (abaterea de selecţie), Skewness,
Kurtosis. Apăsăm butonul Continue şi apoi butonul OK.
- tabelul frecvenţelor pentru variabila salary (redăm aici doar o mică parte a lui, pentru
economie de spaţiu):
Current Salary
Frequency Percent Valid Cumulative
Percent Percent
Valid $15,750 1 .2 .2 .2
$15,900 1 .2 .2 .4
$16,200 3 .6 .6 1.1
$16,350 1 .2 .2 1.3
$16,500 1 .2 .2 1.5
$16,650 1 .2 .2 1.7
$16,800 1 .2 .2 1.9
$16,950 3 .6 .6 2.5
$17,100 2 .4 .4 3.0
$17,250 1 .2 .2 3.2
… … … … …
Total 474 100.0 100.0
În prima coloană se găsesc valorile variabilei, în cea de-a doua frecvenţele absolute, iar în
cea de-a treia frecvenţele relative (în procente). Ultima coloană prezintă frecvenţele relative
cumulate.
Din acest tabel se poate vedea, de exemplu, că nivelul salariului de 16950 de dolari apare la
trei salariaţi, reprezentând 0.6% din totalul salariaţilor.
Current Salary
N Valid 474
Missing 0
Mean $34,419.57
Std. Error of Mean $784.31
Median $28,875.00
Mode $30,750
Std. Deviation $17,075.66
Variance $291,578,214.45
Skewness 2.125
Std. Error of Skewness .112
Kurtosis 5.378
Std. Error of Kurtosis .224
Percentiles 25 $24,000.00
50 $28,875.00
75 $37,162.50
7
Analiza în detaliu a acestui tabel o vom face la seminar.
Descriptive Statistics
N Mean Std. Deviation
Statistic Statistic Std. Error Statistic
Current Salary 474 $34,419.57 $784.31 $17,075.66
Valid N (listwise) 474
SPSS-ul ne cere sǎ precizǎm care sunt variabilele dependente (adicǎ variabilele pentru care
se vor calcula parametrii), precum şi care sunt variabilele-factor (cele dupǎ care sunt definite
straturile). În cazul nostru, variabila dependentǎ este salary, iar factorul este gender.
În afarǎ de tabelele de sinteza, îi vom solicita programului SPSS sǎ ne furnizeze şi graficul
de tip “boxplot”, precum şi un test de normalitate pentru variabila studiatǎ.
Redǎm în continuare câteva din rezultatele acestei analize (discuţiile asupra lor vor avea loc
la seminar).
În tabelul de mai jos se gǎsesc principalii indicatori statistici ai variabilei salary, pe cele
douǎ substraturi: bǎrbaţi şi femei.
Descriptives
Gender Statistic Std. Error
Current Female Mean $26,031.92 $514.26
Salary
95% Confidence Interval for Lower $25,018.29
Mean Bound
Upper $27,045.55
8
Bound
5% Trimmed Mean $25,248.30
Median $24,300.00
Variance 57123688.268
Std. Deviation $7,558.02
Minimum $15,750
Maximum $58,125
Range $42,375
Interquartile Range $7,012.50
Skewness 1.863 .166
Kurtosis 4.641 .330
Male Mean $41,441.78 $1,213.97
95% Confidence Interval for Lower $39,051.19
Mean Bound
Upper $43,832.37
Bound
5% Trimmed Mean $39,445.87
Median $32,850.00
Variance 380219336.303
Std. Deviation $19,499.21
Minimum $19,650
Maximum $135,000
Range $115,350
Interquartile Range $22,675.00
Skewness 1.639 .152
Kurtosis 2.780 .302
Tests of Normality
Kolmogorov-Smirnov
Gender Statistic df Sig.
Current Salary Female .146 216 .000
Male .208 258 .000
În sfârşit, figura de mai jos prezintǎ graficul “boxplot” pentru variabila salary, pe cele douǎ
segmente de angajaţi studiate (bǎrbaţi şi femei).
9
160000
140000
29
120000
32
18
343
100000 446
103
34
106
454
431
80000
60000 371
348
468
240
72
80
Current Salary
168
413
277
134
40000 242
20000
0
N= 216 258
Female Male
Gender
Tabelele încrucişate sunt foarte utile atunci când dorim sǎ studiem legǎtura dintre douǎ
variabile categoriale. Asupra lor vom reveni într-un capitol ulterior, atunci când vom studia testele
neparametrice. Acum vom arǎta doar, foarte pe scurt, cum se genereazǎ un asemenea tabel.
Sǎ presupunem cǎ ne intereseazǎ sǎ studiem interdependenţa dintre variabile gender şi
variabile jobcat (ambele categoriale) pentru a vedea unde se întâlnesc majoritatea managerilor din
bancǎ: în rândul bǎrbaţilor sau în rândul femeilor. Pentru aceasta vom apela opţiunea:
Vom cere programului sǎ afişeze categoriile variabile gender pe liniile, iar pe cele ale
variabilei jobcat pe coloane. Alte opţiuni nu formulǎm, deocamdatǎ.
Rezultatul analizei este afişat în tabelul de mai jos.
Gender * Employment Category Crosstabulation
Count
Employment Total
Category
Clerical Custodial Manager
10
Gender Female 206 10 216
Male 157 27 74 258
Total 363 27 84 474
Dupǎ cum se poate observa, marea majoritate a managerilor sunt bǎrbaţi (74), iar
femeile sunt mult mai puţin reprezentate în structurile de conducere (numai 10).
Opţiunea Reports din meniul Analyze conţine o serie de comenzi care permit crearea unei
mari varietǎţi de rapoarte. Noi nu vom intra în toate detaliile aici, ci vom genera doar un raport
sintetic privind principalii indicatori ai variabilei salary, atât pe subgrupul bǎrbaţilor cât şi pe cel al
femeilor.
Vom selecta opţiunile:
În câmpul Variables vom introduce variabile de studiu (salary), iar în câmpul Grouping
Variable(s), variabile gender. Apoi vom deselecta opţiunea Limit cases to first pentru a-i cere
programului sǎ calculeze indicatorii pentru toate cazurile din eşantion, precum şi opţiunea Display
cases (pentru a evita afisarea valorii variabilei la fiecare caz în parte). În continuare apǎsǎm butonul
Statistics şi cerem sǎ fie generaţi – pentru fiecare subgrup – urmǎtorii indicatori: numǎrul de cazuri
(deja selectat), media, mediana şi abaterea standard. Apoi apǎsǎm butoanele Continue şi OK.
Tabelul de mai jos, care conţine rezultatul final al analizei, nu are nevoie de prea multe explicaţii.
Case Summaries
Current Salary
Gender N Mean Median Std. Deviation
Female 216 $26,031.92 $24,300.00 $7,558.02
Male 258 $41,441.78 $32,850.00 $19,499.21
Total 474 $34,419.57 $28,875.00 $17,075.66
Capitolul 3
Corelaţia
Corelaţia statisticǎ este utilǎ pentru a analiza legătura dintre douǎ variabile aleatoare,
cantitative sau ordinale.
Corelaţia este mǎsuratǎ de regulǎ cu ajutorul unuia dintre urmǎtorii coeficienţi:
11
• coeficientul de corelaţie “ro” al lui Pearson
• coeficientul de corelaţie al lui Spearman
• coeficientul de corelaţie “tau” al lui Kendall.
Coeficientul lui Pearson se foloseşte numai atunci când ambele variabile luate în studiu sunt
cantitative (metrice). Ceilalţi doi coeficienţi se pot folosi atât pentru variabile metrice, cât şi ordinale
(ei mai sunt numiţi şi coeficienţi de corelaţie neparametrici).
ρ=
∑( x 1 − m1 )( x 2 − m 2 )
nσ 1σ 2
unde cu m şi σ s-au notat mediile, respectiv abaterile standard ale celor douǎ variabile, iar cu n
numǎrul de cazuri din eşantion.
Coeficientul de corelaţie ρ poate lua valori cuprinse în intervalul [-1; 1]. Analiza sa
presupune luarea în calcul a trei elemente:
• valoarea absolută a coeficientului. Cu cât aceasta este mai aproape de 1, cu atât
corelaţia este mai strânsă. Valoarea 0 (zero) înseamnǎ absenţa oricǎrei corelaţii.
• semnul coeficientului. Valorile pozitive indică o legătură directă între variabile, iar
valorile negative o legătură indirectă.
• semnificaţia coeficientului. Aceasta poate fi determinatǎ cu ajutorul testului t.
Valoarea acestui test pentru coeficientul de corelaţie se calculeazǎ cu formula:
n −2
t =ρ
1− ρ2
6∑Di2
S =1−
n(n 2 −1)
Coeficientul de corelaţie a rangurilor este cuprins între 0 şi 1. Cu cât este mai apropiat de 1,
cu atât legǎtura dintre variabile este mai puternicǎ.
Şi pentru coeficientul lui Spearman se poate calcula statistica t, în vederea determinǎrii
gradului de semnificaţie. Formula este urmǎtoarea:
12
S n −2
t=
1−S 2
2C
τ=
n −n
2
unde cu C am notat aici suma scorurilor pentru toate cele n(n-1)/2 combinatii posibile. Scorul este
considerat +1 ori de câte ori o combinaţie este concordantǎ (are acelaşi clasament) şi -1 ori de câte
ori o combinaţie este discordantǎ (clasamentele diferǎ).
Coeficientul lui Kendall ia valori între -1 şi 1. Interpretarea sa este exact la fel ca aceea a
coeficientului Pearson.
În cele ce urmeazǎ vom studia procedurile din programul SPSS utilizate pentru calculul
coeficienţilor de corelaţie. Vom folosi din nou, ca şi în capitolul anterior, variabilele din fişierul
Employee data.sav.
Sǎ presupunem cǎ ne intereseazǎ legǎtura dintre salariul actual al anagajaţilor din bancǎ şi
nivelul lor de educaţie (exprimat în ani de studii). salariul de început al lucrătorilor din bancă. Pentru
a calcula coeficienţii de corelaţie apelăm comanda:
Odată ce SPSS-ul deschide caseta de dialog pentru calculul corelaţiei, selectǎm din fereastra
din dreapta variabilele care ne interesează (cel puţin două). În cazul nostru, ele vor fi salary şi educ.
Dacă alegem trei sau mai multe variabile pentru această analiză, programul ne va calcula corelaţile
dintre aceste variabile luate două câte două. Apoi cerem programului sǎ calculeze toţi cei trei
coeficienţi de corelatie (Pearson, Spearman şi Kendall). Toate celelalte opţiuni care ne intereseazǎ
sunt deja selectate; aşadar, putem apăsa butonul OK pentru a rula analiza.
Correlations
Current Salary Educational Level
(years)
Current Salary Pearson Correlation 1.000 .661
Sig. (2-tailed) . .000
N 474 474
Educational Pearson Correlation .661 1.000
Level (years)
Sig. (2-tailed) .000 .
N 474 474
** Correlation is significant at the 0.01 level (2-tailed).
Correlations
13
Current Educational
Salary Level (years)
Kendall's Current Salary Correlation 1.000 .554
tau_b Coefficient
Sig. (2- . .000
tailed)
N 474 474
Educational Level Correlation .554 1.000
(years) Coefficient
Sig. (2- .000 .
tailed)
N 474 474
Spearman's Current Salary Correlation 1.000 .688
rho Coefficient
Sig. (2- . .000
tailed)
N 474 474
Educational Level Correlation .688 1.000
(years) Coefficient
Sig. (2- .000 .
tailed)
N 474 474
** Correlation is significant at the .01 level (2-tailed).
Primul tabel conţine valoarea coeficientului Pearson, iar cel de-al doilea valorile
coeficienţilor de corelaţie neparametrici.
Interpretarea în detaliu a datelor din aceste tabele va fi fǎcutǎ la seminar. Aici dorim doar sǎ
subliniem urmǎtorul lucru; pentru fiecare coeficient de corelaţie, SPSS-ul calculeazǎ automat
valoarea “Sig”, cu ajutorul cǎreia putem stabili dacǎ respectivul coeficient este semnificativ sau nu.
Dacă parametrul “Correlation Sig.” este mai mic decât nivelul de semnificaţie ales iniţial de noi (de
regulǎ 5%), atunci putem accepta faptul că avem de-a face cu o corelaţie semnificativǎ statistic.
Dupǎ cum se poate observa, programul SPSS marchează cu două asteriscuri (**) valorile
semnificative la un nivel de 0.01 (sau 1%). Valorile semnificative la un nivel de 0.05 (sau 5%) sunt
marcate cu un singur asterisc (*).
Capitolul 4
Teste statistice
14
Aspecte teoretice - recapitulare
În cadrul studiilor statistice, suntem adesea interesaţi în a compara mediile unei variabile pentru
douǎ populaţii diferite (pentru a vedea dacǎ existǎ diferenţe semnificative între ele), sau media
unui eşantion cu media populaţie din care province acesta (pentru a vedea dacǎ eşantionul este
reprezentativ pentru populatia din care face parte). În acest scop putem folosi fie testul z, fie
testul t.
Testul z
Testul z se foloseşte atunci când cunoaştem dispersia populaţiei din care provine eşantionul
studiat (lucru care se întâmplǎ rareori).
Fǎrǎ a intra în toate aspectele de detaliu privind testarea unei ipoteze statistice, vom reaminti
doar principiul de bazǎ al testului z: valoarea calculatǎ a statisticii z se comparǎ cu cea tabelarǎ
(aleasǎ în functie de nivelul de semnificaţie dorit). Dacǎ valoarea calculatǎ este mai mare decât cea
tabelarǎ (în valoare absolutǎ), atunci vom respinge ipoteza nulǎ şi vom spune cǎ existǎ diferenţe
semnificative între grupurile studiate. În caz contrar vom accepta ipoteza nulǎ, afirmând cǎ
diferenţele sunt nesemnificative.
Sǎ ne amintim acum modul de calcul al statisticii z.
Atunci când se pune problema comparǎrii medie unui eşantion cu media populaţiei din care a
fost extras, statistica z se calculeazǎ cu formula:
m−µ
zc =
σm
unde m este media eşantionului, μ este media întregii populaţii, iar σm este abaterea de selecţie
(explicatǎ în capitolul 2).
Dacǎ trebuie sǎ comparǎm mediile a douǎ grupuri diferite, vom folosi urmǎtoarea formulǎ:
m1 − m2
zc =
σ m1−m 2
nde m1 şi m2 sunt mediile celor douǎ eşantioane, iar la numitor se gǎseşte o abatere pǎtraticǎ
(estimatǎ) a diferenţelor dintre aceste medii, calculatǎ astfel:
σ 12 σ 22
σ m1− m 2 = +
n1 n2
I. Testul t
În marea majoritate a situaţiilor din realitate, nu cunoaştem dispersia populaţiei din care
provine eşantionul, aşadar testul z nu ne mai este util. Vom folosi aşadar testul t.
În analiza statisticǎ sunt cunoscute trei tipuri de test t: univariat, bivariat pe eşantioane
independente şi bivariat pe eşantioane perechi. Le vom descrie pe scurt în rândurile ce urmeazǎ.
15
A. Testul t univariat (pentru un singur eşantion)
Acest test se foloseşte pentru a compara media unui eşantion cu media populaţiei totale,
atunci când cunoaştem doar media populaţiei (nu şi dispersia).
Statistica t se calculeazǎ, pentru acest caz, exact la fel ca statistica z:
m−µ
tc =
sm
s
sm =
n
Acest test este folosit pentru a detecta existenţa unor diferenţe semnificative între mediile a
două eşantioane (grupuri) independente. Valoarea statisticii t calculate este:
m1 − m2
tc =
s m1− m 2
1 1
s m1−m 2 = s c +
n1 n 2
s12 (n1 − 1) + s 22 ( n2 − 1)
sc =
n1 + n2 − 1
Două eşantioane se numesc perechi sau dependente atunci când modul de alegere a unităţilor
unui eşantion este determinat de modul de alegere a unităţilor celuilalt. Între unităţile din două
eşantioane perechi se poate stabili o corespondenţă biunivocă. Statistica t utilizatǎ pentru evaluarea
semnificatiei diferentei dintre medii se calculeazǎ cu formula:
16
_
d
t=
sd / n
_
unde d este media diferenţelor di dintre valorile perechi, iar sd este abaterea pǎtraticǎ a acestor
diferenţe.
Fişierul pe care-l vom folosi un aceastǎ secţiune este tot Employee data.sav. Vom ilustra în
continuare, cu ajutorul a câte unui exemplu, modul de analizǎ pentru fiecare din cele trei tipuri de
test t.
A. Testul t univariat
În casetaă de dialog care apare, în fereastra “Test Variable(s)” vom introduce variabila
salary, iar în câmpul “Test Value” com introduce valoarea 36000. Apăsând butonul OK obţinem
urmǎtorul tabel:
One-Sample Test
Test Value = 36000
Lower Upper
Current -2.015 473 .044 -$1,580.43 -$3,121.60 -$39.27
Salary
Coloana a patra a acestui tabel este cea mai importantă, deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este următoarea: dacă valoarea
lui “Sig.” din această coloană este mai mică decât nivelul de semnificaţie ales de noi, atunci vom
respinge ipoteza nulă (cu alte cuvinte, vom afirma că între cele două valori există o diferenţă
semnificativă); în caz contrar, vom accepta ipoteza nulă.
17
Întrucât avem 0.044<0.05 vom respinge ipoteza nulă şi vom spune că salariul mediu pe
eşantion este semnificativ diferit de salariul mediu pe populaţia totală, cu un nivel de încredere de
95%. Aşadar, eşantionul nu poate fi considerat reprezentativ din acest punct de vedere.
Să presupunem, că dorim să verificăm dacă salariul mediu al bărbaţilor din bancă este
semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe eşantioane
independente, apelat cu comanda:
În fereastra “Test Variables” vom introduce din nou variabila salary, iar în câmpul
“Grouping Variable” vom introduce variabila gender. Observăm că se activează butonul Define
Groups. Dacă îl apăsăm se deschide o nouă casetă de dialog. Aici, în câmpul “Group 1” vom
introduce “m” (fără asteriscuri), iar în câmpul “Group 2” vom introduce “f” (deasemenea fără
asteriscuri). Apăsăm butonul Continue şi observăm că în câmpul “Grouping Variable” din prima
casetă de dialog apare: “gender(‘m’ ‘f’)”. În acest fel am definit cele două eşantioane. Apăsăm OK
pentru a rula analiza.
Iată o porţiune (cea mai relevantǎ) din tabelul de analiză pe care ni-l furnizeazǎ SPSS-ul:
18
Analyze > Compare Means > Paired-Samples T Test
Să privim ultima coloanǎ: avem acolo valoarea parametrului “Sig”, utilizat pentru aprecierea
semnificaţiei statistice. Întrucât acest parametru este mai mic decât 0.05, vom deduce că între
salariul actual şi cel iniţial există o diferenţă semnificativă. Media acestei diferenţe pentru populaţia
totalǎ (17403.48 dolari) poate fi gǎsitǎ din coloana a treia a tabelului.
Capitolul 5
Se pot întâlni în practicǎ foarte multe situaţii în care, înainte de a trece la analiza statisticǎ
propriu-zisǎ, este necesar sǎ operǎm o serie de transformǎri sau modificǎri asupra datelor şi/sau
variabilelor din baza de date. Aceasta se întâmplǎ fie din cauzǎ cǎ analistul este interesat doar de un
anumit segment al datelor (un anumit subgrup din populaţia totalǎ), fie din cauzǎ cǎ informaţiile din
baza de date nu sunt prezente în forma cea mai convenabilǎ pentru analist.
Iatǎ câteva posibile exemple de astfel de situaţii:
• dorim sǎ analizǎm corelaţia dintre anumite variabile pe un singur segment al angajaţilor
(de pildǎ, numai pentru angajaţii bǎrbaţi);
• dorim sǎ obţinem anumite informaţii statistice, simultan, pentru mai multe segmente de
angajaţi (de exemplu, atât pentru bǎrbaţi, cât şi pentru femei) în scopul de a compara mai
uşor aceste informaţii;
• dorim sǎ creem o nouǎ variabilǎ pornind de la una sau mai multe variabile deja existente
(de exemplu, avem numǎrul de ore lucrate pe lunǎ şi salariul orar, şi dorim sǎ le înmulţim
pentru a calcula salariul lunar);
• dorim sǎ transformǎm o variabilǎ numericǎ într-una categorialǎ (de exemplu, pentru a-i
împǎrţi pe angajaţi în trei grupuri: cu salarii mici, medii şi mari);
• dorim sǎ sortǎm datele dupǎ un anumit criteriu (de exemplu, sǎ-i sortǎm pe angajaţi în
funcţie de nivelul de educaţie).
19
În continuare, vom vedea cum se rezolvǎ efectiv problemele de acest fel cu ajutorul
facilitǎţilor disponibile în programul SPSS. Baza de date folositǎ va fi, ca şi în capitolele precedente,
Employee data.sav.
Sortarea datelor
Este una din cele mai simple operaţiuni cu datele. Ea ne permite sǎ sortǎm cazurile din baza
de date, ascendent sau descendent, în functie de variabila pe care am ales-o. Aceastǎ variabilǎ poate
fi numericǎ sau categorialǎ.
Sortarea se realizeazǎ apelând comanda:
În fereastra din dreapta a casetei de dialog se introduc variabilele dupǎ care se face sortarea.
Dacǎ dorim, de exemplu, sǎ-i sortǎm pe angajati dupǎ saalriu şi categorie, un ordine ascendentǎ),
vom selecta variabilele salary şi jobcat, precum şi opţiunea “Ascending”. La final, angajaţii se vor
regǎsi grupaţi pe cele trei categorii profesionale (funcţionari, salariaţi, manageri), iar în cadrul
fiecǎrei categorii vor fi ierarhizaţi în ordinea crescǎtoare a salariilor.
Sortarea este utilǎ, de exemplu, dacǎ dorim sǎ aplicǎm procedura Explore (vezi capitolul 2)
pe un grup anume de angajaţi – de exemplu, cei care au salariul mai mic sau cel mult egal cu 50000
de dolari pe an. Prin comanda Sort Cases vom ordona angajaţii dupǎ salariu, în mod ascendent, iar
apoi vom rula procedura Explore numai pentru acele cazuri care îndeplinesc condiţia noastrǎ.
Selectarea cazurilor
SPSS-ul deschide o casetă de dialog pentru selectare. În partea dreaptă vom alege opţiunea
“If condition is satisfied” şi vom apăsa butonul If. Se deschide o nouă casetă în care vom introduce
condiţia noastră sub forma: gender=”m” (aşadar, urmează să fie reţinuţi doar salariaţii bărbaţi).
Apăsăm butonul Continue şi apoi OK.
Observăm că acele cazuri din baza de date pentru care are loc gender=”f” (aşadar, cele
corespunzătoare salariaţilor femei) au fost “barate” (aşadar vor fi excluse de la analiză). Mai mult, în
partea din dreapta jos a ferestrei SPSS-ului se poate citi menţiunea “Filter on”, ceea ce înseamnă că
respectivei baze de date i-a fost aplicat un filtru.
Correlations
20
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).
Se observǎ cǎ numǎrul total de cazuri pentru care a fost rulatǎ analiza este de 258 (aşadar,
numai salariaţii de sex masculin)..
Pentru a înlǎtura filtrul definit pentru o bazǎ de date, atunci când nu mai avem nevoie de el,
va trebui sǎ apelǎm din nou comanda:
În caseta de dialog care apare se selectează opţiunea “All cases” şi apoi se apasă butonul
OK.
Divizarea fişierului
Apare din nou o casetă de dialog, în care vom selecta opţiunea “Compare Groups”. În
fereastra denumită “Groups Based on” vom introduce variabila gender. Odată ce apăsăm butonul
OK, vom observa că în partea din dreapta jos a ferestrei SPSS apare menţiunea “Split File On”.
Rulând din nou comanda pentru analiza corelaţiei obţinem douǎ tabele, câte unul pentru fiecare
subgrup analizat:
Gender = Female
Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .759**
Salary Correlation . .000
Sig. (2-tailed)
21
N 216 216
Beginning Pearson .759** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 216 216
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Female
Gender = Male
Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-
tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-
tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Male
Atunci când fişierul este “divizat” în funcţie de o anumitǎ variabilǎ, toate analizele statistice
vor fi rulate pe subgrupuri, în funcţie de valorile respectivei variabile.
Pentru a transforma un fişier “divizat” într-unul normal, vom apela din nou comanda Split
File, iar în caseta de dialog vom alege opţiunea “Analyze all cases, do not create groups”.
Recodificarea variabilelor
Pot fi imaginate multe situaţii în care este necesar sǎ recodificǎm una dintre variabilele din
baza de date. Sǎ ne gândim, de exemplu, la un posibil caz în care dorim sǎ transformǎm o variabilǎ
numericǎ într-una categorialǎ.
Să presupunem că dorim să constatǎm dacă există o diferenţă semnificativă între salariul
mediu al lucrătorilor cu studii medii (maxim 12 ani) şi cel al lucrătorilor cu studii superioare (peste
12 ani). Întrucât variabila education nu este categorială, ci numerică, va trebui să o recodificăm.
Pentru aceasta vom executa comanda:
Am ales opţiunea “Into Different Variables” deoarece dorim sǎ pǎstrǎm şi valorile iniţiale
ale variabilei respective. În caz contrar, am fi ales opţiunea alternativǎ “Intro Same Variables”.
In fereastra principală a casetei de dialog vom introduce variabila pe care dorim să o
recodificăm – educ – iar în câmpul din dreapta introducem numele noii variabile create – o vom
22
numi educ2 – şi apoi apăsăm butonul Change pentru a salva această nouă variabilă. Ea va fi ulterior
variabila după care vom face gruparea în cadrul testului t. Apăsăm apoi butonul Old and New
Values.
Noua casetă de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariaţilor
care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom atribui
codul 2. După terminarea operaţiunii de recodificare apăsăm butonul Continue şi apoi OK. SPSS-ul
a salvat în baza de date variabila educ2, care are numai două valori: 1 şi 2.
În aceste condiţii, este foarte uşor sǎ rulǎm testul t pentru compararea mediilor a douǎ
grupuri independente, utilizând pentru grupare noua variabilǎ categorialǎ educ2.
În cazul în care avem nevoie, pentru analizǎ, de o variabilǎ care nu existǎ ca atare în baza de
date, dar ale cǎror valori pot fi calculate utilizând variabilele existente, programul SPSS ne dǎ
posibilitatea de a obţine aceastǎ nouǎ variabilǎ.
În baza noastrǎ de date existǎ douǎ variabile care se referǎ la vechimea angajatului. Este
vorba de jobtime (vechimea la locul de muncǎ actual) şi prevexp (experienţa anterioarǎ). Ambele
sunt exprimate în luni. Sǎ presupunem cǎ dorim sǎ calculǎm experienţa totalǎ a angajaţilor,
însumând pur şi simplu valorile acestor douǎ variabile. Pentru aceasta apelǎm comanda:
În câmpul din dreapta sus al casetei de dialog vom introduce numele noii variabile (de
exemplu, exper). Apoi vom introduce în fereastra din dreapta expresia de calcul a noii variabile:
jobtime + prevexp.
Dupǎ ce apǎsǎm butonul OK, programul creazǎ noua variabilǎ exper.
Capitolul 6
Teste neparametrice
23
Aspecte teoretice - recapitulare
Testele neparametrice pe care le vom studia la acest curs sunt: testul binomial, testul hi
pǎtrat, testul de normalitate Kolmogorov-Smirnov, testele Mann-Whitney şi Wilcoxon W pentru
compararea a douǎ eşantioane independente, testul Wilcoxon Z pentru compararea a douǎ
eşantioane perechi. Sǎ le prezentǎm în continuare pe scurt.
1. Testul binomial
Acest test este folosit în cazul variabilelor categoriale care pot lua doar două valori (cum ar
fi, de exemplu, sexul). Rolul lui este de a compara proporţia celor două valori în eşantion cu
proportia din populaţia totală sau cu o altă proporţie teoretică dată.
Întrucât, pentru un volum suficient de mare al eşantionului, distribuţia binomialǎ poate fi
aproximatǎ cu una normalǎ, testul binomial se realizeazǎ cu ajutorul statisticii z. Formula de calcul a
acesteia este:
p −π p −π
zc = =
sp p ( p −1) n
unde p este proporţia observatǎ, iar π este proporţia teoreticǎ. Valoarea calculatǎ a statisticii z se
comparǎ cu cea tabelarǎ corespunzǎtoare nivelului de semnificaţie dorit de cercetǎtor.
Acest test se folosşte atunci când studiem variabile categoriale având trei sau mai multe
categorii. Existǎ douǎ tipuri de teste hi pǎtrat: univariat şi bivariat.
Testul hi pǎtrat univariat este folosit pentru a compara o distribuţie observatǎ cu una
teoreticǎ şi a determina dacǎ existǎ diferenţe între cele douǎ distribuţi. Iatǎ formula de calcul a
statisticii χ2, cazul univariat:
(Oi − Ti ) 2
k
χ =∑2
i =1 Ti
unde cu Oi s-au notat valorile observate ale distribuţie, iar cu Ti valorile teoretice.
Valoarea teoreticǎ a statisticii hi pǎtrat se cautǎ în tabele corespunzǎtor nivelului de semnificaţie ales
şi numǎrului de grade de libertate (acesta este numǎrul de categorii al variabilei minus unu).
Testul hi pǎtrat bivariat este folosit pentru a studia legǎtura dintre douǎ variabile categoriale.
Statistica se calculeazǎ cu formula:
(Oij − Tij ) 2
χ = ∑∑
2
c
i j Tij
Dacǎ aceastǎ valoare este mai mare decât valoarea tabelarǎ (teoreticǎ) vom putea afirma cǎ
existǎ o legǎturǎ între variabilele studiate; în caz contrar, vom spune cǎ ele sunt independente.
La fel ca la testul hi pǎtrat bivariat, valoarea teoreticǎ depinde de nivelul de semnificaţie şi
numǎrul de grade de libertate. Acesta din urmǎ se determinǎ cu relatia: (K-1)(L-1), unde cu K şi L am notat
numǎrul de categorii ale celor douǎ variabile.
24
3. Testul de normalitate Kolmogorov-Smirnov
Acest test comparǎ o distribuţie observatǎ cu una normalǎ şi ne spune dacǎ respectiva distribuţie
poate fi consideratǎ normalǎ sau nu. Aparatul matematic utilizat pentru efectuarea acestui test este destul de
complicat; ca urmare, nu vom insista aici asupra formulelor matematice.
În aceste formule, cu n s-au notal volumele eşantioanelor, iar cu R sumele rangurilor pentru
grupurile 1 şi 2, respectiv (valorile celor douǎ grupuri se amestecǎ, sunt ordonate crescǎtor, iar apoi
rangurile sunt a atribuite începând de la 1). Statistica U se alege ca fiind cea mai micǎ dintre valorile
U1 şi U2. Se poate demonstra cǎ aceastǎ statisticǎ urmeazǎ o repartiţie aproximativ normalǎ. Scorul z
se calculeazǎ cu formula:
U − µU
zc =
σU
unde μ este media lui U, iar σ este abaterea sa pǎtraticǎ. Ele se calculeazǎ astfel:
n1 n2
µU =
2
n1 n2 (n1 + n 2 + 1)
σU =
12
5. Testul Wilcoxon W
6. Testul Wilcoxon Z
Acest test, care mai poartǎ şi denumirea de “testul semnului şi al rangului” este folosit pentru
a determina dacǎ douǎ eşantioane dependente (perechi) sunt diferite sau nu. Din acest punct de
vedere este asemǎnǎtor cu testul t pentru eşantioanele perechi, dar se utilizeazǎ atunci când variabila
studiatǎ este ordinalǎ.
Pentru a rula acest test, valorile variabilei sunt ordonate, iar fiecǎrei valori i se atribuie un
rang afectat de un semn. Suma rangurilor (notatǎ cu T) este repartizatǎ dupǎ distribuţia t, calculatǎ
cu formula:
25
T − µT
tc =
σT
Media şi abaterea pǎtraticǎ se calculeazǎ cu ajutorul expresiilor de mai jos (n este volumul
eşantionului):
n(n + 1)
µT =
4
n( n +1)( 2n +1)
σU =
24
În cadrul acestei secţiuni vom utiliza, alǎturi de fişierul Employee data.sav (cu care suntem
deja familiarizaţi), alte douǎ baze de date Prima dintre ele este voter.sav, care conţine date
înregistrate pe un eşantion de 1847 de alegători americani, privitoare la alegerile prezidenţiale din
1992 din SUA. A doua bazǎ de date este 1991 U.S. General Social Survey.sav, unde gǎsim
rezultatele unei anchete de opinie realizatǎ în Statele Unite în anul 1991, pe un eşantion de 1517
persoane. Toate aceste baze de date conţin variabile categoriale şi ordinale utile scopului nostru.
I. Testul binomial
Pentru a demonstra aplicarea acestui test vom folosi fişierul voter.sav. Să presupunem că
dorim să verificăm dacă proporţia bărbaţi/femei în acest eşantion de alegători americani corespunde
cu cea presupusǎ a fi întâlnită în populaţia totală (50/50). Vom utiliza comanda:
În fereastra “Test Variable List” vom introduce variabila sex. În câmpul “Test Proportion”
se află trecută deja valoarea 0.50, reprezentând distribuţia teoretică (50/50) cu care vom compara
distribuţia din eşantion. Dacă distribuţia teoretică este alta, vom schimba desigur variabila din acest
câmp.
În partea din stânga jos a casetei de dialog se observă un cadran intitulat “Define
Dichotomy” cu două opţiuni: “Get From Data” şi Cut Point”. Dacă variabila cu care lucrăm este
una categorială, va rămâne selectată prima opţiune (cea implicită). Dacă variabila este cantitativă, o
putem transforma într-una categorială alegând opţiunea a doua şi indicând valoarea unde se face
diviziunea dintre cele două categorii. De exemplu, dacă s-ar pune problema să testăm proportia
alegătorilor în vârstă de peste 40 de ani, am alege opţiunea “Cut Point” şi am introduce în câmpul
respectiv valoarea 40.
Odată ce apăsăm butonul OK, SPSS-ul ne dă rezultatul analizei:
Binomial Test
Category N Observed Test Prop. Asymp.
Prop. Sig. (2-
26
tailed)
RESPONDE Group 1 male 804 .44 .50 .000
NTS SEX
Group 2 female 1043 .56
Total 1847 1.00
a Based on Z Approximation.
Se poate observa că din 1847 de alegători din eşantion, 804 (44%) sunt bărbaţi, iar 1043
(56%) sunt femei. Regula de decizie este cea cunoscută: dacă valoarea lui “Sig.” este mai mică decât
nivelul de semnificaţie ales (0.05), atunci putem spune că există o diferenţă semnificativă între cele
două proporţii. Este şi cazul nostru de faţă: nu putem afirma că proporţia bărbaţi femei din eşantion
o reproduce pe cea din populaţia totală – femeile predomină într-o proporţie semnificativă.
Baza de date folositǎ pentru acest test va fi tot voter.sav. Dorim să analizăm acum distribuţia
intenţiilor de vot pentru candidaţii Clinton, Bush sau Perot (variabila pres92). Testul hi pǎtrat
univariat ne va spune dacǎ voturile tind a se îndrepta în mod hotǎrâtor cǎtre unul din candidaţi sau
dacǎ, dimpotrivǎ, tind a se împǎrţi în mod egal între cei trei candidaţi. Pentru a rula acest test apelăm
comanda:
În fereastra “Test Variable List” introducem variabile pres92. Observăm apoi că în cadranul
“Expected Values” ni se dă posibilitatea să definim distribuţia teoretică cu care vom face
comparaţia. Dacă dorim ca ea să fie o echirepartiţie, vom selecta opţiunea “All Categories Equal”
(aceasta corespunde cazului teoretic în care intenţiile de vot s-ar împărţi egal între cei trei candidaţi).
În caz contrar, vom introduce pe rând valorile distribuţiei teoretice folosind opţiunea “Values”.
Apăsând butonul OK obţinem:
Test Statistics
VOTE FOR CLINTON,
BUSH, PEROT
Chi-Square 327.341
df 2
Asymp. .000
Sig.
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell
frequency is 615.7.
În primul tabel observăm valorile distribuţiei reale (coloana a doua), cele ale distribuţiei
teoretice, care sunt egale (coloana a treia), precum şi diferenţele dintre ele.
27
În tabelul al doilea avem datele analizei. Valoarea lui hi pătrat este 327.341, iar numărul de
grade de libertate este 2 (numarul categoriilor variabilei minus unu). Întrucât “Sig.” este mai mic
decât 0.05, putem spune că între cele două distribuţii există diferenţe semnificative. Cu alte cuvinte,
intenţiile de vot nu tind a se împărţi egal între candidaţi; părerea lor este deja formată, iar
majoritatea opţiunilor merg spre Bill Clinton, după cum se poate observa din primul tabel.
În cele ce urmeazǎ, vom deschide fişierul Employee data.sav şi vom studia relaţia dintre
variabilele gender şi jobcat (categoria angajatului). Întrucât ambele variabile sunt categoriale va
trebui sǎ folosim testul hi pǎtrat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere
programului sǎ realizeze un tabel încrucişat, cu ajutorul comenzii (vezi capitolul 2):
Apǎsǎm butonul Statistics, iar în noua casetǎ de dialog care se deschide selectǎm opţiunea
Chi-square. Rezultatele analizei se gǎsesc în tabelele ce urmeazǎ.
Chi-Square Tests
Value df Asymp. Sig. (2-
sided)
Pearson Chi-Square 79.277 2 .000
Likelihood Ratio 95.463 2 .000
N of Valid Cases 474
a 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30.
Din cel de-al doilea tabel ne intereseazǎ cu precǎdere prima linie, care prezintǎ rezultatele
testului hi patrat. Întrucât valoarea “Sig” este mai micǎ decât 0.05, vom deduce cǎ existǎ o legǎturǎ
între cele douǎ variabile. Aşadar, bǎrbaţii si femeile nu sunt repartizaţi proporţional pe cele trei
categorii profesionale (funcţionari, paznici şi manageri).
În caseta de dialog deschisǎ vom introduce variabila educ ca variabilǎ de analizǎ. În chenarul
“Test Distribution” este deja selectatǎ distribuţia normalǎ; apǎsǎm aşadar butonul OK şi obţinem
urmǎtorul tabel:
Vom folosi în continuare baza de date voter.sav. Vom presupune cǎ ne intereseazǎ dacă
bărbaţii şi femeile din eşantion diferă în mod semnificativ între ei sub aspectul studiilor. Pentru
aceasta vom folosi variabila degree, care este una ordinală (0 corespunde sudiilor medii, iar 4
studiilor superioare). Vom apela comanda:
În fereastra “Test Variable List” introducem variabile degree, iar în câmpul “Grouping
Variable” variabila sex. Apoi apăsăm butonul Define Groups şi definim cele două grupuri exact
cum am făcut pentru testul t bivariat pentru eşantioane independente (vezi capitolul 3). În cadranul
“Test Type” este deja selectat testul Mann-Whitney (U), aşa încât apăsăm butonul OK şi obţinem:
Test Statistics
RS HIGHEST DEGREE
Mann-Whitney U 409502.000
Wilcoxon W 953948.000
Z -.932
Asymp. Sig. (2-tailed) .351
a Grouping Variable: RESPONDENTS SEX
29
Acest tabel este cel mai important pentru analiză, deoarece ne dă semnificaţia testului. Se
observǎ cǎ programul ne furnizeazǎ şi valoarea testului W al lui Wilcoxon. Regula de decizie este
cea cu care ne-am obisnuit deja: trebuie să comparăm valoarea lui “Sig.” cu cea a nivelului de
semnificaţie ales de noi (0.05). Întrucât aici avem 0.351>0.05, vom tage concluzia că bărbaţii si
femeile nu diferă între ei în ceea ce priveşte nivelul de educaţie. Dacă diferenţa ar fi fost
semnificativă, atunci sensul ei ar fi fost dat de semnul notei Z de pe rândul patru al tabelului.
Pentru a exemplifica acest test vom deschide fişierul 1991 U.S. General Social Survey.sav.
Vom lua în considerare urmǎtoarele variabile din baza de date: obey (cât de importantǎ este pentru
respondent supunerea, ascultarea de autoritǎţi) şi popular (cât de important este faptul de a fi
popular, de a fi iubit şi apreciat). Dorim sǎ vedem dacǎ existǎ o diferenţǎ untre aceste douǎ variabile
atitudinale.
Deoarece aici nu avem de-a face cu variabile cantitative, ci mai degrabǎ ordinale, este
necesar sǎ apelǎm la testul semnului şi al rangului (testul Z al lui Wilcoxon) pentru a rezolva
problema. Comanda utilizatǎ este:
La fel ca la testul t pe eşantioane perechi (capitolul 4), trebuie sǎ introducem în fereastra din
dreapta a casetei de dialog perechile de variabile care fac obiectul comparaţiei (în cazul nostru, obey
– popular). Se observǎ cǎ un caseta “Test Type” este deja selectat testul wilcoxon, singurul care ne
intereseazǎ în acest moment. Apǎsând butonul OK obţinem urmǎtorul rezultat:
Ranks
N Mean Sum of Ranks
Rank
To Be Well Liked Negative Ranks 205 337.99 69288.00
or Popular - To
Obey
Positive Ranks 777 532.00 413365.00
Ties 0
Total 982
Test Statistics
To Be Well Liked or Popular - To Obey
Z -19.742
Asymp. Sig. (2-tailed) .000
Interpretarea în detaliu a tabelelor o vom face la seminar. Aici vom observa doar cǎ existǎ o
diferenţǎ semnificativǎ între cele douǎ variabile (statistica “Sig” este mai micǎ decât 0.05). Sensul
diferenţei este dat de semnul scorului Z. Se observǎ cǎ acest semn este minus. Întrucât pentru fiecare
din cei doi itemi scorul creşte pe mǎsurǎ ce importanţa scade (1 – cel mai important, 5 – cel mai
puţin important) deducem cǎ pentru americani este mai important a fi popular decât a te supune în
faţa autoritǎţilor.
30
Capitolul 7
Populaţie şi eşantion
În ştiinţele sociale, populaţia totală supusă studiului are cel mai adesea dimensiuni foarte
mari – de ordinul miilor, sutelor de mii sau chiar milioanelor de unităţi (aceste unitǎţi pot fi persoane
individuale, familii/gospodǎrii sau organizaţii). Întrucât efectuarea unor studii pe întreaga populaţie
ar fi foarte costisitoare, se apelează de regulă la cercetările statistice conduse pe un eşantion de
volum mult mai redus decât cel al populaţiei totale.
Să presupunem că dintr-o populaţie totală formată din N unităţi se extrage un eşantion de volum
n. Modul de calcul al indicatorilor statistici, atât pentru populaţia totală cât şi pentru eşantion, este
prezentat în tabelul următor:
Caracteristică nealternativă
Populaţia totală (N) Eşantion (n)
N n
Media:
∑x i
Media:
∑x i
µ= i =1
m= i =1
N n
N n
Dispersia: ∑ ( xi − µ ) 2 Dispersia:
∑ (x i − m) 2
σ2 = i =1
s2 = i =1
N n −1
Caracteristică alternativă
Populaţia totală (N) Eşantion (n)
Media: π (frecvenţa de apariţie a stării “da” Media: p (frecvenţa de apariţie a stării “da”
sau 1 în populaţia totală) sau 1 în eşantion)
Se observă că pentru a nota parametrii populaţiei totale am folosit caractere greceşti, iar
pentru cei ai eşantionului caractere latine.
31
Media eşantionului m este un estimator (mai mult sau mai puţin precis) pentru media
populaţiei totale μ, care de regulă nu este cunoscută. Diferenţa E=m- μ poartă numele de eroare de
estimare. Pe aceasta ne interesează să o determinăm.
Teoria statistică ne spune că dacă o variabilă are o distribuţie normală de medie μ şi dispersie
σ2, atunci mediile (m) ale eşantioanelor de volum dat n vor avea tot o distribuţie normală, de medie
μ şi dispersie σ2/n (aceasta poartă numele de dispersie de selecţie). Proprietatea aceasta este foarte
importantă pentru eşantionare.
Să reprezentăm curba normală a distribuţiei mediilor eşantioanelor de volum n:
N(μ, σ2/n)
95%
2.5% 2.5%
μ-E μ μ+E
Eroarea de estimare E este de regulă fixată (impusă) de către cercetător. Intervalul simetric
(μ –E, μ +E) poartă numele de interval de încredere. Aria suprafaţei de sub bolta curbei lui Gauss
care corespunde acestui interval se numeşte nivel de încredere. Nivelul de încredere ne arată cu ce
probabilitate garantăm estimarea noastră. În ştiinţele sociale se foloseşte de obicei un nivel de
încredere de 95%, ceea ce înseamnă că putem garanta în proporţie de 95% că eroarea de estimare nu
va depăşi nivelul E fixat. Cu alte cuvinte, există un risc de 5% ca eroarea reală să depăşească această
limită. Acest risc mai poartă denumirea de nivel de semnificaţie al studiului.
Cum vom estima eroarea în condiţiile în care nu-l cunoaştem pe μ? Făcând apel la scorurile z
. Pentru media m a unui eşantion oarecare, scorul z se calculează astfel:
m−µ
z=
σ/ n
32
m −µ
z=
s/ n
De aici putem determina cu uşurinţă eroarea m- μ pe care n-o asigură un eşantion de volum
dat n:
s
E=z
n
În ceea ce-l priveşte pe z, îl vom prelua din tabelele statistice. precizăm că vom folosi în
exemplele noastre un nivel de încredere al cercetării de 95.44%, căruia îi corespunde o valoare z=2.
Dacă dorim să estimăm media populaţiei cu o eroare maximă admisibilă E, volumul
eşantionului necesar pentru aceasta se calculează cu următoarea formulă (dedusă din cea anterioară):
z2s2
n=
E2
În cazul în care avem de-a face cu o caracteristicǎ alternativǎ, formula este aceeaşi; se
schimbǎ doar modalitatea de calcul a dispersiei (vezi tabelul 1):
z 2 p (1 − p )
n=
E2
Să dǎm acum douǎ exemple concrete de calcul al volumului eşantionului: unul pentru
caracteristicile cantitative, altul pentru cele alternative.
Exemplul 1
Să presupunem că din cei 5000 de lucrători ai unei mari companii se extrag în mod aleator
100. Media de vârstă a eşantionului extras (m) este de 44 de ani, iar abaterea medie pătratică (s) de
15 ani. Se pune întrebarea care este eroarea cu care media acestui eşantion estimează media de
vârstă a lucrătorilor din companie, cu un nivel de încredere de 95.44% (z=2).
Un calcul simplu, cu ajutorul formulei de determinare a erorii prezentate mai sus, ne arată că
această eroare este de 3 ani. Aşadar, putem spune că media de vârstă a lucrătorilor este situată între
41 şi 47 de ani (44±3), cu un nivel de încredere de 95.44%.
Dacă această eroare de 3 ani este mult prea mare şi nu poate fi toleratǎ, va trebui sǎ mǎrim
volumul eşantionului. Să presupunem că se doreşte estimarea vârstei medii a lucrătorilor cu o eroare
maximă admisibilă (E) de numai 1 an.
În urma calculelor, utilizând formula de determinare a volumului eşantionului, rezultǎ că
volumul eşantionului ar trebui să fie de 900 de lucrători, adică de 9 ori mai mare decât cel iniţial.
Exemplul 2
La fel ca la exemplul 1, desfǎşurǎm studiul nostru într-o companie cu 5000 de angajaţi, din
care alegem la întâmplare 100. Dintre aceştia, 62 sunt cǎsǎtoriţi (62%), iar 38 necǎsǎtoriţi. Aplicând
33
formula de calcul a erorii, ajungem la concluzia cǎ acest eşantion aproximeazǎ procentajul
angajaţilor cǎsǎtoriţi cu o eroare de ±9.7% (52.3%-71.7%). Dacǎ dorim o eroare de estimare mai
redusǎ, de exemplu 5%, volumul eşantionului de studiu trebuie sǎ fie de 377 de angajaţi.
Dacǎ dorim ca dintr-o bazǎ de date de mari dimensiuni sǎ extragem un mod aleatoriu un
numǎr de cazuri, putem face acest lucru cu ajutorul comenzii de filtrare cunoscute:
În caseta de dialog pe care ne-o prezintǎ programul selectǎm opţiunea Random sample of
cases şi apǎsǎm butonul Sample. Se deschide o nouǎ casetǎ, în care ni se oferǎ douǎ posibilitǎţi:
• sǎ extragem un anumit procent din totalul cazurilor
• sǎ extragem un numǎr exact de cazuri.
Dupǎ ce ne exprimǎm opţiunea, SPSS-ul alege în mod aleator cazurile care din eşantion şi le
“bareazǎ” pe cele excluse.
Sǎ presupunem cǎ dorim sǎ extragem aleatoriu circa 25% cei 474 angajaţi din fişierul
Employee data.sav. În urma efectuǎrii paşilor descrişi mai sus, SPSS-ul a selectat circa 118 cazuri
din total. Toate analizele statisitce vor fi rulate acum doar pentru aceste cazuri.
Pentru a elimina filtrul, procedǎm aşa cum am arǎtat la capitolul 5: executǎm din nou
comanda Data > Select Cases şi alegem opţiunea All cases.
Capitolul 8
Analiza de regresie
Analiza de regresie studiază legătura dintre o variabilă dependentă şi una sau mai multe
variabile independente, prin intermediul unei ecuaţii de regresie. În cadrul cursului de faţǎ vom
discuta doar despre regresia liniarǎ, a cǎrei ecuaţie are forma:
y = b0 + b1 x1 + b2 x 2 + ... + bk x k + e
unde:
34
- e este numită variabilă reziduală sau de perturbaţie. Apariţia sa în modelele de regresie se
datoarează faptului că relaţia dintre variabila dependentă şi cele independente nu este una
strictă, deterministă, ci una statistică. Pentru fiecare unitate din eşantion, variabila reziduală
se calculează ca diferenţă între valoarea reală (sau observată) a lui y şi cea calculată (sau
estimată) prin ecuaţia de regresie de mai sus. Variabila e “colectează” aşadar influenţele
tuturor factorilor necunoscuţi sau întâmplători, dificil de estimat, precum şi erorile de
măsurare.
Toate variabilele care intervin într-o analizǎ de regresie sunt variabile cantitative (metrice). Dacă
existǎ o singură variabilă independentă în model, vorbim de o regresie simplă, iar dacă intervin două
sau mai multe variabile independente avem de-a face cu o regresie multiplă.
Într-o serie de situaţii particulare, pot fi introduse în modelel de regresie şi anumite variabile
calitative (nemetrice), şi anume variabilele de tip dummy. O variabilă dummy este o variabilă care
poate lua doar două valori (da/nu, bărbaţi/femei, mediu urban/mediu rural etc.), notate convenţional
cu 1 şi 0. Desigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummy,
dar acest lucru ar duce la o serie de inconveniente. O asemenea variabilă poate fi utilizată într-o
ecuaţie de regresie în acelaşi mod ca o variabilǎ cantitativǎ.
În exemplul de analiză de regresie ce urmeazǎ vom folosi tot baza de date Employee
data.sav. Ca variabilă dependentă vom considera salariul actual (salary), iar ca variabile
independente salariul de început (salbegin), vechimea în bancă (jobtime) şi nivelul de educaţie
(educ). Pentru a rula analiza de regresie vom apela comanda:
În acest tabel ne este prezentat un sumar al analizei. Cea mai interesantă pentru noi este
penultima coloană, unde putem vedea coeficientul de corelaţie multiplă, egal cu 0.80 pentru această
analiză. Aceasta înseamnă că salariul curent al unui lucrător este determinat în proporţie de 80% de
cele trei variabile independente şi în proporţie de 20% de alte influenţe, neluate în calcul aici.
ANOVA
Model Sum of df Mean F Sig.
Squares Square
1 Regression 11043969433 3 368132314 629.703 .000
9.523 46.508
Residual 27476801096 470 58461278.9
.817 29
Total 13791649543 473
6.340
a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salary
b Dependent Variable: Current Salary
Acest tabel ne prezintă rezultatele analizei ANOVA pentru modelul nostru de regresie. Dupǎ
cum spuneam în secţiunea anterioara, testul F ne aratǎ dacă ipoteza relaţiei liniare între variabilele
noastre este corectă. Regula de decizie este simplă: ipoteza relaţiei liniare este corectă dacă valoarea
factorului “Sig.” din ultima coloană este mai mică decât nivelul de semnificaţie ales de noi (0.05).
În caz contrar, va trebui să luăm în considerare construirea unui alt tip de relaţii (neliniară) între
variabilele în cauză.
Coefficients
Unstandar Standardiz t Sig.
dized ed
Coefficient Coefficient
s s
Model B Std. Error Beta
1 (Constant) - 3236.616 -6.175 .000
19986.502
Beginning 1.689 .058 .779 29.209 .000
Salary
Months 155.701 35.055 .092 4.442 .000
since Hire
Education 966.107 157.924 .163 6.118 .000
al Level
(years)
a Dependent Variable: Current Salary
36
Din acest tabel ne interesează cu precădere două coloane: cea a coeficienţilor (a treia) şi cea
a valorii testelor de semnificaţie pentru coeficienţi (ultima). Aici putem observa că toţi coeficienţii
sunt semnificativi (valorile factorilor “Sig.” sunt mai mici decât 0.05). Ecuaţia noastră de regresie se
scrie astfel:
Pe baza acestei ecuaţii putem face diverse analize asupra variabilei dependente (salariul
curent), în funcţie de ceea ce ne interesează mai mult. Astfel, putem constata că:
- dacă doi lucrători au aceeaşi vechime în bancă şi acelaşi nivel de educaţie, dar unul şi-a
început slujba cu un salariu cu 1000 de dolari mai mare, acesta din urmă va avea acum (în
medie) un salariu anual cu 1689 dolari mai mare decât celălalt;
- un lucrător care are o vechime mai mare cu 10 luni decât celălalt va avea un salariu cu cca
1557 de dolari mai mare, dacă toate celelalte (salariul iniţial şi nivelul de educaţie) sunt
aceleaşi;
- orice an în plus adăugat la nivelul de educaţie se traduce într-un spor mediu de salariu de cca
966 dolari.
Residuals Statistics
Minimum Maximum Mean Std. Deviation N
Predicted Value $16,662.55 $145,355.69 $34,419.57 $15,200.31 474
Residual -$29,580.63 $49,218.41 $.00 $7,780.02 474
Std. Predicted -1.168 7.298 .000 1.000 474
Value
Std. Residual -3.794 6.313 .000 .998 474
a Dependent Variable: Current Salary
Sǎ introducem acum în nodelul nostru o variabilǎ de tip dummy. Pentru aceasta vom
transforma prin recodificare variabila gender în variabila dummy gendum, care are valorile 1 pentru
bărbaţi şi 0 pentru femei. Apoi vom rula din nou analiza de regresie, introducând variabila gendum
alături de cele douǎ variabile independente iniţiale.
Tabelele de output sunt următoarele:
Model Summary
Model R R Square Adjusted R Std. Error
Square of the
Estimate
1 .896 .802 .800 $7,631.68
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary
ANOVA
Model Sum of df Mean F Sig.
Squares Square
1 Regressio 11060072 4 27650181 474.742 .000
n 4690.831 172.708
Residual 27315770 469 58242581.
745.509 547
Total 13791649 473
37
5436.340
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary
Coefficients
Unstandar Standardiz t Sig.
dized ed
Coefficient Coefficient
s s
Model B Std. Error Beta
(Constant) - 3246.282 -5.993 .000
19455.828
Beginning 1.656 .061 .763 27.143 .000
Salary
Months 151.152 35.097 .089 4.307 .000
since Hire
Education 942.136 158.286 .159 5.952 .000
al Level
(years)
GENDUM 1325.787 797.334 .039 1.663 .097
Din punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o
îmbunătăţire: R2 este acelaşi. Ipoteza liniarităţii modelului se verifică (tabelul al doilea), în schimb
coeficientul variabilei gendum nu este semnificativ (tabelul al treilea, coloana “Sig.”, ultimul rând).
Dacă acceptăm totuşi variabila gendum ca variabilă independentă, putem deduce din valoarea
coeficientului său că bărbaţii au în medie un salariu cu cca 1326 dolari mai mare decât femeile.
Capitolul 9
Analiza de varianţǎ
Analiza de varianţǎ este o procedurǎ statisticǎ folositǎ pentru a studia relaţia între o variabilǎ
dependentǎ cantitativǎ şi una sau mai multe variabile independente calitative (categoriale). Ea se
mai numeşte şi analiză dispersională sau, prescurtat, ANOVA (acronim de la cuvintele englezeşti
ANalysis Of VAriance).
Atunci când în model este inclusǎ o singurǎ variabilǎ independentǎ (numitǎ şi
factor) vorbim de ANOVA unifactorialǎ, iar dacǎ avem doi sau mai mulţi factori
atunci ne aflǎm în faţa unui model ANOVA multifactorial. Vom trata aceste douǎ
tipuri de analizǎ de varianţǎ separat.
1. ANOVA unifactorialǎ
Testul F ne indicǎ faptul cǎ existǎ probabil diferenţe între nivelele factorilor, dar nu ne spune
unde se gǎsesc aceste diferenţe şi cât de mari sunt ele. De asemenea, el nu ne oferǎ o ordonare a
nivelelor factorilor dupǎ influenţa lor asupra vaiabilei dependente.
Aceastǎ problemǎ poate fi rezolvatǎ introducând noţiunea de contrast. Contrastul, notat aici
cu K, este definit ca o combinatie liniarǎ a mediilor grupurilor (nivelelor factorilor).
K = ∑ci mi
unde cu m sunt notate mediile grupului, iar cu c reprezintǎ nişte ponderi care îndeplinesc relaţia:
∑c i =0
Pentru a înţelege cum se stabilesc ponderile la definirea unui contrast, vom apela la un
exemplu. Sǎ presupunem cǎ variabila categorialǎ implicatǎ în model are trei nivele, mediile fiecǎrui
nivel fiind m1, m2 şi m3. Dorim sǎ studiem diferenţa dintre primele douǎ grupuri, luate împreunǎ, şi
grupul al treilea. Ipoteza nulǎ, care afirmǎ cǎ între aceste grupuri nu existǎ nici o diferenţǎ, se
exprimǎ prin relaţia:
m1 + m 2
− m3 = 0
2
m1 + m2 − 2m3 = 0
Aşadar, primelor douǎ grupuri le va fi atribuitǎ ponderea 1, iar grupului al treilea ponderea
-2. Suma ponderilor este, desigur, zero.
Dacǎ dorim sǎ estimǎm diferenţele dintre nivelele factorilor în mod simultan, putem folosi
testele de comparaţie multiplǎ. Programul SPSS ne pune la dispoziţie multe teste de acest fel. Unele
dintre ele se folosesc atunci când varianţele grupurilor sunt presupuse a fi egale (Sidak, Bonferroni,
LSD, Scheffe, Tukey etc.) iar altele atunci când varianţele sunt presupuse a fi diferite (Tamhane,
Games-Howell). Pentru a şti ce teste trebuie folosite, programul SPSS ne oferǎ rezultatul testului F
al lui Levene pentru egalitatea varianţelor.
39
În cadrul orelor de seminar vom demonstra în detaliu modul de utilizare a procedurilor SPSS
pentru ANOVA unifactorialǎ.
2. ANOVA multifactorialǎ
Aceastǎ tehnicǎ de analizǎ a datelor se foloseşte atunci când avem de studiat legǎtura dintre o
variabilǎ dependentǎ numericǎ şi douǎ sau mai multe variabile independente categoriale (factori).
Factorii ce intervin în aceastǎ analizǎ pot fi de douǎ tipuri:
- factori ficşi, al cǎror efect poate fi controlat;
- factori aleatori, al cǎror efect este incontrolabil.
Alǎturi de factori, în model pot apǎrea şi covariatele. Aceste covariate sunt variabile de tip
numeric presupuse a fi corelate cu variabila dependentǎ. Prin introducerea covariatelor se verificǎ
dacǎ factorii ficşi au influenţǎ asupra variabilei dependente indiferent de acţiunea factorilor
covarianţi.
Un model de analizǎ ANOVA multifactorial poate fi de douǎ feluri:
- complet (full factorial), atunci când conţine toate efectele posibile şi toate
combinaţiile de factori;
- modificat (custom), atunci când, un vederea simplificǎrii modelului, sunt luate în
considerare numai efectele unor anumiţi factori sau combinaţii de factori.
Efectele studiate în cadrul unui model pot fi:
- efecte principale;
- efecte ale interacţiunii dintre variabile.
40
În aceastǎ secţinue vom da câte un exemplu pentru fiecare din cele douǎ tipuri de analizǎ de
varianţǎ: unifactorialǎ şi multifactorialǎ.
I. ANOVA unifactorialǎ
În cadrul bazei de date Employee data.sav vom analiza diferenţele între salariul mediu pe
cele trei categorii de lucrători (variabila jobcat): 1 – “clerical” (funcţionari), 2 – “custodial”
(paznici) şi 3 – “manager”. Pentru aceasta trebuie sǎ utilizǎm analiza de varianţǎ unifactorialǎ.
De asemeenea, ne mai intereseazǎ urmǎtoarele lucruri:
- sǎ comparǎm între ei salariaţii, cu paznicii, lǎsându-i la o parte pe manageri;
- sǎ comparǎm managerii cu “non-managerii”;
- sǎ comparǎm simultan mediile celor trei grupuri.
Vom merge în meniu la:
În fereastra “Dependent List” introducem variabila studiată (salary), iar în câmpul “Factor”
variabila jobcat. Procedând astfel, ne asigurǎm cǎ programul va compara mediile celor trei grupuri,
în mod global.
Pentru a compara mediile grupurilor care ne intereseazǎ, în mod separat, apǎsǎm butonul
Contrasts. Caseta de dialog care se deschide ne permite sǎ definim oricâte contraste dorim. Noi
avem nevoie de douǎ contraste, astfel:
- un prim contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, -1 pentru paznici
şi 0 pentru manageri;
- un al doilea contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, 1 pentru
paznici şi -2 pentru manageri.
Pentru a defini un nou contrast, se apasǎ butonul Next.
În final, sǎ apăsăm butonul Post Hoc pentru a deschide o caseta de dialog pentru testele de
comparaţie multiplă. Selectăm testul Bonferroni, apoi apăsăm butonul Continue. În final, apăsăm
OK pentru a rula analiza.
ANOVA
Current Salary
Sum of Squares df Mean Square F Sig.
Between 89438483925.943 2 44719241962.971 434.481 .000
Groups
Within 48478011510.397 471 102925714.459
Groups
Total 137916495436.340 473
Contrast Tests
41
2 - $2,999.47 -23.063 471 .000
$69,178.1
7
Does not 1 -$3,100.35 $568.68 -5.452 93.072 .000
assume equal
variances
2 - $4,021.75 -17.201 86.389 .000
$69,178.1
7
Multiple Comparisons
Dependent Variable: Current Salary
Bonferroni
Mean Std. Error Sig. 95% Confidence Interval
Difference (I-
J)
(I) (J) Lower Bound Upper Bound
Employme Employme
nt nt
Category Category
Clerical Custodial -$3,100.35 $2,023.76 .379 -$7,962.56 $1,761.86
Manager -$36,139.26 $1,228.35 .000* -$39,090.45 -$33,188.07
Custodial Clerical $3,100.35 $2,023.76 .379 -$1,761.86 $7,962.56
Manager -$33,038.91 $2,244.41 .000* -$38,431.24 -$27,646.58
Manager Clerical $36,139.26 $1,228.35 .000* $33,188.07 $39,090.45
Custodial $33,038.91 $2,244.41 .000* $27,646.58 $38,431.24
* The mean difference is significant at the .05 level.
În câmpul Dependent Variable vom introduce variabila salary, iar în câmpul Fixed Factors,
cele trei variabile independente. Apǎsǎm apoi butonul Model. Observǎm cǎ SPSS-ul ne oferǎ
posibilitatea de a alege modelul complet, sau de a opta pentru un model modificat. În cazul de faţǎ,
numǎrul variabilelor fiind redus, vom rǎmâne la modelul full factorial.
Sǎ apǎsǎm acum butonul Contrasts. Vom cere programului sa ne calculeze contrastele
pentru variabila jobcat (singurul factor cu mai mult de douǎ nivele). Tipul de contrast ales va fi
Simple, nivelul de referinţǎ fiind ultimul – 3 (aşadar, vom compara managerii cu celelate douǎ
categorii de anagajaţi). În final sǎ apǎsǎm butonul Post Hoc şi sǎ-i cerem programului sǎ realizeze
testele de comparaţie multiplǎ pentru aceeaşi variabilǎ jobcat. Testul ales va fi, la fel ca la analiza
precedentǎ, Bonferroni.
Iatǎ tabelele de output care ne intereseaza, şi care vor fi comentate în cadrul orelor de
seminar.
43
Hypothesized)
Std. Error 1966.958
Sig. .000
95% Confidence Interval Lower -37811.682
for Difference Bound
Upper -30081.226
Bound
Level 2 vs. Level 3 Contrast Estimate -39930.865
Hypothesized Value 0
Difference (Estimate - -39930.865
Hypothesized)
Std. Error 2994.148
Sig. .000
95% Confidence Interval Lower -45814.603
for Difference Bound
Upper -34047.128
Bound
a Reference category = 3
Multiple Comparisons
Dependent Variable: Current Salary
Mean Std. Error Sig. 95%
Difference (I- Confidence
J) Interval
(I) (J) Lower Bound Upper
Employme Employme Bound
nt nt
Category Category
Bonferroni Clerical Custodial -$3,100.35 $1,859.59 .288 -$7,568.33 $1,367.63
Manager -$36,139.26 $1,128.70 .000 -$38,851.16 -$33,427.35
Custodial Clerical $3,100.35 $1,859.59 .288 -$1,367.63 $7,568.33
Manager -$33,038.91 $2,062.33 .000 -$37,994.02 -$28,083.79
Manager Clerical $36,139.26 $1,128.70 .000 $33,427.35 $38,851.16
Custodial $33,038.91 $2,062.33 .000 $28,083.79 $37,994.02
Capitolul 10
Analiza factorialǎ
44
Aspecte teoretice - recapitulare
Atunci când la adoptarea unei decizii trebuie luat în considerare un număr foarte mare de
variabile, este convenabilă (şi adesea posibilă) reducerea acestui număr prin gruparea variabilelor
iniţiale, fie pe baza corelaţiei ridicate (pozitive sau negative), fie pe baza legăturii logice dintre unele
variabile. În mod concret, analiza factorială de termină un număr de “factori” (de regulă 2-4) care
“sintetizează” informaţia conţinută în variabilele de plecare. Fiecare factor este o combinaţie liniară
a variabilelor care îl alcătuiesc:
unde wki arată ponderea cu care participă variabila k la formarea factorului i. Ponderile w sunt
calculate astfel încât să fie îndeplinite următoarele două condiţii:
- suma pătratelor coeficienţilor de corelaţie dintre factorul i şi variabilele x1-xk să fie
maximă (cu alte cuvinte, fiecare factor să fie puternic corelat cu variabilele care îl
compun);
- factorii obţinuţi în final să fie complet necorelaţi doi câte doi (altfel spus, să fie
ortogonali).
Factorii rezultaţi în final vor fi definiţi şi interpretaţi de analist în funcţie de corelaţia lor cu
diversele variabile iniţiale. Trebuie spus aici că analiza factorială reprezintă o combinaţie de
cercetător şi reţin un număr de factori relevanţi (după criteriile pe care le vom vedea îndată),
indicând coeficienţii de corelaţie dintre fiecare factor şi variabilele care intervin în model. Din
acest moment intră în joc priceperea şi discernământul analistului: el trebuie să stabilească dacă
între variabilele corelate există o legătură logică şi, pe această bază, să dea fiecărui factor o
Spre exemplu, să presupunem că în cadrul unui recensamânt al populaţiei, fiecare cetǎţean este
descris prin variabilele următoare: sexul, vârsta, venitul anual, averea, educaţia, profesia. În mod
natural, variabilele “sex” şi “vârstă” ar putea fi grupate într-un “factor demografic”, variabilele
“venit” şi “avere” într-un factor care s-ar numi “situaţie economică” iar variabilele “educaţie” şi
“profesie” într-un factor numit “statut social”. Astfel, cele şase variabile iniţiale au fost reduse la
45
trei. Întrucât în acest exemplu avem de-a face în special cu variabile calitative, gruparea s-a
realizat în funcţie de asociaţiile logice care se pot face între diversele variabile.
Variabilele cu care se lucrează în analiza factorială sunt variabile cantitative (la fel ca la analiza
de regresie), deşi se pot folosi şi variabile de tip dummy (care iau valorile 0 şi 1).
- matricea corelaţiilor între fiecare factor şi variabilele iniţiale. Aceste corelaţii mai
sunt numite şi încărcările factorilor (“factor loadings”). Pe baza acestor corelaţii,
analistul va stabili variabilele care intră în definiţia fiecărui factor, după cum se va
arăta în exemplul practic de mai jos. Ca regulă generală, fiecare variabilă va fi
atribuită factorului cu care este cel mai puternic corelată (este preferabil ca încărcarea
să fie de peste 0,50 în valoare absolută);
- valorile proprii (“eigenvalues”) ale fiecărui factor. De regulă, programele statistice
reţin pentru analiză acei factori ale căror valori proprii sunt mai mari decât 1; totuşi,
dacă dorim, le putem impune să extragă numărul de factori pe care îl considerăm noi
necesar;
- scorurile factorilor, care reprezintă de fapt ponderile w cu care intervin variabilele de
plecare în formarea factorilor. Cunoscând aceste scoruri putem calcula valorile
factorilor pentru fiecare caz din eşantion în parte. În acest fel, factorii rezultaţi pot fi
trataţi ca noi variabile. Programul SPSS oferă opţiuni de calculare şi salvare a
scorurilor factorilor.
Rezultatele care se obţin din prima extragere a factorilor sunt de cele mai multe ori confuze
şi dificil de interpretat. Acesta este motivul pentru care îi cerem programului să rotească factorii
iniţiali, astfel încât noii factori să fie mai bine corelaţi cu variabilele de plecare şi deci mai uşor de
interpretat.
Pentru a ilustra grafic rotaţia factorilor să considerăm un caz ipotetic în care avem de-a face
cu trei variabile iniţiale (V1, V2 şi V3), pe baza cărora analiza factorială a extras doi factori (F1 şi
F2). Variabilele iniţiale le putem reprezenta ca vectori în spaţiul definit de axele de coordonate F1 şi
F2 (vezi figura din stânga). Corelaţia dintre variabila V1 şi factorul F1, de exemplu, este cu atât mai
bună cu cât vectorul V1 este mai apropiat de axa F1.
Pe graficul din partea stângǎ se observă că F1 este corelat într-o anumită măsură cu V1, dar
slab corelat cu V2 şi V3. Cât despre F2, el nu este corelat satisfăcător cu nici una din cele trei
variabile.
F2 F2
V3 V2 V2
V3 F1
V1 V1
F1
46
Pentru a rezolva aceasta, vom roti axele F1 şi F2 în sens invers acelor de ceasornic, ca în figura
din dreapta (respectând condiţia ca axele F1 şi F2 să rămână ortogonale, adică factorii să fie
necorelaţi între ei). Se vede clar că în urma rotirii factorul F1 este corelat cu variabilele V1 şi
V2, iar factorul F2 cu variabila V3. Interpretarea factorilor are acum mai multe şanse să ne ofere
de cercetare: este mult mai uşor de parcurs un raport care se concentrează asupra a doi sau trei
factori esenţiali decât unul care ia în discuţie 10-20 de variabile. În plus, gruparea variabilelor
poate pune datele într-o nouă lumină: este posibil ca cercetătorul să detecteze corelaţii pe care nu
În al doilea rând, factorii rezultaţi dintr-o asemenea analiză pot fi folosiţi mai departe; pot fi
incluşi de exemplu într-o analiză de regresie, ca noi variabile. După cum am arătat în secţiunea
anterioară, analiza factorială poate fi utilizată pentru a grupa variabilele redundante care intervin
În sfârşit, o aplicaţie foarte utilă a analizei factoriale este gruparea unităţilor populaţiei sau
eşantionului care prezintă valori apropiate ale factorilor. Aceasta este denumită analiză
47
Analiza factorialǎ în SPSS
48
Acest tabel prezintǎ valorile proprii ale factorilor (coloana a doua). Coloana “% of Variance”
ne arată în ce măsură explică fiecare factor cele cinci variabile de plecare. În coloana “Cumulative
%” se observă că primii doi factori reţinuţi acoperă 82.29% din varianţa totală a variabilelor iniţiale,
ceea ce este satisfăcător. Analiza poate fi considerată eficientă dacă factorii reţinuţi explică cel puţin
70% din varianţa totală.
Component Matrix
Component
1 2
Population in thousands -9.031E-02 .989
People living in cities (%) .841 -.160
Average male life expectancy .936 .109
People who read (%) .894 7.295E-02
Infant mortality (deaths per -.958 -5.257E-02
1000 live births)
Gross domestic product / .811 -2.736E-02
capita
Daily calorie intake .876 3.297E-02
Extraction Method: Principal Component Analysis.
a 2 components extracted.
Cele douǎ tabele de mai sus prezintǎ coeficienţii de corelaţie dintre variabile şi fiecare din
cei doi factori, înainte şi dupǎ rotirea factorilor. Analizând ambele tabele ajungem uşor la
urmǎtoarele concluzii:
- primul factor este puternic corelat cu toate variabilele, în afarǎ de una singurǎ: mǎrimea
populaţiei;
- al doilea factor este puternic corelat cu mǎrimea populaţiei.
Variabilele cu care este corelat primul factor (procentajul populaţiei urbane, speranţa de
viaţǎ, procentajul populaţie alfabetizate etc.) sunt indicatori ai standardului de viaţǎ din ţara
49
respectivǎ. Deci, factorul 1 îl putem numi “standard de viaţǎ”. În ceea ce priveşte factorul 2, corelat
doar cu mǎrimea populaţiei, îl vom putea numi “mǎrimea ţǎrii”.
Dupǎ cum se poate observa, rotirea factorilor nu aduce, un acest caz particular, o
îmbunǎtǎţire semnificativǎ a rezultatelor finale.
În tabelul de mai sus se gǎsesc coeficienţii asociaţi fiecǎrei variabile, pentru fiecare factor în
parte. Cu ajutorul acestor scoruri SPSS calculează valorile celor doi factori pentru fiecare ţarǎ. La
cererea noastrǎ, programul a salvat aceste scoruri în douǎ variabile separate. Ţinând cont de
semnificaţiile celor doi factori, definite anterior, pe prima variabilǎ am numit-o livstan (“living
standard”), iar pe a doua size (mǎrimea ţǎrii respective). De menţionat cǎ scorurile au fost calculate
numai pentru acele ţǎri pentru care nu existǎ valori lipsǎ ale variabilelor considerate în analizǎ.
Aceste noi variabile pot fi folosite pentru alte analize (de exemplu, o analizǎ de regresie sau
una de tip ANOVA).
Capitolul 11
Analiza cluster
Aspecte teoretice
Analiza cluster este o clasă de tehnici folosite la clasificarea obiectelor şi claselor în grupuri
relativ omogene, numite clustere. Mai este denumită “analiza clasificării”, “analizǎ tipologicǎ” sau
“ştiinţa clasificării numerice”.
În analiza de cluster nu există informaţii a priori despre apartenenţa vreunui obiect la un
grup, nici despre componenţa grupurilor. Grupurile sau clusterele sunt sugerate de date nedefinite
anterior.
Spre deosebire de analiza factorialǎ, care urmǎreşte redyucerea numǎrului de variabile,
analiza clasificǎrii are drept scop sintetizarea datelor prin reducerea numǎrului de indivizi,
grupându-i pe aceştia în clase.
50
1. Alegerea variabilelor folosite la analizǎ. Aceste variabile pot fi de tip metric, interval,
categorial, binomial.
5. Validarea clusterelor. Mulţi analişti evitǎ aceastǎ ultimǎ etapǎ, deoarece este dificilǎ şi
nu existǎ o metodǎ standard pentru realizarea sa. O posibilǎ metodǎ de validare este
aceea de a aplica o analizǎ de discriminant pentru clusterele formate şi a vedea dacǎ
aceste clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor
folosite iniţial în clasificare.
În cele ce urmeazǎ vom da douǎ exemple de realizare a analizei cluster, pentru fiecare din
cele douǎ categorii: ierarhicǎ şi nodalǎ.
Vom rula o analizǎ cluster de tip ierarhic pe o bazǎ de date numitǎ judete.sav, care cuprinde
o serie de date economico-sociale despre judeţele ţǎrii şi despre municipiul Bucureşti. Din cele 23
de variabile prezente în fişier, am ales pentru analiza cluster circa 10, printre care: populaţia,
suprafaţa, efectivul salariaţilor, salariul brut, numǎrul şomerilor etc. Vom apela urmǎtoarea
comandǎ:
51
Analyze > Classify > Hierachical Cluster
Tabelul cel mai important care se obţine în urma realizǎrii analizei de cluster de tip ierarhic
este cel de mai jos:
Cluster Membership
Case 4 Clusters 3 Clusters 2 Clusters
1:teleorman 1 1 1
2:mehedinti 2 1 1
3:olt 1 1 1
4:arges 3 2 1
5:valcea 1 1 1
6:botosani 1 1 1
7:suceava 3 2 1
8:iasi 3 2 1
9:neamt 1 1 1
10:vaslui 1 1 1
11:bacau 3 2 1
12:vrancea 1 1 1
13:covasna 2 1 1
14:galati 3 2 1
15:braila 1 1 1
16:buzau 1 1 1
17:tulcea 2 1 1
18:harghita 2 1 1
19:constanta 1 1 1
20:calarasi 2 1 1
21:giurgiu 2 1 1
22:prahova 3 2 1
23:ilfov 2 1 1
24:dolj 3 2 1
25:bucuresti 4 3 2
26:mures 3 2 1
27:brasov 3 2 1
28:ialomita 2 1 1
29:bistrita- 2 1 1
nasaud
30:dambovita 1 1 1
31:gorj 1 1 1
52
32:sibiu 1 1 1
33:maramures 1 1 1
34:cluj 3 2 1
35:hunedoara 1 1 1
36:satu-mare 1 1 1
37:alba 1 1 1
38:bihor 3 2 1
39:caras- 2 1 1
severin
40:timis 3 2 1
41:arad 1 1 1
42:salaj 2 1 1
Acest tabel ne indicǎ apartenenţa fiecǎrui judeţ la un cluster, pentru cele trei soluţii posibile
(2-4 clustere). Se observǎ cǎ în fiecare situaţie municipiul Bucureşti aparţine unui cluster separat.
Alte tabele, precum şi dendrograma, vor fi discutate la orele de seminar.
În afarǎ de generarea tabelelor, SPSS-ul a respectat opţiunea noastrǎ de a salva apartenenţa
fiecǎrui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite
pentru a studia ulterior clusterele formate.
Sǎ rulǎm în cele ce urmeazǎ o analizǎ cluster de tip nonierarhic. Vom folosi pentru aceasta
datele din fişierul World995.sav. Variabilele alese pentru analizǎ sunt: populaţia, procentajul
locuitorilor de la oraşe, speranţa de viaţǎ pentru bǎrbaţi şi femei, procentajul populaţiei alfabetizate,
PNB-ul pe locuitor şi numǎrul mediu de calorii asigurat zilnic unei persoane. Întrucât unitǎţile de
mǎsurǎ sunt foarte diferite, am standardizat în prealabil toate aceste variabile. Pentru a realiza
analiza, vom apela comanda:
Mai întâi vom introduce în câmpul Variables valorile standardizate generate anterior, iar în
câmpul Label Cases by vom introduce variabile country.
Numǎrul de opţiuni disponibil aici este mult mai mic decât cel de la analiza tipologicǎ
ierarhicǎ. În câmpul Number of clusters introducem valoarea 3 (aşadar, îi impunem programului) sǎ
genereze trei grupuri). Metoda de grupare aleasǎ va fi Iterate and classify. Rǎmâne acum sǎ
precizǎm o serie de elemente ale outputului final, astfel:
- apǎsǎm butonul Save şi selectǎm opţiunea Cluster membership (aceasta înseamnǎ cǎ
programul va salva apartenenţa la clustere într-o variabilǎ categorialǎ);
- apǎsǎm butonul Options şi selectǎm opţiunea Cluster information for each case.
Cluster Membership
Case COUNTRY Cluster Distance
Number
1 Afghanistan . .
2 Argentina 2 1.215
3 Armenia . .
4 Australia 2 1.349
5 Austria 2 1.665
53
6 Azerbaijan . .
7 Bahrain . .
8 Bangladesh 3 1.470
9 Barbados . .
10 Belarus . .
11 Belgium . .
12 Bolivia 3 1.560
13 Bosnia . .
14 Botswana 3 1.298
15 Brazil 2 2.416
16 Bulgaria . .
17 Burkina Faso 3 2.137
18 Burundi 3 1.780
19 Cambodia 3 1.485
20 Cameroon 3 .353
21 Canada 2 1.779
22 Cent. Afri.R 3 2.452
23 Chile 2 1.572
24 China 1 1.383
25 Colombia 2 1.619
26 Costa Rica 2 1.806
27 Croatia . .
28 Cuba . .
29 Czech Rep. . .
30 Denmark 2 1.731
31 Domincan R. 2 2.191
32 Ecuador 2 1.937
33 Egypt 3 2.136
34 El Salvador 3 1.717
35 Estonia . .
36 Ethiopia 3 2.027
37 Finland 2 1.217
38 France 2 1.680
39 Gabon 3 .884
40 Gambia . .
41 Georgia . .
42 Germany 2 1.520
43 Greece 2 1.437
44 Guatemala 3 1.219
45 Haiti 3 1.695
46 Honduras 3 1.838
47 Hong Kong . .
48 Hungary 2 1.351
49 Iceland . .
50 India 1 1.383
51 Indonesia 3 1.959
52 Iran 3 2.394
53 Iraq 2 2.145
54 Ireland 2 1.439
55 Israel . .
56 Italy 2 1.490
57 Japan 2 1.884
58 Jordan 2 1.711
59 Kenya 3 .840
60 Kuwait 2 1.367
54
61 Latvia . .
62 Lebanon . .
63 Liberia 3 .924
64 Libya 2 2.065
65 Lithuania . .
66 Malaysia 2 1.954
67 Mexico 2 1.086
68 Morocco . .
69 N. Korea . .
70 Netherlands 2 1.497
71 New Zealand 2 1.091
72 Nicaragua 3 1.590
73 Nigeria 3 .531
74 Norway 2 1.430
75 Oman . .
76 Pakistan . .
77 Panama 2 1.761
78 Paraguay 2 1.787
79 Peru 3 2.356
80 Philippines 3 2.055
81 Poland . .
82 Portugal . .
83 Romania 2 1.397
84 Russia . .
85 Rwanda 3 2.098
86 S. Korea . .
87 Saudi Arabia 2 1.665
88 Senegal 3 .885
89 Singapore 2 1.438
90 Somalia 3 1.625
91 South Africa . .
92 Spain 2 1.098
93 Sweden 2 1.407
94 Switzerland 2 2.259
95 Syria . .
96 Taiwan . .
97 Tanzania 3 2.016
98 Thailand 3 2.431
99 Turkey 2 1.253
100 U.Arab Em. . .
101 UK 2 1.306
102 USA 2 2.816
103 Uganda 3 2.259
104 Ukraine . .
105 Uruguay 2 1.523
106 Uzbekistan . .
107 Venezuela 2 1.645
108 Vietnam 3 2.014
109 Zambia 3 1.898
Acest tabel ne aratǎ în ce cluster se aflǎ fiecare ţarǎ (numai pentru ţǎrile pentru care nu existǎ
date lipsǎ), precum şi distanţa (în abateri standard) de la fiecare ţarǎ la centrul clusterului cǎruia îi
aparţine.
55
Final Cluster Centers
Cluster
1 2 3
Zscore: Population in thousands 6.88817 -.10045 -.09917
Zscore: People living in cities (%) -1.26130 .66244 -.97875
Zscore: People who read (%) -.58281 .53741 -.97188
Zscore: Gross domestic product / capita -.85403 .61702 -.77073
Zscore: Daily calorie intake -.56325 .65015 -.87343
Zscore: Average female life expectancy -.58230 .64508 -1.14375
Zscore(LIFEEXPM) Average male life -.26070 .65596 -1.13562
expe
Acest tabel conţine distanţele dintre media fiecǎrui cluster şi media generalǎ, exprimatǎ în
abateri standard. De exemplu, se observǎ cǎ grupul 1 cuprinde ţǎri cu populaţie mare şi foarte mare
– media populaţiei lor este cu 6.88 abateri standard mai mare decât media generalǎ – iar grupurile 1
şi 2 cuprind ţǎri cu populaţie mai redusǎ – media populaţiei lor este cu 0.10, respectiv 0.01 abateri
standard mai micǎ decât media generalǎ.
Acest tabel ne aratǎ cât de apropiate (asemǎnǎtoare) sau îndepǎrtate (diferite) sunt grupurile.
Se observǎ cǎ grupurile cele mai asemǎnǎtoare sunt 2 şi 3, iar cele mai diferite sunt 1 şi 2.
Tabelul acesta indicǎ numǎrul de cazuri aflate în fiecare cluster şi nu necesitǎ, credem,
explicaţii suplimentare.
La cererea noastrǎ, SPSS-ul a creat şi o variabilǎ categorialǎ specialǎ, care indicǎ apartenenţa
fiecǎrei ţǎri la unul din clustere. Aceastǎ variabilǎ poate fi folositǎ pentru a face diferite tipuri de
analize cu privire la fiecare grup descoperit prin analiza cluster.
Capitolul 12
Analiza discriminantului
Aspecte teoretice
Analiza discriminantului este o tehnicǎ statisticǎ de tip explicativ – deşi poate fi inclusǎ şi în
categoria celor descriptive. Ea are rolul de a analiza douǎ sau mai multe grupruri disctincte şi a
56
stabili care sunt variabilele care diferenţiazǎ cel mai bine grupurile respective. Aşadar, spre
deosebire de analiza cluster, la analiza discriminantului grupurile pentru care se face analiza sunt
cunoscute (definite) dinainte.
În cercetǎrile sociale (respectiv în analiza resurselor umane), analiza discriminantului poate
rǎspunde la întrebǎri de tipul:
- prin ce anume diferǎ angajaţii bǎrbaţi dintr-o firmǎ de angajaţii femei?
- prin ce diferǎ agenţii de vânzǎri performanţi de cei neperformanţi?
- existǎ diferenţe de performanţǎ între angajaţii familişti şi cei nefamilişti?
În analiza discriminant intervin douǎ tipuri de variabile: o variabilǎ dependentǎ (sau de
grupare) şi una sau mai multe variabile independente. Variabile de grupare este de tip categorial, iar
variabilele independente sunt metrice sau binomiale, şi ar trebui sǎ fie distribuite normal.
Analiza discriminantului este de douǎ categorii: pe douǎ grupuri, atunci când variabila
dependentǎ are douǎ categorii, şi multiplǎ, caz în care variabila dependentǎ are trei sau mai multe
categorii.
Discriminarea dintre grupuri se face cu ajutorul unei combinaţii liniare a variabilelor
independente, numitǎ funcţie discriminant, de forma:
unde D este scorul discriminant, X sunt variabilele independente, iar b coeficienţii funcţiei
discriminant.
Coeficienţii b sunt estimaţi astfel încât grupurile să difere maxim posibil in ceea ce priveşte
valorile funcţiei discriminant. Aceasta are loc atunci când raportul dintre suma pătratelor inter-
grupuri şi suma pătratelor intra-grupuri este maxim şi din orice altă combinaţie liniară a predictorilor
va rezulta un raport mai mic.
Principalii indicatori statistici care rezultǎ în urma unei analize a discriminantului sunt:
- testul F pentru compararea mediilor grupurilor;
- corelaţia între scorurile discriminant şi fiecare variabilǎ în parte;
- coeficienţii funcţiei discriminant;
- testul lambda al lui Wilks, care ne aratǎ puterea funcţiei discriminant;
- centroizii grupurilor.
57
metoda directǎ (Enter independents together). Aceasta înseamnǎ cǎ variabilele independente vor fi
introduse simultan în model, indiferent de puterea lor de discriminare.
Pentru ca SPSS-ul sǎ ne furnizeze datele statistice esenţiale pentru analiza modelului,
apǎsǎm butonul Statistics şi selectǎm urmǎtoarele: în chenarul Descriptives, opţiunea Univariate
ANOVAs, iar în chenarul Function Coefficients, opţiunea Unstandardized. Apǎsǎm în continuare
butonul Classify şi selectǎm opţiunea Summary Table din chenarul Display.
În final, pentru a salva scorurile discriminat, precum şi apartenenţa fiecǎrui caz la un grup
anume, apǎsǎm butonul Save şi selectǎm douǎ opţiuni din caseta de dialog care apare: Predicted
group membership şi Discriminant scores.
Acest tabel ne aratǎ care sunt variabilele pentru care existǎ diferenţe între grupuri, ca medie.
Se observǎ cǎ singura variabilǎ pentru care nu existǎ diferenţe este Months since Hire.
Structure Matrix
Function
1
Current Salary .838
Educational Level (years) .634
Previous Experience .278
(months)
Months since Hire .111
Pooled within-groups correlations between discriminating variables and
standardized canonical discriminant functions Variables ordered by absolute size of
correlation within function.
Centroizii fiecǎrui grup nu sunt altceva decât mediile scorurilor discriminant pentru fiecare
grup.
Wilks' Lambda
Test of Wilks' Chi-square df Sig.
Function(s) Lambda
1 .734 145.026 4 .000
Testul lambda al lui Wilks este foarte important pentru analiza discriminantului. El ne aratǎ
proporţia din varianţa totalǎ care nu este explicatǎ de diferenţele dintre grupruri (în cazul nostru,
73%). Sig-ul din ultima coloanǎ ne aratǎ dacǎ existǎ diferenţe semnificative între centroizii celor
douǎ grupuri.
Classification Results
Predicted Group Total
Membership
GENDUM 0 1
Original Count 0 173 43 216
1 97 161 258
% 0 80.1 19.9 100.0
1 37.6 62.4 100.0
a 70.5% of original grouped cases correctly classified.
Tabelul de mai sus ne aratǎ, untr-o formǎ sinteticǎ, aparteneţa cazurilor din eşantion la un
grup sau altul. Vom comenta acest tabel pe larg la seminar.
59