Está en la página 1de 59

Capitolul 1

Mediul de lucru SPSS

Rolul acestui scurt capitol introductiv este acela de a readuce în memoria studentului
principalele comenzi din programul statistic SPSS – programul cu care se va lucra în cadrul cursului
de Metode cantitative.
Informaţiile cuprinse în acest curs fac referire la versiunea SPSS 10.0 sub Windows. Pornim
desigur de la premisa că toţi studenţii ştiu să utilizeze sistemul de operare Windows, fie şi numai la
nivel elementar.

Programul SPSS 10.0 conţine zece meniuri. Prezentǎm în continuare conţinutul fiecǎruia
dintre acestea.

 File – cuprinde în special comenzile utilizate pentru crearea unor documente noi şi
deschiderea sau salvarea documentelor create anterior
 Edit – cuprinde comenzile utilizate pentru editarea documentelor (ştergere, copiere, lipire
etc.)
 View – din acest meniu se pot seta caracteristicile vizuale ale documentelor
 Data – cu ajutorul comenzilor acestui meniu se realizează o serie de operaţiuni de bază
asupra datelor statistice (inserare, sortare, agregare, fuzionare fişiere etc.)
 Transform – cuprinde comenzi utilizate pentru transformări (cantitative sau calitative) ale
datelor (crearea de noi variabile plecând de la cele existente, recodificarea datelor,
ierarhizarea datelor etc.)
 Analyze – în acest meniu se gǎsesc toate comenzile necesare pentru realizarea analizelor
statistice
 Graphs – este meniul în care se gǎsesc comenzile pentru grafice (SPSS permite realizarea
câtorva zeci de tipuri de grafice)
 Utilities – este un meniu pe care nu-l vom folosi la acest curs. El cuprinde în special
comenzi care permit automatizarea facilităţilor din SPSS
 Window – permite manipularea ferestrelor în care este deschis programul SPSS
 Help – asigură accesul la asistenţa (ajutorul) pentru utilizatori

Întrucât meniul Analyze va fi de departe cel mai utilizat în cadrul acestui curs, vom detalia
în continuare comenzile existente în acest meniu.

 Reports – este un submeniu care conţine comenzi pentru elaborarea rapoartelor sintetice
asupra datelor
 Descriptive Statistics – comenzile din acest submeniu se folosesc în principal pentru
generarea indicatorilor statistici pentru variabilele studiate
 Custom Tables – submeniu folosit atunci când dorim sa construim tabele pornind de la
datele dintr-un fişier

1
 Compare Means – submeniu folosit pentru realizarea testelor de comparare a mediilor
(Student, ANOVA univariatǎ)
 General Linear Model – comenzile din acest submeniu servesc la executarea analizei
ANOVA multivariatǎ
 Correlate – cuprinde comenzile pentru studierea corelaţiei bivariate şi parţiale dintre
variabile
 Regression – submeniu util pentru realizarea diverselor tipuri de analizǎ de regresie (liniarǎ
şi neliniarǎ)
 Loglinear – cuprinde comenzi utlie pentru analizele de regresie de tip logaritmic
 Classify – cuprinde procedurile utilizate pentru gruparea obiectelor din baza de date (analiza
de tip cluster, analiza discriminantului)
 Data Reduction – cuprinde procedurile utilizate pentru gruparea variabilelor studiate
(analiza factorialǎ, analiza corespondenţelor)
 Scale – cuprinde proceduri avansate pentru lucrul cu scalele de mǎsurare (scalarea
multidimensionalǎ, analiza încrederii)
 Nonparametric Tests – aşa cum îi aratǎ numele, acest submeniu grupeazǎ toate testele
neparametrice (binomial, hi pǎtrat, Wilcoxon etc.)
 Time Series – cuprinde procedurile de analizǎ a seriilor de timp
 Survival – cuprinde procedurile utilizate în analizele de supravieţuire
 Multiple Response – cu ajutorul comenzilor din acest submeniu sunt gestionate datele
provenind din întrebǎrile cu rǎspunsuri multiple
 Missing Value Analysis – procedura utilizatǎ pentru analiza valorilor lipsǎ

Comenzile pentru gestionarea fişierelor în SPSS sunt foarte asemǎnǎtoare cu cele din orice
aplicaţie Windows. Astfel, pentru crearea unei noi baze de date comenzile utilizate sunt:

File > New > Data

Primul lucru pe care trebuie să-l facem este să definim variabilele (câmpurile) noii baze de
date. În parte din stânga jos putem observa butoanele Data View/Variable View. Apăsând butonul
Variable View, SPSS ne prezintă ecranul de dialog pentru definirea variabilelor. Pentru fiecare
variabilă va trebui să specificăm, printre altele:
• numele
• tipul (numeric, caracter etc.)
• lungimea (numărul de caractere)
• numărul de zecimale (pentru variabilele numerice)
• descrierea variabilei (opţional)
• valori posibile (opţional) etc.
Odată variabilele introduse, apăsăm pe butonul Data View pentru a putea introduce datele în
fişier.

Pentru deschiderea unei baze de date existente vom utiliza comenzile:

File > Open > Data

SPSS-ul ne va deschide o casetă de dialog pentru deschiderea unui fişier.


2
În momentul în care rulăm o analiză asupra unui set de date, SPSS-ul ne prezintă rezultatele
acestei analize sub forma unui fişier special numit output. Fişierele de output pot fi desigur salvate
şi apelate ulterior prin comanda:

File > Open > Output

Aspectele practice legate de lucrul cu fişierele, precum şi de utilizarea procedurilor de


analizǎ vor fi lǎmurite la seminar.

Capitolul 2

Statisticǎ descriptivǎ – elemente de bazǎ

Aspecte teoretice - recapitulare

Variabilă, scor, distribuţie

O variabilă este acea proprietate a unui fenomen care poate lua diferite valori. De exemplu:
zilele saptămânii (luni, marţi, …, duminică), înălţimea, venitul impozabil, notele studenţilor la
examenul de Statistică etc.

Orice variabilă este descrisă de un set de valori. Valoarea particulară pe care o ia variabila
pentru un anumit membru al populaţiei studiate poartă numele de scor. Exemple de scoruri ale
diverselor variabile: persoana X are înălţimea de 1.68 metri, persoana Y are un salariu lunar de 1500
de lei, studentul Z a obţinut nota 9 la examenul de Statistică.

Distribuţia unei variabile este dată de frecvenţa de apariţie a diverselor scoruri (sau valori)
care descriu variabila respectivă. Frecvenţa poate fi absolutǎ sau relativǎ. Distribuţia poate fi
ilustratǎ cu ajutorul unui tabel de frecvenţe, sau reprezentată grafic prin intermediul unei
histograme.

Orice distribuţie statisticǎ este definită prin trei caracteristici:

1. modalitatea, care se referă la numărul de maxime (ale frecvenţelor) pe care îl prezintă


distribuţia. Distribuţiile cu un singur maxim (cum este cea de mai sus) se numesc unimodale,
iar cele cu mai multe maxime se numesc multimodale.

2. înclinarea (skewness), care ne arată dacă în distribuţie predomină valorile mici (cazul
distrubuţiilor înclinate spre stânga) sau valorile mari (cazul distrubuţiilor înclinate spre
dreapta).

3
3. boltirea (kurtosis), care ne arată cât de mult variază scorurile. O distribuţie “turtită” (sau
“aplatizată”) prezintă toate valorile posibile ale scorurilor, de la cele mai mici la cele mai
mari, pe când în cazul unei distribuţii “ascuţite” scorurile variază mai puţin (valorile extreme
au frecvenţe de apariţie reduse).

Indicatorii (parametrii) unei distribuţii

Aceşti indicatori se împart în două mari categorii: indicatorii tendinţei centrale şi indicatorii
împrăştierii. Vom prezenta pe scurt principalii indicatori din fiecare categorie.

Indicatorii tendinţei centrale

Aceşti indicatori exprimă tendinţa scorurilor unei variabile de a se grupa în jurul unor valori
semnificative. Cei trei indicatori ai tendinţei centrale luaţi în discuţie aici sunt media, mediana şi
modul.

Media este desigur cel mai cunoscut indicator al tendinţei centrale. Iatǎ formula de calcul a
mediei ponderate:

∑x ⋅n i i
m= i

∑n i
i

unde cu x am notat valorile, iar cu n frecenţele absolute de apariţie.

Mediana este acea valoare care împarte o distribuţie în două părţi egale. Pentru a o
determina, trebuie mai întâi să aşezăm scorurile în ordine crescătoare. În cazul în care numǎrul de
scoruri este par, mediana va fi media artimetica a scorurilor din mijloc. Dacǎ numǎrul de scoruri este
impar, mediana este dată de valoarea scorului din mijloc al seriei.
Să presupunem că ştim că mediana salariilor lucrătorilor dintr-o firmă este de 5300 de lei.
Cum interpretăm acest fapt? În felul următor: jumătate din lucrători au un salariu de până la 5300 de
lei, iar cealaltă jumătate au un salariu de peste 5300 de lei.

Modul unei distribuţii este acea valoare a distribuţiei care are cea mai mare frecvenţă de
apariţie. În cazul anterior, modul distribuţiei este egal cu 2, deoarece acest punctaj apare cel mai des
(de cinci ori). În exemplul ilustrat în tabelul 1, modul distribuţiei este 3, deoarece această valoare
apare cel mai des (de 16 ori). După cum precizam anterior, există posibilitatea ca o distribuţie să
prezinte mai multe moduri, caz în care o vom numi multimodală.

Indicatorii împrăştierii

Cel mai des folosit indicator al împrăştierii unei variabile este dispersia sau varianţa. Ea este
notatǎ cu σ2 sau uneori cu Var şi se calculeazǎ cu formula:

4
∑ (x i − m) 2
σ2 = i

N −1
sau:

∑ ( x − m) ⋅ n
i
2
i
σ2 = i

∑ n −1
i
i

Cu cât valoarea dispersiei este mai mare, cu atât distribuţia respectivă este mai împrăştiată.

Abaterea pătratică sau abaterea standard nu este altceva decât rădăcina pătrată a dispersiei:

σ = σ2

Abaterea pătratică se notează uneori cu SD (de la cuvintele englezeşti “standard deviation” –


abatere standard). De remarcat că abaterea standard are aceeaşi unitate de măsură ca şi variabila.
Se poate demonstra că majoritatea scorurilor unei variabile (şi anume cam 68%) se găsesc în
interiorul intervalului care are drept capete valorile m- σ şi m+ σ. Aceste scoruri se mai numesc
scoruri medii, normale sau tipice pentru acea distribuţie. Valorile care se găsesc în afara intervalului
(m- σ; m+ σ) poartă numele de valori atipice.

Atunci când cunoaştem media şi abaterea standard a unui eşantion dat de volum n, putem
determina dispersia de selecţie (sau eroarea standard) pentru eşantionul respectiv, cu formula:

σ
σm =
n

Aceastǎ eroare standard reprezintǎ de fapt abaterea mediilor tuturor eşantioanelor de acelaşi
volum n de la media populaţie totale. Pentru a determina un interval de încredere al acestei din urmǎ
medii, cu un nivel de încredere de 95%, vom calcula:

m ± 1.96 * σm

unde m este media eşantionului nostru.

Distribuţia normală

Cunoscută şi sub denumirea de distribuţia Gauss-Laplace, distribuţia normală este fără


îndoială cea mai importantă dintre toate tipurile de distribuţie întâlnite în statistică. Principala sa
caracteristică: curba frecvenţelor se prezintă sub formă de clopot (de unde şi denumirea de “clopotul
lui Gauss”). Iatǎ formula prin care se exprimă legea normală:

( x −m ) 2
1 −
p ( x) = e 2σ 2

σ 2π
5
unde p(x) este probabilitatea (frecvenţa) de apariţie a unei valori oarecare x, iar m şi σ sunt deja
notaţii familiare (media şi abaterea pătratică a distribuţiei). Aşadar, aceşti doi parametri (media şi
abaterea standard) definesc complet o distribuţie normală. Să mai spunem că distribuţia normală de
~
medie m şi abatere σ se notează prescurtat astfel: N ( m, σ 2 ) .

Distribuţia normală standard. Scorurile z

Fie o variabilă aleatoare ce are media m şi abaterea standard σ. Pentru o valoare oarecare x a
acestei variabile, scorul z se calculează astfel:

x −m
z=
σ

Se observă că acest scor are un caracter sintetic, reunind într-o singură formulă media şi
abaterea standard a distribuţiei. Scorurile z nu au unitate de măsură. Tocmai acest lucru face
posibilă compararea sau adunarea lor.

Distribuţia scorurilor z se numeşte distribuţie normală standard (sau normată). Ea are media
~
0 şi dispersia 1 şi se notează uneori astfel: N (0,1) .

Generarea indicatorilor statistici şi a rapoartelor în SPSS

În cadrul acestei sectiuni vom exemplifica pas cu pas urmǎtoarele proceduri:

1. generarea indicatorilor statistici şi a tabelului de frecvenţe, cu ajutorul comenzilor


Frequencies şi Descriptives;
2. generarea indicatorilor statistici pe substraturi ale populaţiei, cu ajutorul comenzii
Explore;
3. crearea tabelelor încrucişate, folosind comanda Crosstabs;
4. crearea rapoartelor cu ajutorul unor opţiuni din submeniul Reports.

Pentru realizarea exemplelor practice vom folosi baza de date Employee data.sav, care
prezintă informaţii privind cei 474 de salariaţi ai unei bănci din Statele Unite, informaţii obţinute în
urma unui studiu organizat la începutul anilor 1990.

I. Generarea indicatorilor statistici şi a tabelului de frecvenţe

Vom cere în continuarea programului SPSS Sǎ ne furnizeze principalii parametri statistici


pentru variabila salary, reprezentând salariul curent (anual) al lucrătorilor din bancă. În acest scop
apelăm comanda:

Analyze > Descriptive Statistics > Frequencies

6
SPSS-ul deschide o casetă de dialog (o vom vizualiza atunci când vom face aplicaţiile
practice). Alegem pentru analiză variabila salary şi apăsăm butonul Statistics. Ni se deschide o
nouă casetă de dialog în care selectăm rmătoarele opţiuni pentru calcul: Quartiles, Mean, Median,
Mode, Std. Deviation (abaterea standard), Variance, S.E. mean (abaterea de selecţie), Skewness,
Kurtosis. Apăsăm butonul Continue şi apoi butonul OK.

În fişiereul de output SPSS-ul ne prezintă rezultatele următoare:

- tabelul frecvenţelor pentru variabila salary (redăm aici doar o mică parte a lui, pentru
economie de spaţiu):

Current Salary
Frequency Percent Valid Cumulative
Percent Percent
Valid $15,750 1 .2 .2 .2
$15,900 1 .2 .2 .4
$16,200 3 .6 .6 1.1
$16,350 1 .2 .2 1.3
$16,500 1 .2 .2 1.5
$16,650 1 .2 .2 1.7
$16,800 1 .2 .2 1.9
$16,950 3 .6 .6 2.5
$17,100 2 .4 .4 3.0
$17,250 1 .2 .2 3.2
… … … … …
Total 474 100.0 100.0

În prima coloană se găsesc valorile variabilei, în cea de-a doua frecvenţele absolute, iar în
cea de-a treia frecvenţele relative (în procente). Ultima coloană prezintă frecvenţele relative
cumulate.
Din acest tabel se poate vedea, de exemplu, că nivelul salariului de 16950 de dolari apare la
trei salariaţi, reprezentând 0.6% din totalul salariaţilor.

- tabelul indicatorilor statistici:

Current Salary
N Valid 474
Missing 0
Mean $34,419.57
Std. Error of Mean $784.31
Median $28,875.00
Mode $30,750
Std. Deviation $17,075.66
Variance $291,578,214.45
Skewness 2.125
Std. Error of Skewness .112
Kurtosis 5.378
Std. Error of Kurtosis .224
Percentiles 25 $24,000.00
50 $28,875.00
75 $37,162.50

7
Analiza în detaliu a acestui tabel o vom face la seminar.

Dacă nu ne interesează să obţinem tabelul de frecvenţe al variabilei, putem folosi pentru


statistica descriptivă comanda (care are o plajă de opţiuni mai redusă):

Analyze > Descriptive Statistics > Descriptives

Dupǎ ce apǎsǎm butonul Options al casetei de dialog de la aceastǎ procedurǎ, SPSS-ul ne dǎ


posibilitatea de a alege indicatorii statistici pe care-i dorim calculaţi. Noi vom alege, pentru ilustrare,
doar indicatorii Mean, Standard Deviation şi S.E. mean. Iatǎ tabelul pe care ni-l afişeazǎ programul:

Descriptive Statistics
N Mean Std. Deviation
Statistic Statistic Std. Error Statistic
Current Salary 474 $34,419.57 $784.31 $17,075.66
Valid N (listwise) 474

II. Generarea indicatorilor statistici pe straturi

Sǎ presupunem acum cǎ dorim sǎ analizǎm comparativ salariile bǎrbaţilor şi cele ale


femeilor din populaţia studiatǎ. Pentru a realiza aceasta, ne stǎ la dispoziţie procedura Explore, pe
care o apelǎm astfel:

Analyze > Descriptive Statistics > Explore

SPSS-ul ne cere sǎ precizǎm care sunt variabilele dependente (adicǎ variabilele pentru care
se vor calcula parametrii), precum şi care sunt variabilele-factor (cele dupǎ care sunt definite
straturile). În cazul nostru, variabila dependentǎ este salary, iar factorul este gender.
În afarǎ de tabelele de sinteza, îi vom solicita programului SPSS sǎ ne furnizeze şi graficul
de tip “boxplot”, precum şi un test de normalitate pentru variabila studiatǎ.
Redǎm în continuare câteva din rezultatele acestei analize (discuţiile asupra lor vor avea loc
la seminar).
În tabelul de mai jos se gǎsesc principalii indicatori statistici ai variabilei salary, pe cele
douǎ substraturi: bǎrbaţi şi femei.

Descriptives
Gender Statistic Std. Error
Current Female Mean $26,031.92 $514.26
Salary
95% Confidence Interval for Lower $25,018.29
Mean Bound
Upper $27,045.55
8
Bound
5% Trimmed Mean $25,248.30
Median $24,300.00
Variance 57123688.268
Std. Deviation $7,558.02
Minimum $15,750
Maximum $58,125
Range $42,375
Interquartile Range $7,012.50
Skewness 1.863 .166
Kurtosis 4.641 .330
Male Mean $41,441.78 $1,213.97
95% Confidence Interval for Lower $39,051.19
Mean Bound
Upper $43,832.37
Bound
5% Trimmed Mean $39,445.87
Median $32,850.00
Variance 380219336.303
Std. Deviation $19,499.21
Minimum $19,650
Maximum $135,000
Range $115,350
Interquartile Range $22,675.00
Skewness 1.639 .152
Kurtosis 2.780 .302

Rezultatele testului de normalitate Kolmogorov-Smirnov se gǎsesc în tabelul ce urmeazǎ:

Tests of Normality
Kolmogorov-Smirnov
Gender Statistic df Sig.
Current Salary Female .146 216 .000
Male .208 258 .000

În sfârşit, figura de mai jos prezintǎ graficul “boxplot” pentru variabila salary, pe cele douǎ
segmente de angajaţi studiate (bǎrbaţi şi femei).

9
160000

140000
29

120000
32
18
343
100000 446
103
34
106
454
431
80000

60000 371
348
468
240
72
80
Current Salary

168
413
277
134
40000 242

20000

0
N= 216 258

Female Male

Gender

III. Crearea tabelelor încrucişate

Tabelele încrucişate sunt foarte utile atunci când dorim sǎ studiem legǎtura dintre douǎ
variabile categoriale. Asupra lor vom reveni într-un capitol ulterior, atunci când vom studia testele
neparametrice. Acum vom arǎta doar, foarte pe scurt, cum se genereazǎ un asemenea tabel.
Sǎ presupunem cǎ ne intereseazǎ sǎ studiem interdependenţa dintre variabile gender şi
variabile jobcat (ambele categoriale) pentru a vedea unde se întâlnesc majoritatea managerilor din
bancǎ: în rândul bǎrbaţilor sau în rândul femeilor. Pentru aceasta vom apela opţiunea:

Analyze > Descriptive Statistics > Crosstabs

Vom cere programului sǎ afişeze categoriile variabile gender pe liniile, iar pe cele ale
variabilei jobcat pe coloane. Alte opţiuni nu formulǎm, deocamdatǎ.
Rezultatul analizei este afişat în tabelul de mai jos.
Gender * Employment Category Crosstabulation
Count
Employment Total
Category
Clerical Custodial Manager
10
Gender Female 206 10 216
Male 157 27 74 258
Total 363 27 84 474

Dupǎ cum se poate observa, marea majoritate a managerilor sunt bǎrbaţi (74), iar
femeile sunt mult mai puţin reprezentate în structurile de conducere (numai 10).

IV. Crearea de rapoarte sintetice

Opţiunea Reports din meniul Analyze conţine o serie de comenzi care permit crearea unei
mari varietǎţi de rapoarte. Noi nu vom intra în toate detaliile aici, ci vom genera doar un raport
sintetic privind principalii indicatori ai variabilei salary, atât pe subgrupul bǎrbaţilor cât şi pe cel al
femeilor.
Vom selecta opţiunile:

Analyze > Reports > Case Summaries

În câmpul Variables vom introduce variabile de studiu (salary), iar în câmpul Grouping
Variable(s), variabile gender. Apoi vom deselecta opţiunea Limit cases to first pentru a-i cere
programului sǎ calculeze indicatorii pentru toate cazurile din eşantion, precum şi opţiunea Display
cases (pentru a evita afisarea valorii variabilei la fiecare caz în parte). În continuare apǎsǎm butonul
Statistics şi cerem sǎ fie generaţi – pentru fiecare subgrup – urmǎtorii indicatori: numǎrul de cazuri
(deja selectat), media, mediana şi abaterea standard. Apoi apǎsǎm butoanele Continue şi OK.
Tabelul de mai jos, care conţine rezultatul final al analizei, nu are nevoie de prea multe explicaţii.

Case Summaries
Current Salary
Gender N Mean Median Std. Deviation
Female 216 $26,031.92 $24,300.00 $7,558.02
Male 258 $41,441.78 $32,850.00 $19,499.21
Total 474 $34,419.57 $28,875.00 $17,075.66

Capitolul 3

Corelaţia

Aspecte teoretice - recapitulare

Corelaţia statisticǎ este utilǎ pentru a analiza legătura dintre douǎ variabile aleatoare,
cantitative sau ordinale.
Corelaţia este mǎsuratǎ de regulǎ cu ajutorul unuia dintre urmǎtorii coeficienţi:
11
• coeficientul de corelaţie “ro” al lui Pearson
• coeficientul de corelaţie al lui Spearman
• coeficientul de corelaţie “tau” al lui Kendall.
Coeficientul lui Pearson se foloseşte numai atunci când ambele variabile luate în studiu sunt
cantitative (metrice). Ceilalţi doi coeficienţi se pot folosi atât pentru variabile metrice, cât şi ordinale
(ei mai sunt numiţi şi coeficienţi de corelaţie neparametrici).

Coeficientul de corelaţie al lui Pearson (notat cu ρ) se determină după formula:

ρ=
∑( x 1 − m1 )( x 2 − m 2 )
nσ 1σ 2

unde cu m şi σ s-au notat mediile, respectiv abaterile standard ale celor douǎ variabile, iar cu n
numǎrul de cazuri din eşantion.

Coeficientul de corelaţie ρ poate lua valori cuprinse în intervalul [-1; 1]. Analiza sa
presupune luarea în calcul a trei elemente:
• valoarea absolută a coeficientului. Cu cât aceasta este mai aproape de 1, cu atât
corelaţia este mai strânsă. Valoarea 0 (zero) înseamnǎ absenţa oricǎrei corelaţii.
• semnul coeficientului. Valorile pozitive indică o legătură directă între variabile, iar
valorile negative o legătură indirectă.
• semnificaţia coeficientului. Aceasta poate fi determinatǎ cu ajutorul testului t.
Valoarea acestui test pentru coeficientul de corelaţie se calculeazǎ cu formula:

n −2
t =ρ
1− ρ2

Atenţie! Un coeficient de corelaţie mare nu indică neapărat existenţa unei legături de


cauzalitate între cele două variabile; pur şi simplu ne arată faptul că două fenomene “merg
împreună”, fără a fi în mod necesar interdependente.

Coeficientul de corelatie al lui Spearman (numit şi coeficient de corelaţie al rangurilor) se


determinǎ cu formula:

6∑Di2
S =1−
n(n 2 −1)

unde D este diferenţa rangurilor observate în cele douǎ variabile ordinale.

Coeficientul de corelaţie a rangurilor este cuprins între 0 şi 1. Cu cât este mai apropiat de 1,
cu atât legǎtura dintre variabile este mai puternicǎ.
Şi pentru coeficientul lui Spearman se poate calcula statistica t, în vederea determinǎrii
gradului de semnificaţie. Formula este urmǎtoarea:

12
S n −2
t=
1−S 2

Coeficientul de corelaţie Kendall (notat cu τ) se calculeazǎ cu expresia:

2C
τ=
n −n
2

unde cu C am notat aici suma scorurilor pentru toate cele n(n-1)/2 combinatii posibile. Scorul este
considerat +1 ori de câte ori o combinaţie este concordantǎ (are acelaşi clasament) şi -1 ori de câte
ori o combinaţie este discordantǎ (clasamentele diferǎ).
Coeficientul lui Kendall ia valori între -1 şi 1. Interpretarea sa este exact la fel ca aceea a
coeficientului Pearson.

Analiza corelaţiei în SPSS

În cele ce urmeazǎ vom studia procedurile din programul SPSS utilizate pentru calculul
coeficienţilor de corelaţie. Vom folosi din nou, ca şi în capitolul anterior, variabilele din fişierul
Employee data.sav.
Sǎ presupunem cǎ ne intereseazǎ legǎtura dintre salariul actual al anagajaţilor din bancǎ şi
nivelul lor de educaţie (exprimat în ani de studii). salariul de început al lucrătorilor din bancă. Pentru
a calcula coeficienţii de corelaţie apelăm comanda:

Analyze > Correlate > Bivariate

Odată ce SPSS-ul deschide caseta de dialog pentru calculul corelaţiei, selectǎm din fereastra
din dreapta variabilele care ne interesează (cel puţin două). În cazul nostru, ele vor fi salary şi educ.
Dacă alegem trei sau mai multe variabile pentru această analiză, programul ne va calcula corelaţile
dintre aceste variabile luate două câte două. Apoi cerem programului sǎ calculeze toţi cei trei
coeficienţi de corelatie (Pearson, Spearman şi Kendall). Toate celelalte opţiuni care ne intereseazǎ
sunt deja selectate; aşadar, putem apăsa butonul OK pentru a rula analiza.

Output-ul se prezintă în felul următor:

Correlations
Current Salary Educational Level
(years)
Current Salary Pearson Correlation 1.000 .661
Sig. (2-tailed) . .000
N 474 474
Educational Pearson Correlation .661 1.000
Level (years)
Sig. (2-tailed) .000 .
N 474 474
** Correlation is significant at the 0.01 level (2-tailed).

Correlations

13
Current Educational
Salary Level (years)
Kendall's Current Salary Correlation 1.000 .554
tau_b Coefficient
Sig. (2- . .000
tailed)
N 474 474
Educational Level Correlation .554 1.000
(years) Coefficient
Sig. (2- .000 .
tailed)
N 474 474
Spearman's Current Salary Correlation 1.000 .688
rho Coefficient
Sig. (2- . .000
tailed)
N 474 474
Educational Level Correlation .688 1.000
(years) Coefficient
Sig. (2- .000 .
tailed)
N 474 474
** Correlation is significant at the .01 level (2-tailed).

Primul tabel conţine valoarea coeficientului Pearson, iar cel de-al doilea valorile
coeficienţilor de corelaţie neparametrici.
Interpretarea în detaliu a datelor din aceste tabele va fi fǎcutǎ la seminar. Aici dorim doar sǎ
subliniem urmǎtorul lucru; pentru fiecare coeficient de corelaţie, SPSS-ul calculeazǎ automat
valoarea “Sig”, cu ajutorul cǎreia putem stabili dacǎ respectivul coeficient este semnificativ sau nu.
Dacă parametrul “Correlation Sig.” este mai mic decât nivelul de semnificaţie ales iniţial de noi (de
regulǎ 5%), atunci putem accepta faptul că avem de-a face cu o corelaţie semnificativǎ statistic.
Dupǎ cum se poate observa, programul SPSS marchează cu două asteriscuri (**) valorile
semnificative la un nivel de 0.01 (sau 1%). Valorile semnificative la un nivel de 0.05 (sau 5%) sunt
marcate cu un singur asterisc (*).

Capitolul 4

Teste statistice

14
Aspecte teoretice - recapitulare

În cadrul studiilor statistice, suntem adesea interesaţi în a compara mediile unei variabile pentru
douǎ populaţii diferite (pentru a vedea dacǎ existǎ diferenţe semnificative între ele), sau media
unui eşantion cu media populaţie din care province acesta (pentru a vedea dacǎ eşantionul este
reprezentativ pentru populatia din care face parte). În acest scop putem folosi fie testul z, fie
testul t.

Testul z

Testul z se foloseşte atunci când cunoaştem dispersia populaţiei din care provine eşantionul
studiat (lucru care se întâmplǎ rareori).
Fǎrǎ a intra în toate aspectele de detaliu privind testarea unei ipoteze statistice, vom reaminti
doar principiul de bazǎ al testului z: valoarea calculatǎ a statisticii z se comparǎ cu cea tabelarǎ
(aleasǎ în functie de nivelul de semnificaţie dorit). Dacǎ valoarea calculatǎ este mai mare decât cea
tabelarǎ (în valoare absolutǎ), atunci vom respinge ipoteza nulǎ şi vom spune cǎ existǎ diferenţe
semnificative între grupurile studiate. În caz contrar vom accepta ipoteza nulǎ, afirmând cǎ
diferenţele sunt nesemnificative.
Sǎ ne amintim acum modul de calcul al statisticii z.
Atunci când se pune problema comparǎrii medie unui eşantion cu media populaţiei din care a
fost extras, statistica z se calculeazǎ cu formula:

m−µ
zc =
σm

unde m este media eşantionului, μ este media întregii populaţii, iar σm este abaterea de selecţie
(explicatǎ în capitolul 2).
Dacǎ trebuie sǎ comparǎm mediile a douǎ grupuri diferite, vom folosi urmǎtoarea formulǎ:

m1 − m2
zc =
σ m1−m 2

nde m1 şi m2 sunt mediile celor douǎ eşantioane, iar la numitor se gǎseşte o abatere pǎtraticǎ
(estimatǎ) a diferenţelor dintre aceste medii, calculatǎ astfel:

σ 12 σ 22
σ m1− m 2 = +
n1 n2

σ1 şi σ2 fiind, desigur, abaterile standard ale celor douǎ grupuri.

I. Testul t

În marea majoritate a situaţiilor din realitate, nu cunoaştem dispersia populaţiei din care
provine eşantionul, aşadar testul z nu ne mai este util. Vom folosi aşadar testul t.
În analiza statisticǎ sunt cunoscute trei tipuri de test t: univariat, bivariat pe eşantioane
independente şi bivariat pe eşantioane perechi. Le vom descrie pe scurt în rândurile ce urmeazǎ.
15
A. Testul t univariat (pentru un singur eşantion)

Acest test se foloseşte pentru a compara media unui eşantion cu media populaţiei totale,
atunci când cunoaştem doar media populaţiei (nu şi dispersia).
Statistica t se calculeazǎ, pentru acest caz, exact la fel ca statistica z:

m−µ
tc =
sm

Diferenţa constǎ în faptul cǎ abaterea de selecţie (valoarea de la numitor) nu se mai


calculeazǎ pornind de la abaterea standard a populatie (σ) – care este necunoscutǎ – ci de la o
estimare a acestei abateri (s). Aşadar, formula pentru sm este:

s
sm =
n

(n fiind volumul eşantionului).

B. Testul t bivariat pe eşantioane independente

Acest test este folosit pentru a detecta existenţa unor diferenţe semnificative între mediile a
două eşantioane (grupuri) independente. Valoarea statisticii t calculate este:

m1 − m2
tc =
s m1− m 2

unde abaterea standard a diferenţelor se calculeazǎ astfel:

1 1
s m1−m 2 = s c +
n1 n 2

sc fiind la rândul sǎu determinat cu expresia:

s12 (n1 − 1) + s 22 ( n2 − 1)
sc =
n1 + n2 − 1

C. Testul t bivariat pe eşantioane perechi

Două eşantioane se numesc perechi sau dependente atunci când modul de alegere a unităţilor
unui eşantion este determinat de modul de alegere a unităţilor celuilalt. Între unităţile din două
eşantioane perechi se poate stabili o corespondenţă biunivocă. Statistica t utilizatǎ pentru evaluarea
semnificatiei diferentei dintre medii se calculeazǎ cu formula:

16
_
d
t=
sd / n

_
unde d este media diferenţelor di dintre valorile perechi, iar sd este abaterea pǎtraticǎ a acestor
diferenţe.

Utilizarea programului SPSS pentru testul t

Fişierul pe care-l vom folosi un aceastǎ secţiune este tot Employee data.sav. Vom ilustra în
continuare, cu ajutorul a câte unui exemplu, modul de analizǎ pentru fiecare din cele trei tipuri de
test t.

A. Testul t univariat

Să presupunem că deţinem urmǎtoarea informatie: că salariul mediu al unui angajat dintr-o


bancǎ americanǎ este de 36000 de dolari. Respectă eşantionul nostru (de 474 de angajaţi) condiţia de
reprezentativitate din acest punct de vedere? Dacă o respectă, atunci salariul mediu pe acest eşantion
nu va fi semnificativ diferit de cel de la nivelul populaţiei. În unul din capitolele anterioare am
calculat acest salariu mediu şi am văzut că era egal cu 34419.57 dolari. Să vedem dacă este
semnificativ diferit de cel de 36000 de dolari. Vom fixa pentru studiul nostru un nivel de
semnificaţie de 5%, adică un nivel de încredere de 95%.

Pentru a rula testul t univariat vom apela comanda:

Analyze > Compare Means > One-Sample T Test

În casetaă de dialog care apare, în fereastra “Test Variable(s)” vom introduce variabila
salary, iar în câmpul “Test Value” com introduce valoarea 36000. Apăsând butonul OK obţinem
urmǎtorul tabel:

One-Sample Test
Test Value = 36000

t df Sig. (2- Mean 95% Confidence Interval of the


tailed) Difference Difference

Lower Upper
Current -2.015 473 .044 -$1,580.43 -$3,121.60 -$39.27
Salary

Coloana a patra a acestui tabel este cea mai importantă, deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este următoarea: dacă valoarea
lui “Sig.” din această coloană este mai mică decât nivelul de semnificaţie ales de noi, atunci vom
respinge ipoteza nulă (cu alte cuvinte, vom afirma că între cele două valori există o diferenţă
semnificativă); în caz contrar, vom accepta ipoteza nulă.

17
Întrucât avem 0.044<0.05 vom respinge ipoteza nulă şi vom spune că salariul mediu pe
eşantion este semnificativ diferit de salariul mediu pe populaţia totală, cu un nivel de încredere de
95%. Aşadar, eşantionul nu poate fi considerat reprezentativ din acest punct de vedere.

B. Testul t bivariat pentru două eşantioane independente

Să presupunem, că dorim să verificăm dacă salariul mediu al bărbaţilor din bancă este
semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe eşantioane
independente, apelat cu comanda:

Analyze > Compare Means > Independent-Samples T Test

În fereastra “Test Variables” vom introduce din nou variabila salary, iar în câmpul
“Grouping Variable” vom introduce variabila gender. Observăm că se activează butonul Define
Groups. Dacă îl apăsăm se deschide o nouă casetă de dialog. Aici, în câmpul “Group 1” vom
introduce “m” (fără asteriscuri), iar în câmpul “Group 2” vom introduce “f” (deasemenea fără
asteriscuri). Apăsăm butonul Continue şi observăm că în câmpul “Grouping Variable” din prima
casetă de dialog apare: “gender(‘m’ ‘f’)”. În acest fel am definit cele două eşantioane. Apăsăm OK
pentru a rula analiza.

Iată o porţiune (cea mai relevantǎ) din tabelul de analiză pe care ni-l furnizeazǎ SPSS-ul:

Independent Samples Test


Levene's Test for t-test for Equality of Means
Equality of Variances

F Sig. t df Sig. (2-tailed)

Current Equal 119.669 .000 10.945 472 .000


Salary variances
assumed
Equal 11.688 344.262 .000
variances
not
assumed

Informaţiile din acest tabel vor fi comentate şi interpretate la seminar.

C. Testul t bivariat pentru două eşantioane perechi

Să presupunem în continuare că dorim să determinăm dacă există o diferenţă semnificativă


între salariul mediu iniţial al lucrătorilor şi salariul mediu actual. Testul t pentru eşantioane perechi
ne este de util în acest scop. Procedura pe care trebuie sǎ o apelǎm este:

18
Analyze > Compare Means > Paired-Samples T Test

Acum va trebui să introducem în fereastra “Paired Variables” variabilele supuse analizei.


Vom selecta simultan (folosind butonul CTRL al tastaturii) variabilele salary şi salbegin. Apăsând
OK obţinem următorul output:

Paired Samples Test


Paired Differences t df Sig. (2-
tailed)

Mean Std. Std. Error


Deviation Mean

Pair 1 Current $17,403.48 $10,814.62 $496.73 35.036 473 .000


Salary -
Beginning
Salary

Să privim ultima coloanǎ: avem acolo valoarea parametrului “Sig”, utilizat pentru aprecierea
semnificaţiei statistice. Întrucât acest parametru este mai mic decât 0.05, vom deduce că între
salariul actual şi cel iniţial există o diferenţă semnificativă. Media acestei diferenţe pentru populaţia
totalǎ (17403.48 dolari) poate fi gǎsitǎ din coloana a treia a tabelului.

Capitolul 5

Operaţii cu date şi variabile

Se pot întâlni în practicǎ foarte multe situaţii în care, înainte de a trece la analiza statisticǎ
propriu-zisǎ, este necesar sǎ operǎm o serie de transformǎri sau modificǎri asupra datelor şi/sau
variabilelor din baza de date. Aceasta se întâmplǎ fie din cauzǎ cǎ analistul este interesat doar de un
anumit segment al datelor (un anumit subgrup din populaţia totalǎ), fie din cauzǎ cǎ informaţiile din
baza de date nu sunt prezente în forma cea mai convenabilǎ pentru analist.
Iatǎ câteva posibile exemple de astfel de situaţii:
• dorim sǎ analizǎm corelaţia dintre anumite variabile pe un singur segment al angajaţilor
(de pildǎ, numai pentru angajaţii bǎrbaţi);
• dorim sǎ obţinem anumite informaţii statistice, simultan, pentru mai multe segmente de
angajaţi (de exemplu, atât pentru bǎrbaţi, cât şi pentru femei) în scopul de a compara mai
uşor aceste informaţii;
• dorim sǎ creem o nouǎ variabilǎ pornind de la una sau mai multe variabile deja existente
(de exemplu, avem numǎrul de ore lucrate pe lunǎ şi salariul orar, şi dorim sǎ le înmulţim
pentru a calcula salariul lunar);
• dorim sǎ transformǎm o variabilǎ numericǎ într-una categorialǎ (de exemplu, pentru a-i
împǎrţi pe angajaţi în trei grupuri: cu salarii mici, medii şi mari);
• dorim sǎ sortǎm datele dupǎ un anumit criteriu (de exemplu, sǎ-i sortǎm pe angajaţi în
funcţie de nivelul de educaţie).
19
În continuare, vom vedea cum se rezolvǎ efectiv problemele de acest fel cu ajutorul
facilitǎţilor disponibile în programul SPSS. Baza de date folositǎ va fi, ca şi în capitolele precedente,
Employee data.sav.

Sortarea datelor

Este una din cele mai simple operaţiuni cu datele. Ea ne permite sǎ sortǎm cazurile din baza
de date, ascendent sau descendent, în functie de variabila pe care am ales-o. Aceastǎ variabilǎ poate
fi numericǎ sau categorialǎ.
Sortarea se realizeazǎ apelând comanda:

Data > Sort Cases

În fereastra din dreapta a casetei de dialog se introduc variabilele dupǎ care se face sortarea.
Dacǎ dorim, de exemplu, sǎ-i sortǎm pe angajati dupǎ saalriu şi categorie, un ordine ascendentǎ),
vom selecta variabilele salary şi jobcat, precum şi opţiunea “Ascending”. La final, angajaţii se vor
regǎsi grupaţi pe cele trei categorii profesionale (funcţionari, salariaţi, manageri), iar în cadrul
fiecǎrei categorii vor fi ierarhizaţi în ordinea crescǎtoare a salariilor.
Sortarea este utilǎ, de exemplu, dacǎ dorim sǎ aplicǎm procedura Explore (vezi capitolul 2)
pe un grup anume de angajaţi – de exemplu, cei care au salariul mai mic sau cel mult egal cu 50000
de dolari pe an. Prin comanda Sort Cases vom ordona angajaţii dupǎ salariu, în mod ascendent, iar
apoi vom rula procedura Explore numai pentru acele cazuri care îndeplinesc condiţia noastrǎ.

Selectarea cazurilor

Să presupunem în cele ce urmeazǎ că ne interesează, dintr-un anumit motiv, sǎ rulǎm o serie


de analize statistice numai pentru angajaţii de sex masculin. În acest caz va trebui ca din eşantion să
selectăm doar salariaţii care aparţin acestui grup. Pentru a face acest lucru vom folosi comanda:

Data > Select Cases

SPSS-ul deschide o casetă de dialog pentru selectare. În partea dreaptă vom alege opţiunea
“If condition is satisfied” şi vom apăsa butonul If. Se deschide o nouă casetă în care vom introduce
condiţia noastră sub forma: gender=”m” (aşadar, urmează să fie reţinuţi doar salariaţii bărbaţi).
Apăsăm butonul Continue şi apoi OK.

Observăm că acele cazuri din baza de date pentru care are loc gender=”f” (aşadar, cele
corespunzătoare salariaţilor femei) au fost “barate” (aşadar vor fi excluse de la analiză). Mai mult, în
partea din dreapta jos a ferestrei SPSS-ului se poate citi menţiunea “Filter on”, ceea ce înseamnă că
respectivei baze de date i-a fost aplicat un filtru.

Să calculăm acum, cu titlu de exemplu, coeficientul de corelaţie între salariul de început şi


cel actual la nivelul unui acestui “segment” al populaţiei noastre – angajaţii bǎrbaţi.
Aplicăm procedura pentru analiza corelaţiei, aşa cum a fost prezentatǎ în capitolul 3, şi
obţinem urmǎtorul rezultat:

Correlations

20
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).

Se observǎ cǎ numǎrul total de cazuri pentru care a fost rulatǎ analiza este de 258 (aşadar,
numai salariaţii de sex masculin)..

Pentru a înlǎtura filtrul definit pentru o bazǎ de date, atunci când nu mai avem nevoie de el,
va trebui sǎ apelǎm din nou comanda:

Data > Select Cases

În caseta de dialog care apare se selectează opţiunea “All cases” şi apoi se apasă butonul
OK.

Divizarea fişierului

Să presupunem că într-o bazǎ de date oarecare cazurile pot fi împǎrţite în 10 subgrupuri


distincte, iar cercetǎtorul doreşte sǎ ruleze o anumitǎ analizǎ pentru fiecare subgrup în parte. Dacǎ ar
folosi procedura de selectare a cazurilor, descrisǎ anterior, ar trebui sǎ repete aceastǎ procedurǎ de
10 ori, ceea ce ar fi incomod. Pentru a evita acest lucru, el poate utiliza o comandǎ de divizare a
fişierului (“file split”) pusǎ la dispoziţie de SPSS.
Dacǎ este necesarǎ, de exemplu, determinarea coeficientul de corelaţie dintre salariul iniţial
şi cel actual atât pentru bǎrbaţi, cât şi pentru femei, se va apela mai întâi la comanda de divizare a
fişierului:

Data > Split File

Apare din nou o casetă de dialog, în care vom selecta opţiunea “Compare Groups”. În
fereastra denumită “Groups Based on” vom introduce variabila gender. Odată ce apăsăm butonul
OK, vom observa că în partea din dreapta jos a ferestrei SPSS apare menţiunea “Split File On”.
Rulând din nou comanda pentru analiza corelaţiei obţinem douǎ tabele, câte unul pentru fiecare
subgrup analizat:

Gender = Female

Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .759**
Salary Correlation . .000
Sig. (2-tailed)

21
N 216 216
Beginning Pearson .759** 1.000
Salary Correlation .000 .
Sig. (2-tailed)
N 216 216
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Female

Gender = Male

Correlations
Current Salary Beginning Salary
Current Pearson 1.000 .860**
Salary Correlation . .000
Sig. (2-
tailed)
N 258 258
Beginning Pearson .860** 1.000
Salary Correlation .000 .
Sig. (2-
tailed)
N 258 258
** Correlation is significant at the 0.01 level (2-tailed).
a Gender = Male

Atunci când fişierul este “divizat” în funcţie de o anumitǎ variabilǎ, toate analizele statistice
vor fi rulate pe subgrupuri, în funcţie de valorile respectivei variabile.
Pentru a transforma un fişier “divizat” într-unul normal, vom apela din nou comanda Split
File, iar în caseta de dialog vom alege opţiunea “Analyze all cases, do not create groups”.

Recodificarea variabilelor

Pot fi imaginate multe situaţii în care este necesar sǎ recodificǎm una dintre variabilele din
baza de date. Sǎ ne gândim, de exemplu, la un posibil caz în care dorim sǎ transformǎm o variabilǎ
numericǎ într-una categorialǎ.
Să presupunem că dorim să constatǎm dacă există o diferenţă semnificativă între salariul
mediu al lucrătorilor cu studii medii (maxim 12 ani) şi cel al lucrătorilor cu studii superioare (peste
12 ani). Întrucât variabila education nu este categorială, ci numerică, va trebui să o recodificăm.
Pentru aceasta vom executa comanda:

Transform > Recode > Into Different Variables

Am ales opţiunea “Into Different Variables” deoarece dorim sǎ pǎstrǎm şi valorile iniţiale
ale variabilei respective. În caz contrar, am fi ales opţiunea alternativǎ “Intro Same Variables”.
In fereastra principală a casetei de dialog vom introduce variabila pe care dorim să o
recodificăm – educ – iar în câmpul din dreapta introducem numele noii variabile create – o vom
22
numi educ2 – şi apoi apăsăm butonul Change pentru a salva această nouă variabilă. Ea va fi ulterior
variabila după care vom face gruparea în cadrul testului t. Apăsăm apoi butonul Old and New
Values.
Noua casetă de dialog ne permite recodificarea valorii vechii variabile. Astfel, salariaţilor
care au maxim 12 ani de studii le vom atribui codul 1, iar celor care au peste 12 ani le vom atribui
codul 2. După terminarea operaţiunii de recodificare apăsăm butonul Continue şi apoi OK. SPSS-ul
a salvat în baza de date variabila educ2, care are numai două valori: 1 şi 2.
În aceste condiţii, este foarte uşor sǎ rulǎm testul t pentru compararea mediilor a douǎ
grupuri independente, utilizând pentru grupare noua variabilǎ categorialǎ educ2.

Calcularea valorilor unei noi variabile

În cazul în care avem nevoie, pentru analizǎ, de o variabilǎ care nu existǎ ca atare în baza de
date, dar ale cǎror valori pot fi calculate utilizând variabilele existente, programul SPSS ne dǎ
posibilitatea de a obţine aceastǎ nouǎ variabilǎ.
În baza noastrǎ de date existǎ douǎ variabile care se referǎ la vechimea angajatului. Este
vorba de jobtime (vechimea la locul de muncǎ actual) şi prevexp (experienţa anterioarǎ). Ambele
sunt exprimate în luni. Sǎ presupunem cǎ dorim sǎ calculǎm experienţa totalǎ a angajaţilor,
însumând pur şi simplu valorile acestor douǎ variabile. Pentru aceasta apelǎm comanda:

Transform > Compute

În câmpul din dreapta sus al casetei de dialog vom introduce numele noii variabile (de
exemplu, exper). Apoi vom introduce în fereastra din dreapta expresia de calcul a noii variabile:
jobtime + prevexp.
Dupǎ ce apǎsǎm butonul OK, programul creazǎ noua variabilǎ exper.

Comanda Compute poate fi folositǎ şi în alte scopuri. Programul ne pune la dispoziţie un


numar foarte mare de funcţii predefinite (circa 70), funcţii care pot fi utilizate cu variabilele
numerice, şir de caractere sau datǎ. De exemplu, dacǎ avem douǎ variabile, conţinând prenumele şi
numele angajaţilor, putem utiliza funcţia CONCAT (concatenare) pentru a creea o nouǎ variabilǎ
care sǎ conţinǎ numele complet al angajatului.

Capitolul 6

Teste neparametrice

Testele neparametrice reprezintǎ o categorie aparte de teste statistice, folosite în situatia în


care datele implicate în analizǎ sunt de tip categorial, cum ar fi sexul, mediul de viaţă (urban/rural),
tipul de cafea preferat etc.

23
Aspecte teoretice - recapitulare

Testele neparametrice pe care le vom studia la acest curs sunt: testul binomial, testul hi
pǎtrat, testul de normalitate Kolmogorov-Smirnov, testele Mann-Whitney şi Wilcoxon W pentru
compararea a douǎ eşantioane independente, testul Wilcoxon Z pentru compararea a douǎ
eşantioane perechi. Sǎ le prezentǎm în continuare pe scurt.

1. Testul binomial

Acest test este folosit în cazul variabilelor categoriale care pot lua doar două valori (cum ar
fi, de exemplu, sexul). Rolul lui este de a compara proporţia celor două valori în eşantion cu
proportia din populaţia totală sau cu o altă proporţie teoretică dată.
Întrucât, pentru un volum suficient de mare al eşantionului, distribuţia binomialǎ poate fi
aproximatǎ cu una normalǎ, testul binomial se realizeazǎ cu ajutorul statisticii z. Formula de calcul a
acesteia este:

p −π p −π
zc = =
sp p ( p −1) n

unde p este proporţia observatǎ, iar π este proporţia teoreticǎ. Valoarea calculatǎ a statisticii z se
comparǎ cu cea tabelarǎ corespunzǎtoare nivelului de semnificaţie dorit de cercetǎtor.

2. Testul hi pǎtrat (χ2)

Acest test se folosşte atunci când studiem variabile categoriale având trei sau mai multe
categorii. Existǎ douǎ tipuri de teste hi pǎtrat: univariat şi bivariat.
Testul hi pǎtrat univariat este folosit pentru a compara o distribuţie observatǎ cu una
teoreticǎ şi a determina dacǎ existǎ diferenţe între cele douǎ distribuţi. Iatǎ formula de calcul a
statisticii χ2, cazul univariat:

(Oi − Ti ) 2
k
χ =∑2

i =1 Ti

unde cu Oi s-au notat valorile observate ale distribuţie, iar cu Ti valorile teoretice.
Valoarea teoreticǎ a statisticii hi pǎtrat se cautǎ în tabele corespunzǎtor nivelului de semnificaţie ales
şi numǎrului de grade de libertate (acesta este numǎrul de categorii al variabilei minus unu).
Testul hi pǎtrat bivariat este folosit pentru a studia legǎtura dintre douǎ variabile categoriale.
Statistica se calculeazǎ cu formula:

(Oij − Tij ) 2
χ = ∑∑
2
c
i j Tij

Dacǎ aceastǎ valoare este mai mare decât valoarea tabelarǎ (teoreticǎ) vom putea afirma cǎ
existǎ o legǎturǎ între variabilele studiate; în caz contrar, vom spune cǎ ele sunt independente.
La fel ca la testul hi pǎtrat bivariat, valoarea teoreticǎ depinde de nivelul de semnificaţie şi
numǎrul de grade de libertate. Acesta din urmǎ se determinǎ cu relatia: (K-1)(L-1), unde cu K şi L am notat
numǎrul de categorii ale celor douǎ variabile.

24
3. Testul de normalitate Kolmogorov-Smirnov

Acest test comparǎ o distribuţie observatǎ cu una normalǎ şi ne spune dacǎ respectiva distribuţie
poate fi consideratǎ normalǎ sau nu. Aparatul matematic utilizat pentru efectuarea acestui test este destul de
complicat; ca urmare, nu vom insista aici asupra formulelor matematice.

4. Testul Mann-Whitney (U) pentru compararea a douǎ eşantioane independente

Testul mann-Whitney este echivalentul testului t pe eşantioane independente studiat la


capitolul 4. El se utilizează atunci când avem de-a face cu variabile ordinale.
Pentru a efectua testul Mann-Whitney se calculeazǎ doua valori ale lui U, în felul urmǎtor:

U1 = n1n2 + n1(n1 + 1)/2 – R1


U2 = n1n2 + n2(n2 + 1)/2 – R2

În aceste formule, cu n s-au notal volumele eşantioanelor, iar cu R sumele rangurilor pentru
grupurile 1 şi 2, respectiv (valorile celor douǎ grupuri se amestecǎ, sunt ordonate crescǎtor, iar apoi
rangurile sunt a atribuite începând de la 1). Statistica U se alege ca fiind cea mai micǎ dintre valorile
U1 şi U2. Se poate demonstra cǎ aceastǎ statisticǎ urmeazǎ o repartiţie aproximativ normalǎ. Scorul z
se calculeazǎ cu formula:

U − µU
zc =
σU

unde μ este media lui U, iar σ este abaterea sa pǎtraticǎ. Ele se calculeazǎ astfel:

n1 n2
µU =
2
n1 n2 (n1 + n 2 + 1)
σU =
12

5. Testul Wilcoxon W

Testul W al lui Wilcoxon se foloseşte în acelaşi scop ca şi testul U, fiind o alternativǎ la


acesta. La fel ca la testul Mann-Whitney valorile celor douǎ grupuri se amestecǎ şi se ordoneazǎ
crescǎtor, iar apoi sunt acordate rangurile începând de la 1 pânǎ la cel mai mare (suma volumelor
eşantioanelor). Nici la acest test nu vom insista asupra formulelor matematice folosite.

6. Testul Wilcoxon Z

Acest test, care mai poartǎ şi denumirea de “testul semnului şi al rangului” este folosit pentru
a determina dacǎ douǎ eşantioane dependente (perechi) sunt diferite sau nu. Din acest punct de
vedere este asemǎnǎtor cu testul t pentru eşantioanele perechi, dar se utilizeazǎ atunci când variabila
studiatǎ este ordinalǎ.
Pentru a rula acest test, valorile variabilei sunt ordonate, iar fiecǎrei valori i se atribuie un
rang afectat de un semn. Suma rangurilor (notatǎ cu T) este repartizatǎ dupǎ distribuţia t, calculatǎ
cu formula:
25
T − µT
tc =
σT

Media şi abaterea pǎtraticǎ se calculeazǎ cu ajutorul expresiilor de mai jos (n este volumul
eşantionului):

n(n + 1)
µT =
4

n( n +1)( 2n +1)
σU =
24

Utilizarea programului SPSS pentru testele neparametrice

În cadrul acestei secţiuni vom utiliza, alǎturi de fişierul Employee data.sav (cu care suntem
deja familiarizaţi), alte douǎ baze de date Prima dintre ele este voter.sav, care conţine date
înregistrate pe un eşantion de 1847 de alegători americani, privitoare la alegerile prezidenţiale din
1992 din SUA. A doua bazǎ de date este 1991 U.S. General Social Survey.sav, unde gǎsim
rezultatele unei anchete de opinie realizatǎ în Statele Unite în anul 1991, pe un eşantion de 1517
persoane. Toate aceste baze de date conţin variabile categoriale şi ordinale utile scopului nostru.

I. Testul binomial

Pentru a demonstra aplicarea acestui test vom folosi fişierul voter.sav. Să presupunem că
dorim să verificăm dacă proporţia bărbaţi/femei în acest eşantion de alegători americani corespunde
cu cea presupusǎ a fi întâlnită în populaţia totală (50/50). Vom utiliza comanda:

Analyze > Nonparametric Tests > Binomial

În fereastra “Test Variable List” vom introduce variabila sex. În câmpul “Test Proportion”
se află trecută deja valoarea 0.50, reprezentând distribuţia teoretică (50/50) cu care vom compara
distribuţia din eşantion. Dacă distribuţia teoretică este alta, vom schimba desigur variabila din acest
câmp.
În partea din stânga jos a casetei de dialog se observă un cadran intitulat “Define
Dichotomy” cu două opţiuni: “Get From Data” şi Cut Point”. Dacă variabila cu care lucrăm este
una categorială, va rămâne selectată prima opţiune (cea implicită). Dacă variabila este cantitativă, o
putem transforma într-una categorială alegând opţiunea a doua şi indicând valoarea unde se face
diviziunea dintre cele două categorii. De exemplu, dacă s-ar pune problema să testăm proportia
alegătorilor în vârstă de peste 40 de ani, am alege opţiunea “Cut Point” şi am introduce în câmpul
respectiv valoarea 40.
Odată ce apăsăm butonul OK, SPSS-ul ne dă rezultatul analizei:

Binomial Test
Category N Observed Test Prop. Asymp.
Prop. Sig. (2-
26
tailed)
RESPONDE Group 1 male 804 .44 .50 .000
NTS SEX
Group 2 female 1043 .56
Total 1847 1.00
a Based on Z Approximation.

Se poate observa că din 1847 de alegători din eşantion, 804 (44%) sunt bărbaţi, iar 1043
(56%) sunt femei. Regula de decizie este cea cunoscută: dacă valoarea lui “Sig.” este mai mică decât
nivelul de semnificaţie ales (0.05), atunci putem spune că există o diferenţă semnificativă între cele
două proporţii. Este şi cazul nostru de faţă: nu putem afirma că proporţia bărbaţi femei din eşantion
o reproduce pe cea din populaţia totală – femeile predomină într-o proporţie semnificativă.

II. Testul hi pǎtrat univariat

Baza de date folositǎ pentru acest test va fi tot voter.sav. Dorim să analizăm acum distribuţia
intenţiilor de vot pentru candidaţii Clinton, Bush sau Perot (variabila pres92). Testul hi pǎtrat
univariat ne va spune dacǎ voturile tind a se îndrepta în mod hotǎrâtor cǎtre unul din candidaţi sau
dacǎ, dimpotrivǎ, tind a se împǎrţi în mod egal între cei trei candidaţi. Pentru a rula acest test apelăm
comanda:

Analyze > Nonparametric Tests > Chi-Square

În fereastra “Test Variable List” introducem variabile pres92. Observăm apoi că în cadranul
“Expected Values” ni se dă posibilitatea să definim distribuţia teoretică cu care vom face
comparaţia. Dacă dorim ca ea să fie o echirepartiţie, vom selecta opţiunea “All Categories Equal”
(aceasta corespunde cazului teoretic în care intenţiile de vot s-ar împărţi egal între cei trei candidaţi).
În caz contrar, vom introduce pe rând valorile distribuţiei teoretice folosind opţiunea “Values”.
Apăsând butonul OK obţinem:

VOTE FOR CLINTON, BUSH, PEROT


Observed Expected Residual
N N
Bush 661 615.7 45.3
Perot 278 615.7 -337.7
Clinton 908 615.7 292.3
Total 1847

Test Statistics
VOTE FOR CLINTON,
BUSH, PEROT
Chi-Square 327.341
df 2
Asymp. .000
Sig.
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell
frequency is 615.7.

În primul tabel observăm valorile distribuţiei reale (coloana a doua), cele ale distribuţiei
teoretice, care sunt egale (coloana a treia), precum şi diferenţele dintre ele.

27
În tabelul al doilea avem datele analizei. Valoarea lui hi pătrat este 327.341, iar numărul de
grade de libertate este 2 (numarul categoriilor variabilei minus unu). Întrucât “Sig.” este mai mic
decât 0.05, putem spune că între cele două distribuţii există diferenţe semnificative. Cu alte cuvinte,
intenţiile de vot nu tind a se împărţi egal între candidaţi; părerea lor este deja formată, iar
majoritatea opţiunilor merg spre Bill Clinton, după cum se poate observa din primul tabel.

III. Testul hi pǎtrat bivariat

În cele ce urmeazǎ, vom deschide fişierul Employee data.sav şi vom studia relaţia dintre
variabilele gender şi jobcat (categoria angajatului). Întrucât ambele variabile sunt categoriale va
trebui sǎ folosim testul hi pǎtrat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere
programului sǎ realizeze un tabel încrucişat, cu ajutorul comenzii (vezi capitolul 2):

Analyze > Descriptive Statistics > Crosstabs

Apǎsǎm butonul Statistics, iar în noua casetǎ de dialog care se deschide selectǎm opţiunea
Chi-square. Rezultatele analizei se gǎsesc în tabelele ce urmeazǎ.

Gender * Employment Category Crosstabulation


Count
Employment Total
Category
Clerical Custodial Manager
Gender Female 206 10 216
Male 157 27 74 258
Total 363 27 84 474

Chi-Square Tests
Value df Asymp. Sig. (2-
sided)
Pearson Chi-Square 79.277 2 .000
Likelihood Ratio 95.463 2 .000
N of Valid Cases 474
a 0 cells (.0%) have expected count less than 5. The minimum expected count is 12.30.

Din cel de-al doilea tabel ne intereseazǎ cu precǎdere prima linie, care prezintǎ rezultatele
testului hi patrat. Întrucât valoarea “Sig” este mai micǎ decât 0.05, vom deduce cǎ existǎ o legǎturǎ
între cele douǎ variabile. Aşadar, bǎrbaţii si femeile nu sunt repartizaţi proporţional pe cele trei
categorii profesionale (funcţionari, paznici şi manageri).

IV. Testul de normalitate Kolmogorov-Smirnov


28
Să ne întoarcem la baza de date voter.sav. Problema pe care ne-o punem acum este dacǎ
variabila educ (nivelul studiilor respondenţilor, exprimat în ani) se prezintǎ sub forma unei
distribuţii normale. Pentru aceasta vom apela comanda:

Analyze > Nonparametric Tests > 1 Sample K-S

În caseta de dialog deschisǎ vom introduce variabila educ ca variabilǎ de analizǎ. În chenarul
“Test Distribution” este deja selectatǎ distribuţia normalǎ; apǎsǎm aşadar butonul OK şi obţinem
urmǎtorul tabel:

One-Sample Kolmogorov-Smirnov Test


HIGHEST YEAR OF
SCHOOL COMPLETED
N 1845
Normal Parameters Mean 13.93
Std. 2.84
Deviation
Most Extreme Differences Absolute .134
Positive .134
Negative -.133
Kolmogorov-Smirnov Z 5.749
Asymp. Sig. (2-tailed) .000
a Test distribution is Normal.
b Calculated from data.

Interpretarea datelor din acest tabel se va face la ora de seminar.

V. Testul Mann-Whitney pentru eşantioane independente

Vom folosi în continuare baza de date voter.sav. Vom presupune cǎ ne intereseazǎ dacă
bărbaţii şi femeile din eşantion diferă în mod semnificativ între ei sub aspectul studiilor. Pentru
aceasta vom folosi variabila degree, care este una ordinală (0 corespunde sudiilor medii, iar 4
studiilor superioare). Vom apela comanda:

Analyze > Nonparametric Tests > 2 Independent Samples

În fereastra “Test Variable List” introducem variabile degree, iar în câmpul “Grouping
Variable” variabila sex. Apoi apăsăm butonul Define Groups şi definim cele două grupuri exact
cum am făcut pentru testul t bivariat pentru eşantioane independente (vezi capitolul 3). În cadranul
“Test Type” este deja selectat testul Mann-Whitney (U), aşa încât apăsăm butonul OK şi obţinem:

Test Statistics
RS HIGHEST DEGREE
Mann-Whitney U 409502.000
Wilcoxon W 953948.000
Z -.932
Asymp. Sig. (2-tailed) .351
a Grouping Variable: RESPONDENTS SEX

29
Acest tabel este cel mai important pentru analiză, deoarece ne dă semnificaţia testului. Se
observǎ cǎ programul ne furnizeazǎ şi valoarea testului W al lui Wilcoxon. Regula de decizie este
cea cu care ne-am obisnuit deja: trebuie să comparăm valoarea lui “Sig.” cu cea a nivelului de
semnificaţie ales de noi (0.05). Întrucât aici avem 0.351>0.05, vom tage concluzia că bărbaţii si
femeile nu diferă între ei în ceea ce priveşte nivelul de educaţie. Dacă diferenţa ar fi fost
semnificativă, atunci sensul ei ar fi fost dat de semnul notei Z de pe rândul patru al tabelului.

VI. Testul Wilcoxon Z pentru eşantioane perechi

Pentru a exemplifica acest test vom deschide fişierul 1991 U.S. General Social Survey.sav.
Vom lua în considerare urmǎtoarele variabile din baza de date: obey (cât de importantǎ este pentru
respondent supunerea, ascultarea de autoritǎţi) şi popular (cât de important este faptul de a fi
popular, de a fi iubit şi apreciat). Dorim sǎ vedem dacǎ existǎ o diferenţǎ untre aceste douǎ variabile
atitudinale.
Deoarece aici nu avem de-a face cu variabile cantitative, ci mai degrabǎ ordinale, este
necesar sǎ apelǎm la testul semnului şi al rangului (testul Z al lui Wilcoxon) pentru a rezolva
problema. Comanda utilizatǎ este:

Analyze > Nonparametric Tests > 2 Related Samples

La fel ca la testul t pe eşantioane perechi (capitolul 4), trebuie sǎ introducem în fereastra din
dreapta a casetei de dialog perechile de variabile care fac obiectul comparaţiei (în cazul nostru, obey
– popular). Se observǎ cǎ un caseta “Test Type” este deja selectat testul wilcoxon, singurul care ne
intereseazǎ în acest moment. Apǎsând butonul OK obţinem urmǎtorul rezultat:

Ranks
N Mean Sum of Ranks
Rank
To Be Well Liked Negative Ranks 205 337.99 69288.00
or Popular - To
Obey
Positive Ranks 777 532.00 413365.00
Ties 0
Total 982

Test Statistics
To Be Well Liked or Popular - To Obey
Z -19.742
Asymp. Sig. (2-tailed) .000

Interpretarea în detaliu a tabelelor o vom face la seminar. Aici vom observa doar cǎ existǎ o
diferenţǎ semnificativǎ între cele douǎ variabile (statistica “Sig” este mai micǎ decât 0.05). Sensul
diferenţei este dat de semnul scorului Z. Se observǎ cǎ acest semn este minus. Întrucât pentru fiecare
din cei doi itemi scorul creşte pe mǎsurǎ ce importanţa scade (1 – cel mai important, 5 – cel mai
puţin important) deducem cǎ pentru americani este mai important a fi popular decât a te supune în
faţa autoritǎţilor.

30
Capitolul 7

Populaţie şi eşantion

În ştiinţele sociale, populaţia totală supusă studiului are cel mai adesea dimensiuni foarte
mari – de ordinul miilor, sutelor de mii sau chiar milioanelor de unităţi (aceste unitǎţi pot fi persoane
individuale, familii/gospodǎrii sau organizaţii). Întrucât efectuarea unor studii pe întreaga populaţie
ar fi foarte costisitoare, se apelează de regulă la cercetările statistice conduse pe un eşantion de
volum mult mai redus decât cel al populaţiei totale.

Două probleme se pot pune în legătură cu eşantionarea:


- determinarea erorii de estimare a unui parametru (de regulă media unei variabile), pe care
ne-o permite un eşantion dat şi
- stabilirea volumului eşantionului care permite estimarea parametrului cu o eroare maximă
impusă.

Să presupunem că dintr-o populaţie totală formată din N unităţi se extrage un eşantion de volum
n. Modul de calcul al indicatorilor statistici, atât pentru populaţia totală cât şi pentru eşantion, este
prezentat în tabelul următor:

Caracteristică nealternativă
Populaţia totală (N) Eşantion (n)
N n

Media:
∑x i
Media:
∑x i
µ= i =1
m= i =1

N n
N n

Dispersia: ∑ ( xi − µ ) 2 Dispersia:
∑ (x i − m) 2
σ2 = i =1
s2 = i =1

N n −1

Caracteristică alternativă
Populaţia totală (N) Eşantion (n)
Media: π (frecvenţa de apariţie a stării “da” Media: p (frecvenţa de apariţie a stării “da”
sau 1 în populaţia totală) sau 1 în eşantion)

Dispersia: σ 2 = π (1 − π ) Dispersia: s2=p(1-p)

Tabelul 1. Parametrii populaţiei şi cei ai eşantionului

Se observă că pentru a nota parametrii populaţiei totale am folosit caractere greceşti, iar
pentru cei ai eşantionului caractere latine.
31
Media eşantionului m este un estimator (mai mult sau mai puţin precis) pentru media
populaţiei totale μ, care de regulă nu este cunoscută. Diferenţa E=m- μ poartă numele de eroare de
estimare. Pe aceasta ne interesează să o determinăm.
Teoria statistică ne spune că dacă o variabilă are o distribuţie normală de medie μ şi dispersie
σ2, atunci mediile (m) ale eşantioanelor de volum dat n vor avea tot o distribuţie normală, de medie
μ şi dispersie σ2/n (aceasta poartă numele de dispersie de selecţie). Proprietatea aceasta este foarte
importantă pentru eşantionare.
Să reprezentăm curba normală a distribuţiei mediilor eşantioanelor de volum n:

N(μ, σ2/n)

95%

2.5% 2.5%

μ-E μ μ+E

Figura 1. Curba normală a distribuţiei mediilor eşantioanelor de volum n

Eroarea de estimare E este de regulă fixată (impusă) de către cercetător. Intervalul simetric
(μ –E, μ +E) poartă numele de interval de încredere. Aria suprafaţei de sub bolta curbei lui Gauss
care corespunde acestui interval se numeşte nivel de încredere. Nivelul de încredere ne arată cu ce
probabilitate garantăm estimarea noastră. În ştiinţele sociale se foloseşte de obicei un nivel de
încredere de 95%, ceea ce înseamnă că putem garanta în proporţie de 95% că eroarea de estimare nu
va depăşi nivelul E fixat. Cu alte cuvinte, există un risc de 5% ca eroarea reală să depăşească această
limită. Acest risc mai poartă denumirea de nivel de semnificaţie al studiului.

Cum vom estima eroarea în condiţiile în care nu-l cunoaştem pe μ? Făcând apel la scorurile z
. Pentru media m a unui eşantion oarecare, scorul z se calculează astfel:

m−µ
z=
σ/ n

Întrucât dispersia populaţiei totale nu este de regulă cunoscută, ea se estimează cu ajutorul


unei anchete preliminare pe un eşantion pilot de 30-200 de persoane. Se presupune că dispersia s2 a
acestui eşantion aproximează dispersia σ2 a populaţiei. În acest caz putem rescrie ultima formulă:

32
m −µ
z=
s/ n

De aici putem determina cu uşurinţă eroarea m- μ pe care n-o asigură un eşantion de volum
dat n:

s
E=z
n

În ceea ce-l priveşte pe z, îl vom prelua din tabelele statistice. precizăm că vom folosi în
exemplele noastre un nivel de încredere al cercetării de 95.44%, căruia îi corespunde o valoare z=2.
Dacă dorim să estimăm media populaţiei cu o eroare maximă admisibilă E, volumul
eşantionului necesar pentru aceasta se calculează cu următoarea formulă (dedusă din cea anterioară):

z2s2
n=
E2

În cazul în care avem de-a face cu o caracteristicǎ alternativǎ, formula este aceeaşi; se
schimbǎ doar modalitatea de calcul a dispersiei (vezi tabelul 1):

z 2 p (1 − p )
n=
E2

Să dǎm acum douǎ exemple concrete de calcul al volumului eşantionului: unul pentru
caracteristicile cantitative, altul pentru cele alternative.

Exemplul 1

Să presupunem că din cei 5000 de lucrători ai unei mari companii se extrag în mod aleator
100. Media de vârstă a eşantionului extras (m) este de 44 de ani, iar abaterea medie pătratică (s) de
15 ani. Se pune întrebarea care este eroarea cu care media acestui eşantion estimează media de
vârstă a lucrătorilor din companie, cu un nivel de încredere de 95.44% (z=2).

Un calcul simplu, cu ajutorul formulei de determinare a erorii prezentate mai sus, ne arată că
această eroare este de 3 ani. Aşadar, putem spune că media de vârstă a lucrătorilor este situată între
41 şi 47 de ani (44±3), cu un nivel de încredere de 95.44%.
Dacă această eroare de 3 ani este mult prea mare şi nu poate fi toleratǎ, va trebui sǎ mǎrim
volumul eşantionului. Să presupunem că se doreşte estimarea vârstei medii a lucrătorilor cu o eroare
maximă admisibilă (E) de numai 1 an.
În urma calculelor, utilizând formula de determinare a volumului eşantionului, rezultǎ că
volumul eşantionului ar trebui să fie de 900 de lucrători, adică de 9 ori mai mare decât cel iniţial.

Exemplul 2

La fel ca la exemplul 1, desfǎşurǎm studiul nostru într-o companie cu 5000 de angajaţi, din
care alegem la întâmplare 100. Dintre aceştia, 62 sunt cǎsǎtoriţi (62%), iar 38 necǎsǎtoriţi. Aplicând

33
formula de calcul a erorii, ajungem la concluzia cǎ acest eşantion aproximeazǎ procentajul
angajaţilor cǎsǎtoriţi cu o eroare de ±9.7% (52.3%-71.7%). Dacǎ dorim o eroare de estimare mai
redusǎ, de exemplu 5%, volumul eşantionului de studiu trebuie sǎ fie de 377 de angajaţi.

Eşantionarea aleatoare în SPSS

Dacǎ dorim ca dintr-o bazǎ de date de mari dimensiuni sǎ extragem un mod aleatoriu un
numǎr de cazuri, putem face acest lucru cu ajutorul comenzii de filtrare cunoscute:

Data > Select Cases

În caseta de dialog pe care ne-o prezintǎ programul selectǎm opţiunea Random sample of
cases şi apǎsǎm butonul Sample. Se deschide o nouǎ casetǎ, în care ni se oferǎ douǎ posibilitǎţi:
• sǎ extragem un anumit procent din totalul cazurilor
• sǎ extragem un numǎr exact de cazuri.
Dupǎ ce ne exprimǎm opţiunea, SPSS-ul alege în mod aleator cazurile care din eşantion şi le
“bareazǎ” pe cele excluse.
Sǎ presupunem cǎ dorim sǎ extragem aleatoriu circa 25% cei 474 angajaţi din fişierul
Employee data.sav. În urma efectuǎrii paşilor descrişi mai sus, SPSS-ul a selectat circa 118 cazuri
din total. Toate analizele statisitce vor fi rulate acum doar pentru aceste cazuri.
Pentru a elimina filtrul, procedǎm aşa cum am arǎtat la capitolul 5: executǎm din nou
comanda Data > Select Cases şi alegem opţiunea All cases.

Capitolul 8

Analiza de regresie

Aspecte teoretice - recapitulare

Analiza de regresie studiază legătura dintre o variabilă dependentă şi una sau mai multe
variabile independente, prin intermediul unei ecuaţii de regresie. În cadrul cursului de faţǎ vom
discuta doar despre regresia liniarǎ, a cǎrei ecuaţie are forma:

y = b0 + b1 x1 + b2 x 2 + ... + bk x k + e

unde:

- y este variabila dependentă (numită şi cauzată sau endogenă);


- x1, …, xk sunt variabilele independente (numite şi cauzale sau exogene);
- b0 este aşa-numitul “termen liber”;
- b1, …, bk sunt coeficienţii (sau parametrii) de regresie;

34
- e este numită variabilă reziduală sau de perturbaţie. Apariţia sa în modelele de regresie se
datoarează faptului că relaţia dintre variabila dependentă şi cele independente nu este una
strictă, deterministă, ci una statistică. Pentru fiecare unitate din eşantion, variabila reziduală
se calculează ca diferenţă între valoarea reală (sau observată) a lui y şi cea calculată (sau
estimată) prin ecuaţia de regresie de mai sus. Variabila e “colectează” aşadar influenţele
tuturor factorilor necunoscuţi sau întâmplători, dificil de estimat, precum şi erorile de
măsurare.

Toate variabilele care intervin într-o analizǎ de regresie sunt variabile cantitative (metrice). Dacă
existǎ o singură variabilă independentă în model, vorbim de o regresie simplă, iar dacă intervin două
sau mai multe variabile independente avem de-a face cu o regresie multiplă.

Rezultatele cele mai importante ale unei analize de regresie sunt:

- coeficienţii (sau parametrii de regresie). Aceştia ne arată cu cât se modifică variabila


dependentă în urma modificării cu o unitate a uneia din variabilele independente.
- coeficientul de corelaţie multiplă (notat R2), care ne arată procentajul din variaţia lui
y care este “explicat” de influenţa variabilelor independente. De pildă, o valoare a lui
R2 de 0.90 ne indică faptul că evoluţia variabilei y este determinatǎ în proporţie de
90% de variabilele independente x1, …, xk, iar restul de 10% se explică prin alte
influenţe, neluate în considerare în model.
- valoarea testului F. Acest test verificǎ existenţa unei dependenţe liniare între
variabila y şi variabilele independente. În cazul în care testul F este nesemnificativ,
legǎtura ar putea sǎ nu fie liniarǎ.
- valoarea testelor de semnificaţie pentru coeficienţii de regresie. Dacă parametrul de
regresie al uneia din variabilele independente nu diferă semnificativ de 0, este posibil
ca variabila respectivă să fie redundantă.

Într-o serie de situaţii particulare, pot fi introduse în modelel de regresie şi anumite variabile
calitative (nemetrice), şi anume variabilele de tip dummy. O variabilă dummy este o variabilă care
poate lua doar două valori (da/nu, bărbaţi/femei, mediu urban/mediu rural etc.), notate convenţional
cu 1 şi 0. Desigur, ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummy,
dar acest lucru ar duce la o serie de inconveniente. O asemenea variabilă poate fi utilizată într-o
ecuaţie de regresie în acelaşi mod ca o variabilǎ cantitativǎ.

Analiza de regresie în SPSS

În exemplul de analiză de regresie ce urmeazǎ vom folosi tot baza de date Employee
data.sav. Ca variabilă dependentă vom considera salariul actual (salary), iar ca variabile
independente salariul de început (salbegin), vechimea în bancă (jobtime) şi nivelul de educaţie
(educ). Pentru a rula analiza de regresie vom apela comanda:

Analyze > Regression > Linear

În câmpul “Dependent” introducem variabila salary, iar în câmpul “Independent(s)”


introducem cele trei variabile independente. Apăsăm OK pentru a rula analiza.

Iată tabelele de output care ne interesează:


35
Model Summary
Model R R Square Adjusted R Std. Error
Square of the
Estimate
1 .895 .801 .800 $7,646.00
a Predictors: (Constant), Educational Level (years),
Months since Hire, Beginning Salary
b Dependent Variable: Current Salary

În acest tabel ne este prezentat un sumar al analizei. Cea mai interesantă pentru noi este
penultima coloană, unde putem vedea coeficientul de corelaţie multiplă, egal cu 0.80 pentru această
analiză. Aceasta înseamnă că salariul curent al unui lucrător este determinat în proporţie de 80% de
cele trei variabile independente şi în proporţie de 20% de alte influenţe, neluate în calcul aici.

ANOVA
Model Sum of df Mean F Sig.
Squares Square
1 Regression 11043969433 3 368132314 629.703 .000
9.523 46.508
Residual 27476801096 470 58461278.9
.817 29
Total 13791649543 473
6.340
a Predictors: (Constant), Educational Level (years), Months since Hire, Beginning Salary
b Dependent Variable: Current Salary

Acest tabel ne prezintă rezultatele analizei ANOVA pentru modelul nostru de regresie. Dupǎ
cum spuneam în secţiunea anterioara, testul F ne aratǎ dacă ipoteza relaţiei liniare între variabilele
noastre este corectă. Regula de decizie este simplă: ipoteza relaţiei liniare este corectă dacă valoarea
factorului “Sig.” din ultima coloană este mai mică decât nivelul de semnificaţie ales de noi (0.05).
În caz contrar, va trebui să luăm în considerare construirea unui alt tip de relaţii (neliniară) între
variabilele în cauză.

Coefficients
Unstandar Standardiz t Sig.
dized ed
Coefficient Coefficient
s s
Model B Std. Error Beta
1 (Constant) - 3236.616 -6.175 .000
19986.502
Beginning 1.689 .058 .779 29.209 .000
Salary
Months 155.701 35.055 .092 4.442 .000
since Hire
Education 966.107 157.924 .163 6.118 .000
al Level
(years)
a Dependent Variable: Current Salary

36
Din acest tabel ne interesează cu precădere două coloane: cea a coeficienţilor (a treia) şi cea
a valorii testelor de semnificaţie pentru coeficienţi (ultima). Aici putem observa că toţi coeficienţii
sunt semnificativi (valorile factorilor “Sig.” sunt mai mici decât 0.05). Ecuaţia noastră de regresie se
scrie astfel:

salary = -19986.502 + 1.689 * salbegin + 155.701 * jobtime + 966.107 * educ + e

Pe baza acestei ecuaţii putem face diverse analize asupra variabilei dependente (salariul
curent), în funcţie de ceea ce ne interesează mai mult. Astfel, putem constata că:
- dacă doi lucrători au aceeaşi vechime în bancă şi acelaşi nivel de educaţie, dar unul şi-a
început slujba cu un salariu cu 1000 de dolari mai mare, acesta din urmă va avea acum (în
medie) un salariu anual cu 1689 dolari mai mare decât celălalt;
- un lucrător care are o vechime mai mare cu 10 luni decât celălalt va avea un salariu cu cca
1557 de dolari mai mare, dacă toate celelalte (salariul iniţial şi nivelul de educaţie) sunt
aceleaşi;
- orice an în plus adăugat la nivelul de educaţie se traduce într-un spor mediu de salariu de cca
966 dolari.

Residuals Statistics
Minimum Maximum Mean Std. Deviation N
Predicted Value $16,662.55 $145,355.69 $34,419.57 $15,200.31 474
Residual -$29,580.63 $49,218.41 $.00 $7,780.02 474
Std. Predicted -1.168 7.298 .000 1.000 474
Value
Std. Residual -3.794 6.313 .000 .998 474
a Dependent Variable: Current Salary

Sǎ introducem acum în nodelul nostru o variabilǎ de tip dummy. Pentru aceasta vom
transforma prin recodificare variabila gender în variabila dummy gendum, care are valorile 1 pentru
bărbaţi şi 0 pentru femei. Apoi vom rula din nou analiza de regresie, introducând variabila gendum
alături de cele douǎ variabile independente iniţiale.
Tabelele de output sunt următoarele:

Model Summary
Model R R Square Adjusted R Std. Error
Square of the
Estimate
1 .896 .802 .800 $7,631.68
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary

ANOVA
Model Sum of df Mean F Sig.
Squares Square
1 Regressio 11060072 4 27650181 474.742 .000
n 4690.831 172.708
Residual 27315770 469 58242581.
745.509 547
Total 13791649 473
37
5436.340
a Predictors: (Constant), GENDUM, Months since Hire, Educational Level (years),
Beginning Salary
b Dependent Variable: Current Salary

Coefficients
Unstandar Standardiz t Sig.
dized ed
Coefficient Coefficient
s s
Model B Std. Error Beta
(Constant) - 3246.282 -5.993 .000
19455.828
Beginning 1.656 .061 .763 27.143 .000
Salary
Months 151.152 35.097 .089 4.307 .000
since Hire
Education 942.136 158.286 .159 5.952 .000
al Level
(years)
GENDUM 1325.787 797.334 .039 1.663 .097
Din punctul de vedere al preciziei modelului, introducerea variabilei gendum nu aduce nici o
îmbunătăţire: R2 este acelaşi. Ipoteza liniarităţii modelului se verifică (tabelul al doilea), în schimb
coeficientul variabilei gendum nu este semnificativ (tabelul al treilea, coloana “Sig.”, ultimul rând).
Dacă acceptăm totuşi variabila gendum ca variabilă independentă, putem deduce din valoarea
coeficientului său că bărbaţii au în medie un salariu cu cca 1326 dolari mai mare decât femeile.

Capitolul 9

Analiza de varianţǎ

Aspecte teoretice - recapitulare

Analiza de varianţǎ este o procedurǎ statisticǎ folositǎ pentru a studia relaţia între o variabilǎ
dependentǎ cantitativǎ şi una sau mai multe variabile independente calitative (categoriale). Ea se
mai numeşte şi analiză dispersională sau, prescurtat, ANOVA (acronim de la cuvintele englezeşti
ANalysis Of VAriance).
Atunci când în model este inclusǎ o singurǎ variabilǎ independentǎ (numitǎ şi
factor) vorbim de ANOVA unifactorialǎ, iar dacǎ avem doi sau mai mulţi factori
atunci ne aflǎm în faţa unui model ANOVA multifactorial. Vom trata aceste douǎ
tipuri de analizǎ de varianţǎ separat.

1. ANOVA unifactorialǎ

Analiza de varianţă unifactorialǎ descompune varianţa (sau dispersia) populaţiei studiate în


două componente:
38
- varianţa inter-grupuri (between groups variance), cauzată de diferenţele care există între
mediile grupurilor din populaţia totală (grupuri care sunt de fapt categoriile factorilor);
- varianţa intra-grupuri (within groups variance) care ne arată cât de dispersate sunt, în medie,
valorile individuale ale variabilei în cadrul fiecarui grup.
Cu cât valoarea raportului dintre varianţa inter-grupuri şi cea intra-grupuri este mai mare cu
atât mai mare este influenţa factorului asupra variabilei independente. Aceastǎ influenţǎ se exprimǎ
în mod concret prin diferenţele semnificative dintre mediile pe grupuri ale variabilei dependente.
Acest raport se testează statistic utilizând testul F, denumit astfel după numele statisticianului
britanic Ronald Fisher, creatorul său.

Testul F ne indicǎ faptul cǎ existǎ probabil diferenţe între nivelele factorilor, dar nu ne spune
unde se gǎsesc aceste diferenţe şi cât de mari sunt ele. De asemenea, el nu ne oferǎ o ordonare a
nivelelor factorilor dupǎ influenţa lor asupra vaiabilei dependente.
Aceastǎ problemǎ poate fi rezolvatǎ introducând noţiunea de contrast. Contrastul, notat aici
cu K, este definit ca o combinatie liniarǎ a mediilor grupurilor (nivelelor factorilor).

K = ∑ci mi

unde cu m sunt notate mediile grupului, iar cu c reprezintǎ nişte ponderi care îndeplinesc relaţia:

∑c i =0

Pentru a înţelege cum se stabilesc ponderile la definirea unui contrast, vom apela la un
exemplu. Sǎ presupunem cǎ variabila categorialǎ implicatǎ în model are trei nivele, mediile fiecǎrui
nivel fiind m1, m2 şi m3. Dorim sǎ studiem diferenţa dintre primele douǎ grupuri, luate împreunǎ, şi
grupul al treilea. Ipoteza nulǎ, care afirmǎ cǎ între aceste grupuri nu existǎ nici o diferenţǎ, se
exprimǎ prin relaţia:

m1 + m 2
− m3 = 0
2

Aceastǎ relaţie se poate rescrie astfel:

m1 + m2 − 2m3 = 0

Aşadar, primelor douǎ grupuri le va fi atribuitǎ ponderea 1, iar grupului al treilea ponderea
-2. Suma ponderilor este, desigur, zero.

Dacǎ dorim sǎ estimǎm diferenţele dintre nivelele factorilor în mod simultan, putem folosi
testele de comparaţie multiplǎ. Programul SPSS ne pune la dispoziţie multe teste de acest fel. Unele
dintre ele se folosesc atunci când varianţele grupurilor sunt presupuse a fi egale (Sidak, Bonferroni,
LSD, Scheffe, Tukey etc.) iar altele atunci când varianţele sunt presupuse a fi diferite (Tamhane,
Games-Howell). Pentru a şti ce teste trebuie folosite, programul SPSS ne oferǎ rezultatul testului F
al lui Levene pentru egalitatea varianţelor.

39
În cadrul orelor de seminar vom demonstra în detaliu modul de utilizare a procedurilor SPSS
pentru ANOVA unifactorialǎ.

2. ANOVA multifactorialǎ

Aceastǎ tehnicǎ de analizǎ a datelor se foloseşte atunci când avem de studiat legǎtura dintre o
variabilǎ dependentǎ numericǎ şi douǎ sau mai multe variabile independente categoriale (factori).
Factorii ce intervin în aceastǎ analizǎ pot fi de douǎ tipuri:
- factori ficşi, al cǎror efect poate fi controlat;
- factori aleatori, al cǎror efect este incontrolabil.
Alǎturi de factori, în model pot apǎrea şi covariatele. Aceste covariate sunt variabile de tip
numeric presupuse a fi corelate cu variabila dependentǎ. Prin introducerea covariatelor se verificǎ
dacǎ factorii ficşi au influenţǎ asupra variabilei dependente indiferent de acţiunea factorilor
covarianţi.
Un model de analizǎ ANOVA multifactorial poate fi de douǎ feluri:
- complet (full factorial), atunci când conţine toate efectele posibile şi toate
combinaţiile de factori;
- modificat (custom), atunci când, un vederea simplificǎrii modelului, sunt luate în
considerare numai efectele unor anumiţi factori sau combinaţii de factori.
Efectele studiate în cadrul unui model pot fi:
- efecte principale;
- efecte ale interacţiunii dintre variabile.

Ca şi în cazul modelului unifactorial, este posibilǎ determinarea diferenţelor dintre nivelele


factorilor, cu ajutorul contrastului. În programul SPSS sunt disponibile urmǎtoarele tipuri de
contraste:
- Deviation: comparǎ media fiecǎrui nivel cu media generalǎ. Nivelurile factorilor pot fi în
orice ordine;
- Simple: comparǎ media fiecǎrui nivel cu media unui nivel specificat. Acest tip de comparaţii
este util atunci când existǎ un grup de control. Se poate alege ca grup de referinţǎ primul sau
ultimul;
- Difference: comparǎ media fiecarui nivel (cu excepţia primului) cu cea a nivelelor
anterioare;
- Helmert: compara media fiecǎrui nivel (cu excepţia ultimului) cu cea a nivelelor urmǎtoare;
- Repeatet: comparǎ media fiecǎrui nivel (cu exceptia ultimului) cu cea a nivelului urmǎtor;
- Polynomial: comparǎ efectele liniar, patratic, cubic etc. Primul grad de libertate contine
efectul liniar comparat cu toate categoriile; al doilea grad de libertate efectul patratic, etc.
Aceste comparatii sunt deseori folosite pentru estimarea trend-urilor polinomiale.

De asemenea, dacǎ dorim sǎ comparǎm simultan media variabilei dependente pe diverse


nivele ale factorilor, putem face acest lucru cu ajutorul analizei post-hoc. De reţinut totuşi cǎ atât
contrastele, cât şi comparaţiile multiple se realizeazǎ numai pentru factorii care au cel puţin trei
nivele.

Analiza de varianţǎ în SPSS

40
În aceastǎ secţinue vom da câte un exemplu pentru fiecare din cele douǎ tipuri de analizǎ de
varianţǎ: unifactorialǎ şi multifactorialǎ.

I. ANOVA unifactorialǎ

În cadrul bazei de date Employee data.sav vom analiza diferenţele între salariul mediu pe
cele trei categorii de lucrători (variabila jobcat): 1 – “clerical” (funcţionari), 2 – “custodial”
(paznici) şi 3 – “manager”. Pentru aceasta trebuie sǎ utilizǎm analiza de varianţǎ unifactorialǎ.
De asemeenea, ne mai intereseazǎ urmǎtoarele lucruri:
- sǎ comparǎm între ei salariaţii, cu paznicii, lǎsându-i la o parte pe manageri;
- sǎ comparǎm managerii cu “non-managerii”;
- sǎ comparǎm simultan mediile celor trei grupuri.
Vom merge în meniu la:

Analyze > Compare Means > One-Way ANOVA

În fereastra “Dependent List” introducem variabila studiată (salary), iar în câmpul “Factor”
variabila jobcat. Procedând astfel, ne asigurǎm cǎ programul va compara mediile celor trei grupuri,
în mod global.
Pentru a compara mediile grupurilor care ne intereseazǎ, în mod separat, apǎsǎm butonul
Contrasts. Caseta de dialog care se deschide ne permite sǎ definim oricâte contraste dorim. Noi
avem nevoie de douǎ contraste, astfel:
- un prim contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, -1 pentru paznici
şi 0 pentru manageri;
- un al doilea contrast pentru care valorile coeficienţilor vor fi: 1 pentru salariaţi, 1 pentru
paznici şi -2 pentru manageri.
Pentru a defini un nou contrast, se apasǎ butonul Next.
În final, sǎ apăsăm butonul Post Hoc pentru a deschide o caseta de dialog pentru testele de
comparaţie multiplă. Selectăm testul Bonferroni, apoi apăsăm butonul Continue. În final, apăsăm
OK pentru a rula analiza.

Tabelele de output arată în felul următor:

ANOVA
Current Salary
Sum of Squares df Mean Square F Sig.
Between 89438483925.943 2 44719241962.971 434.481 .000
Groups
Within 48478011510.397 471 102925714.459
Groups
Total 137916495436.340 473

Contrast Tests

Contras Value of Std. Error t df Sig. (2-


t Contrast tailed)
Current Assume equal 1 -$3,100.35 $2,023.76 -1.532 471 .126
Salary variances

41
2 - $2,999.47 -23.063 471 .000
$69,178.1
7
Does not 1 -$3,100.35 $568.68 -5.452 93.072 .000
assume equal
variances
2 - $4,021.75 -17.201 86.389 .000
$69,178.1
7

Multiple Comparisons
Dependent Variable: Current Salary
Bonferroni
Mean Std. Error Sig. 95% Confidence Interval
Difference (I-
J)
(I) (J) Lower Bound Upper Bound
Employme Employme
nt nt
Category Category
Clerical Custodial -$3,100.35 $2,023.76 .379 -$7,962.56 $1,761.86
Manager -$36,139.26 $1,228.35 .000* -$39,090.45 -$33,188.07
Custodial Clerical $3,100.35 $2,023.76 .379 -$1,761.86 $7,962.56
Manager -$33,038.91 $2,244.41 .000* -$38,431.24 -$27,646.58
Manager Clerical $36,139.26 $1,228.35 .000* $33,188.07 $39,090.45
Custodial $33,038.91 $2,244.41 .000* $27,646.58 $38,431.24
* The mean difference is significant at the .05 level.

Analiza în detaliu a cifrelor din aceste tabele o vom face la seminar.

II. ANOVA multifactorialǎ

Sǎ presupunem cǎ ne intereseazǎ sǎ studiem, în baza de date Employee data.sav, care este


legǎtura dintre salariul unui angajat, pe de o parte, şi variabilele: categorie, sex şi minoritate rasialǎ,
pe de altǎ parte. Întruât variabilele independente sunt categoriale, vom folosi analiza de varianţǎ.
Înainte de a trece la rularea analizei propriu-zise, am creat o nouǎ variabilǎ (gendum), care
codificǎ astfel cele douǎ sexe: bǎrbaţi – 1, femei – 0.
Pentru a rula ANOVA multifactorialǎ, selectǎm urmǎtoarea opţiune:
42
Analyze > General Linear Model > Univariate

În câmpul Dependent Variable vom introduce variabila salary, iar în câmpul Fixed Factors,
cele trei variabile independente. Apǎsǎm apoi butonul Model. Observǎm cǎ SPSS-ul ne oferǎ
posibilitatea de a alege modelul complet, sau de a opta pentru un model modificat. În cazul de faţǎ,
numǎrul variabilelor fiind redus, vom rǎmâne la modelul full factorial.
Sǎ apǎsǎm acum butonul Contrasts. Vom cere programului sa ne calculeze contrastele
pentru variabila jobcat (singurul factor cu mai mult de douǎ nivele). Tipul de contrast ales va fi
Simple, nivelul de referinţǎ fiind ultimul – 3 (aşadar, vom compara managerii cu celelate douǎ
categorii de anagajaţi). În final sǎ apǎsǎm butonul Post Hoc şi sǎ-i cerem programului sǎ realizeze
testele de comparaţie multiplǎ pentru aceeaşi variabilǎ jobcat. Testul ales va fi, la fel ca la analiza
precedentǎ, Bonferroni.

Iatǎ tabelele de output care ne intereseaza, şi care vor fi comentate în cadrul orelor de
seminar.

Tests of Between-Subjects Effects


Dependent Variable: Current Salary
Source Type III Sum of Squares df Mean Square F Sig.
Corrected 97506289892.260 8 12188286236.532 140.251 .000
Model
Intercept 144392738098.723 1 144392738098.723 1661.526 .000
JOBCAT 20060883718.826 2 10030441859.413 115.420 .000
MINORIT 61989119.657 1 61989119.657 .713 .399
Y
GENDUM 4756876309.700 1 4756876309.700 54.737 .000
JOBCAT * 690053398.059 2 345026699.030 3.970 .020
MINORITY
JOBCAT * 981526335.890 1 981526335.890 11.294 .001
GENDUM
MINORIT 27977363.932 1 27977363.932 .322 .571
Y*
GENDUM
JOBCAT * .000 0 . . .
MINORITY
*
GENDUM
Error 40410205544.080 465 86903667.837
Total 699467436925.000 474
Corrected 137916495436.340 473
Total
a R Squared = .707 (Adjusted R Squared = .702)

Contrast Results (K Matrix)


Dependent Variable
Employment Category Current Salary
Simple Contrast
Level 1 vs. Level 3 Contrast Estimate -33946.454
Hypothesized Value 0
Difference (Estimate - -33946.454

43
Hypothesized)
Std. Error 1966.958
Sig. .000
95% Confidence Interval Lower -37811.682
for Difference Bound
Upper -30081.226
Bound
Level 2 vs. Level 3 Contrast Estimate -39930.865
Hypothesized Value 0
Difference (Estimate - -39930.865
Hypothesized)
Std. Error 2994.148
Sig. .000
95% Confidence Interval Lower -45814.603
for Difference Bound
Upper -34047.128
Bound
a Reference category = 3

Multiple Comparisons
Dependent Variable: Current Salary
Mean Std. Error Sig. 95%
Difference (I- Confidence
J) Interval
(I) (J) Lower Bound Upper
Employme Employme Bound
nt nt
Category Category
Bonferroni Clerical Custodial -$3,100.35 $1,859.59 .288 -$7,568.33 $1,367.63
Manager -$36,139.26 $1,128.70 .000 -$38,851.16 -$33,427.35
Custodial Clerical $3,100.35 $1,859.59 .288 -$1,367.63 $7,568.33
Manager -$33,038.91 $2,062.33 .000 -$37,994.02 -$28,083.79
Manager Clerical $36,139.26 $1,128.70 .000 $33,427.35 $38,851.16
Custodial $33,038.91 $2,062.33 .000 $28,083.79 $37,994.02

Based on observed means.


* The mean difference is significant at the .05 level.

Capitolul 10

Analiza factorialǎ

44
Aspecte teoretice - recapitulare

Atunci când la adoptarea unei decizii trebuie luat în considerare un număr foarte mare de
variabile, este convenabilă (şi adesea posibilă) reducerea acestui număr prin gruparea variabilelor
iniţiale, fie pe baza corelaţiei ridicate (pozitive sau negative), fie pe baza legăturii logice dintre unele
variabile. În mod concret, analiza factorială de termină un număr de “factori” (de regulă 2-4) care
“sintetizează” informaţia conţinută în variabilele de plecare. Fiecare factor este o combinaţie liniară
a variabilelor care îl alcătuiesc:

Fi = w1i x1 + w2i x 2 +... + wki x k

unde wki arată ponderea cu care participă variabila k la formarea factorului i. Ponderile w sunt
calculate astfel încât să fie îndeplinite următoarele două condiţii:
- suma pătratelor coeficienţilor de corelaţie dintre factorul i şi variabilele x1-xk să fie
maximă (cu alte cuvinte, fiecare factor să fie puternic corelat cu variabilele care îl
compun);
- factorii obţinuţi în final să fie complet necorelaţi doi câte doi (altfel spus, să fie
ortogonali).

Factorii rezultaţi în final vor fi definiţi şi interpretaţi de analist în funcţie de corelaţia lor cu

diversele variabile iniţiale. Trebuie spus aici că analiza factorială reprezintă o combinaţie de

tehnici obiective şi subiective. Programele de analiză statistică prelucrează datele introduse de

cercetător şi reţin un număr de factori relevanţi (după criteriile pe care le vom vedea îndată),

indicând coeficienţii de corelaţie dintre fiecare factor şi variabilele care intervin în model. Din

acest moment intră în joc priceperea şi discernământul analistului: el trebuie să stabilească dacă

între variabilele corelate există o legătură logică şi, pe această bază, să dea fiecărui factor o

interpretare semnificativă şi utilă scopului cercetării.

Spre exemplu, să presupunem că în cadrul unui recensamânt al populaţiei, fiecare cetǎţean este

descris prin variabilele următoare: sexul, vârsta, venitul anual, averea, educaţia, profesia. În mod

natural, variabilele “sex” şi “vârstă” ar putea fi grupate într-un “factor demografic”, variabilele

“venit” şi “avere” într-un factor care s-ar numi “situaţie economică” iar variabilele “educaţie” şi

“profesie” într-un factor numit “statut social”. Astfel, cele şase variabile iniţiale au fost reduse la

45
trei. Întrucât în acest exemplu avem de-a face în special cu variabile calitative, gruparea s-a

realizat în funcţie de asociaţiile logice care se pot face între diversele variabile.

Variabilele cu care se lucrează în analiza factorială sunt variabile cantitative (la fel ca la analiza

de regresie), deşi se pot folosi şi variabile de tip dummy (care iau valorile 0 şi 1).

Rezultatele cheie ale rulării unei analize factoriale sunt:

- matricea corelaţiilor între fiecare factor şi variabilele iniţiale. Aceste corelaţii mai
sunt numite şi încărcările factorilor (“factor loadings”). Pe baza acestor corelaţii,
analistul va stabili variabilele care intră în definiţia fiecărui factor, după cum se va
arăta în exemplul practic de mai jos. Ca regulă generală, fiecare variabilă va fi
atribuită factorului cu care este cel mai puternic corelată (este preferabil ca încărcarea
să fie de peste 0,50 în valoare absolută);
- valorile proprii (“eigenvalues”) ale fiecărui factor. De regulă, programele statistice
reţin pentru analiză acei factori ale căror valori proprii sunt mai mari decât 1; totuşi,
dacă dorim, le putem impune să extragă numărul de factori pe care îl considerăm noi
necesar;
- scorurile factorilor, care reprezintă de fapt ponderile w cu care intervin variabilele de
plecare în formarea factorilor. Cunoscând aceste scoruri putem calcula valorile
factorilor pentru fiecare caz din eşantion în parte. În acest fel, factorii rezultaţi pot fi
trataţi ca noi variabile. Programul SPSS oferă opţiuni de calculare şi salvare a
scorurilor factorilor.

Rezultatele care se obţin din prima extragere a factorilor sunt de cele mai multe ori confuze
şi dificil de interpretat. Acesta este motivul pentru care îi cerem programului să rotească factorii
iniţiali, astfel încât noii factori să fie mai bine corelaţi cu variabilele de plecare şi deci mai uşor de
interpretat.
Pentru a ilustra grafic rotaţia factorilor să considerăm un caz ipotetic în care avem de-a face
cu trei variabile iniţiale (V1, V2 şi V3), pe baza cărora analiza factorială a extras doi factori (F1 şi
F2). Variabilele iniţiale le putem reprezenta ca vectori în spaţiul definit de axele de coordonate F1 şi
F2 (vezi figura din stânga). Corelaţia dintre variabila V1 şi factorul F1, de exemplu, este cu atât mai
bună cu cât vectorul V1 este mai apropiat de axa F1.
Pe graficul din partea stângǎ se observă că F1 este corelat într-o anumită măsură cu V1, dar
slab corelat cu V2 şi V3. Cât despre F2, el nu este corelat satisfăcător cu nici una din cele trei
variabile.

F2 F2
V3 V2 V2
V3 F1
V1 V1
F1

46
Pentru a rezolva aceasta, vom roti axele F1 şi F2 în sens invers acelor de ceasornic, ca în figura

din dreapta (respectând condiţia ca axele F1 şi F2 să rămână ortogonale, adică factorii să fie

necorelaţi între ei). Se vede clar că în urma rotirii factorul F1 este corelat cu variabilele V1 şi

V2, iar factorul F2 cu variabila V3. Interpretarea factorilor are acum mai multe şanse să ne ofere

nişte informaţii utile despre fenomenul analizat.

Analiza factorială îşi găseşte multiple utilizări în cercetarea economicǎ şi socialǎ.

În primul rând, reducerea numărului de variabile simplifică prezentarea concluziilor raportului

de cercetare: este mult mai uşor de parcurs un raport care se concentrează asupra a doi sau trei

factori esenţiali decât unul care ia în discuţie 10-20 de variabile. În plus, gruparea variabilelor

poate pune datele într-o nouă lumină: este posibil ca cercetătorul să detecteze corelaţii pe care nu

le bănuise mai înainte.

În al doilea rând, factorii rezultaţi dintr-o asemenea analiză pot fi folosiţi mai departe; pot fi

incluşi de exemplu într-o analiză de regresie, ca noi variabile. După cum am arătat în secţiunea

anterioară, analiza factorială poate fi utilizată pentru a grupa variabilele redundante care intervin

într-un model de regresie, eliminând astfel fenomenul de multicoliniaritate.

În sfârşit, o aplicaţie foarte utilă a analizei factoriale este gruparea unităţilor populaţiei sau

eşantionului care prezintă valori apropiate ale factorilor. Aceasta este denumită analiză

factorială de tip Q şi este folosită în special în cercetarea de marketing, pentru segmentarea

pieţei sau pentru construirea hărţilor perceptuale (mapping).

47
Analiza factorialǎ în SPSS

Prezentăm în cele ce urmează modul de rulare a unei analize factoriale cu ajutorul


programului SPSS, folosind datele din fişierul World95.sav. Acest fişier conţine o serie de
informaţii cantitative şi calitative din 109 ţǎri ale lumii, la nivelul anului 1995.
Pentru a rula analiza selectǎm:

Analyze > Data Reduction > Factor

Variabilele care intră în analiză sunt:


- populatn (populaţia ţǎrii în mii de locuitori);
- urban (procentajul populaţiei din mediul urban);
- lifeexpm (speranţa de viaţǎ a bǎrbaţilor);
- literacy (procentajul populaţiei alfabetizate);
- babymort (mortalitatea infantilǎ);
- gdp_cap (produsul intern brut pe locuitor);
- calories (numǎrul de calorii zinice asigurate unei persoane).
În continuare vom indica programului opţiunile noastre privind numărul de factori reţinuţi şi
rotaţia factorilor, în felul următor:
- pentru prima opţiune (numărul factorilor extraşi) vom apăsa butonul Extraction şi vom
selecta alternativa Number of factors. În câmpul respectiv introducem valoarea 2 (dorim
sǎ reţinem doi factori pentru analiza noastră). Apoi apăsăm butonul Continue.
- pentru a doua opţiune (rotaţia factorilor) apăsăm butonul Rotation şi cerem utilizarea
metodei de rotaţie Varimax. Apăsăm din nou butonul Continue pentru a merge mai
departe.
- în final, apǎsǎm butonul Save şi selectǎm ambele opţiuni din caseta de dialog respectivǎ
(Save as variables şi Display factor score coeffcient matrix).
Odată ce toate opţiunile sunt stabilite, apăsăm butonul OK pentru a rula analiza.

Iatǎ în continuare tabelele de output rezultate în urma acestei analize.

Total Variance Explained


Initial Extraction Rotation
Eigenvalue Sums of Sums of
s Squared Squared
Loadings Loadings
Compone Total % of Cumulativ Total % of Cumulativ Total % of Cumulative
nt Variance e% Variance e% Variance %
1 4.735 67.638 67.638 4.735 67.638 67.638 4.722 67.455 67.455
2 1.025 14.650 82.287 1.025 14.650 82.287 1.038 14.833 82.287
3 .504 7.201 89.488
4 .341 4.871 94.359
5 .226 3.226 97.585
6 .140 1.996 99.581
7 2.930E-02 .419 100.000
Extraction Method: Principal Component Analysis.

48
Acest tabel prezintǎ valorile proprii ale factorilor (coloana a doua). Coloana “% of Variance”
ne arată în ce măsură explică fiecare factor cele cinci variabile de plecare. În coloana “Cumulative
%” se observă că primii doi factori reţinuţi acoperă 82.29% din varianţa totală a variabilelor iniţiale,
ceea ce este satisfăcător. Analiza poate fi considerată eficientă dacă factorii reţinuţi explică cel puţin
70% din varianţa totală.

Component Matrix
Component
1 2
Population in thousands -9.031E-02 .989
People living in cities (%) .841 -.160
Average male life expectancy .936 .109
People who read (%) .894 7.295E-02
Infant mortality (deaths per -.958 -5.257E-02
1000 live births)
Gross domestic product / .811 -2.736E-02
capita
Daily calorie intake .876 3.297E-02
Extraction Method: Principal Component Analysis.
a 2 components extracted.

Rotated Component Matrix


Component
1 2
Population in thousands -3.205E-02 .993
People living in cities (%) .830 -.209
Average male life expectancy .941 5.361E-02
People who read (%) .897 2.030E-02
Infant mortality (deaths per -.960 3.809E-03
1000 live births)
Gross domestic product / capita .808 -7.493E-02
Daily calorie intake .877 -1.856E-02
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 3 iterations.

Cele douǎ tabele de mai sus prezintǎ coeficienţii de corelaţie dintre variabile şi fiecare din
cei doi factori, înainte şi dupǎ rotirea factorilor. Analizând ambele tabele ajungem uşor la
urmǎtoarele concluzii:
- primul factor este puternic corelat cu toate variabilele, în afarǎ de una singurǎ: mǎrimea
populaţiei;
- al doilea factor este puternic corelat cu mǎrimea populaţiei.
Variabilele cu care este corelat primul factor (procentajul populaţiei urbane, speranţa de
viaţǎ, procentajul populaţie alfabetizate etc.) sunt indicatori ai standardului de viaţǎ din ţara
49
respectivǎ. Deci, factorul 1 îl putem numi “standard de viaţǎ”. În ceea ce priveşte factorul 2, corelat
doar cu mǎrimea populaţiei, îl vom putea numi “mǎrimea ţǎrii”.
Dupǎ cum se poate observa, rotirea factorilor nu aduce, un acest caz particular, o
îmbunǎtǎţire semnificativǎ a rezultatelor finale.

Component Score Coefficient Matrix


Component
1 2
Population in thousands .038 .964
People living in cities (%) .168 -.166
Average male life expectancy .204 .094
People who read (%) .193 .060
Infant mortality (deaths per 1000 -.205 -.039
live births)
Gross domestic product / capita .169 -.037
Daily calorie intake .187 .021
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser
Normalization. Component Scores.

În tabelul de mai sus se gǎsesc coeficienţii asociaţi fiecǎrei variabile, pentru fiecare factor în
parte. Cu ajutorul acestor scoruri SPSS calculează valorile celor doi factori pentru fiecare ţarǎ. La
cererea noastrǎ, programul a salvat aceste scoruri în douǎ variabile separate. Ţinând cont de
semnificaţiile celor doi factori, definite anterior, pe prima variabilǎ am numit-o livstan (“living
standard”), iar pe a doua size (mǎrimea ţǎrii respective). De menţionat cǎ scorurile au fost calculate
numai pentru acele ţǎri pentru care nu existǎ valori lipsǎ ale variabilelor considerate în analizǎ.
Aceste noi variabile pot fi folosite pentru alte analize (de exemplu, o analizǎ de regresie sau
una de tip ANOVA).

Capitolul 11

Analiza cluster

Aspecte teoretice

Analiza cluster este o clasă de tehnici folosite la clasificarea obiectelor şi claselor în grupuri
relativ omogene, numite clustere. Mai este denumită “analiza clasificării”, “analizǎ tipologicǎ” sau
“ştiinţa clasificării numerice”.
În analiza de cluster nu există informaţii a priori despre apartenenţa vreunui obiect la un
grup, nici despre componenţa grupurilor. Grupurile sau clusterele sunt sugerate de date nedefinite
anterior.
Spre deosebire de analiza factorialǎ, care urmǎreşte redyucerea numǎrului de variabile,
analiza clasificǎrii are drept scop sintetizarea datelor prin reducerea numǎrului de indivizi,
grupându-i pe aceştia în clase.

Etapele rulǎrii unei analize cluster sunt urmǎtoarele:

50
1. Alegerea variabilelor folosite la analizǎ. Aceste variabile pot fi de tip metric, interval,
categorial, binomial.

2. Stabilirea indicatorilor de proximitate între indivizi. Pe baza acestor indicatori vor fi


create ulterior clusterele. Pentru variabilele metrice sau interva, se poate folosi distanţa
euclidianǎ sau alte tipuri de distanţe (Minkowski, city block etc.). Dacǎ avem de-a face
cu variabile categoriale, se foloseşte în general hi pǎtrat ca mǎsurǎ a disimilaritǎţii.
Pentru datele binomiale, SPSS-ul ne pune la dispoziţie cca 30 de metode de mǎsurare a
distanţei (proximitǎţii).

3. Alegerea metodei de formare clusterelor. Aceasta va depinde în mod esential de tipul de


clasificare ales. Existǎ douǎ categorii de analize cluster: ierarhicǎ şi neierarhicǎ (sau
nodalǎ). În cazul analizei ierarhice, numǎrul de clustere nu este cunoscut dinainte, ci
urmeazǎ a se stabili ulterior. Pentru acest tip de analizǎ existǎ 7-8 metode (algoritmi) de
formare a grupurilor, printre care: legǎturǎ inter-grupuri, legǎturǎ intra-grupuri, metoda
vecinului cel mai apropiat, metoda Ward etc. Clasificarea neierarhicǎ, în schimb,
presupune stabilirea anticipatǎ a numǎrului de clustere, urmând ca analiza sǎ identifice
indivizii din fiecare cluster. Pentru acest tip de analizǎ existǎ douǎ metode de clasificare:
clasificare simplǎ, pe de o parte, şi iteraţie şi clasificare, pe de altǎ parte. În general, este
bine ca la clasificarea neierarhicǎ sǎ se lucreze cu variabile standardizate, mai ales dacǎ
variabilele iniţiale au unitǎţi de mǎsurǎ foarte diferite.

4. Definirea şi etichetarea (numirea) clusterelor. Aceasta se face , un general, studiind


caracteristicile fiecǎrui cluster şi descriind un profil al indivizilor din fiecare grup un
parte.

5. Validarea clusterelor. Mulţi analişti evitǎ aceastǎ ultimǎ etapǎ, deoarece este dificilǎ şi
nu existǎ o metodǎ standard pentru realizarea sa. O posibilǎ metodǎ de validare este
aceea de a aplica o analizǎ de discriminant pentru clusterele formate şi a vedea dacǎ
aceste clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor
folosite iniţial în clasificare.

În cele ce urmeazǎ vom da douǎ exemple de realizare a analizei cluster, pentru fiecare din
cele douǎ categorii: ierarhicǎ şi nodalǎ.

Realizarea analizei cluster în SPSS

Vom rula o analizǎ cluster de tip ierarhic pe o bazǎ de date numitǎ judete.sav, care cuprinde
o serie de date economico-sociale despre judeţele ţǎrii şi despre municipiul Bucureşti. Din cele 23
de variabile prezente în fişier, am ales pentru analiza cluster circa 10, printre care: populaţia,
suprafaţa, efectivul salariaţilor, salariul brut, numǎrul şomerilor etc. Vom apela urmǎtoarea
comandǎ:

51
Analyze > Classify > Hierachical Cluster

Variabilele de analizǎ vor fi introduse un câmpul Variable(s). Pentru a alege metoda de


grupare, se apasǎ butonul Method. Dintre metodele propuse de SPSS, vom alege Between-group
linkage (gruparea poate fi realizatǎ succesiv prin mai multe metode şi compara eficienţa fiecǎreia).
Întrucâd datele folosite de noi sunt de tip numeric, vom utiliza ca indicator de proximitate distanţa
euclidianǎ.
Sǎ apǎsǎm acum butonul Statistics, pentru a preciza o serie de aspecte legate de outputul
final. În cadranul Cluster Membership selectǎm opţiunea Range of solutions, iar în câmpurile From
şi Through introducem valorile 2 şi 4, respectiv. Aceasta înseamnǎ cǎ îi cerem programului sǎ ne
indice apartenenţa judeţelor la fiecare cluster pentru trei tipuri de soluţii posibile, având fiecare 2, 3
şi 4 grupuri respectiv.
În final, sǎ apǎsǎm butonul Save pentru a-i cere programului sǎ salveze ca variabile soluţiile
finale, cu 2, 3 şi 4 grupuri respectiv (selectǎm exact aceleaşi opţiuni ca la butonul Statistics).

Tabelul cel mai important care se obţine în urma realizǎrii analizei de cluster de tip ierarhic
este cel de mai jos:

Cluster Membership
Case 4 Clusters 3 Clusters 2 Clusters
1:teleorman 1 1 1
2:mehedinti 2 1 1
3:olt 1 1 1
4:arges 3 2 1
5:valcea 1 1 1
6:botosani 1 1 1
7:suceava 3 2 1
8:iasi 3 2 1
9:neamt 1 1 1
10:vaslui 1 1 1
11:bacau 3 2 1
12:vrancea 1 1 1
13:covasna 2 1 1
14:galati 3 2 1
15:braila 1 1 1
16:buzau 1 1 1
17:tulcea 2 1 1
18:harghita 2 1 1
19:constanta 1 1 1
20:calarasi 2 1 1
21:giurgiu 2 1 1
22:prahova 3 2 1
23:ilfov 2 1 1
24:dolj 3 2 1
25:bucuresti 4 3 2
26:mures 3 2 1
27:brasov 3 2 1
28:ialomita 2 1 1
29:bistrita- 2 1 1
nasaud
30:dambovita 1 1 1
31:gorj 1 1 1
52
32:sibiu 1 1 1
33:maramures 1 1 1
34:cluj 3 2 1
35:hunedoara 1 1 1
36:satu-mare 1 1 1
37:alba 1 1 1
38:bihor 3 2 1
39:caras- 2 1 1
severin
40:timis 3 2 1
41:arad 1 1 1
42:salaj 2 1 1

Acest tabel ne indicǎ apartenenţa fiecǎrui judeţ la un cluster, pentru cele trei soluţii posibile
(2-4 clustere). Se observǎ cǎ în fiecare situaţie municipiul Bucureşti aparţine unui cluster separat.
Alte tabele, precum şi dendrograma, vor fi discutate la orele de seminar.
În afarǎ de generarea tabelelor, SPSS-ul a respectat opţiunea noastrǎ de a salva apartenenţa
fiecǎrui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite
pentru a studia ulterior clusterele formate.

Sǎ rulǎm în cele ce urmeazǎ o analizǎ cluster de tip nonierarhic. Vom folosi pentru aceasta
datele din fişierul World995.sav. Variabilele alese pentru analizǎ sunt: populaţia, procentajul
locuitorilor de la oraşe, speranţa de viaţǎ pentru bǎrbaţi şi femei, procentajul populaţiei alfabetizate,
PNB-ul pe locuitor şi numǎrul mediu de calorii asigurat zilnic unei persoane. Întrucât unitǎţile de
mǎsurǎ sunt foarte diferite, am standardizat în prealabil toate aceste variabile. Pentru a realiza
analiza, vom apela comanda:

Analyze > Classify > K-Means Cluster

Mai întâi vom introduce în câmpul Variables valorile standardizate generate anterior, iar în
câmpul Label Cases by vom introduce variabile country.
Numǎrul de opţiuni disponibil aici este mult mai mic decât cel de la analiza tipologicǎ
ierarhicǎ. În câmpul Number of clusters introducem valoarea 3 (aşadar, îi impunem programului) sǎ
genereze trei grupuri). Metoda de grupare aleasǎ va fi Iterate and classify. Rǎmâne acum sǎ
precizǎm o serie de elemente ale outputului final, astfel:
- apǎsǎm butonul Save şi selectǎm opţiunea Cluster membership (aceasta înseamnǎ cǎ
programul va salva apartenenţa la clustere într-o variabilǎ categorialǎ);
- apǎsǎm butonul Options şi selectǎm opţiunea Cluster information for each case.

Iatǎ cele mai importante tabele generate de aceastǎ analizǎ cluster.

Cluster Membership
Case COUNTRY Cluster Distance
Number
1 Afghanistan . .
2 Argentina 2 1.215
3 Armenia . .
4 Australia 2 1.349
5 Austria 2 1.665
53
6 Azerbaijan . .
7 Bahrain . .
8 Bangladesh 3 1.470
9 Barbados . .
10 Belarus . .
11 Belgium . .
12 Bolivia 3 1.560
13 Bosnia . .
14 Botswana 3 1.298
15 Brazil 2 2.416
16 Bulgaria . .
17 Burkina Faso 3 2.137
18 Burundi 3 1.780
19 Cambodia 3 1.485
20 Cameroon 3 .353
21 Canada 2 1.779
22 Cent. Afri.R 3 2.452
23 Chile 2 1.572
24 China 1 1.383
25 Colombia 2 1.619
26 Costa Rica 2 1.806
27 Croatia . .
28 Cuba . .
29 Czech Rep. . .
30 Denmark 2 1.731
31 Domincan R. 2 2.191
32 Ecuador 2 1.937
33 Egypt 3 2.136
34 El Salvador 3 1.717
35 Estonia . .
36 Ethiopia 3 2.027
37 Finland 2 1.217
38 France 2 1.680
39 Gabon 3 .884
40 Gambia . .
41 Georgia . .
42 Germany 2 1.520
43 Greece 2 1.437
44 Guatemala 3 1.219
45 Haiti 3 1.695
46 Honduras 3 1.838
47 Hong Kong . .
48 Hungary 2 1.351
49 Iceland . .
50 India 1 1.383
51 Indonesia 3 1.959
52 Iran 3 2.394
53 Iraq 2 2.145
54 Ireland 2 1.439
55 Israel . .
56 Italy 2 1.490
57 Japan 2 1.884
58 Jordan 2 1.711
59 Kenya 3 .840
60 Kuwait 2 1.367

54
61 Latvia . .
62 Lebanon . .
63 Liberia 3 .924
64 Libya 2 2.065
65 Lithuania . .
66 Malaysia 2 1.954
67 Mexico 2 1.086
68 Morocco . .
69 N. Korea . .
70 Netherlands 2 1.497
71 New Zealand 2 1.091
72 Nicaragua 3 1.590
73 Nigeria 3 .531
74 Norway 2 1.430
75 Oman . .
76 Pakistan . .
77 Panama 2 1.761
78 Paraguay 2 1.787
79 Peru 3 2.356
80 Philippines 3 2.055
81 Poland . .
82 Portugal . .
83 Romania 2 1.397
84 Russia . .
85 Rwanda 3 2.098
86 S. Korea . .
87 Saudi Arabia 2 1.665
88 Senegal 3 .885
89 Singapore 2 1.438
90 Somalia 3 1.625
91 South Africa . .
92 Spain 2 1.098
93 Sweden 2 1.407
94 Switzerland 2 2.259
95 Syria . .
96 Taiwan . .
97 Tanzania 3 2.016
98 Thailand 3 2.431
99 Turkey 2 1.253
100 U.Arab Em. . .
101 UK 2 1.306
102 USA 2 2.816
103 Uganda 3 2.259
104 Ukraine . .
105 Uruguay 2 1.523
106 Uzbekistan . .
107 Venezuela 2 1.645
108 Vietnam 3 2.014
109 Zambia 3 1.898

Acest tabel ne aratǎ în ce cluster se aflǎ fiecare ţarǎ (numai pentru ţǎrile pentru care nu existǎ
date lipsǎ), precum şi distanţa (în abateri standard) de la fiecare ţarǎ la centrul clusterului cǎruia îi
aparţine.

55
Final Cluster Centers
Cluster
1 2 3
Zscore: Population in thousands 6.88817 -.10045 -.09917
Zscore: People living in cities (%) -1.26130 .66244 -.97875
Zscore: People who read (%) -.58281 .53741 -.97188
Zscore: Gross domestic product / capita -.85403 .61702 -.77073
Zscore: Daily calorie intake -.56325 .65015 -.87343
Zscore: Average female life expectancy -.58230 .64508 -1.14375
Zscore(LIFEEXPM) Average male life -.26070 .65596 -1.13562
expe
Acest tabel conţine distanţele dintre media fiecǎrui cluster şi media generalǎ, exprimatǎ în
abateri standard. De exemplu, se observǎ cǎ grupul 1 cuprinde ţǎri cu populaţie mare şi foarte mare
– media populaţiei lor este cu 6.88 abateri standard mai mare decât media generalǎ – iar grupurile 1
şi 2 cuprind ţǎri cu populaţie mai redusǎ – media populaţiei lor este cu 0.10, respectiv 0.01 abateri
standard mai micǎ decât media generalǎ.

Distances between Final Cluster Centers


Cluster 1 2 3
1 7.732 7.088
2 7.732 3.953
3 7.088 3.953

Acest tabel ne aratǎ cât de apropiate (asemǎnǎtoare) sau îndepǎrtate (diferite) sunt grupurile.
Se observǎ cǎ grupurile cele mai asemǎnǎtoare sunt 2 şi 3, iar cele mai diferite sunt 1 şi 2.

Number of Cases in each Cluster


Cluster 1 2.000
2 41.000
3 31.000
Valid 74.000
Missing 35.000

Tabelul acesta indicǎ numǎrul de cazuri aflate în fiecare cluster şi nu necesitǎ, credem,
explicaţii suplimentare.

La cererea noastrǎ, SPSS-ul a creat şi o variabilǎ categorialǎ specialǎ, care indicǎ apartenenţa
fiecǎrei ţǎri la unul din clustere. Aceastǎ variabilǎ poate fi folositǎ pentru a face diferite tipuri de
analize cu privire la fiecare grup descoperit prin analiza cluster.

Capitolul 12

Analiza discriminantului

Aspecte teoretice

Analiza discriminantului este o tehnicǎ statisticǎ de tip explicativ – deşi poate fi inclusǎ şi în
categoria celor descriptive. Ea are rolul de a analiza douǎ sau mai multe grupruri disctincte şi a
56
stabili care sunt variabilele care diferenţiazǎ cel mai bine grupurile respective. Aşadar, spre
deosebire de analiza cluster, la analiza discriminantului grupurile pentru care se face analiza sunt
cunoscute (definite) dinainte.
În cercetǎrile sociale (respectiv în analiza resurselor umane), analiza discriminantului poate
rǎspunde la întrebǎri de tipul:
- prin ce anume diferǎ angajaţii bǎrbaţi dintr-o firmǎ de angajaţii femei?
- prin ce diferǎ agenţii de vânzǎri performanţi de cei neperformanţi?
- existǎ diferenţe de performanţǎ între angajaţii familişti şi cei nefamilişti?
În analiza discriminant intervin douǎ tipuri de variabile: o variabilǎ dependentǎ (sau de
grupare) şi una sau mai multe variabile independente. Variabile de grupare este de tip categorial, iar
variabilele independente sunt metrice sau binomiale, şi ar trebui sǎ fie distribuite normal.
Analiza discriminantului este de douǎ categorii: pe douǎ grupuri, atunci când variabila
dependentǎ are douǎ categorii, şi multiplǎ, caz în care variabila dependentǎ are trei sau mai multe
categorii.
Discriminarea dintre grupuri se face cu ajutorul unei combinaţii liniare a variabilelor
independente, numitǎ funcţie discriminant, de forma:

D = b0 +b1 X 1 +b2 X 2 +b3 X 3 +... +bk X k

unde D este scorul discriminant, X sunt variabilele independente, iar b coeficienţii funcţiei
discriminant.
Coeficienţii b sunt estimaţi astfel încât grupurile să difere maxim posibil in ceea ce priveşte
valorile funcţiei discriminant. Aceasta are loc atunci când raportul dintre suma pătratelor inter-
grupuri şi suma pătratelor intra-grupuri este maxim şi din orice altă combinaţie liniară a predictorilor
va rezulta un raport mai mic.
Principalii indicatori statistici care rezultǎ în urma unei analize a discriminantului sunt:
- testul F pentru compararea mediilor grupurilor;
- corelaţia între scorurile discriminant şi fiecare variabilǎ în parte;
- coeficienţii funcţiei discriminant;
- testul lambda al lui Wilks, care ne aratǎ puterea funcţiei discriminant;
- centroizii grupurilor.

Analiza discriminantului în SPSS

În cele ce urmeazǎ vom efectua o analizǎ a discrminantului pe douǎ grupuri, folosind


variabilele din fişierul Employee data.sav. Dorim sǎ vedem în ce mǎsurǎ diferǎ bǎrbatii şi femeile
din bancǎ, din punctul de vedere al urmǎtoarelor variabile: salariul actual, nivelul de educatie,
vechimea în bancǎ (la actualul loc de muncǎ), vechimea la angajare.
Înainte de analiza propriu-zisǎ, am transformat variabila gender într-o variabilǎ de tip
dummy (0 – femei, 1 – bǎrbaţi) denumitǎ de noi gendum.
Analiza discriminantului se apleazǎ cu ajutorul comenzii:

Analyze > Classify > Discriminant

Variabila gendum va fi variabila dependentǎ, iar variabilele independente sunt cele


enumerate mai sus. Ele se introduc în câmpurile corespunzǎtoare. Ca metodǎ de analizǎ alegem

57
metoda directǎ (Enter independents together). Aceasta înseamnǎ cǎ variabilele independente vor fi
introduse simultan în model, indiferent de puterea lor de discriminare.
Pentru ca SPSS-ul sǎ ne furnizeze datele statistice esenţiale pentru analiza modelului,
apǎsǎm butonul Statistics şi selectǎm urmǎtoarele: în chenarul Descriptives, opţiunea Univariate
ANOVAs, iar în chenarul Function Coefficients, opţiunea Unstandardized. Apǎsǎm în continuare
butonul Classify şi selectǎm opţiunea Summary Table din chenarul Display.
În final, pentru a salva scorurile discriminat, precum şi apartenenţa fiecǎrui caz la un grup
anume, apǎsǎm butonul Save şi selectǎm douǎ opţiuni din caseta de dialog care apare: Predicted
group membership şi Discriminant scores.

Iatǎ principalele tabele pe care ni le furnizeazǎ programul SPSS.

Tests of Equality of Group Means


Wilks' F df1 df2 Sig.
Lambda
Current Salary .798 119.798 1 472 .000
Educational Level .873 68.495 1 472 .000
(years)
Months since Hire .996 2.094 1 472 .148
Previous .973 13.186 1 472 .000
Experience (months)

Acest tabel ne aratǎ care sunt variabilele pentru care existǎ diferenţe între grupuri, ca medie.
Se observǎ cǎ singura variabilǎ pentru care nu existǎ diferenţe este Months since Hire.

Structure Matrix
Function
1
Current Salary .838
Educational Level (years) .634
Previous Experience .278
(months)
Months since Hire .111
Pooled within-groups correlations between discriminating variables and
standardized canonical discriminant functions Variables ordered by absolute size of
correlation within function.

Matricea de structurǎ ne aratǎ corelatiile dintre scorurile discriminant şi fiecare variabilǎ în


parte. Cu cât aceastǎ corelaţie este mai mare, cu atât variabila respectivǎ discrimineazǎ mai bine cele
douǎ grupuri.

Canonical Discriminant Function Coefficients


Function
1
Current Salary .00004614
Educational Level (years) .146
Months since Hire .006
Previous Experience .005
(months)
(Constant) -4.576
Unstandardized coefficients
58
Tabelul de mai sus conţine coeficienţii nestandardizati ai funcţiei discriminant. Cu ajutorul
acestor coeficienţi sunt calculate scorurile discriminant.

Functions at Group Centroids


Function
GENDUM 1
0 -.656
1 .549
Unstandardized canonical discriminant
functions evaluated at group means

Centroizii fiecǎrui grup nu sunt altceva decât mediile scorurilor discriminant pentru fiecare
grup.

Wilks' Lambda
Test of Wilks' Chi-square df Sig.
Function(s) Lambda
1 .734 145.026 4 .000

Testul lambda al lui Wilks este foarte important pentru analiza discriminantului. El ne aratǎ
proporţia din varianţa totalǎ care nu este explicatǎ de diferenţele dintre grupruri (în cazul nostru,
73%). Sig-ul din ultima coloanǎ ne aratǎ dacǎ existǎ diferenţe semnificative între centroizii celor
douǎ grupuri.

Classification Results
Predicted Group Total
Membership
GENDUM 0 1
Original Count 0 173 43 216
1 97 161 258
% 0 80.1 19.9 100.0
1 37.6 62.4 100.0
a 70.5% of original grouped cases correctly classified.

Tabelul de mai sus ne aratǎ, untr-o formǎ sinteticǎ, aparteneţa cazurilor din eşantion la un
grup sau altul. Vom comenta acest tabel pe larg la seminar.

59

También podría gustarte