Está en la página 1de 40

Covarianza y

correlación de Pearson
Estadística Aplicada a la Psicología
Objetivos específicos

● Desarrollar análisis correlacionales entre dos variables


considerando las características de los datos.
● Ejecutar el análisis estadístico inferencial para contrastar
hipótesis de acuerdo a las características de los datos de una
investigación psicológica cuantitativa.
● Elaborar reportes estadísticos del análisis de datos de
investigaciones psicológicas cuantitativas de acuerdo a las
normas APA.
Objetivos de la clase

● Conocer el modelo lineal para describir la relación entre dos


variables cuantitativas.
● Interpretar la covarianza como una medida de asociación entre
dos variables cuantitativas.
● Conocer el formato APA para presentar una matriz de varianzas y
covarianzas.
● Interpretar el coeficiente de correlación de Pearson como una
medida de asociación entre dos variables cuantitativas.
● Conocer los supuesto para el cálculo del coeficiente de correlación
de Pearson.
Objetivos de la clase
● Conocer los supuesto para el cálculo de la significancia estadística
del coeficiente de correlación de Pearson.
● Conocer cómo se realizan contrastes de hipótesis referidos a que
una variable cuantitativa se distribuye normalmente a nivel de
una población.
● Conocer cómo se realizan el contrastes de hipótesis referidos a
que un coeficiente de correlación de Pearson es distinto a cero en
una población.
● Conocer el formato APA para presentar una matriz de
correlaciones.
● Conocer qué es el coeficiente de determinación.
● Conocer cómo se pueden usar los conceptos de nivel de
significancia, potencia y tamaño del efecto para calcular el
tamaño de muestra necesario para realizar un contraste de
hipótesis sobre el coeficiente de correlación de Pearson.
Medidas de asociación: variables cuantitativas

● Buscan describir relaciones entre variables, dando por lo menos


información sobre la fuerza de dicha relación (Chen y Popovich,
2002).
● Matemáticamente, las relaciones entre variables presentan
diversos tipos, según la función utilizada como modelo.
● Los datos empíricos casi nunca muestran relaciones perfectas.
Hay siempre un error, los datos no “ocurren” siguiendo de
manera perfecta una función matemática.

● ¿Cuánto se parecen los datos empíricos a los modelos teóricos?


Medidas de asociación: variables cuantitativas

Figura 1

Diagrama de Dispersión de las Puntuaciones en los Test de Matemática y


Comprensión
Relación lineal: Y’ = a + bX + e

Directa / Positiva Inversa / Negativa Nula


La covarianza

● Se aplica a variables de intervalo o razón.


● Promedio de los productos cruzados (para población se divide
entre N):

σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 𝑌𝑖 − 𝑌ത
𝑆𝑋𝑌 =
𝑛

○ Valores positivos: relación lineal directa


○ Valores negativos: relación lineal inversa
○ Valor igual a cero: relación lineal nula

Rodriguez, 2007
La covarianza

● En algunos textos se usa COVxy, APA no tiene una especificación


sobre la manera de abreviar la covarianza.
● No hay máximo o mínimo estable, combina las unidades de
medida de las variables.
● No puede interpretarse la fuerza de la relación.
● La covarianza de una variable consigo misma es su varianza.

Rodriguez, 2007
La covarianza

● Centrar en la media (punto de gravedad)

- + - +

+ -
+ -
La covarianza, ejemplo de cálculo 1

x x−x y y−y (x − x)(y − y)


1 -4.5 1 -4.5 20.25
2 -3.5 2 -3.5 12.25
3 -2.5 3 -2.5 6.25
4 -1.5 4 -1.5 2.25
5 -0.5 5 -0.5 0.25
6 0.5 6 0.5 0.25
7 1.5 7 1.5 2.25
8 2.5 8 2.5 6.25
9 3.5 9 3.5 12.25
10 4.5 10 4.5 20.25
5.5 5.5 σ(x − x)(y − y) = 82.5
x= y=

sxy = 8.25
La covarianza, ejemplo de cálculo 1

x x−x y y−y (x − x)(y − y)


12 -5.4 32 3.8 -20.5
13 -4.4 30 1.8 -7.9
13 -4.4 31 2.8 -12.3
15 -2.4 30 1.8 -4.3
17 -0.4 29 0.8 -0.3
19 1.6 28 -0.2 -0.3
20 2.6 27 -1.2 -3.1
21 3.6 26 -2.2 -7.9
22 4.6 25 -3.2 -14.7
22 4.6 24 -4.2 -19.3
x = 17.4 y = 28.2 σ(x − x)(y − y) = -90.6
sxy = -9.06
Matriz de varianzas y covarianzas
Tabla 1

Varianzas y Covarianzas de los Cinco Grandes Factores de Personalidad

Medida 1 2 3 4 5
1. Neuroticismo 8.56

2. Extraversión 9.45 7.34


3. Apertura a la
8.34 8.30 6.32
experiencia
4. Agradabilidad 7.08 8.23 8.34 6.78
-
5. Control 9.27 9.01 7.66 7.62
8.19
Coeficiente de correlación de Pearson

● Se le conoce también como correlación producto-momento y establece el


máximo y mínimo al utilizar variables cuyas varianzas no cambian, es decir,
puntuaciones estándar:

σ𝑛𝑖=1 𝑍𝑋𝑖 𝑍𝑌𝑖


𝑟𝑋𝑌 =
𝑛
● Es más usual presentar la formula considerando la covarianza:
𝑆𝑋𝑌
𝑟𝑋𝑌 =
𝑆𝑋 𝑆𝑌

σ𝑛𝑖=1 𝑋𝑖 − 𝑋ത 𝑌𝑖 − 𝑌ത
𝑆𝑋𝑌 = Chen y Popovich, 2002.
𝑛
Coeficiente de correlación de Pearson

● Las variables deben ser cuantitativas y medidas por lo menos en


una escala de intervalo.
● No es necesario que ambas variables tengan la misma escala de
medida.
● La relación entre ambas variables se presume lineal.

Chen y Popovich, 2002.


Propiedades

● Varía entre -1 y 1.
○ Tipo de asociación (directa o inversa): signo.
○ Fuerza de la asociación : valor absoluto.
● Si sx o sy = 0, r es indeterminado.
● La correlación de una variable consigo misma es igual a uno.
● MUY IMPORTANTE: no implica causalidad, solo asociación entre
variables.

Chen y Popovich, 2002.


Propiedades

● r2 expresa la proporción de varianza común compartida entre dos


variables.
● Se le conoce también como coeficiente de determinación.

𝑟𝑋𝑌 = 0 𝑟𝑋𝑌 = .71 𝑟𝑋𝑌 = .98

2 2
2
𝑟𝑋𝑌 =0 𝑟𝑋𝑌 = .50 𝑟𝑋𝑌 =.96

Chen y Popovich, 2002.


Estima el coeficiente de correlación

• http://www.istics.net/Correlations/

• http://www.rossmanchance.com/apple
ts/GuessCorrelation.html

• http://guessthecorrelation.com/
Interpretación
Tabla 2

Interpretación del Coeficiente de Correlación de Pearson, en Valor Absoluto,


según Davis (1971)

r categoría
1.00 Perfecta
.70 - .99 Muy alta
.50 - .69 Sustancial
.30 - .49 Moderada
.10 - .29 Baja
.01 - .09 Insignificante
Interpretación

Tabla 3

Interpretación del Coeficiente de Correlación de Pearson (valor absoluto)

Como una Medida del Tamaño del Efecto Según Cohen (1996)

r r2 Categoría
.5 .25 Grande
.3 .09 Mediano
.1 .01 Pequeño
Interpretación

Tabla 4

Interpretación del Coeficiente de Correlación de Pearson (valor absoluto)

Como una Medida del Tamaño del Efecto Según Ferguson (2009)

r r2 Categoría
.8 .64 Grande
.5 .25 Mediano
.2 .04 Pequeño
Contraste de hipótesis sobre la correlación

● Se debe asumir el supuesto de


distribución normal bivariada.
● Presenta cierto sesgo en la
estimación del parámetro
poblacional (); es sensible a la
violación del supuesto de
normalidad (Zimmerman, Zumbo
y Williams, 2003).
● Se puede contrastar con el test
de Normalidad Multivariada de
Mardia.

Chen y Popovich, 2002.


Contraste de hipótesis sobre la correlación

● Como no está implementado en la mayoría de software se suele


evaluar el supuesto referido a que cada variable proviene de una
población en la que se distribuye normalmente.
● Sin embargo esto no garantiza la normalidad multivariada.
● Se pueden usar técnicas como el bootstrapping (Diaconis y Efron,
1983) para “liberarse” del supuesto de normalidad.
El supuesto de normalidad

● Se quiere contrastar con un nivel crítico de .05 la hipótesis nula


referida a que dos variables, A y B provienen de una población en
la cual se distribuyen normalmente.
● Para ello se puede aplicar pruebas de bondad de ajuste de los
datos a la distribución normal (Razali y Wah, 2011):
○ Kolmogorov-Smirnov con la corrección de Lilliefors (D).
○ Shapiro-Wilk (W) (más potente, los grados de libertad son
iguales al tamaño de muestra).
El supuesto de normalidad, sistema de hipótesis

H0 : dist. empírica = dist. teórica


H1 : dist. empírica ≠ dist. Teórica

H0 : F(x) = N(,2)
H1 : F(x) ≠ N(,2)
El supuesto de normalidad

Tabla 5

Estadísticos Descriptivos de las Variables A y B

Estadístico A B
n 70 70
M 8.66 13.12
DE 4.24 3.82
As. 0.57 0.31
Cr. -0.23 0.25
El supuesto de normalidad
El supuesto de normalidad

● Los datos empíricos van en contra del supuesto de que la


variable A (M = 8.66, DE = 4.24) se distribuye normalmente a
nivel de la población, W(70) = 0.96, p = .036.
● No hay evidencias empíricas suficientes para descartar que la
variable B (M = 13.12, DE = 3.82) tenga una distribución normal
a nivel de la población, W(70) = 0.98, p = .494.
Hipótesis sobre la correlación, ejemplo

● Se busca analizar si existe una correlación estadísticamente


significativa .05 entre las puntuaciones del pre y post test de una
prueba de ansiedad, sabiendo que ambas provienen de
poblaciones en las que se distribuyen normalmente.

𝐻0 : 𝜌12 = 0
𝐻1 : 𝜌12 ≠ 0
𝜌12 = Correlación de las puntuaciones en el pre-test de ansiedad con el
post-test.

● La significancia de la correlación se basa en la distribución t de


Student con n-2 grados de libertad (Chen y Popovich, 2002).
Hipótesis sobre la correlación, ejemplo

● Existe una correlación estadísticamente significativa entre las


puntuaciones del test de ansiedad en el pre y post test, r(498) =
.81, p = .001.

● Luego de r, entre paréntesis, aparecen los grados de libertad,


que son igual al tamaño de muestra menos 2 (n – 2).
Matriz de correlaciones

Tabla 2

Correlaciones de los Cinco Grandes Factores de Personalidad

Medida 1 2 3 4 5
1. Neuroticismo __

2. Extraversión .26* __
3. Apertura a la
.29* .27* __
experiencia
4. Agradabilidad .30* .28* .33* __

5. Control -.14 .18 .29* .22* __


* p < .05
Tabla 3

Resumen de las Correlaciones, Medias Aritméticas y Desviaciones Estándar

para los Puntajes en el BSS, el BDI, el SAFE y el MEIM en Función del Sexo
Medida 1 2 3 4 M DE
1. BSS − .55* .29* -.23* 1.31 4.32
2. BDI .54* − .34* -.14 8.33 7.76
3. SAFE .19* .30* − -.07 47.18 13.24
4. MEIM -.09 -.11 -.08 − 47.19 6.26
M 1.50 9.13 39.07 37.78
DE 3.88 7.25 13.17 7.29
Nota: las correlaciones para los participantes varones ( n = 296) se presentan arriba de la diagonal y para las
mujeres ( n = 163) aparecen debajo de la diagonal. Las medias aritméticas y las desviaciones estándar para
los varones se muestran en las columnas y las medias aritméticas y desviaciones estándar de las mujeres
aparecen en las filas. Para todas las escalas, los puntajes más altos indican una respuesta más extrema en la
dirección del constructo evaluado. BBS = Escala de Ideación Suicida de Beck; BDI = Inventario de depresión
de Beck; SAFE = Ambiente Familiar, Actitudinal y Social; MEIM = Escala de Identidad Étnica Multigrupo.
Adaptado de “An empirical investigation of Stress and Etnic Identity as Moderators for Depression and Suicidal
Ideation in College Students”, por R. L. Wlaker, L. R. Wingate, E. M. Obasi & T. E. Joiner, 2008. Cultural
Diversity and Ethnic Minority Psychology, 14, p. 78. Copyrigth 2008 por la American Psychological
Associartion.
* p < .01. APA, 2009; Nicol y Pexman, 2010.
Tamaño de la muestra

● G*Power 3 (Faul, Erdfelder, Lang y Buchner, 2007)


● Probabilidad de error (): se suele usar .05 o .01.
● Tamaño del efecto: es el valor del coeficiente de correlación. Se
puede estimar por estudios anteriores o usar un valor mínimo
aceptable (p. ej. .20 según Ferguson, 2009).
● Potencia (1-): usar como mínimo .80 (Chen y Popovich, 2002).
● Colas: sistema de hipótesis unilateral o bilateral.
● Valor de la hipótesis nula: se suele usar 0, pero es posible aplica
otros valores.
Tamaño de la muestra, ejemplo

● Probabilidad de error tipo I: .05


● Potencia: .80
● Tamaño del efecto: .20
● 𝐻0 : 𝜌𝑥𝑦 = 0
● 𝐻1 : 𝜌𝑥𝑦 ≠ 0
● Por la hipótesis alterna, podemos ver que se trata de un sistema
bilateral (2 colas).
Tamaño de la muestra

● Otra posibilidad es la propuesta por Bonett y Wright (2000).


● Señalan que se puede estimar el tamaño de una muestra
partiendo de la distancia entre los extremos del intervalo de
confianza de la correlación, con cierto nivel de significancia y
valor estimado para el parámetro.
● En su artículo presentan una tabla con tamaños de muestra para
distintas situaciones.
Referencias
American Psychological Association (2009). Publication manual of the
American Psychological Association, (6a ed.). Autor.
Bonett, D. & Wright, T. (2000). Sample size requirements for estimating
Pearson, Kendall and Spearman correlations. Psychometrika, 65(1),
23-28. https://doi.org/10.1007/BF02294183
Chen, P. & Popovich, P. (2002). Correlation: parametric and
nonparametric measures. Sage University Paper Series on
Quantitative Applications in the Social Sciences, n° 07-139. SAGE.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155-
159. https://doi.org/10.1037//0033-2909.112.1.155
Davis. J.A. (1971). Elementarv survey analvsis. Prentice-Hall.
Referencias
Diaconis, P., y Efron, B. (1983). Computer-intensive methods in statistics.
Scientific American, 248(5), 116–130.
https://doi.org/10.1038/scientificamerican0583-116.
Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A
flexible statistical power analysis program for the social,
behavioral, and biomedical sciences. Behavior Research Methods,
39(2), 175–191. https://doi.org/ 10.3758/BF03193146
Ferguson, C. J. (2009). An effect size primer: A guide for clinicians and
researchers. Professional Psychology: Research and Practice,
40(5), 532–538. https://doi.org/ 10.1037/a0015808
Nicol, A.A. & Pexman, P. M. (2010). Presenting your findings. A practical
guide for creating tables. American Psychological Association.
Referencias
Razali, N. M. & Wah, Y. B. (2011). Power comparisons of Shapiro-Wilk,
Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal
of Statistical Modeling and Analytics, 2(1), 21-33.
http://www.de.ufpb.br/~ulisses/disciplinas/normality_tests_compa
rison.pdf
Rodriguez, W. (2007). Covariance. En N. J. Salkind, Encyclopedia of
measurement and statistics (Vol. I, pp. 194-195). SAGE.
Yap, B. W. & Sim, C. H. (2011). Comparisons of various types of normality
tests. Journal of Statistical Computation and Simulation, 81(12),
https://doi.org/10.1080/00949655.2010.520163
Zimmerman, D. W., Zumbo, B. D. & Williams, R. H. (2003). Bias in
estimation and hypothesis testing of correlation. Psicologica, 24,
133-158.
https://www.uv.es/psicologica/articulos1.03/9.ZUMBO.pdf
Covarianza y
correlación de Pearson
Estadística Aplicada a la Psicología

También podría gustarte