13
Analisis de
correlacién simple
OBJETIVOS
Al terminar de estudiar este capitulo, podra:
Trazar un diagrama de dispersién.
Calcular e! coeficiente de correlacién de Pearson y
explicar su empleo.
Demostrar el significado del coeficiente de correlacién.
Caloular y explicar el uso de los coeficientes de
determinacién y de no determinacién.
Explicar el objetivo del coeficiente de correlacién de
fango y calcular su valor.
po
ae
aAnilsis de corretacin simple 495
es perfecta. Por ejemplo, Carma Lopez tuvo un promedio muy alto (3.8) en ef
bachillerato, pero su desemperio de 1.9 en la universidad esté muy por abajo del
promedio.
En vez de hablar de generalidadies, como se ha hecho hasta ahora, utiizaremos
varias medidas estadisticas para representar y oxplicar conmas precision larelacién,
entre las dos variables: Promedio de caiificaciones en bachillerato y promedis de
caliticaciones en ia universidad, A este grupo de técnicas estadisticas se le conoce
como andlisis de corretacién,
Analisis de correlacisn Grupo de técnicas estadisticas eimpleado para madir la inten
sidad de la relacién (careetacién} entto dos variables.
“
Er principar objetivo det analisis de corretacién consiste en determinar qué tan
intensa es la relacién entre dos variables. Una medida de esta relacién es el
coeficiente de correlacién. Se puede tomar cuaiquier valor en una escala de -1 a
+1, inclusive. Primero se aplicardn estas medidas a datos en escala de intervalo y
de razén. Sin embargo, antes de hacer esto representaremos los dos conjuntos de
datos en un digrama de alspersién.
DIAGRAMA DE DISPERSION
jspersion Grafica que presenta la relacién entro las dos variables do
u-| Diagrama de
| niente
2% Ejemplo
El director de personal de una empresa que tiene un importante grupo de vende-
ores, debe entrevistary seleccionar nuevo personal. Ha disenado una prucba que
ayuda a seteccionar fos mejores aspirantes para su personal de ventas. A in de
vverificar ta validez de una prueba como instrumento de prediccién de las ventas
semanales, eligié al azar cinco vendedores experimentadbs y apliob la prueba a
cada uno, (Desde luego, en la practica real, para determinar la validez de la prueba
se debia haber seleccionado un grupo mucho mayor. intencionalmente se mantuvo
alminimo el tamafio del grupo para simpificarlos céleulos.) La puntuacién que cacia
vendedor obtuvo en la prueba después se pared (0 emparejé) con las ventas
semanales (véase la tabla 13-1). :Cémo se representan estas datos pareados
et pares en un diagrama de dispersin?496 Estadistica para Administracién y Economia
Puntuaciones de prueba y ventas semanales do cinco Vendedores fa empresa Intrepid, Inc.
Vendedor Puntuacisn deprucba Ventas semanales
Se JA, Amor 4 $ 5.000
Sr B.N. Archer 7 12.000
Sra, G.D. Smith 3 4000
A.B. Malcolm 6 8.000
‘Sra, A. Goodwin 10 17000
Y Solucion
Gon base en os datos pareados de la tabla 13 1, el director de personal sospecha
que las puntuaciones en realidad son buenos prenésticos de las ventas semanales.
Por ejempio, la Sra. Goodwin, tiene la puntuacién mas alta de prueba y sus ventas
‘semanales son relativamente elevadas. La Sra. Smith tuvo una puntuacin baja de.la
prueba y sus ventas son relativamente bajas. Esto significa que jas ventas sema-
rales dependen de la puntuacién en la prueba. Entonces se estima que las ventas
son la variable dependiente. Las puntuaciones consttuyen la variable independiente.
Es practica comiin marcar la variable dependiente (en este ejemplo, ventas)
en el ele vertical (ele ¥) y la variable independiente (puntuaciones de la prueba)
ef el eje horizontal (ee X). El par de datos para e' Sr. Amber tomados de la tabla
13-1 esX = 4, ¥ = $5 000. Para ubicar el punto, recorrase hacia la deracha sobre
el eje X hasta legar a 4; después se sube en direccién vertical hasta $5 000 y se
sitéa el punto en la interseccién (véase ol diagranta 13-1). Este proceso cortinga
hrasta colocar todas las parejas de datos.
DIAGRAMA 134
Diagrama de dispersién que representa puntuaciones de prueba y ventas
y
0 se Ambor
Ventas semanalet (mies de détaet)
o 23486768 9101
Puntuacionos de pruebaAnilisis de correlacién simple 497
Obsécvase a partir del diagrama de dispersién que conforme aumentan las
puntuaciones de prueba, lo mismo sucede con las ventas. Parece que existe una
relacién estrecha (correlacién) entrs las puntuaciones y las ventas semanales. En
la seccién que sigue se medira esa relaci6n calculando el coeficiente de correlaci6n,
(/ COEFICIENTE DE CORRELACION
Criginado por el investigador Karl Pearson aproximadamente en e) ano 1800, ef
cid describe la infensidad de la relacién entre dos conjuntos
de variables de nivel de intervalo 0 de nivel dé razén. Ya que sé le denota con r, con
‘reoiencia se iignciona también como r de Pearson 0 coeficiente de correlacién
‘prodtucto-momento de Pearson. Puede tomarcualquier valor de ~1,002 +1,00, inclusive.
Un coeficiente de carrelacin de -1.00 0 de +1.00 indica correlacién perfecta. Pot
ejemplo, un coeficiente de correlacién para el ejemplo anterior calculado como +1.00
indicarfa que fas puntuaciones de prueba eran un pronéstico perfecto de las ventas
semanales. Esto es, puntuaciones y ventas estén perfectamente correlacionados en
Un sentido fineat postivo, Un valor caleutedo de ~t.00 revela que la variable indepen-
diente Xy la variable dependiente Y estén pertectamente relacionadas en forma lineal
negativa, La forma como quedarian fos diagramas de dispersion sila elacién entre los
dos conjuntos de datos fueran lineales y pertectos se muestra en el diagrama 13-2
DIAGRAMA 13-2
Diagramas de dispersién que muestran correlaciones:
negativa y positiva perfectas
Corelacion Y— Carelaciin positva
J Pendent
7
f ssi fp
|
|
|
| ae
00 | toy Posi
L a | SS
‘Sino existe en absoluto relacién entre fos dos conijuntos de variables, la r de
Pearson serd cero, Un coeficiente de correlacién rcercano 0 {por ejemplo, 0.08)
ingica que la relacién es poco intensa o débil. Se llega a la misma conclusién si r
= ~0.08, Coeticientes de -0.91 y +0.91 tienen igual tuerza; ambos indican una
correlacién muy intensa entre los dos conjuntos de variables. De esta forma, la
fuerza de la correlacién no depende de la direccién (ya sea ~ 0 +).
Enel diagrama 13-9 se muestran diagramas de dispersién para r = 0, una r
débil (por ejemplo, -0.23) y una rtuerte (por ejemplo, +0.87). Obsérvese que sila
correlacidn es débil, existe una dishersién considerable con respecto a una linea
recta trazada a través de! espacio central de los datos. Para que el diagrama de496 Estadicticapora Administracién y Economia
TABLA 134
Puntuaciones de prusha y ventas semanales de cinco vendedores en la empresa intrepid, Inc,
Vendeder —Puntuacién de prueba Ventas semanales|
SeJ.A, Amber 4 $5000
5. B.N. Archer 7 12.000
Sra. 6.D. Seth 3 4000
Sc A.B. Malcolm 6 8.000
Sra. A. Goodwin ° st000
Vv Solucion
Con base en los datos pareados de la tabla 13 - 1, el director de personal sospecha
que las puntuaciones en realidad son'buencs proniésticos de las ventas semanales.
Por ejemplo, la Sra. Goodwin, tiene la puntuacién mds alta de prueba y sus ventas
ssemmanales son felativarrente elevadas. La Sra. Smith tuvo una puntuacién baja de la
prueba y sus ventas son relativamente bajas. Esto significa que las ventas sema
rales dependen de la puntuacisn en la prueba. Entonces se estima que las ventas
son la variable dependiente. Las puntuaciones constituyen ta variable independiente,
Es practica comin marcar la variable dependiente (en este ejemplo, ventas)
en el eje vertical (eje Y) y fa variable independiente (puntuaciones de la prueba)
enel eje horizontal (eje X). El par de datos para el Sr. Amber tomados de la tabla
43-1es X = 4, ¥ = $5 000, Para ubicar el punto, recérrase hacia la derecha sobre
el eje X hasta llegar a 4; después se sube en direccién vertical hasta $5 000 y s@
sia el punto en la interseccién (véase el diagrama 13-1). Este proceso continia
hasta colocar todas tas parejas de datos,
DIAGRAMA 13-1
Diagrama de dispersion que representa puntuaciones de prueba y ventas
¥
aut
?
dae .
B10
i
a .
a6
a °<+— Sr Amber
gal «
Be
2
Wop taririsy
o 23456789001
Puntusciones do pruebaEstadietica para Adminietracién y Economia
DIAGRAMA 13-3
Diagramas de dispersion que muestran correlacién caro, débil y fuerte
Corelacién cera ——‘Correlacén nogativa débil Corrlacién posta itonsa
720 (Uy Yestin algo iXy Yestén muy
(Xy Yroestin relacionadas ingaimente) relacionadas neler}
telasionadas inealmente)
1d vendida
Ingreso anual
Cal. en universidad
|
Precie ‘Bal, an Bachilerato
+x
in represente una relacién fuerte, debe haber poca dispersién con respecto
a la recta. Esto indica que el promadio de calificaciones de bachillerato da un
pronéstico muy certero del desempeno en la universidad.
El esquema que sigue representa adecusdamente la intensidad y la direccién
del coeticiente de correlacién.
Coretacisn Gorreacién
negativa Ningsna posiiva
pertecta correlacisn porfecta
Corelaciin Conelacién Conelacién , Corolaciie Conlacién Coreelacién
negativa postive posit
intense eb) modarada
100 ° aa8
——Corelaeén positive —
La f6rmula para res’
ee
re EY) = EXIEY)
Vinx - EH AaMEY?) = ZY)Anilisie de correlacién simple 499
en donde:
nes el niimero de pares de observaciones.
EX es la suma de valaces de la variable X.
EY es la sumade valores de la variable Y.
(2X2) es la suma de valores X elevados al cuadrado.
(EX) es el cuadrado de fa suma de valores de X.
(ZY?) es la suma de valores de ¥ elevados al cuadrado.
(ZY)? es ef evadcado de la suma de valores de Y.
2 Ejemplo
Los datos para el problema sobre las ventas semanales y las puntuaciones de
prueba y los célculos necesarios para determinar el coeficiente de correlacién se
enlistan en ta tabla 13-2. ;Cudnto vale el coeticiente de correlacién?
TABLA 13-2
Caleulos necesarios para el coeficionte de correlacién
Puntuaciéo Ventas semanalas
dle prueba (miles de dslares)
Vendedor x y my, vt
Sr Amber 4 5 6 2 25
Sr. Aecher 7 2 a Be tat
Sra. Smith 3 4 ee
St. Malcolm 6 8 wa 68
Sra.Goodwin 10 n 100 110 121
Total 30 ao 20 274 370
V Solucion
El coeticiente de correlacién es 0.88, obtenido por medio del caiculo de
HEXY) ~ EXYEY)
WOEXS EXPN — EHF
7 5274) ~ G0)(4
WERI0) — GO)7I5G70
_ 170
“W(1501250)
0.88
Es prctica comin redondear ra centésimos; en este problema es 0.88, lo cual
indica una relacién muy intensa entre las puntuaciones de prueba y las ventas
semanales. Entances, la prueba del director de personal es conveniente para
predecir las ventas semanales582 Estadistice para Administracisn y Economia
El diagrama de dispersién de la gréfica anterior se reproduce en el diagrama
14-2, con una recta trazada con ragla a través de los puntos para ilustrar que es
‘muy probable que tal linea sea la que mejor se ajuste 4 los datos. Sin embargo, la
recta trazada con una regia tiene una desventaja: su posicién se basa en el juicio
de quien trazé la linea. Las rectas trazadas amano en el diagrama 14-3 representan,
«1 uicio de cuatro personas. Todas las rectas, excepto A, parecen razonables. Sin
embargo, cada una daria un pronéstion distinte de vertas.
DIAGRAMA 1-2 DIAGRAMA 14-3
Pumtuaciones de prueba y ventas _Varias rectas trazedas a mano libre sobre-
‘semanales de cinco vendedores puestas an el diagrama de dispersion
zu
gre e
Fol a
Ee
a6
&
Bs
Be
Ae x 7 Atk tt ne x
o eeser evi o 2345678 SiON
Pumecones de prutta Puntvasonet do pruata
Principio de minimos cuadrados
El juicio personal se elitina al determinar ta recta de regresién utiizando un
método matemético denominado principio de minimos cuadrados: Este método
‘proporciona lo que comanmente se contoce como la recta de “mejor ajuste”. Minimiza
la uma de los cuadrades de las desviaciones verticates can respecto a la recta,
Para ilustrar este concepto, los mismos datos se grafican en os tres diagramas que
siguen, La cacta de regresién deldiagrama 14-4 se determin6 empleando el método
de minimos cuadrados. Es la recta de mejor ajuste porque la suma de los cuadrados
de las desviaciones verficales con respecto a ésta es minima. El primer punto
localizado (X = 3, Y= 8} tiene una desviaciin de 2 con respecto a fa recta,
obtenida por 10 - 8; Su cuadrado es 4. La desviacién al cuadrado para el punto X
= 4, Y= 1Bes 16, La desviacién al cuadrado para el punto X = 5, Y= 16es 4.
La suma de las desviaciones al cuadrado es 24, determinada por 4'+ 16 + 4Andliais de regresion simple 533,
DAGRAMA 144 DIAGRAMA 145 DIAGRAMA 146
esis de minimos ines wazade Linea Wezada
cuasrados coneoia con eoia
5 5 ae 7°
i ie.
3 st
2308 8 2 8 a 8 8
tos de soe Aes sonic
fen la empresa ena empresa
dérese que las rectas de los diagramas 14-5 y 14-6 se trazaron utilizando
a La suma de las desviaciones verticales al cuadrado en el diagrama 14-5
++ Para el diagrama 14-6 es 132. Ambas sumias son mayores que la obtenida
= reipio de minimos cuadrados Técnica empleada para logar a la ecuacion de
* minimizando la suma de los cuadrados de las distancias verticales entre los
¥ verdaderos y los valores pronosticadas de ¥.
=. La forma general de la ecuacién de regresion es:
» [yea +ox]
¥” Valor pronosticade de fa variable Y para un valor seleccionado de X.
4 Ordenada de la interseccién con el eje ¥ (0 intercepcién ¥), Es el valor
estimado de Y cuando X = 0, Otra forma de decir esto es: aes el valor
stimado de Y. en donde la recta de regresion cruza el eje Ycuando X
es cero.
> Pendiente de Ia recta, 0 sea cambio promedio en Y’ por unidad de cam:
9 incremento 0 decremento) en la variable independiente X.
‘of Seleccionads para |a variable independiente.534 Estadisticn para Administracion y Economia
Debe observarse que la ecuacién de regresién lineal para la muestra de
vendedores es sélo una eslimacion de ta relacién entre las dos variables en la
oblaci6n, De esta forma, los valores de ay B en la ecuacién de regresiGn, por lo
‘general se denominan coeticientes de regresién estimados, o bien abreviadamente,
Coeficientes de regresién.
Las f6rmulas para by ason
| p = MEXY) - EXVEY)
EX) = (EX)?
_2Y
“on
donde:
es un valor de la variable independiente.
es un valor de la variable dependiente.
@s el ntimero de elementos en la muestra,
es la media de la variable independiente.
@s la media de fa variable dependiente.