Está en la página 1de 10

Vzquez, H. 2009 | 2.1.

Introduccin 1


2. Correlacin y Regresin Lineal




2.1. Introduccin

2.2. Anlisis de Correlacin Lineal
2.2.1. Diagrama de Dispersin
2.2.2. Tipos de Relacin
2.2.3. Coeficiente de Correlacin Lineal (r)
2.2.4. Coeficiente de Determinacin (R
2
)

2.3. Anlisis de Regresin Lineal
2.3.1. Ecuacin de la Recta de Regresin Simple

2.4. Ejercicios
2.4.1. Resueltos
2.4.2. Propuestos





Vzquez, H. 2009 | 2.1. Introduccin 2

2.1. Introduccin
El anlisis de correlacin lineal se refiere a medir la fuerza con la que dos variables
estn relacionadas y en consecuencia el anlisis de regresin lineal a la
determinacin de un modelo matemtico funcin que se puede usar para
pronosticar determinar una variable por medio de la otra variable. el modelo ms
elemental de regresin se denomina regresin simple, que es regresin lineal
bivariada, lo que significa que comprende slo dos variables. La que se pronostica
es la variable dependiente y se designa como y, por otra parte, la que sirve para
pronosticar es la variable independiente explicativa, y se designa como x.













2.2. Anlisis de Correlacin Lineal
Este anlisis consiste en medir la intensidad con la que dos variables estn
relacionadas a travs de dos coeficientes: el coeficiente de correlacin lineal (r) y
el coeficiente de determinacin (R
2
).




2.2.1. Diagrama de Dispersin
Por lo general, el primer paso en el anlisis de correlacin y regresin lineal simple
es construir un diagrama de dispersin que es una grfica en dos dimensiones
donde los pares de puntos (x,y) son las dos variables por considerar.
En este diagrama se busca si los puntos graficados tienden a cierto
comportamiento, donde se muestra si existe no relacin y de que tipo entre las
dos variables.

En los siguientes ejemplos podemos observar la relacin que existe entre las
variables, en estos casos hablamos de:
- Si a medida que crece x no hay un cambio definido de y, se dice que no hay
correlacin, o relacin entre x y y.
- Si a medida que crece x, hay un cambio definido en los valores de y, hay
correlacin:
o La correlacin es positiva cuando y tiende a crecer cuando los
valores de x tambin crecen
o La correlacin es negativa cuando y tiende a decrecer cuando los
valores de x crecen.
Vzquez, H. 2009 | 2.2. Anlisis de Correlacin Lineal 3

- Si los pares ordenados (x,y) tienden a seguir un patrn de lnea recta, se
tiene una correlacin lineal. La precisin del cambio en y cuando crece x,
determina la intensidad de la correlacin lineal.






La correlacin lineal perfecta ocurre cuando todos los puntos estn exactamente
sobre una lnea recta, como se observa en la siguiente figura, esta correlacin
puede ser positiva o negativa. Si los datos forman una lnea horizontal o vertical, no
hay correlacin, ya que una variable no afecta a la otra.





2.2.2. Coeficiente de Correlacin (r)

O coeficiente de correlacin de Pearson, nombre que recibe en honor de su creador
Karl Pearson (1857-19369), es una medida que nos sirve para describir que tan
fuerte es la relacin entre las dos variables. Es un nmero que vara de -1 a 1. Un
valor de r de +1 denota una correlacin positiva perfecta (relacin directa), y en
consecuencia un valor de r de -1 denota una correlacin negativa perfecta (relacin
inversa), y un valor de r = 0 indica que no hay correlacin entre las variables.
Vzquez, H. 2009 | 2.2. Anlisis de Correlacin Lineal 4

El mtodo que se emplea para el clculo del coeficiente es el Mtodo de Mnimos
Cuadrados, y la frmula es:

( )
( ) ( )
(
(

(
(


n
Y
Y
n
X
X
n
Y X
XY
r
2
2
2
2



La frmula es un poco tediosa por el clculo de todas las sumatorias de los datos,
pero el objetivo principal de este curso es que este coeficiente se calcule a travs
de una calculadora cientfica.

El rango sugerido para determinar la intensidad con que dos variables estn
relacionadas es:

Coeficiente de Correlacin r
0 0<r<0.4 0.4<r<0.7 0.7<r<1 1
No hay
correlacin
Baja
Correlacin
Moderada
Correlacin
Fuerte
Correlacin
Correlacin
Perfecta





2.2.3 Coeficiente de Determinacin (R
2
)

El coeficiente R
2
mide la proporcin de variabilidad de la variable dependiente (y)
considerada o explicada por la variable independiente (x).
El coeficiente de determinacin R
2
va entre 0 y 1. Un R
2
=0 significa que el
pronosticador no considera una variabilidad de la variable dependiente y que no
hay prediccin de regresin de y por x. un R
2
=1 indica una prediccin perfecta. El
investigador debe interpretar si un coeficiente de determinacin R
2
particular es
alto o bajo, dependiendo del modelo y el contexto dentro del cual se cre el
modelo.
Para el caso del anlisis de correlacin y regresin simple, el valor de R
2
, no es ms
que el cuadrado del coeficiente de correlacin r, es importante considerar que para
el caso de un modelo mltiple (ms de dos variables) el criterio para su clculo es
diferente.


( )
2 2
r R =


El valor de R
2
se interpreta en forma porcentual.






Vzquez, H. 2009 | 2.3 Anlisis de Regresin 5

2.3 Anlisis de Regresin

El anlisis de regresin se refiere a determinar el modelo matemtico lineal que
mejor se adapta al comportamiento de los datos, dicho en otras palabras, es
calcular la ecuacin lineal que mejor se ajusta a los datos.

2.3.1. Ecuacin de la Recta de Regresin Simple

El primer paso para determinar la ecuacin de la recta de regresin que pasa por
los datos de la muestra es establecer la forma de la ecuacin. En este anlisis se
emplea la recta de la forma: pendiente y ordenada en el origen, en matemticas su
forma es:
origen al ordenada b
recta la de pendiente m
donde
b mx Y
=
=
+ =
:


En estadstica, la forma de la ecuacin de la recta que pasa por los puntos
poblacionales es:

l poblaciona pendiente
l poblaciona ordenada
y de do pronostica valor y
donde
x y
o
o
=
=
=
+ =
1
1

|
|
| |


Para calcular los coeficientes de la ecuacin, se emplea tambin el Mtodo de
Mnimos Cuadrados, por lo que las frmulas se calculan de la siguiente manera:

( )( )
( )
( )
n
X
n
Y
n
X
X
n
Y X
XY
donde
x y
o
o

=
+ =
1
2
2
1
1
:

| |
|
| |


Al igual que el coeficiente de correlacin, tambin estos coeficientes se pueden
determinar con una calculadora cientfica.



Vzquez, H. 2009 | 2.4. Ejercicios 6

2.4. Ejercicios

2.2.4.1 Ejercicios Resueltos
1. Un especialista en administracin de hospitales dice que el nmero de
empleados de tiempo completo (ETC),de un hospital, se puede estimar al
contar el nmero de camas en el hospital (una medida comn del tamao de
un hospital).

N de camas N de empleados (ETC)
23 69
29 95
29 102
35 118
42 126
46 125
50 138
54 178
64 156
66 184
76 176
78 225

a) Realiza un diagrama de dispersin y que observas en cuanto al
comportamiento de los datos?
b) Calcula los coeficientes de correlacin y de determinacin.
c) Determina la ecuacin de la recta de mejor ajuste
d) Si un hospital que se est construyendo, se planea que tenga 70 camas, de
cuantos empleados tendra que disponer?
e) Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?

Solucin:

a) para la solucin de este inciso nos apoyamos en Excel, (insertando un grfico
de dispersin, seleccionando las celdas con ttulos de los datos)



Vzquez, H. 2009 | 2.4. Ejercicios 7

Del grfico podemos concluir que hay una alta correlacin positiva, dado que los
puntos tienden a una lnea recta con pendiente positiva o ascendente, esto
indica que mientras aumente el nmero de camas, tambin aumentar el
nmero de empleados de tiempo completo
Excel, como funcin adicional tambin puede graficar esa recta de tendencia:





b) Para el clculo de todos los coeficientes nos apoyamos en una calculadora
cientfica que trabaje con datos bivariados (x,y)

c) Como ejemplo trabajamos con la calculadora que se muestra a continuacin:


Esta calculadora puede trabajar en 3 modos distintos:


Oprimiendo la tecla




Aparece en pantalla, y
trabajaremos con el modo
REG (modo de regresin)
oprimiendo la opcin 3

Y posteriormente la opcin
1, que es regresin Lineal.



La forma en que se ingresarn los datos ser como sigue:

Se capturarn por pares de datos (x,y):

23 69 todos y cada uno de los pares de datos,
Vzquez, H. 2009 | 2.4. Ejercicios 8


Y despus de haber capturado todos los datos, se oprime la tecla
Para obtener los resultados se procede a entrar a la opcin S-VAR, por lo que
se tendrn que oprimir las teclas:

y en la pantalla aparecer

Posteriormente se oprimir
La tecla


hasta que aparezcan las
opciones:


que representan los coeficientes buscados de la ecuacin :

Bx A y
donde
x y
o
+ =
+ =

1
| |


Entonces los resultados de la calculadora son:

A = 30.912
B = 2.231
r = 0.9415

de donde podemos concluir que:

como r = 0.9415, los datos tienen una alta correlacin positiva

R
2
= 0.8864,de donde se desprende que el 88.64% del
nmero de empleados est explicado por el nmero de camas
de un hospital.

Y de los valores de A y B, la ecuacin de la recta de mejor
ajuste queda como:

x y
Bx A y
231 . 2 912 . 30

+ =
+ =


De donde, el valor de la pendiente nos muestra que por cada
cama que aumente un hospital, aumentar 2.231 empleados
de tiempo completo.







Vzquez, H. 2009 | 2.4. Ejercicios 9

d) Si un hospital que se est construyendo, se planea que tenga 70 camas, de
cuantos empleados tendra que disponer?

Como x=70 y nos interesa calcular y, entonces:
En la calculadora se Ingresa 70 y buscamos la opcin

Y con buscamos la opcin y x
, y se elige la opcin 2 y
, obteniendo
como resultado:

12 . 187 = y que indica que si un hospital se planea con 70 camas, tendra que
considerar una plantilla de 187 trabajadores de tiempo completo.

e)Si un hospital cuenta con 90 empleados, cuantas camas estimas que tenga?

Siguiendo el procedimiento del inciso anterior pero intercambiando variables
tenemos que:
Como y=90 y nos interesa conocer x,
Entonces 48 . 26 = x , nos muestra que el hospital que tiene 90 empleados tiene
aproximadamente 27 camas.





2.2.4.2 Ejercicios Propuestos

1. El gerente de de una compaa de seguros desea establecer la relacin entre el
seguro de vida de las personas y sus salarios. Para poder establecer dicha
relacin tiene la siguiente informacin.

Seguro de vida en vigor
(miles de dlares)
Salario anual
(miles de dlares)
80
100
130
150
200
300
300
350
29
30
31
40
40
29
50
127

a) Qu tipo de relacin tienen las variables? Con que fuerza? Justifica
b) Realiza un diagrama de dispersin e interprtalo
c) Obtn la ecuacin de la recta de regresin de mejor ajuste e interprtala.
d) Si un asegurado percibe un salario anual de $75000, de cuanto ser su
seguro de vida?
e) Si un asegurado tiene un seguro de vida de $23000, Cunto de debe de
ganar anualmente?




Vzquez, H. 2009 | 2.4. Ejercicios 10


2. En un gran campus universitario se llev a cabo una encuesta. Se entrevisto a
24 estudiantes. Dos preguntas eran: Cuntas horas por semana est usted
empleado? y en cuantas horas usted est inscrito actualmente?

Hrs Empleado 20 40 35 15 40 20 20 0 20 40 10 20
Hrs Crdito 6 3 6 9 6 6 3 15 6 9 9 3

a) Qu tipo de relacin tienen las variables? Con que fuerza? Justifica.
b) Obtn la ecuacin de la recta de regresin de mejor ajuste e interprtala.
c) Si un empleado tiene 53 hrs. Empleado, Cuntas hrs. crdito debe tener?
d) Si un empleado tiene 13 hrs. crdito Cuntas hrs. empleado debe tener?




3. En el articulo Fast-Food Fat Counts Full os Surprises , se compara el
contenido de caloras y grasas de algunos d esos alimentos conocidos de
comida rpida.


Caloras 270 420 210 450 130 310 290 450 446 640 233
Grasas 9 20 10 22 6 25 7 20 20 38 11


a) Calcula el coeficiente de correlacin e interprtelo.
b) Obtener la ecuacin de la recta de regresin e interprtela.

También podría gustarte