Documentos de Académico
Documentos de Profesional
Documentos de Cultura
17 REGRESIÓN
Y CORRELACIÓN
SIMPLE
OBJETIVOS
Al finalizar el Tema 17, el participante será capaz de:
1. Utilizar diagramas de dispersión para visualizar la
relación entre dos variables.
2. Identificar relaciones simples entre variables
•
•
• • • •
•
entre X y Y vistos •
• ••
• •
••
• • •
en diagramas de • • • • •
•
• •
• • •
dispersión X X X
Y • Y Y
• •• • • • ••
••
• • •
• •• •• • • •
•
•
•
• •• • •
•
• • •
•• • ••
• • • • • • • ••
••
• ••
•
• • •• •
••
• ••
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
Aplicación
El gerente de personal de la empresa agroindustrial
«Naranjillo» estudia la relación entre los gastos y los
salarios de su personal obrero. Una muestra aleatoria de
10 obreros reveló los siguientes datos en dólares por
semana:
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le llama
variable dependiente, y a X se le llama variable
independiente.
Y = b0 + b1 X
Variable Variable
Dependiente Independiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en
igual sentido (aumentos o disminuciones), las
variables están directamente relacionadas. Se
observa el signo +
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y en
sentido inverso (X aumenta, Y disminuye o
viceversa), las variables están inversamente
relacionadas. Se observa en la ecuación el signo -.
Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la
variable independiente está elevada al
exponente 1. Su gráfica genera una línea
recta (por lo que también se le llama
ecuación lineal)
Ejemplo: Y = 30 + 4 X
Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor
del exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 30 + 2X
Y = 10 - 3X2
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
Los cinco pares de valores se diagraman de la
forma siguiente.
Y
12
11
10
. .
.
(5,10.5)
9
.
8 (4,9)
7
.
6 (3,7.5)
5
4 (2,6)
3 (1,4.5)
2
1
1 2 3 4 5 X
E) Forma general:
La ecuación simple de primer grado tiene la
siguiente forma general
Y = b0 + b 1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b 0 cuando X = 0.
En la gráfica es la intersección con el eje Y
Y
Ejemplo:
Y = 7 + 3.5X .
b0 = 7
X
17.3 Regresión lineal simple
Es una técnica estadística que permite
determinar la mejor ecuación que represente la
relación entre dos variables relacionadas.
= error
Yi - Y 10
8
. Línea de
estimación
Ŷ
6
Min Y - Y
2 •
4 Error= -6
i
2
•
•
. Error= 2
X
2 4 6 8 10 12 14
El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente
forma:
Y nb + b X
0 1
XY b X b X
0 1
2
.
Y
Valor
observado Valor
estimado
xo X
17.4 Error estándar de estimación (Syx)
2
(Y - Ŷ)
Syx =
n2
14
Reemplazando en la formula
50,202 50,202
S yx = 2,505
10 2 8
S yx = 2,505
El coeficiente de correlación
A) El coeficiente de determinación
Al construir un modelo de regresión, se define
que “el valor Y depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X
Pero en la práctica Y depende también de
“otros factores” diferentes a X:
Y = b0 + b1X +
Parte de los cambios en Y pueden explicarse
por X, a otro se llama variación explicada.
Pero hay cambios en Y que no pueden
explicarse por X, a lo que se llama variación
no explicada.
Yi
Y Variación
Variación no explicada
Total
Yi - Y
Yi - Y
Variación
Explicada
Y - Y y
variacion explicada
r
2
variacion total
r2 =
Ŷ - Y 2
Y - Y
2
i
n
Y1 Y2 Y3 Y4 Y5
Y=
5
9 5 7 14 10 45
Y=
5 5
Y = 9 unidades
2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas
observadas (Yi) con respecto a la media: Yi - Y
2
Y Y Y Y Y Y 2
3er Paso: Se calcula la variación explicada, es
decir, la sumatoria de las desviaciones cuadráticas
entre las ventas esperadas y la venta media de la
muestra: Y - Y
2
Ŷ Y Ŷ Y Ŷ Y 2
4to Paso: Se compara la variación explicada y
la variación total.
r = r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.
r de Pearson
Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión
Interpretación del coeficiente de correlación de Pearson
r=7
r = 0,982
= Yi - Ŷi
i
Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
Ejemplo:
El gráfico muestra un
adecuado ajuste entre
el incremento de
gastos y los salarios.
No se observa una
tendencia.
El análisis del gráfico nos brinda el criterio para
adoptar el modelo lineal o dejarlo de lado. Si fuese
así, podríamos probar con modelos no lineales como
el cuadrático, logaritmo o exponencial.
El análisis de residuos se complementa con el
cálculo de los residuos estandarizados (SR i), que
resultan de la división del residuo dividido por su
error estándar. i
SRi
S YX 1 hi
En donde 1 Xi X2
hi n
n
Xi2 nX
2
i 1
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades
que reflejen la variación estandarizada alrededor
de la línea de regresión.
En el gráfico siguiente, los residuos estandarizados
fueron graficados en función de la variable
independiente (salarios). Se puede observar de que
existe una dispersión amplia en la gráfica de
residuos, no existe un patrón evidente o una
relación entre los residuos estandarizados y X i . Los
residuos parecen estar equitativamente distribuidos
por arriba y por debajo de 0, para diferentes valores
de X. Podemos concluir que el modelo ajustado
parece ser adecuado.
B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
D i 2
n
i
2
i 1
2
1,
b1 N SC x
b1 1 b1 1
t
Sb1 S yx
SC x
2 desconocido
SC x conocido
Lo2 que se va hacer es estimar
n
se estima mediante
la
Y
siguiente
2
formula:
2
Y 2
b1 SC x
n
S 2
i 1
yx
n2
-t0 t0
Pr( t 0 t t 0 )
b1 1
Pr t 0 t0 1
S yx
SC x
S yx S yx
Pr b1 t 0 1 b1 t 0 1
SC x SC x
B. Intervalo de confianza para 0
1 x
2
b0 0 , 2
n SC
x
b0 0 b0 0
t n2
Sb0 1 x
2
S yx
n SC x
donde:
Y Y
2
b 2 SC
2
n 0 x
S 2yx
n2
-t0 t0
Pr( t 0 t t 0 )
b
Pr t 0 0 0
t0 1
S
b 0
Pr b 0 t 0Sb0 0 b 0 t 0Sb0 1
1 X
Ŷ N y / X0 , 2 0
X
2
n SC x
Pr ŷ t 0S ŷ y / X0 ŷ t 0S ŷ 1
donde:
1
X
S ŷ S 2yx 0
x
2
n SC x
D. Intervalo de confianza para un valor
individual
Además de obtener una estimación de intervalo
de confianza para el valor promedio, a menudo
es importante tener la capacidad de predecir la
respuesta que se obtendría para un valor
individual.
1 X
Ŷ N y / X0 , 2 1 0
X
2
n SC x
El intervalo de predicción está estimando
un valor individual, no un parámetro.
Pr ŷ t 0S ŷ Y / X0 ŷ t 0S ŷ 1
donde:
1 X
S ŷ S 2yx 1 0
x
2
n SC x
17.9 Análisis de varianza de la
regresión simple
El análisis de varianza es una técnica que permite
localizar las fuentes de variabilidad que ayuden a
explicar el comportamiento de la variable dependiente.
2
Error
Experimental
Y2
n
b12SC x n 2 S 2yx
Total SC total n 1
Asumiendo que existe una regresión lineal,
determine:
A.La ecuación de regresión e interprete los
coeficientes de regresión.
B.El intervalo de confianza para 1y para un valor
individual si X=3,8.
C.El cuadro de ANOVA para la regresión lineal
D.El valor de
ŷ cuando X = 5,1
E.La prueba de hipótesis respectiva a partir del
ANOVA e interprete el resultado.
F.Estime el aumento de peso que puede darse se
consumen 6 Kg. del complemento nutricional
mediante un intervalo e interprete el resultado.
Solución
Primero se realizan los cálculos necesarios:
n 10
X 458i
Y 384
i
X 23784
i
2
Y 16168
i
2
X Y 19550
i i
b0 Y b1 X
X iYi X Y
i i
19550
458384
b1 n 10 0.699
458
X i2 n i
2 2
X
23784
10
Interpretación:
b0: Es probable que un empleado de la empresa
reciba un salario de $6.381.
S yx S yx
Pr 0,699 t0,10 8 1 0.699 t0,10 8 1 0,10
SC x SC x
S yx S yx
Pr 0.699 1,86 1 1,57 1,86 0,90
52,987 52,987
16168
384
2
0,699 52.987
2
10 1422.4 25.890
2
S yx 174.56
8 8
S yx 13,212
13,212 13,212
Pr 0,699 1,86 1 0,699 1,86 0,90
52.987 52.987
1 3,80 45.8
2
SYˆ 2,505 1 14.690
10 52,987
4. Criterios de decisión
F1-/2 F/2
0,0041 5,32
6. Conclusiones
La variable salario es apropiada para explicar
el comportamiento del “aumento de gastos»
en la empresa agroindustrial «Naranjillo».
Además, la ecuación de regresión puede ser
usada con fines de predicción hasta cierto
límite.
F. ¿ Para X = 6, que promedio de Y vamos a
obtener?
Pr 10,575 1,86SYˆ Y X0
10,575 1,86SYˆ 1
1 6 45.8
2
SYˆ 2,505 13,719
10 52,987
Pr 10,575 1,8613,719 Y X0
10,575 1,8613,719 0,90
Pr 14,942 Y X0
36,092 0,90
2
5. El coeficiente de correlación de muestra, r, no es nada más que r
y no podemos interpretar su significado directamente como un
porcentaje del mismo tipo
21. Una valor pequeño de r2 implica que no existe una relación de causa-
efecto significativa entre X y Y