Documentos de Académico
Documentos de Profesional
Documentos de Cultura
09 Regresion y Correlacion Lineal Simple PDF
09 Regresion y Correlacion Lineal Simple PDF
PRESENTACIÓN
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con
la sección llamada Aprendiendo.com. En esta última sección se le proporciona
al estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes
de aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Los Autores
Las relaciones entre las variables pueden ser directas o también inversas.
DIAGRAMAS DE DISPERSIÓN
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos
individuales de datos se reduce al mínimo.
El error es cero.
Los datos obtenidos de las muestra son estadísticamente independientes.
La varianza del error es igual para todos los valores de X.
yˆ = a + bx
Para calcular el valor de b (pendiente), que representa el grado de
inclinación que tiene la recta, se emplea la siguiente formula:
b= ∑ xy − n x y
∑x −nx 2 2
a = y + bx
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
∑y 2
− (a • ∑ y ) − (b • ∑ xy )
Se =
n−2
X Y
4. Se calcula la pendiente.
b=
∑ xy − n x y
∑ x − n(x )
2 2
a = y + bx
yˆ = a + bx
∑y 2
− (a • ∑ y ) − (b • ∑ xy )
Se =
n−2
Por ejemplo:
Realice una regresión para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
2 2
Sucursal X Y XY X Y
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
∑= 140 1300 21040 2528 184393
4. Calculo de la pendiente.
140
x= = 14 mil personas
10
1300
y= = 130 mil pesos
10
Por lo tanto la pendiente es
a = 130 − 5(14) = 60
6. Obtener la ecuación que mejor se ajuste.
∴ yˆ = 60 + 5( x )
yˆ = 60 + 5(14 ) = 130
∴ (14,130 )
yˆ = 60 + 5(30 ) = 210
∴ (30,210 )
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
CORRELACIÓN SIMPLE
(a • ∑ y ) + (b • ∑ xy ) − (n • y 2
)
=
∑ y − (n • y )
2
r 2
2
r = r2
INTERVALO DE CONFIANZA
S
yc = yˆ ± tα / 2 , gln − 2 e
n
INTERVALO DE PREDICCIÓN
y p = yˆ ± (t α 2 (n − 2))• S e • 1 + +
1 (X − x ) 2
n ∑ x 2 − n(x )2
Por ejemplo:
Solución
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
∑= 70 1080
2. Diagrama de dispersión.
Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
∑= 70 1080 8128 632 119082
1080
y= = 108
10
70
x= =7
10
a = 108 − 4(7 ) = 80
yˆ = 80 + 4( x )
Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:
r = 0.9303 = 0.9645
Este número nos indica que las variables X Y tienen una correlación positiva
intensa.
Considerando
yˆ = 108 ventas anuales
4.61
yc = 108 ± 2.306
10
108 − 3.3617 ≤ yc ≤ 108 + 3.3617
104.6383 ≤ yc ≤ 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos
anuales.
y p = yˆ ± (t α 2 (n − 2))• S e • 1 + +
1 (X − x ) 2
n ∑ x 2 − n(x )2
Sustituyendo:
1
y p = 108 ± 2.306 • 4.61 • 1 + +
(9 − 7 ) 2
10 632 − 10(7) 2
108 − 11.291 ≤ y p ≤ 108 + 11.291
96.709 ≤ y p ≤ 119.291
Se puede asegurar con un nivel de confianza del 95% que las ventas
pronosticadas de un vendedor con 9 años de experiencia están entre 96.71
y 119.3 miles pesos anuales.
Ejercicios propuestos:
Galones Tamaño
de de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
Seguro Salario
de Anual.
vida
Y X
50 10
80 29
100 30
130 31
150 36
a) Elabora el diagrama de dispersión.
b) Calcula la pendiente y ordenada al origen.
c) Obtener la ecuación que mejor se ajusta a los datos.
d) Traza la línea estimada en el diagrama de dispersión.
e) Calcula el error estándar de estimación.
f) Calcula el coeficiente de determinación.
g) Determina el coeficiente de correlación.
h) Determina el intervalo de confianza al 90%.
i) Determina el intervalo de predicción 90%
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12
7. Los datos siguientes muestran las ventas (en miles de cajas) y los costos de
un anuncio publicitario para la televisión (en millones de pesos) para 7 marcas
principales de refrescos.
Marca Gastos de Ventas de cajas
publicidad ($) (miles)
Coca-Cola 13.0 19.3
Pepsi-Cola 9.4 13.8
Sprite 6.4 8.4
Diet Coke 5.7 5.5
7-Up 4.2 5.9
Jarritos 2.9 5.3
Boing 1.6 2.5
a) ¿Dibuje el diagrama de dispersión, que parece indicar este diagrama
acerca de la relación entre las dos variables?
b) Trace una recta que pase por los datos, para aproximar una relación
lineal entre los gastos del anuncio y las ventas.
c) Aplique el método de los cuadrados mínimos para plantear la ecuación
estimada de regresión.
d) Prediga las ventas para una marca que decida gastar $7 millones de
pesos en un anuncio publicitario.
e) Calcule el error estándar en la regresión.
f) Calcule el coeficiente de determinación y correlación e interprételos.
g) Determina el intervalo de confianza al 95%.
h) Determina el intervalo de predicción 95%
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles de pesos)
Unidades vendidas en el año 2007 170 133 86 161 112 133 136 82
Unidades vendidas en el año 2006 99 95 50 80 92 88 130 100
a) Trace un diagrama de dispersión para estos datos,
b) Aplique el método de mínimos cuadrados para plantear la ecuación
estimada de regresión.
c) Calcule el error estándar en la regresión.
d) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
e) Determina el intervalo de confianza al 95%.
f) Determina el intervalo de predicción 95%
Nacimientos
Mes de registro Registrados
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
a) Aplique el método de mínimos cuadrados para plantear la ecuación
estimada de regresión.
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuación obtenida y predice cuantos debieron
de haberse registrado en ese mes, compara resultados y obtén tus
conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
d) Calcule el error estándar en la regresión.
e) Calcule el coeficiente de correlación y el coeficiente de determinación
e interprételos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de predicción 95%