Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESION Y CORRELACION
Fórmulas básicas en la regresión lineal simple
β0 y β1 son los parámetros del modelo. ε es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relación lineal
entre x y y.
Los errores, ε, se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviación estándar σ. Esto implica que el valor
medio o valor esperado de y para cada x, denotado por E(Y/x), es igual a β0 +
β1 x.
1 <0
1 >0
1 =0
Navarro Estadística (complementos) 2
Los parámetros, β0 y β1, del modelo se estiman por los estadísticos muestrales b0 y
b1, los cuales se calculan usando el método de mínimos cuadrados.
Diagrama de dispersión
220
El diagrama de dispersión es la
200
nube de puntos (xi , yi)
180 ubicados en el plano
160
cartesiano. Visualmente el
diagrama muestra la
tendencia de los puntos
140
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Diagrama de dispersión
(y línea de regresión estimada)
220
200
180
160 ŷ = b0 + b 1 x
140
120
100
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
𝜕𝑏0
𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
{ 𝜕𝑏1
yi = nb0 + ( x i )b1
xi yi = ( xi )b0 + ( xi )b1
2
𝑛 ∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖 ∑ 𝑌𝑖 ∑ 𝑋𝑖
𝑏1 = y 𝑏0 = ( ) − 𝑏1 ( )
𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 𝑛 𝑛
b 1= b0= ŷ=
Navarro Estadística (complementos) 4
restaurante
xi yi xiyi x i2
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
140 1300 21040 2528
Relación entre SCT, SCR y SCE : SCT = SCR + SCE . SCR = SCT – SCE.
200
180
ŷ = b0 + b1 x
160
ŷ =60 + 5x
140
120
100
80 y = 130
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Restaurante X Y 𝑌̂ = 60 + 5𝑋
1 2 58 70.00 -12.00 144.00
2 6 105 90.00 15.00 225.00
3 8 88 100.00 -12.00 144.00
4 8 118 100.00 18.00 324.00
5 12 117 120.00 -3.00 9.00
6 16 137 140.00 -3.00 9.00
7 20 157 160.00 -3.00 9.00
8 20 169 160.00 9.00 81.00
9 22 149 170.00 -21.00 441.00
10 26 202 190.00 12.00 144.00
TOTALES 140 1,300 1530.00 14200.00 15730.00
El 90.27% de la variación en las ventas se puede explicar con la relación lineal entre la
población estudiantil y las ventas.
S XY
(1) El coeficiente de correlación se define como r = ; SXY es la covarianza muestral y el
Sx SY
denominador es el producto de las desviaciones típicas muestrales.
Navarro Estadística (complementos) 6
S2 = CME = SCE/(n-2)
n-2 son los grados de libertad asociados a SCE. 2 son los parámetros que se estiman
en la regresión lineal ( β0 y β1 ) y n es el número de pares de datos.
µY /X p =E(y/xp): ŷp ± t /2 s
n ( x − x )2
i
( xp − x )2
Yp: ŷp ± t/2 s 1+ n +
1 ; para leer t /2 usar =n-2
( x − x )2 i
220
200
180
160
140
120
100
80
VENTAS
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
POBLAC
Navarro Estadística (complementos) 7
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio
de venta trimestral para todos los restaurantes cercanos a centros escolares
con 10,000 estudiantes:
( x − x )2
µY: ŷp ± t/2 s 1 + p ; para leer t /2 usar = n-2
n ( x − x )2
i
1. La autoridad regional de transporte desea determinar si hay alguna relación entre la edad
de un autobús y su costo anual de mantenimiento. Con una muestra de 10 autobuses se
obtuvieron los siguientes datos:
Edad (años) : 1 2 2 2 2 3 4 4 5 5
Costo de mantenimiento ($): 350 370 480 520 590 550 750 800 790 950
Costo
Volumen
total
X
Y
5.2 5.30
5.7 6.20
6.2 6.50
7.3 6.70
8.1 7.60
8.7 8.30
6.0 6.51
Navarro Estadística (complementos) 9