Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Lineal
Probabilidad y Estadística
1
ANALISIS DE REGRESION
Introducción
y
La curva que pasa por el
origen es la que mejor ajusta a
la nube de puntos
Otro Caso
y y
x = Variable Independiente
(Regresora)
Ecuación de Regresión
E(y) = β0 + β1 x
X son valores conocidos
no aleatorios
Modelo de la línea recta para la respuesta y en función de x
x
Igualamos a cero ambas derivadas para encontrar los valores mínimos de SSE
Propiedades de los estimadores de mínimos cuadrados
1
Propiedades de los estimadores de mínimos cuadrados
Reemplazando en 1
Propiedades de los estimadores de mínimos cuadrados
Propiedades de los estimadores de mínimos cuadrados
K = número de parametros a determinar
METODO
1 Planteo del Modelo
Modelo de la línea recta que pasa por el origen
yi = βxi + εi
y
i=1, 2, 3, …………., n
Errores experimentales
Cte.
(aleatorizados e independientes
proporcionalidad con media cero y varianza cte.)
Yi = β xi εi
yi
ŷi
i x
εi = yi - ŷi
2 – Resolver el modelo
Método de la suma de cuadrados mínimos
n
SSE(β)
SSE = Σ ε 2
i
i=1
SSE(β) = Σ (y – β x)2
SSE = Σ (y – ŷ)2
Uso de Ecuaciones Normales como Método de Cálculo directo
Se basa en la siguiente propiedad
EX=0 Σ (y –ŷ) x1 =0
Si el modelo sería
x1 = x ; x2 =1 Ecuaciones normales x1 = x2 ; x2 =1
Σ (y – ŷ) x1 = 0
Σ (y – ŷ) x2 = 0
4 410 50
0
0 1 2 3 4 5
x(hs)
x( hs) y( km) yx x^2
0,5 49 24,5 0,25
1 110 110 1
1,5 135 202,5 2,25
2 206 412 4
2,5 225 562,5 6,25
3 320 960 9
3,5 340 1190 12,25
4 410 1640 16
SUMATORIA 5101,5 51
y = 100.03 x
y(km)
250
200
150
100
50
0
0 1 2 3 4 5
x(hs)
3 – validación del modelo
b) Prueba F
Coeficiente de Determinación r2
Error Total = Error no explicado + Error Explicado
ET = Ene + E e
y
Ene
ET
Ee _
Y
x x
_
Σ(ŷ – Y)2
_ _
r2 = _
Σ(y – Y)2 = Σ( y – ŷ)2 + Σ(ŷ – Y)2 Σ(y – Y)2
-1 ≤ r ≤ 1
y
x
y
Modelo no ajusta
r2 = 0 (no explicativo)
x
Coeficiente de Correlación r
4 - Análisis
El error estándar
• Cuanto mayor es el error estándar menos precisas serán las previsiones y viceversa
_ _
√
Σ(y - ŷ)2
S= Σ(y – Y)2 = Σ( y – ŷ)2 + Σ(ŷ – Y)2
_
n-k
Σ(ŷ – Y)2 Si r2 aumenta
r2 = _
Intervalos de confianza Σ(y – Y)2 Aumenta su numerador
Disminuye S
Intervalo más estrecho
Aumenta Precisión
Significados de los Coeficientes
Obviamente x no es explicativa de y
Hº) β = 0
H1) β ≠ 0 También se puede construir
Intervalos de confianza para β
t = (b – β) / S(b)
[b - tα/2 S(b)] ≤ β ≤ [b + tα/2 S(b)]
V(b) = S2 / Σx2
t = b/s(b)
Si t < tc se acepta Hº
Recordemos el ejemplo y = bx
b= 100,03
Y promedio= 224,375
r2 = 0,96
x( hs) y( km) yx x^2 (y-bx)^2
SSr= 1586,955882
0,5 49 24,5 0,25 1,03
GL= 7
1 110 110 1 99,41
1,5 135 202,5 2,25 226,33
Sr^2 = 226,71
2 206 412 4 35,30
2,5 225 562,5 6,25 628,68
Sr = 15,05682514
3 320 960 9 396,48
3,5 340 1190 12,25 102,07
v(b)= 4,445254572
4 410 1640 16 97,66
SUMATORIA 5101,5 51 1586,96
s(b)= 2,108377237
tc= 2,36462256
Ls 105,0187654
Li 95,04005816
t= 47,44379233
EJEMPLO: Resolver en Excel
Click sobre uno de los puntos
Click botón derecho del mouse
Ctrl – Shift - Enter
y = ax + b
a= 3.68242424
b= 2.56666667
Sa= 1.16722108
Sb= 0.18811471
r2= 0.97954995
Gl= 8
tcrítico= 1.85954804
se rechazan las hipotesis nula en ambos casos con nivel de significancia de 0.05
Algunos problemas
• Causalidad
• Heterocedasticidad
• Colinealidad
La Causalidad
Los modelos de regresión no son modelos causales
• Pueden emplearse para análisis de causas solo si:
– Se conocen las condiciones de entorno
– Se cuenta con información adicional que validan causas
y x
Fuerza (kg) Altura (Cm)
180 85
Punto
130 90 alejado
150 95 del resto
145 100
145 100
160 110
10000 500
Ejemplo: Supongamos que una empresa desea analizar las ventas en función del
Precio y Publicidad
VENTAS PUBLICIDAD PRECIO
630 100 200
600 110 220
550 120 240
520 130 250
Modelo
Ventas = a Publicidad + b Precio + c
Resultado
Ventas = -2.666 Publicidad -0.666 Precio + 1033.33
t a = -1.042 ; t b = -0.447 ; t c = 16.23
r2 = 0.99
Colinealidad
r2
Según el modelo es explicativo, pero los valores t a y t b son muy pequeños, entre
Indican que se debe aceptar la Hº que los coeficientes son iguales a cero Publicidad
y
¿Paradoja? Precio
Condiciones que se deben cumplir
1. Normalidad e independencia de los errores
2. Homogeneidad de la Varianza