Está en la página 1de 48

.....

Regresión Lineal
Probabilidad y Estadística

Ing. Héctor Iván Rodríguez

Ing. Gisella Mautino

1
ANALISIS DE REGRESION
Introducción

ANALIZAR DISTINTOS DATOS


DE MANERA DE PODER ENCONTRAR
UNA FORMULA AL PROBLEMA
OBJETIVO
SIRVE PARA CUANTIFICAR
RELACIONES ENTRE
VARIABLES

BREVE RESEÑA HISTORICA Médico que utilizó la técnica


para demostrar que si una
• Técnica conocida a principios del siglo XIX persona se alejaba de la
estatura media de su familia
• Primeras aplicaciones las realizó Galton sus descendientes tienden
a “regresar” a la media

De dicha aplicación deriva


el nombre de Regresión
REGRESION LINEAL SIMPLE
Sean las siguiente tabla de datos:
y
X Y
x1 y1
x2 y2
x3 y3
. .
. .
x
xn yn
¿Cuál es la curva que ajusta mejor a la nube de puntos?

y
La curva que pasa por el
origen es la que mejor ajusta a
la nube de puntos
Otro Caso

y y

Aplicando Regresión Lineal Simple

Encontramos la curva que mejor ajusta a la nube de puntos

llamada ECUACION DE REGRESION


y = Variable dependiente
y
y
(las respuestas)

x = Variable Independiente
(Regresora)

Ecuación de Regresión

El modelo es lineal en los parámetros


y puede representar una línea recta o una curva propiamente dicha
MODELO DE LA LINEA RECTA
y

Valor medio de y Error


Para una x dada aleatorio

E(y) = β0 + β1 x
X son valores conocidos
no aleatorios
Modelo de la línea recta para la respuesta y en función de x

La línea de medias E(y)


E(y) = β0 + β1 x

La línea ajustada que calculamos

La desviación del i-ésimo valor de y respecto a su valor predicho es:


y

x
Igualamos a cero ambas derivadas para encontrar los valores mínimos de SSE
Propiedades de los estimadores de mínimos cuadrados

1
Propiedades de los estimadores de mínimos cuadrados

Reemplazando en 1
Propiedades de los estimadores de mínimos cuadrados
Propiedades de los estimadores de mínimos cuadrados
K = número de parametros a determinar
METODO
1 Planteo del Modelo
Modelo de la línea recta que pasa por el origen

yi = βxi + εi
y
i=1, 2, 3, …………., n

Errores experimentales
Cte.
(aleatorizados e independientes
proporcionalidad con media cero y varianza cte.)

Yi = β xi εi

yi
ŷi

i x
εi = yi - ŷi
2 – Resolver el modelo
Método de la suma de cuadrados mínimos

n
SSE(β)
SSE = Σ ε 2
i
i=1

SSE = Σ (yi – Yi)2


i=1
SSEmin
n

SSE = S(β) = Σ (yi – β xi)2


i=1 βmin β

SSE(β) = Σ (y – β x)2
SSE = Σ (y – ŷ)2
Uso de Ecuaciones Normales como Método de Cálculo directo
Se basa en la siguiente propiedad

Vector de residuos Vector de valores de X

EX=0 Σ (y –ŷ) x1 =0

(ε1 , ε2 ,……, εn) (x1, x2, ……xn) = 0 Σ (y –ŷ) x2 =0


-
Σ εi x1 =0
-
Σ εi x2 =0 Σ (y –ŷ) xn =0
-
-
PLANTEAR TANTAS
Σ εi xn =0
ECUACIONES NORMALES
COMO PARAMETROS
A DETERMINAR
Σ (y – ŷ) x = 0

Si el modelo sería

x1 = x ; x2 =1 Ecuaciones normales x1 = x2 ; x2 =1
Σ (y – ŷ) x1 = 0
Σ (y – ŷ) x2 = 0

Se resuelve el sistema de ecuaciones para encontrar a y b


Se registra el tiempo transcurrido en
Ejemplo hs conjuntamente con el espacio
recorrido en km de un móvil
perteneciente a un sistema de
reparto de una empresa

ESPACIO RECORRIDO SEGUN TIEMPO EMPLEADO


x( hs) y( km)
0,5 49 450
1 110 400

1,5 135 350


300
2 206
y(km)
250
2,5 225
200
3 320 150
3,5 340 100

4 410 50
0
0 1 2 3 4 5
x(hs)
x( hs) y( km) yx x^2
0,5 49 24,5 0,25
1 110 110 1
1,5 135 202,5 2,25
2 206 412 4
2,5 225 562,5 6,25
3 320 960 9
3,5 340 1190 12,25
4 410 1640 16
SUMATORIA 5101,5 51

ESPACIO RECORRIDO SEGUN TIEMPO EMPLEADO


Σyx = 5101.5
Σx2 = 51 450
y = 100,03x
400
b = 100.03 350
300

y = 100.03 x
y(km)

250
200
150
100
50
0
0 1 2 3 4 5
x(hs)
3 – validación del modelo

Determinar el poder explicativo del modelo

a) Coeficiente de determinación (r2) – de correlación (ρ)

b) Prueba F
Coeficiente de Determinación r2
Error Total = Error no explicado + Error Explicado

ET = Ene + E e

y
Ene
ET
Ee _
Y

x x

_
Σ(ŷ – Y)2
_ _
r2 = _
Σ(y – Y)2 = Σ( y – ŷ)2 + Σ(ŷ – Y)2 Σ(y – Y)2
-1 ≤ r ≤ 1
y

r2 = 1 Modelo ajusta perfectamente


(explicativo)

x
y

0< r2 < 1 Modelo en principio puede ajustar


(si r2 = 0.95) explica el 95%)

Modelo no ajusta
r2 = 0 (no explicativo)

x
Coeficiente de Correlación r
4 - Análisis

El error estándar

• Permite evaluar la calidad de los pronósticos de los modelos

• Es medida del grado de precisión de un modelo

• Cuanto mayor es el error estándar menos precisas serán las previsiones y viceversa

_ _


Σ(y - ŷ)2
S= Σ(y – Y)2 = Σ( y – ŷ)2 + Σ(ŷ – Y)2
_
n-k
Σ(ŷ – Y)2 Si r2 aumenta
r2 = _
Intervalos de confianza Σ(y – Y)2 Aumenta su numerador

(ŷ - tα/2 S) ≤ Y ≤ (ŷ + tα/2 S) Disminuye Σ( y – ŷ)2

Disminuye S
Intervalo más estrecho

Aumenta Precisión
Significados de los Coeficientes

Sirve para saber si su variable independiente es explicativa del modelo

¿Qué pasa si en nuestro modelo y = bx


de alguna manera determinamos que el coeficiente b =0?

Obviamente x no es explicativa de y

Plantear un test de hipótesis

Hº) β = 0
H1) β ≠ 0 También se puede construir
Intervalos de confianza para β
t = (b – β) / S(b)
[b - tα/2 S(b)] ≤ β ≤ [b + tα/2 S(b)]
V(b) = S2 / Σx2

t = b/s(b)

Si t < tc se acepta Hº
Recordemos el ejemplo y = bx

b= 100,03

Y promedio= 224,375
r2 = 0,96
x( hs) y( km) yx x^2 (y-bx)^2
SSr= 1586,955882
0,5 49 24,5 0,25 1,03
GL= 7
1 110 110 1 99,41
1,5 135 202,5 2,25 226,33
Sr^2 = 226,71
2 206 412 4 35,30
2,5 225 562,5 6,25 628,68
Sr = 15,05682514
3 320 960 9 396,48
3,5 340 1190 12,25 102,07
v(b)= 4,445254572
4 410 1640 16 97,66
SUMATORIA 5101,5 51 1586,96
s(b)= 2,108377237

tc= 2,36462256

Ls 105,0187654
Li 95,04005816

t= 47,44379233
EJEMPLO: Resolver en Excel
Click sobre uno de los puntos
Click botón derecho del mouse
Ctrl – Shift - Enter
y = ax + b
a= 3.68242424
b= 2.56666667
Sa= 1.16722108
Sb= 0.18811471
r2= 0.97954995
Gl= 8

H0) A=0 H0) B=0


H1) A>0 H1) B>0
tcal= 3.15486441 tcal= 13.6441571

tcrítico= 1.85954804
se rechazan las hipotesis nula en ambos casos con nivel de significancia de 0.05
Algunos problemas

• Causalidad
• Heterocedasticidad
• Colinealidad
La Causalidad
Los modelos de regresión no son modelos causales
• Pueden emplearse para análisis de causas solo si:
– Se conocen las condiciones de entorno
– Se cuenta con información adicional que validan causas

Ejemplo: Se dispone de información sobre:


•Número de niños nacidos en una serie de provincias
•Censo de cigüeñas en esas provincias realizadas por un ecologista
Modelo altamente
Un analista podría formular Explicativo r2 =0.999
y x
la hipótesis
NACIMIENTOS CIGUEÑAS
1200 500
“Las cigueñas traen a los niños” Los coeficientes Son distintos
de cero (ver los t)
1380 600 y emplear un modelo de regresión
1620 700 (y = bx + a) para demostrarlo ¿se demostró que los niños son
1800 800 traídos por las cigüeñas?
2010 900
El resultado sería: ¿Cada cigüeña trae 2 niños?
2200 1000

y = 2.02 x +186.66 ¿Cómo explicamos los 186 niños


nacidos donde no hay cigüeñas?
t b = 59.2 ; t a = 7.1
r2 = 0.999
No son modelos causales
La Heterocedasticidad : Perturbación bastante frecuente. Técnicamente
aparece cuando la varianza de errores no es constante

Ejemplo: Supongamos que se ha medido la fuerza de unos monos y que


la relacionamos con su altura

y x
Fuerza (kg) Altura (Cm)
180 85
Punto
130 90 alejado
150 95 del resto
145 100
145 100
160 110
10000 500

La regresión proporciona Si eliminamos el elemento


el siguiente modelo y = bx + a causante de la heterocedasticidad
y = 24.30 x + 2175.97 y = -0.243 x + 176.35
t b = 37.8 ; t a = -15 t b = -0.22 ; t a = 1.6
r2 = 0.9997 r2 = 0.016
Aparentemente explicativo y satisfactorio
El modelo ya no es explicativo
Parece que la fuerza es función de su altura
La Colinealidad: Aparece cuando dos o más variables explicativas están correlacionadas

Es un problema que se presenta en Regresión Múltiple.

Ejemplo: Supongamos que una empresa desea analizar las ventas en función del
Precio y Publicidad
VENTAS PUBLICIDAD PRECIO
630 100 200
600 110 220
550 120 240
520 130 250

Modelo
Ventas = a Publicidad + b Precio + c
Resultado
Ventas = -2.666 Publicidad -0.666 Precio + 1033.33
t a = -1.042 ; t b = -0.447 ; t c = 16.23
r2 = 0.99
Colinealidad
r2
Según el modelo es explicativo, pero los valores t a y t b son muy pequeños, entre
Indican que se debe aceptar la Hº que los coeficientes son iguales a cero Publicidad
y
¿Paradoja? Precio
Condiciones que se deben cumplir
1. Normalidad e independencia de los errores

2. Homogeneidad de la Varianza

3. Independencia entre variables explicativas

También podría gustarte