Está en la página 1de 28

Universidad Nacional

Tecnológica de Lima Sur

Estadística y Diseño
Experimental

Regresión lineal
múltiple

 Mg. Myrna Manco C.


 Es posible estudiar a las unidades estadísticas
atendiendo a la variación simultánea de dos o más
características.

Objetivo:
 Reconocer si hay relación entre las variables
 Medir el grado de relación
 Estimar un modelo de relación
 Verificar la bondad de ajuste del modelo

2
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersión.
100

90

80
Peso (Kg)

70

60

50

40

30
140 150 160 170 180 190 200
Estatura (cm)

3
100
80
90 Fuerte relación 70 Cierta relación
80 directa. 60 inversa
70 50

60 40
30
50
20
40
10
30 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

• relación lineal directa.


relación lineal inversa o negativa
110
330

280 Incorrelación 100

90

230
80

180 70

130 60

50
80
40
30
30
Y

140 150 160 170 180 190 200 -8 -6 -4 -2 0 2 4 6 8

No existe correlación lineal

4
 La covarianza entre dos variables, Sxy, nos
indica si la posible relación entre dos
variables es directa o inversa.
◦ Directa: Sxy >0 1
◦ Inversa: Sxy <0 S xy   ( xi  x )( yi  y )
◦ Incorreladas: Sxy =0 n i
 El signo de la covarianza nos dice si el
aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relación entre las variables.

5
S xy
r
SxSy
 Es adimensional
 Cuanto más cerca esté r de +1 o -1 mejor será
el grado de relación lineal, siempre que no existan
observaciones anómalas.

Relación inversa Variables Relación directa


perfecta incorrelacionadas perfecta

6
 Se hace un estudio para
determinar la relación entre el
tiempo de vida (años) y la
eficiencia de las máquinas (%)
de una fábrica. Los datos se
dan en la siguiente tabla:

Tiempo de vida 2 4 11 9 4 6 7 8
Eficiencia 90 65 25 40 80 60 35 50

a) Representar los datos en un diagrama de dispersión.


b) Calcule el coeficiente de correlación entre las dos
variables. Interprete.

7
 Regresión
 .. predicción de una medida basándonos en
el conocimiento de otra.

◦ Ejemplos:
◦ Tiempo de asistencia a la escuela del hijo
en función al número de años de
escolarización de la madre.
◦ Calificación obtenida en una materia según
el número de horas de estudio semanal.
◦ Tiempo de ejecución de un programa en
función de la velocidad del procesador.
◦ Predecir la tasa de desempleo según la
edad.
8
 ¿Es posible descubrir una relación?
 RELACIÓN FUNCIONAL
Y=f (X1, X2, … , Xn)
Ejemplo: La relación que existe entre el tiempo (Y) que
tarda un móvil en recorrer una distancia (X) a velocidad
constante (v)
Y=X/v
 NO EXISTE NINGUNA RELACIÓN
Ejemplo: La relación que existe entre el dinero (Y) que
gana una persona adulta mensualmente y su altura (X)
 RELACIÓN ESTOCÁSTICA
 Y = f(X) + error
 f es una función de un tipo determinado (desconocida)
 el error es aleatorio, pequeño, y no depende de X

9
 El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).
Y = Variable
X = Variable
independiente
XY dependiente
regresora (X1, X2, … , Xn)  Y respuesta
predicha
predictora
explicada
explicativa

10
 Dado dos variables
◦ Y (dependiente)
◦ X (independiente)

 buscamos encontrar una función de X muy


simple (lineal)
Y=0 + 1X+ 
 que nos permita aproximar Y mediante
◦ Ŷ = b0 + b1X
 b0 (ordenada en el origen, constante)
 b1 (pendiente de la recta)

 Y e Ŷ rara vez coincidirán por muy bueno que


sea el modelo de regresión. A la cantidad
◦ e=Y-Ŷ se le denomina residuo o error residual.

11
 El modelo lineal de regresión se construye utilizando la técnica
de estimación mínimo cuadrática:
◦ Buscar b0, b1 de tal manera que se minimice la cantidad
 Σi ei2

 Se comprueba que para lograr dicho resultado basta con elegir:

SY
b1  r b0  y  b1 x
SX
 Se obtiene además unas ventajas “de regalo”
◦ El error residual medio es nulo
◦ La varianza del error residual es mínima para dicha
estimación.

 Traducido: En término medio no nos equivocamos.


Cualquier otra estimación que no cometa error en término
medio, si es de tipo lineal, será peor por presentar mayor
variabilidad con respecto al error medio (que es cero).

12
 Lo adecuado del modelo depende
r= 0.415
de la relación entre:
420

r^2 = 0.172
◦ la dispersión marginal de Y
◦ La dispersión de Y condicionada
400

aX
380
y

Es decir, fijando valores de X,


360


vemos cómo se distribuye Y
340

◦ La distribución de Y, para valores


320

fijados de X, se denomina
150 160 170 180 190 distribución condicionada.
r= 0.984
390

r^2 = 0.969 ◦ La distribución de Y,


independientemente del valor de
X, se denomina distribución
380

marginal.
370
y

 Si la dispersión se reduce
notablemente, el modelo de
360

regresión será adecuado.


350

150 160 170 180 190


13
Imaginemos un diagrama de dispersión, y vamos
a tratar de comprender en primer lugar qué es
el error residual, su relación con la varianza de Y,
y de ahí, cómo medir la bondad de un ajuste.

14
En primer lugar olvidemos que existe la Y
variable X. Veamos cuál es la
variabilidad en el eje Y.

La franja sombreada indica la zona


donde varían los valores de Y.

Proyección sobre el eje Y = olvidar X

15
Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y
Y.

Se observa que los errores de predicción,


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor será la bondad del ajuste.

16
Resumiendo: Y

• La dispersión del error residual será una


fracción de la dispersión original de Y

•Cuanto menor sea la dispersión del error


residual
mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
o coeficiente de determinación a:
2
S
R  1
2 e
2
S Y
S  S
2
e
2
Y
17
 La bondad de un ajuste de un modelo de regresión
se mide usando el coeficiente de determinación R2

 R2 es una cantidad adimensional que sólo puede


tomar valores en [0, 1]

 Cuando un ajuste es bueno, R2 será cercano a uno.

 Cuando un ajuste es malo R2 será cercano a cero.

 A R2 también se le denomina porcentaje de


variabilidad explicado por el modelo de regresión.

 R2 puede ser pesado de calcular en modelos de


regresión general, pero en el modelo lineal simple,
la expresión es de lo más sencilla:
 R2=r2

18
 Se pueden considerar
otros tipos de modelos, en ¿recta o parábola?
función del aspecto que
presente el diagrama de
dispersión (regresión no
lineal)

 Incluso se puede
considerar el que una
variable dependa de varias
140 150 160 170 180 190 200

(regresión múltiple).
¿recta o cúbica?

140 150 160 170 180 190 200

19
4. Para una zapatería se obtiene la siguiente
ecuación de regresión estimada en la que se
relacionan las ventas con la inversión en
inventario y los gastos en publicidad.
yˆ  25  10 X 1  8 X 2
 Donde
 x1 :inversión en inventario (en miles de $)
 x2 : gasto en publicidad (en miles de $)
 y : ventas (en miles de $)

 a. Estime las ventas si la inversión en


inventario es de $15 000 y el presupuesto
para publicidad es de $10 000.
 b. Interprete b1 y b2 en esta ecuación de
regresión estimada.
 El dueño de Showtime Movie Theater, Inc.,
desea estimar el ingreso bruto semanal en
función de los gastos en publicidad. A
continuación se presentan los datos históricos
de 8 semanas.
 a. Obtenga una ecuación de regresión estimada en la que el monto
gastado en publicidad en televisión sea la variable independiente.
 b. Obtenga una ecuación de regresión estimada en la que los montos
gastados en publicidad en televisión y en periódicos sean las
variables independientes.
 c. ¿Es el coeficiente correspondiente a los gastos de publicidad en
televisión de la ecuación de regresión estimada del inciso a) igual al
del inciso b)? Interprete este coeficiente en cada caso.
EJEMPLO. El dueño de una distribuidora de automóviles
realizó un estudio, para determinar las relaciones en un
mes determinado, entre el número de automóviles
vendidos en el mes por su distribuidora con el número de
comerciales de un minuto sobre su distribuidora televisado
localmente en ese mes. Durante el período de 6 meses
anotó los resultados que se muestran en la siguiente tabla .
Una compañía de bienes raíces residenciales en una ciudad grande desea
predecir los costos mensuales de rentas para departamentos, basado en el
tamaño de los mismos definidos por los pies cuadrados de espacios.
Selecciona una muestra.
12.1 Se llevó a cabo un conjunto de ensayos
experimentales con un horno para determinar una
forma de predecir el tiempo de cocción, y, a diferentes
niveles de ancho del horno, x1, y a diferentes
temperaturas, x2. Se registraron los siguientes datos:

Estime la ecuación de regresión lineal múltiple.


12.5 Se cree que la energía eléctrica que una planta
química consume cada mes se relaciona con la temperatura
ambiental promedio, x1, el número de días del mes, x2, la
pureza promedio del producto, x3, y las toneladas
fabricadas del producto, x4. Se dispone de datos históricos
del año anterior, los cuales se presentan en la siguiente
tabla.

También podría gustarte