Está en la página 1de 20

ESTADÍSTICA

INFERENCIAL
Semana 15 - Sesión 01
LOGRO DE LA SESIÓN:

Al finalizar la sesión de aprendizaje el estudiante aplica los


conceptos de regresión lineal múltiple e interpreta adecuadamente
los coeficientes.

UTILIDAD: En muchas ocasiones la variable dependiente o respuesta 𝒀 se


determina a partir de un conjunto de variables independientes 𝑿𝟏 , 𝑿𝟐 , … , la
regresión lineal múltiple permite generar un modelo lineal para Y a partir
de dichas variables independientes.
REGRESIÓN LINEAL MÚLTIPLE

El método de regresión lineal simple, analizado en la sesión anterior, es aplicable cuando se desea ajustar
un modelo lineal al relacionar el valor de una variable independiente X con el valor de una variable
dependiente 𝑌. Sin embargo, hay muchos casos en los que una sola variable independiente no es
suficiente.

Es razonable pensar que en el comportamiento de una variable Y pueden influir varias variables; así por
ejemplo, cuando se estudia el comportamiento de las ventas mensuales de un establecimiento
comercial, sería factible pensar que variables como: ingreso mensual de los clientes, la tasa de interés, el
índice de inflación, los precios, etc., podrían ser utilizadas para tratar de comprender mejor el
comportamiento de las ventas cuando se presenta una coyuntura específica.
REGRESIÓN LINEAL MÚLTIPLE

El análisis de regresión lineal múltiple es el estudio de la relación lineal existente entre una variable Y,
llamada “variable dependiente” y un conjunto de variables explicativas o independientes o predictoras
𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 𝑘 ≥ 2 , que nos sirve para pronosticar el valor de la variable dependiente 𝑌.

La relación verdadera entre tales variables se puede expresar mediante el modelo de regresión lineal
múltiple para 𝑘 variables independientes 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘 la media de 𝑌 se representa mediante el modelo
estadístico poblacional:
𝑌𝑖 = 𝜇𝑌/𝑋1 ,𝑋2 ,⋯,𝑋𝑘 +𝜀𝑖

𝜇𝑌/𝑋1 ,𝑋2 ,⋯,𝑋𝑘 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘

en donde: 𝛽0 , 𝛽1 , ⋯ , 𝛽𝑘 , son los coeficientes de regresión poblacional.


y 𝜀𝑖 es el error o residual, y que se asume es generado por el efecto del muestro y por los efectos de
otras variables que no se incluyen en el modelo
REGRESIÓN LINEAL MÚLTIPLE

La estimación de la ecuación de regresión poblacional es la ecuación de regresión lineal múltiple muestral


cuya expresión es:

𝑌෠ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘
en donde: 𝑏0 , 𝑏1 , ⋯ , 𝑏𝑘 , son los coeficientes de regresión muestral.

Cada coeficiente de regresión poblacional 𝛽𝑖 se estima mediante el respectivo coeficiente de regresión


muestral 𝑏𝑖 , utilizando el método de mínimos cuadrados.

Cuando 𝑘 = 2 la gráfica de la ecuación de regresión es un plano que intercepta a 𝑌 en 𝛽0 . Los demás


coeficientes de regresión parcial 𝛽𝑖 son las pendientes de la línea de regresión de 𝑌 con la variable 𝑋𝑖
mientras las otras variables independientes se mantienen constantes.
Estas pendientes indican el cambio promedio de 𝑌 correspondiente a un incremento unitario en 𝑋𝑖 cuando
las demás 𝑋 permanecen constantes.
REGRESIÓN LINEAL MÚLTIPLE

Los supuestos en el análisis de regresión múltiple son los mismos que la regresión lineal simple. En particular
para hacer inferencias acerca de los parámetros 𝛽𝑖 se debe suponer que la variable dependiente 𝑌 es
normal con media 𝜇𝑌/𝑋𝑖 y varianza 𝜎 2 .
Los coeficientes de regresión muestral 𝑏0 , 𝑏1 , ⋯ , 𝑏𝑘 se calcula a partir de los datos de la muestra aleatoria.
Los datos de la muestra aleatoria de tamaño 𝑛 se pueden recopilar de la siguiente forma:
𝑥1𝑖 , 𝑥2𝑖 , ⋯ , 𝑥𝑘𝑖 , 𝑦𝑖 , 𝑖 = 1, 2, ⋯ , 𝑛 y 𝑛>𝑘

Donde 𝑦𝑖 es la respuesta observada (valor de la variable dependiente 𝑌) cuando las variables 𝑋1 , 𝑋2 , ⋯ , 𝑋𝑘


independientes asumen los valores 𝑥1𝑖 , 𝑥2𝑖 , ⋯ , 𝑥𝑘𝑖 .

Para 𝑖 = 1, 2, ⋯ , 𝑛 los datos de la muestra satisfacen la ecuación de regresión poblacional:


𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + ⋯ + 𝛽𝑘 𝑥𝑘𝑖 + 𝜀𝑖

Donde 𝜖𝑖 , el término error, es una variable aleatoria que se supone tiene media 0 y varianza 𝜎 2

Para hacer inferencia acerca de los parámetros 𝛽𝑖 , se debe suponer


que la variable 𝜀𝑖 es normal con media 𝜇𝑌/𝑋 y varianza 𝜎 2 .
REGRESIÓN LINEAL MÚLTIPLE

Los datos de la muestra satisfacen también, la ecuación de regresión muestral:

𝑦𝑖 = 𝑏0 + 𝑏1 𝑥1𝑖 + 𝑏2 𝑥2𝑖 + ⋯ + 𝑏𝑘 𝑥𝑘𝑖 + 𝑒𝑖

Donde 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 es el término residual.

Los coeficientes de regresión muestral 𝑏0 , 𝑏1 , ⋯ , 𝑏𝑘 se calculan por el método de mínimos cuadrados.

Este método consiste en determinar los coeficientes de manera que hagan mínima la suma de los cuadrados
de los residuos 𝑆𝐶𝑅 expresada por:
𝑛 𝑛 𝑛

𝑆𝐶𝑅 = ෍ 𝑒 2 = ෍(𝑦𝑖 −𝑦ො𝑖 )2 = ෍(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥1𝑖 − 𝑏2 𝑥2𝑖 − ⋯ − 𝑏𝑘 𝑥𝑘𝑖 )2


𝑖=1 𝑖=1 𝑖=1

Derivando 𝑆𝐶𝐸 cada vez con respecto a 𝑏0 , 𝑏1 , ⋯ , 𝑏𝑘 e igualando a cero, se obtienen las 𝑘 + 1 ecuaciones
normales que siguen:
REGRESIÓN LINEAL MÚLTIPLE

𝑛𝑏0 + 𝑏1 ∑𝑥1 + 𝑏2 ∑𝑥2 + ⋯ + 𝑏𝑘 ∑𝑥𝑘 = ∑𝑦

𝑏0 ∑𝑥1 + 𝑏1 ∑𝑥12 + 𝑏2 ∑𝑥1 𝑥2 + ⋯ + 𝑏𝑘 ∑𝑥1 𝑥𝑘 = ∑𝑥1 𝑦

𝑏0 ∑𝑥2 + 𝑏1 ∑𝑥2 𝑥1 + 𝑏2 ∑𝑥22 + ⋯ + 𝑏𝑘 ∑𝑥2 𝑥𝑘 = ∑𝑥2 𝑦



𝑏0 ∑𝑥𝑘 + 𝑏1 ∑𝑥𝑘 𝑥1 + 𝑏2 ∑𝑥𝑘 𝑥2 + ⋯ + 𝑏𝑘 ∑𝑥𝑘2 = ∑𝑥𝑘 𝑦

Donde, ∑𝑥𝑗 = ∑𝑛𝑖=1 𝑥𝑗𝑖 , para 𝑗 = 1,2, ⋯ , 𝑘

Estas ecuaciones pueden ser resueltas para 𝑏0 , 𝑏1 , ⋯ , 𝑏𝑘 por cualquier método apropiado para resolver el
sistema de ecuaciones lineales.
EJERCICIO EXPLICATIVO

Se ha reunido la siguiente información de una muestra aleatoria de arrendadores de departamentos en una


ciudad. Se intenta predecir la renta (en dólares por mes) con base en el tamaño del departamento (número de
habitaciones) y la distancia al centro de la ciudad (en millas).

Renta en dólares (𝒀) Tamaño (𝑿𝟏 ) Distancia 𝑿𝟐 a) Determinar la ecuación de regresión muestral
de la renta respecto a dos variables: Tamaño
360 2 1 del departamento y la distancia al centro de la
1000 6 1 ciudad.
450 3 2 b) Interpretar cada uno de los coeficientes.
c) ¿Cuánto esperaría pagar por un departamento
525 4 3
con cinco habitaciones y localizado a seis millas
350 2 10 del centro de la ciudad?
300 1 4
EJERCICIO EXPLICATIVO

Solución:
a) La ecuación de regresión muestral a determinar es: 𝑌෠ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2
𝑛𝑏0 + 𝑏1 ∑𝑥1 + 𝑏2 ∑𝑥2 = ∑𝑦

𝑏0 ∑𝑥1 + 𝑏1 ∑𝑥12 + 𝑏2 ∑𝑥1 𝑥2 = ∑𝑥1 𝑦

𝑏0 ∑𝑥2 + 𝑏1 ∑𝑥2 𝑥1 + 𝑏2 ∑𝑥22 = ∑𝑥2 𝑦

De los datos de la muestra se tiene


Tamaño
Renta en dólares (𝑌) Distancia (𝑋2 ) 𝑋1 𝑌 𝑋2 𝑌 𝑋𝟏 𝑋𝟐 𝑋𝟏𝟐 𝑋𝟐𝟐
(𝑋𝟏 )
360 2 1 720 360 2 4 1 6𝑏0 + 18𝑏1 + 21𝑏2 = 2985
1000 6 1 6000 1000 6 36 1
450 3 2 1350 900 6 9 4 18𝑏0 + 70𝑏1 + 50𝑏2 = 11170
525 4 3 2100 1575 12 16 9
350 2 10 700 3500 20 4 100
300 1 4 300 1200 4 1 16
21𝑏0 + 50𝑏1 + 131𝑏2 = 8535
∑𝑦 = 2985 ∑𝑥1 = 18 ∑𝑥2 = 21 ∑𝑥1 𝑦 = 11170 ∑𝑥2 𝑦 = 8535 ∑𝑥1𝑥2 = 50 ∑𝑥12 = 70 ∑𝑥22 = 131
EJERCICIO EXPLICATIVO

6𝑏0 + 18𝑏1 + 21𝑏2 = 2985


𝑏0 = 96.4581
18𝑏0 + 70𝑏1 + 50𝑏2 = 11170
Resolviendo el sistema 𝑏1 = 136.4847
21𝑏0 + 50𝑏1 + 131𝑏2 = 8535
𝑏2 = −2.4035
𝑌෠ = 96.4581 + 136.4847𝑋1 − 2.4035𝑋2
b) Interpretar cada uno de los coeficientes.

𝑏0 :La renta esperada(promedio), cuando el tamaño del departamento y la distancia al centro de la ciudad toman el valor de cero será
de 96.4581 dólares, lo que significa que un departamento sin construir (terreno) que se ubica en el centro tiene una renta de
96,4581 dólares.
𝑏1: Por cada incremento de una habitación, la renta esperada(promedio) se incrementará en 136.4847 dólares, manteniendo
constante la distancia al centro de la ciudad, es decir estando en el centro, por cada habitación que se incrementa en el
dpto., la renta también se incrementa en 138, 48 dólares.
𝑏2 :Por cada incremento de una unidad de distancia al centro de la ciudad, la renta esperada (promedio) disminuirá en -2.4035 dólares,
no teniendo el departamento habitaciones (terreno).
EJERCICIO EXPLICATIVO

c) ¿Cuánto esperaría pagar por un departamento con cinco habitaciones y localizado a seis millas del centro
de la ciudad.
𝑋1 = 5

𝑋2 = 6

𝑌෠ = 96.4581 + 136.4847 × 5 − 2.4035 × 6

𝑌෠ = 764.4606 dólares

Por un departamento con cinco habitaciones y localizado a seis millas del centro de la ciudad se debería pagar
764.4606 dólares
EJERCICIO EXPLICATIVO

Un constructor de bienes raíces desea estudiar la relación entre el tamaño de una casa que compraría un
cliente (en pies cuadrados) y otras variables. Las posibles variables independientes son el ingreso familiar, el
número de miembros en la familia, si hay un adulto mayor viviendo con la familia (1 para sí, 0 para no), y los
años totales de educación adicionales al bachillerato del esposo y la esposa. La información muestral se
reporta en la siguiente tabla.

Formule una ecuación de regresión múltiple apropiada. ¿Qué variables independientes incluiría en la ecuación
de regresión final? (identifique la variable dependiente y las variables independientes)
Resuelva el ejercicio utilizando Microsoft Excel.
EJERCICIO ADICIONAL

Se realiza un estudio de asociación entre las siguientes variables:


𝑌: Gasto mensual expresado en cientos de dólares.
𝑋1 : Ingreso mensual familiar en miles de soles.
𝑋2 : Tamaño de familia.

En una muestra de 10 familias escogidas al azar se han encontrado los datos que se presentan en la tabla
que sigue:
Nº Gasto (𝒀) Ingreso mensual (𝑿𝟏 ) Tamaño de familia (𝑿𝟐 )
1 45 10 9
a) Determine la ecuación de regresión muestral de los
2 40 9 8 gastos mensuales con respecto a las dos variables:
3 38 8 6
4 35 7 6
ingreso mensual y número de hijos.
5 32 7 5 b) Estime el gasto mensual para una familia de 8 hijos
6 30 6 4 cuyo ingreso mensual es 7000 dólares.
7 28 6 3
8 27 4 2
9 25 3 2
10 22 2 1
Total
Ejercicio reto 1
El gerente de producción de un importante fabricante de muebles ubicado en Carolina del Norte, estudia las
calificaciones de desempeño laboral de una muestra de 15 electricistas de mantenimiento empleados en la compañía.
Para ingresar al departamento de mantenimiento eléctrico, el departamento de recursos humanos les aplica un
examen de aptitud. El gerente de producción obtuvo la calificación de cada electricista incluido en la muestra.
Además, determinó cuáles electricistas eran miembros de un sindicato (código =1) y cuáles no lo eran (código = 0). La
información muestral es la siguiente.
Calificación de Calificación en el
Trabajador
desempeño laboral examen de aptitud
Miembro de sindicato a) Desarrolle una ecuación de regresión múltiple con la
Abbott 58 5 0 calificación de desempeño laboral como variable
Anderson 53 4 0
Bender 33 10 0 dependiente, y la calificación en el examen de aptitud y
Bush 97 10 0 pertenencia a un sindicato como variables independientes.
Center 36 2 0
Coombs 83 7 0 b) Comente sobre la ecuación de regresión. Incluya el
Eckstine 67 6 0
Gloss 84 9 0 coeficiente de determinación y el efecto de la pertenencia o
Herd 98 9 1 no a un sindicato. ¿Son eficaces estas dos variables para
Householder 45 2 1
Iori 97 8 1 explicar la variación del desempeño laboral?
Lindstrom 90 6 1
Mason 96 7 1
Pierse 66 3 1
Rohde 82 6 1
Ejercicio reto 2
El administrador de un nuevo programa para practicantes de leyes desea estimar el promedio de
calificaciones en el programa, y considera que el promedio de calificaciones en el bachillerato, la
calificación en aptitudes verbales en el Examen de Aptitud Escolar (SAT) y la calificación en matemáticas
en el SAT serían buenos factores de predicción de la calificación promedio en el programa. Los datos de
nueve estudiantes son:
Promedio de
SAT SAT
Promedio de ¿Qué variable tiene la correlación más fuerte con la variable
Estudiante calificaciones califcaciones
Verbal Matemáticas
en el bachillerato en el programa dependiente? Algunas correlaciones entre las variables
1 3.25 480 410 3.21 independientes son fuertes. ¿Esto representaría un
2 1.80 290 270 1.98
problema?
3 2.89 420 410 3.58
4 3.81 500 600 3.92 Determine la regresión mas adecuada.
5 3.13 500 490 3.00
6 2.81 430 460 2.82
7 2.20 320 490 1.65
8 2.14 530 480 2.30
9 2.63 469 440 2.33
¿QUE HEMOS APRENDIDO?

Regresión lineal múltiple, el modelo estadístico e


interpretación de sus coeficientes
TAREA DOMICILIARIA
El administrador de un nuevo programa para practicantes de leyes en Seagate Technical College desea
estimar el promedio de calificaciones en el programa, y considera que el promedio de calificaciones en el
bachillerato, la calificación en aptitudes verbales en el Examen de Aptitud Escolar (SAT) y la calificación en
matemáticas en el SAT serían buenos factores de predicción de la calificación promedio en el programa. Los
datos de nueve estudiantes son:

Estime la ecuación de regresión muestral de los gastos mensuales y ¿qué variable individual tiene la
correlación más fuerte con la variable dependiente?

También podría gustarte