Está en la página 1de 5

ESTADISTICA II

ANÁLISIS DE REGRESIÓN MÚLTIPLE


INTRODUCCIÓN
El Análisis de Regresión Lineal Múltiple nos permite establecer la relación que se produce entre una
variable dependiente 𝑌 y un conjunto de variables independientes (𝑋1 , 𝑋2 , . . . 𝑋𝑘 ). El análisis de
regresión lineal múltiple, a diferencia del simple, se aproxima más a situaciones de análisis real puesto
que los fenómenos, hechos y procesos sociales, por definición, son complejos y, en consecuencia,
deben ser explicados en la medida de lo posible por la serie de variables que, directa e indirectamente,
participan en su concreción.

La regresión lineal múltiple es la gran técnica estadística para comprobar hipótesis y relaciones
causales. Una serie de condiciones que se deben cumplir para poder aplicar la regresión lineal
múltiple:
▪ La variable dependiente (resultado) debe ser ordinal o escalar, es decir, que las categorías de la
variable tengan orden interno o jerarquía, p.ej. nivel de ingresos, peso, número de hijos,
justificación del aborto en una escala de 1-nunca a 10-siempre.
▪ Las variables independientes (causas) deben ser ordinales o escalares o dummy.
▪ Hay otras condiciones como: las variables independientes no puede estar altamente
correlacionadas entre sí, las relaciones entre las causas y el resultado deben ser lineales, todas las
variables deben seguir la distribución normal y deben tener varianzas iguales. Estas condiciones no
son tan estrictas y hay maneras de tratar los datos si se incumple.

Al aplicar el análisis de regresión múltiple lo más frecuente es que tanto la variable dependiente como
las independientes sean variables continúas medidas en escala de intervalo o razón. No obstante, caben
otras posibilidades:

(1) También podremos aplicar este análisis cuando relacionemos una variable dependiente continua
con un conjunto de variables categóricas;

(2) O también aplicaremos el análisis de regresión lineal múltiple en el caso de que relacionemos una
variable dependiente nominal con un conjunto de variables continuas. La anotación matemática del
modelo o ecuación de regresión lineal múltiple es la que sigue:

𝑌 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + . . . + 𝑏𝑛 𝑥𝑛 + 𝑒
𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 = 𝑎 + 𝑏1 𝑃𝑎𝑠𝑎𝑑𝑜 + 𝑏2 𝑓𝑢𝑡𝑢𝑟𝑜 + 𝑒
En donde: 𝑌 es la variable a predecir, 𝑎 , 𝑏1 , 𝑏2 , . . . , 𝑏𝑛 son parámetros desconocidos a estimar; y “𝑒" es
el error que cometemos en la predicción de los parámetros. Al ocuparnos del análisis lineal bivariado,
análisis de regresión simple, vimos como el modelo final resultante podía ser calificado de un “buen
modelo”. Sin embargo, en muchas ocasiones los modelos bivariados o simples pueden verse mejorados
al introducir una segunda (tercera, cuarta) variable independiente o explicativa. Consideramos que un
modelo de regresión lineal simple se ha “mejorado” cuando al introducir en el mismo más variables
independientes la proporción de variabilidad explicada se incrementa. Pero ¿qué variables son las que
mejor explican el hecho, proceso o fenómeno social objeto de estudio?; o, ¿qué variables no son
necesarias incluir en el modelo dado, su nula o escasa capacidad explicativa? Esta es, sin lugar a dudas,
la decisión más importante ligada al análisis de regresión múltiple y la inclusión de este proceso es lo

LIC. MARIA I. SERRUDO CH.


ESTADISTICA II

que diferencia, sustancialmente, al análisis de regresión múltiple del de regresión simple. La exposición
del análisis de regresión estructura en torno a los siguientes puntos, a saber:

1. Determinación de la bondad de ajuste de los datos al modelo de regresión lineal múltiple.


2. Elección del modelo que con el menor número de variables explica más la variable dependiente o
criterio.
3. Estimación de los parámetros de la ecuación y del modelo o ecuación predictiva.
4. Exposición de los pasos y Cuadro de Diálogo del Análisis de Regresión Lineal (Múltiple) que podemos
seguir para la obtención de los estadísticos y las pruebas necesarias citadas en cada uno de los puntos
precedentes.

MODELO DE REGRESIÓN MULTIPLE


El análisis de regresión múltiple es el estudio de la forma en que una variable dependiente ”𝑦”, se
relaciona con dos o más variables independientes. En el caso general emplearemos 𝑝 para representar
la cantidad de variables independientes.

MODELO DE REGRESIÓN Y ECUACION DE REGRESION

La ecuación que describe la forma en que la variable dependiente 𝑦, se relaciona con las variables
independientes 𝑥1 ; 𝑥2 ; 𝑥3 ; … . . ; 𝑥𝑝 y un término de error se llama modelo de regresión y tiene la forma
siguiente:
𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + . . . +𝛽𝑝 𝑥𝑝 + 𝑒

Y la ecuación de regresión está dada por:

𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + . . . +𝛽𝑝 𝑥𝑝
Los coeficientes de regresión muestral 𝛽0 , 𝛽1 , 𝛽2 , . . . , 𝛽𝑝 se calculan por el método de mínimos
cuadrados. Esté método consiste en determinar los coeficientes de manera que hagan mínima la suma
de los cuadrados de los residuos (SCE) expresada por:
𝑛 𝑛 𝑛
2
𝑆𝐶𝐸 = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − 𝛽0 − 𝛽1 𝑥1𝑖 −𝛽2 𝑥2𝑖 − ⋯ … … − 𝛽𝑝 𝑥𝑖𝑝 )
𝑖=1 𝑖=1 𝑖=1
Derivando 𝑆𝐶𝐸 cada vez con respecto a 𝛽0 , 𝛽1 , 𝛽2 , . . . , 𝛽𝑝
Se obtienen las siguientes k+1 ecuaciones normales:
𝑛𝛽0 + 𝛽1 ∑ 𝑥1 + 𝛽2 ∑ 𝑥2 … … … + 𝛽𝑝 ∑ 𝑥𝑝 = ∑ 𝑦

𝛽0 ∑ 𝑥1 + 𝛽1 ∑ 𝑥12 + 𝛽2 ∑ 𝑥1 𝑥2 + ⋯ … … + 𝛽𝑝 ∑ 𝑥1 𝑥𝑝 = ∑ 𝑥1 𝑦

𝛽0 ∑ 𝑥2 + 𝛽1 ∑ 𝑥2 𝑥1 + 𝛽2 ∑ 𝑥22 + ⋯ … … + 𝛽𝑝 ∑ 𝑥2 𝑥𝑝 = ∑ 𝑥2 𝑦

……………..
𝛽0 ∑ 𝑥𝑝 + 𝛽1 ∑ 𝑥𝑝 𝑥1 + 𝛽2 ∑ 𝑥𝑝 𝑥2 + ⋯ … … + 𝛽𝑝 ∑ 𝑥𝑝2 = ∑ 𝑥𝑘 𝑦
Donde:

LIC. MARIA I. SERRUDO CH.


ESTADISTICA II

∑ 𝑥𝑗 = ∑𝑛𝑖=1 𝑥𝑗𝑖 para 𝑗 = 1, 2, … … . , 𝑝

Estas ecuaciones pueden ser resueltas para 𝛽0 , 𝛽1 , 𝛽2 , . . . , 𝛽𝑝 por cualquier método apropiado
para resolver sistema de ecuaciones lineales. Sin embargo, existes paquetes de cómputo para
realizar estos cálculos.

Ejemplo

Se realiza un estudio de asociación entre las siguientes variables:

𝑌: Gastos mensuales expresados en cientos de dólares

𝑋1 : ingreso mensual familiar en miles de dólares

𝑋2 : Tamaño de la familia

En una muestra de 10 familias escogidas al azar se encontraron los datos que se muestran en la
tabla siguiente:

𝑌 𝑋1 𝑋2

45 10 8
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1

a. Determinar la ecuación de regresión muestral de los gastos mensuales con respecto a las
dos variables: Ingreso mensual y número de hijos.

b. Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso mensual es de $7,000

Solución

a. Para determinar la ecuación de regresión: 𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 debemos encontrar


los coeficientes 𝛽0 , 𝛽1 , 𝛽2 y lo obtenemos mediante una prueba Excel:

Coeficientes
Intercepción 17.8340536
Variable 𝑋 1 0.97839239
Variable 𝑋 2 1.84442524

La ecuación de regresión múltiple es:

LIC. MARIA I. SERRUDO CH.


ESTADISTICA II

𝑌 = 17.834 + 0.978𝑥1 + 1.844𝑥2

b. El gasto mensual de una familia con 8 hijos y e ingreso mensual $7,000 es:
𝑌 = 17.834 + 0.978𝑥1 + 1.844𝑥2
Ingreso mensual 𝑥1 = 7

Número de hijos: 𝑥2 = 8

𝑌 = 17.834 + 0.978(7) + 1.844(8) = 39.432


El gasto mensual por familia es de: 39.432 × 100 = 3,943.2

INTERPRETACIÓN DE LA ECUACIÓN DE REGRESIÓN

Cuando se tiene una ecuación de regresión múltiple donde las unidades de medición son las mismas
tanto para la variable dependiente 𝑌, como para las variables independientes 𝑥1 ; 𝑥2 ; 𝑥3 ; … . . ; 𝑥𝑝
los coeficientes de regresión parcial se comparan de la siguiente forma:

La cantidad 𝛽0 es la ordenada en el origen. Para p=2 por ejemplo es el intercepto del plano de
regresión con el eje Y cuando 𝑋1 = 0 y 𝑋2 = 0

Los demás coeficientes de regresión parcial indican el cambio promedio de 𝑌 correspondiente a


un incremento unitario de 𝑋𝑖 , cuando las demás 𝑋 permanecen constantes.

Por ejemplo, la ecuación de regresión múltiple del ejemplo anterior

𝑌 = 17.834 + 0.978𝑋1 + 1.844𝑋2

𝛽0 = 17.834 es la ordenada en el origen

𝛽1 = 0.978 indica que existe un aumento unitario en 𝑋1 , por ejemplo si hay un aumento unitario
de $ 1000 en los ingresos mensuales por familia los gastos mensuales 𝑌 aumentan en promedio
0.978 en cientos de dólares es decir 0.978 × 100 = $97.8 manteniendo constante 𝑋2 número de
hijos por familia.

El valor 𝛽2 = 1.844 indica que si hay un aumento de un miembro en la familia (𝑋2 ) entonces hay
un aumento promedio de $1.844 cientos de dólares $1.844 × 100 = $184.4 en los gastos
mensuales, permaneciendo constante 𝑋1 (ingresos mensuales)

Esto se debe a que las unidades de 𝛽1 , 𝛽2 son respectivamente:


𝐺𝑎𝑠𝑡𝑜𝑠 (𝑒𝑛 𝑐𝑖𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠)
𝛽1 =
𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑠 (𝑒𝑛 𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠)

𝐺𝑎𝑠𝑡𝑜𝑠 (𝑒𝑛 𝑐𝑖𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑑ó𝑙𝑎𝑟𝑒𝑠)


𝛽2 =
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑖𝑒𝑚𝑏𝑟𝑜𝑠 𝑝𝑜𝑟 𝑓𝑎𝑚𝑖𝑙𝑖𝑎

LIC. MARIA I. SERRUDO CH.


ESTADISTICA II

Para el ejemplo dado calcular los coeficientes de determinación:

ESTADISTICOS DE REGRESIÓN
COEFICIENTE DE REGRESIÓN MÚLTIPLE 0.97831863
COEFICIENTE DE DETERMINACIÓN 𝑅 2 0.95710734
2
COEFICIENTE DE DETERMINACION AJUSTADO 𝑅 0.9448523
ERROR TIPICO 1.69992337
OBSERVACIONES 10

Coeficiente de determinación: 𝑟 2 = 0.957

Coeficiente de determinación ajustado: 𝑅 2 = 0.9448

94.48% son las variaciones existentes en gastos mensuales que son explicados por los ingresos y
el número de miembros por familia.

LIC. MARIA I. SERRUDO CH.

También podría gustarte