Está en la página 1de 7

LIC.

EN CONTADURÍA PÚBLICA
ESTADÍSTICA ADMINISTRATIVA II ∑ Y= nb o + b1∑ X1 + b2∑ X2 + b3∑ X3 + b4∑ X4 + b5∑ X5
2. REGRESIÓN LINEAL MÚLTIPLE Y CORRELACIÓN ∑ X1Y = b o ∑ X1 + b1∑ X12 + b2∑ X1X2 + b3∑ X1X3 + b4 ∑ X1X4 + b5 ∑ X1X5
2.1 Modelo de regresión ∑ X2Y = b o ∑ X2 + b1 ∑ X1X2 + b2∑ X22 + b3∑ X2X3 + b4 ∑ X2X4 + b5 ∑ X2X5
∑ X3Y = bo ∑ X3 + b1 ∑ X1X3 + b2 ∑ X2X3 + b3 ∑ X32 + b4 ∑ X3X4 + b5 ∑ X3X5
Es razonable que las predicciones deban mejorar si consideramos
∑ X4Y = bo ∑ X4 + b1 ∑ X1X4 + b2 ∑ X2X4 + b3 ∑ X3X4 + b4 ∑ X42 + b5 ∑ X4X5
otra información relevante. Por ejemplo, debemos poder hacer mejores
∑ X5Y = bo ∑ X5 + b1 ∑ X1X5 + b2 ∑ X2X5 + b3 ∑ X3X5 + b4 ∑ X4X5 + b5 ∑ X52
predicciones de las ventas del primer año de vendedores recién
contratados por una compañía si consideramos no sólo sus años de
Lo que resulta el planteamiento de un sistema de seis ecuaciones con seis
experiencia, sino también su agudeza visual, su capacidad de juzgar
incógnitas, las incógnitas son b0, b1, b2, b3, b4 y b5. Estos coeficientes son
relaciones personales y su coordinación entre la vista y las manos.
Muchas fórmulas matemáticas pueden servir para expresar relaciones las representaciones de β0, β1, β2,. . . ,βk. Los valores de los coeficientes
entre más de dos variables, pero las de uso más común en estadística para sistemas más complejos se pueden resolver con un paquete adecuado
son ecuaciones lineales de la forma de computación.
2.2 Estimación de la ecuación de regresión múltiple
y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk + 
Consideremos, los datos del siguiente ejemplo de una inmobiliaria que
El problema principal que se afronta al obtener una ecuación lineal en muestran el número de recámaras, de baños y los precios a los cuales se
más de dos variables que mejor describa un conjunto de datos es el de vendieron recientemente ocho casas unifamiliares en cierta comunidad.
obtener los valores numéricos de b0, b1, b2, b3, . . . , y bk. Esto se lleva a
cabo mediante el método de mínimos cuadrados, es decir, se minimiza
Número de Número de
la suma de cuadrados (y- 𝑦̂)2, este método requiere que se resuelvan
tantas ecuaciones normales como constantes desconocidas b0, b1, b2, b3,. recámaras baños Precio ($)
. ., y bk haya. Por ejemplo, cuando hay dos variables independientes x1 y x1 x2 y
x2, y deseamos ajustar la ecuación 3 2 88,800
2 1 84,300
𝑦̂ = b0 + b1 x1 + b2 x2 4 3 93,800
debemos resolver tres ecuaciones normales 2 1 84,200
3 2 89,700
∑ Y= nb o + b1∑ X1 + b2∑ X2 2 2 84,900
∑ X1Y = b o ∑ X1 + b1∑ X12 + b2∑ X1X2 5 3 98,400
∑ X2Y = b o ∑ X2 + b1 ∑ X1X2 + b2∑ X22 4 2 92,900

desde el punto de vista algebraico, esto equivale a resolver un sistema Los cálculos realizados son
de tres ecuaciones con tres incógnitas. Donde las incógnitas son los
coeficientes b0, b1 y b2. Así, por ejemplo, si hay cinco variables
independientes, x1, x2, x3, x4 y x5, el modelo de ecuación lineal de ajuste
será 𝑦̂ = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 + b5 x5, donde las ecuaciones
normales resultantes son:

1
n Y X1 X2 X1Y X2Y X12 X22 X1X2 2.3 Matriz de varianzas covarianzas
1 88,800 3 2 266,400 177,600 9 4 6 Cuando en un estudio se mide la relación bivariada entre más de
2 84,300 2 1 168,600 84,300 4 1 2 dos variables, frecuentemente la información se expresa en forma
3 93,800 4 3 375,200 281,400 16 9 12 matricial. La estructura de esta matriz, es de naturaleza simétrica, y
4 84,200 2 1 168,400 84,200 4 1 2 conocida como matriz de varianzas-covarianzas, su arreglo es el
5 89,700 3 2 269,100 179,400 9 4 6 siguiente:
6 84,900 2 2 169,800 169,800 4 4 4
7 98,400 5 3 492,000 295,200 25 9 15
8 92,900 4 2 371,600 185,800 16 4 8 S2x1 Sx 1x 2 Sx 1x 3
∑Y ∑ X1 ∑ X2 ∑ X1Y ∑ X2Y ∑ X12 ∑ X22 ∑ X1X2 C = Sx 2x 1 S2x2 Sx 2x 3
717,000 25 16 2,281,100 1,457,700 87 36 55 Sx 3x 1 Sx 3x 2 S2x3

las ecuaciones normales para las variables y, x1 e x2


en la diagonal principal se contiene la información de la varianza de la
∑ Y= nb o + b1∑ X1 + b2∑ X2 variable, así la celda (1,1) contendrá la varianza de la primera variable
∑ X1Y = b o ∑ X1 + b1∑ X12 + b2∑ X1X2 estudiada, en la celda (2,2) la varianza de la segunda y en la celda (3,3)
la de la tercera.
∑ X2Y = b o ∑ X2 + b1 ∑ X1X2 + b2∑ X22
En el resto de las celdas se reflejará el estadístico de covarianza para
sustituyendo en las ecuaciones normales se forma el sistema: cada par de variables.
717000 = 8 bo + 25 b1 + 16 b2 Ejemplo. El gerente de una determinada empresa está estudiando las
2281100 = 25 bo + 87 b1 + 55 b2 posibles relaciones entre las variables X1: Beneficios anuales, X2: Gastos
en publicidad anuales (en millones de $) y X3: Horas extraordinarias anuales
1457700 = 16 bo + 55 b1 + 36 b2
de los empleados, utilizando para ello datos de estas tres variables
finalmente, resolviendo se tiene: proporcionadas por algunas empresas de su sector:

b0 = 75,192, b1 = 4,133.33, b2 = 758.33


Gastos en Horas extras
sustituyendo estos valores en la ecuación lineal Beneficios publicidad anuales
1.3 0.3 4
𝑦̂ = b0 + b1 x1 + b2 x2
3.5 1.5 9
la ecuación estimada es: 2.8 0.7 6
̂ = 75192 + 4133.33 x1 + 758.33 x2
𝒚 3 1.1 7.5
3.3 1.2 8
esto nos indica que, en este estudio, cada recámara extra suma en
promedio $4133.33 y cada baño suma $758.33 al precio de venta de una 4 2 7
casa. Para predecir el precio de venta promedio de una casa de tres 3.7 2 8
recamaras con dos baños, por ejemplo, sustituimos en la ecuación x1 = 3
y x2 = 2, obteniendo Los siguientes cálculos permiten calcular las varianzas y covarianzas

𝑦̂ = 75192 + 4133.33 (3) + 758.33 (2) = 89108.65


así el precio de una casa con una recámara y un baño es 𝑦̂ = 80083.33

2
2 2 2
X1 X2 X3 X1 X2 X3 X1X2 X1X3 X2X3
1.3 0.3 4 1.69 0.09 16 0.39 5.2 1.2 0.6726 0.4437 1.0367
3.5 1.5 9 12.25 2.25 81 5.25 31.5 13.5 C = 0.4437 0.3453 0.6459
2.8 0.7 6 7.84 0.49 36 1.96 16.8 4.2
1.0367 0.6459 2.3163
3 1.1 7.5 9 1.21 56.25 3.3 22.5 8.25
3.3 1.2 8 10.89 1.44 64 3.96 26.4 9.6
4 2 7 16 4 49 8 28 14 2.4 Pruebas de hipótesis para los coeficientes de regresión
3.7 2 8 13.69 4 64 7.4 29.6 16
La introducción de software adecuado ha hecho posible rápidas y
∑ X1 ∑ X2 ∑ X3 ∑ X12 ∑ X22 ∑ X32 ∑ X1X2 ∑ X1X3 ∑ X2X3 sencillas soluciones a complicados problemas de regresión lineal
21.6 8.8 49.5 71.36 13.48 366.25 30.26 160 66.75 múltiple. La mayoría de los resultados presentados por computadora
ofrecen información que facilita probar hipótesis nulas acerca de los
Las medias y varianzas de cada una de las variables son: coeficientes de regresión múltiple verdaderos o de la construcción de
intervalos de confianza.
21.6 8 .8 49 . 5
x1   3.08 x2   1 . 25 x3   7 . 07 Evaluación del modelo como un todo
7 7 7

x12 x22 x32


S 2 x1    x1 S2 x2    x2 S 2 x3    x3
2 2 2

n n n
donde se tienen las varianzas:
2
S 2x 1 = 10.194 - (3.08) = 0.6726
2
S 2x 2 = 1.925 - (1.25) = 0.3453
2 2
S x 3 = 52.321 - (7.07) = 2.3163
La siguiente tabla ANOVA y la prueba F proporcionan el formato general
y las covarianzas son: para la regresión múltiple.
x 2 x3
Sx2 x3  
x1 x2 x1 x3
Sx1 x2    x1 x2 Sx1 x3    x1 x3  x 2 x3
n n n

Sx 1x 2 = 30.26 / 7 - (3.08)(1.25) = 0.4437


Sx 1x 3 = 160 / 7 - (3.08)(7.07) = 1.0367
Sx 2x 3 = 66.75 / 7 - (1.25)(7.07) = 0.6459
sustituyendo las varianzas y las covarianzas en la matriz:

Donde n es el número de observaciones, k es el número de variables


S2x1 Sx 1x 2 Sx 1x 3
independientes, el cálculo del valor de F, es el cociente entre cuadrados
C = Sx 2x 1 S2x2 Sx 2x 3 medios CMR y CME, es decir se obtienen:
Sx 3x 1 Sx 3x 2 S2x3
SCR SCE
CMR = y CME =
k n-k -1
por tanto, se tiene la matriz de varianzas-covarianzas
también recordemos que:

3
H o: β 1 = β 2 = 0
H 1 : Al menos una βi no es 0
Para el ejemplo de la inmobiliaria del subtema 2.2 tenemos que:
Si la Hipótesis nula es verdadera, todos los coeficientes de regresión son cero y por tanto no son
n Y X1 X2 X1Y X2Y X12 X22 X1X2 útiles para estimar la variable dependiente, de ser el caso, habría que buscar otras variables
1 88,800 3 2 266,400 177,600 9 4 6 independientes, o buscar otras aproximaciones distintas para predecir la variable dependiente
2 84,300 2 1 168,600 84,300 4 1 2
Nivel a = 5% grados de libertad n - (k + 1 ) = 5
3 93,800 4 3 375,200 281,400 16 9 12
4 84,200 2 1 168,400 84,200 4 1 2 El valor crítico de F con 2 y 5 grados de libertad al nivel de 5% es F gl = 5.786135
5 89,700 3 2 269,100 179,400 9 4 6
6 84,900 2 2 169,800 169,800 4 4 4 Regla de decisión: Rechazar la hipótesis nula H o, si F > F gl
7 98,400 5 3 492,000 295,200 25 9 15
Debido a que 675.3432 > 5.786135043
8 92,900 4 2 371,600 185,800 16 4 8
∑Y ∑ X1 ∑ X2 ∑ X1Y ∑ X2Y ∑ X12 ∑ X22 ∑ X1X2 La hipótesis nula se rechaza. Se puede concluir al nivel del 5% que existe una relación lineal
717,000 25 16 2,281,100 1,457,700 87 36 55 entre y e por lo menos una de las variables independientes

La tabla se puede ampliar con los cálculos adicionales de SCE, SCR y Pruebas individuales para los coeficientes de regresión
SCT

n Y X1 X2 Yc (y - y c )2 (y c - y)2 (y - y)2
1 88,800 3 2 89108.3 95069.44 266944.44 680625
2 84,300 2 1 84216.7 6944.44 29250069.44 28355625
3 93,800 4 3 94000 40000.00 19140625.00 17430625
4 84,200 2 1 84216.7 277.78 29250069.44 29430625
5 89,700 3 2 89108.3 350069.44 266944.44 5625
6 84,900 2 2 84975 5625.00 21622500.00 22325625
7 98,400 5 3 98133.3 71111.11 72391736.11 77000625
8 92,900 4 2 93241.7 116736.11 13080277.78 10725625
 ( y  yˆ )  ( yˆ  y) 2  ( y  y)
2 2

685833.33 185269167 185955000


SCE SCR SCT Por ejemplo, para la prueba de hipótesis individual, de la inmobiliaria de
casas unifamiliares, la desviación estándar para el coeficiente obtenido para
Con los datos obtenidos se puede compler la tabla ANOVA b1 = 4133.3 denotada como Sb1 es 228.6, resultado que en forma manual
es muy tedioso de calcular y rara vez se realiza. Por fortuna la mayoría de
Fuente Grados de libertad SC CM F los paquetes estadísticos reportan esta información. Así, para probar la
Entre muestras 2 185,269,162.388 92634581.19 675.3432 hipótesis:
Dentro de las muestras 5 685,833.333 137166.6667
Total 7 185,954,995.722

Para la evaluación del modelo como un todo, se plantean las hipotesis


nula Ho: β0 = β1 = β2 =. . . = βk = 0 y alternativa H1: Al menos una β0 ≠ 0. Sustituyendo b1 = 4133.3, β1 = 0 y Sb1 = 228.6, el valor t para la prueba es
En nuestro ejemplo solo se reduce a: 4133.3 - 0
t= = 18.080927
228.6

4
si se selecciona un valor de 𝛼 = 0.05 con tgl crítica de t0.05,5 = 2.57,
comparando los valores, la regla es:
No rechazar Ho, si t está entre -2.57 y 2.57. De lo contrario rechazar
con la raíz cuadrada de la expresión anterior, se tiene el coeficiente de
Cómo t = 18.08 > 2.57, se rechaza la hipótesis nula. Al nivel de significancia
correlación múltiple. Así para el ejemplo, que muestran el número de
del 5% el número de recamaras contribuye significativamente al poder
recámaras, de baños y los precios a los cuales se vendieron ocho casas
explicativo del modelo.
unifamiliares, se complementa la tabla como:
Ejercicios
n Y X1 X2 Yc (y - y c )2 (y c - y)2 (y - y)2
Ejercicio 1. Considere los siguientes datos 1 88,800 3 2 89108.3 95069.44 266944.44 680625
2 84,300 2 1 84216.7 6944.44 29250069.44 28355625
3 93,800 4 3 94000 40000.00 19140625.00 17430625
4 84,200 2 1 84216.7 277.78 29250069.44 29430625
5 89,700 3 2 89108.3 350069.44 266944.44 5625
6 84,900 2 2 84975 5625.00 21622500.00 22325625
7 98,400 5 3 98133.3 71111.11 72391736.11 77000625
8 92,900 4 2 93241.7 116736.11 13080277.78 10725625
 ( y  yˆ )  ( yˆ  y) 2  ( y  y)
2 2

Ejercicio 2 685833.33 185269167 185955000

para los cálculos realizados; 𝑦̅ = 89625, de los resultados anteriores


tenemos que: SCR = 185,269,167, SCT =185,955,000. Por tanto, el
coeficiente de determinación es:

185,269,167
R2 = = 0.9963
185,955,000
Ejercicio 3 se deduce que el coeficiente de correlación múltiple es:

R = 0.9963 = 0.9981

Así el 99.63% del cambio en el precio de una vivienda se explica mediante


los cambios del número de baños y el número de recámaras.
2.5 Correlación lineal múltiple
Se define el coeficiente de determinación múltiple en la misma forma
en que se define r.

R 
2  ( yˆ  y) 2
 ( y  y) 2
como hemos visto, también se tiene que:

5
2.6 Aplicaciones
Ejercicio 1

Ejercicio 4

Ejercicio 2
(Continúa ejercicio 4)

a) Calcula R y realiza un comentario de la variación de los datos


b) Calcula F y realiza la prueba F adecuada, usa a = 0.05
c) Realiza una prueba t para la significancia de b1. Usa a = 0.05
d) Realiza una prueba t para la significancia de b2. Usa a = 0.05
e) Realiza una prueba t para la significancia de b1. Usa a = 0.01
f) ¿Cambia el criterio de decisión al elegir a de 0.05 a 0.01 para b1?
g) Realizar la misma prueba anterior para b2.
h) ¿Cómo cambian los intervalos para β1 y β2 en las dos pruebas anteriores?

Ejercicio 5

Ejercicio 3
En el ejercicio 2 del apartado 2.4 anterior, se presentó la siguiente ecuación
basada en 10 observaciones (para la t crítica consultar una tabla t de student)

6
7

También podría gustarte