Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EN CONTADURÍA PÚBLICA
ESTADÍSTICA ADMINISTRATIVA II ∑ Y= nb o + b1∑ X1 + b2∑ X2 + b3∑ X3 + b4∑ X4 + b5∑ X5
2. REGRESIÓN LINEAL MÚLTIPLE Y CORRELACIÓN ∑ X1Y = b o ∑ X1 + b1∑ X12 + b2∑ X1X2 + b3∑ X1X3 + b4 ∑ X1X4 + b5 ∑ X1X5
2.1 Modelo de regresión ∑ X2Y = b o ∑ X2 + b1 ∑ X1X2 + b2∑ X22 + b3∑ X2X3 + b4 ∑ X2X4 + b5 ∑ X2X5
∑ X3Y = bo ∑ X3 + b1 ∑ X1X3 + b2 ∑ X2X3 + b3 ∑ X32 + b4 ∑ X3X4 + b5 ∑ X3X5
Es razonable que las predicciones deban mejorar si consideramos
∑ X4Y = bo ∑ X4 + b1 ∑ X1X4 + b2 ∑ X2X4 + b3 ∑ X3X4 + b4 ∑ X42 + b5 ∑ X4X5
otra información relevante. Por ejemplo, debemos poder hacer mejores
∑ X5Y = bo ∑ X5 + b1 ∑ X1X5 + b2 ∑ X2X5 + b3 ∑ X3X5 + b4 ∑ X4X5 + b5 ∑ X52
predicciones de las ventas del primer año de vendedores recién
contratados por una compañía si consideramos no sólo sus años de
Lo que resulta el planteamiento de un sistema de seis ecuaciones con seis
experiencia, sino también su agudeza visual, su capacidad de juzgar
incógnitas, las incógnitas son b0, b1, b2, b3, b4 y b5. Estos coeficientes son
relaciones personales y su coordinación entre la vista y las manos.
Muchas fórmulas matemáticas pueden servir para expresar relaciones las representaciones de β0, β1, β2,. . . ,βk. Los valores de los coeficientes
entre más de dos variables, pero las de uso más común en estadística para sistemas más complejos se pueden resolver con un paquete adecuado
son ecuaciones lineales de la forma de computación.
2.2 Estimación de la ecuación de regresión múltiple
y = β0 + β1 x1 + β2 x2 + β3 x3 + . . . + βk xk +
Consideremos, los datos del siguiente ejemplo de una inmobiliaria que
El problema principal que se afronta al obtener una ecuación lineal en muestran el número de recámaras, de baños y los precios a los cuales se
más de dos variables que mejor describa un conjunto de datos es el de vendieron recientemente ocho casas unifamiliares en cierta comunidad.
obtener los valores numéricos de b0, b1, b2, b3, . . . , y bk. Esto se lleva a
cabo mediante el método de mínimos cuadrados, es decir, se minimiza
Número de Número de
la suma de cuadrados (y- 𝑦̂)2, este método requiere que se resuelvan
tantas ecuaciones normales como constantes desconocidas b0, b1, b2, b3,. recámaras baños Precio ($)
. ., y bk haya. Por ejemplo, cuando hay dos variables independientes x1 y x1 x2 y
x2, y deseamos ajustar la ecuación 3 2 88,800
2 1 84,300
𝑦̂ = b0 + b1 x1 + b2 x2 4 3 93,800
debemos resolver tres ecuaciones normales 2 1 84,200
3 2 89,700
∑ Y= nb o + b1∑ X1 + b2∑ X2 2 2 84,900
∑ X1Y = b o ∑ X1 + b1∑ X12 + b2∑ X1X2 5 3 98,400
∑ X2Y = b o ∑ X2 + b1 ∑ X1X2 + b2∑ X22 4 2 92,900
desde el punto de vista algebraico, esto equivale a resolver un sistema Los cálculos realizados son
de tres ecuaciones con tres incógnitas. Donde las incógnitas son los
coeficientes b0, b1 y b2. Así, por ejemplo, si hay cinco variables
independientes, x1, x2, x3, x4 y x5, el modelo de ecuación lineal de ajuste
será 𝑦̂ = b0 + b1 x1 + b2 x2 + b3 x3 + b4 x4 + b5 x5, donde las ecuaciones
normales resultantes son:
1
n Y X1 X2 X1Y X2Y X12 X22 X1X2 2.3 Matriz de varianzas covarianzas
1 88,800 3 2 266,400 177,600 9 4 6 Cuando en un estudio se mide la relación bivariada entre más de
2 84,300 2 1 168,600 84,300 4 1 2 dos variables, frecuentemente la información se expresa en forma
3 93,800 4 3 375,200 281,400 16 9 12 matricial. La estructura de esta matriz, es de naturaleza simétrica, y
4 84,200 2 1 168,400 84,200 4 1 2 conocida como matriz de varianzas-covarianzas, su arreglo es el
5 89,700 3 2 269,100 179,400 9 4 6 siguiente:
6 84,900 2 2 169,800 169,800 4 4 4
7 98,400 5 3 492,000 295,200 25 9 15
8 92,900 4 2 371,600 185,800 16 4 8 S2x1 Sx 1x 2 Sx 1x 3
∑Y ∑ X1 ∑ X2 ∑ X1Y ∑ X2Y ∑ X12 ∑ X22 ∑ X1X2 C = Sx 2x 1 S2x2 Sx 2x 3
717,000 25 16 2,281,100 1,457,700 87 36 55 Sx 3x 1 Sx 3x 2 S2x3
2
2 2 2
X1 X2 X3 X1 X2 X3 X1X2 X1X3 X2X3
1.3 0.3 4 1.69 0.09 16 0.39 5.2 1.2 0.6726 0.4437 1.0367
3.5 1.5 9 12.25 2.25 81 5.25 31.5 13.5 C = 0.4437 0.3453 0.6459
2.8 0.7 6 7.84 0.49 36 1.96 16.8 4.2
1.0367 0.6459 2.3163
3 1.1 7.5 9 1.21 56.25 3.3 22.5 8.25
3.3 1.2 8 10.89 1.44 64 3.96 26.4 9.6
4 2 7 16 4 49 8 28 14 2.4 Pruebas de hipótesis para los coeficientes de regresión
3.7 2 8 13.69 4 64 7.4 29.6 16
La introducción de software adecuado ha hecho posible rápidas y
∑ X1 ∑ X2 ∑ X3 ∑ X12 ∑ X22 ∑ X32 ∑ X1X2 ∑ X1X3 ∑ X2X3 sencillas soluciones a complicados problemas de regresión lineal
21.6 8.8 49.5 71.36 13.48 366.25 30.26 160 66.75 múltiple. La mayoría de los resultados presentados por computadora
ofrecen información que facilita probar hipótesis nulas acerca de los
Las medias y varianzas de cada una de las variables son: coeficientes de regresión múltiple verdaderos o de la construcción de
intervalos de confianza.
21.6 8 .8 49 . 5
x1 3.08 x2 1 . 25 x3 7 . 07 Evaluación del modelo como un todo
7 7 7
n n n
donde se tienen las varianzas:
2
S 2x 1 = 10.194 - (3.08) = 0.6726
2
S 2x 2 = 1.925 - (1.25) = 0.3453
2 2
S x 3 = 52.321 - (7.07) = 2.3163
La siguiente tabla ANOVA y la prueba F proporcionan el formato general
y las covarianzas son: para la regresión múltiple.
x 2 x3
Sx2 x3
x1 x2 x1 x3
Sx1 x2 x1 x2 Sx1 x3 x1 x3 x 2 x3
n n n
3
H o: β 1 = β 2 = 0
H 1 : Al menos una βi no es 0
Para el ejemplo de la inmobiliaria del subtema 2.2 tenemos que:
Si la Hipótesis nula es verdadera, todos los coeficientes de regresión son cero y por tanto no son
n Y X1 X2 X1Y X2Y X12 X22 X1X2 útiles para estimar la variable dependiente, de ser el caso, habría que buscar otras variables
1 88,800 3 2 266,400 177,600 9 4 6 independientes, o buscar otras aproximaciones distintas para predecir la variable dependiente
2 84,300 2 1 168,600 84,300 4 1 2
Nivel a = 5% grados de libertad n - (k + 1 ) = 5
3 93,800 4 3 375,200 281,400 16 9 12
4 84,200 2 1 168,400 84,200 4 1 2 El valor crítico de F con 2 y 5 grados de libertad al nivel de 5% es F gl = 5.786135
5 89,700 3 2 269,100 179,400 9 4 6
6 84,900 2 2 169,800 169,800 4 4 4 Regla de decisión: Rechazar la hipótesis nula H o, si F > F gl
7 98,400 5 3 492,000 295,200 25 9 15
Debido a que 675.3432 > 5.786135043
8 92,900 4 2 371,600 185,800 16 4 8
∑Y ∑ X1 ∑ X2 ∑ X1Y ∑ X2Y ∑ X12 ∑ X22 ∑ X1X2 La hipótesis nula se rechaza. Se puede concluir al nivel del 5% que existe una relación lineal
717,000 25 16 2,281,100 1,457,700 87 36 55 entre y e por lo menos una de las variables independientes
La tabla se puede ampliar con los cálculos adicionales de SCE, SCR y Pruebas individuales para los coeficientes de regresión
SCT
n Y X1 X2 Yc (y - y c )2 (y c - y)2 (y - y)2
1 88,800 3 2 89108.3 95069.44 266944.44 680625
2 84,300 2 1 84216.7 6944.44 29250069.44 28355625
3 93,800 4 3 94000 40000.00 19140625.00 17430625
4 84,200 2 1 84216.7 277.78 29250069.44 29430625
5 89,700 3 2 89108.3 350069.44 266944.44 5625
6 84,900 2 2 84975 5625.00 21622500.00 22325625
7 98,400 5 3 98133.3 71111.11 72391736.11 77000625
8 92,900 4 2 93241.7 116736.11 13080277.78 10725625
( y yˆ ) ( yˆ y) 2 ( y y)
2 2
4
si se selecciona un valor de 𝛼 = 0.05 con tgl crítica de t0.05,5 = 2.57,
comparando los valores, la regla es:
No rechazar Ho, si t está entre -2.57 y 2.57. De lo contrario rechazar
con la raíz cuadrada de la expresión anterior, se tiene el coeficiente de
Cómo t = 18.08 > 2.57, se rechaza la hipótesis nula. Al nivel de significancia
correlación múltiple. Así para el ejemplo, que muestran el número de
del 5% el número de recamaras contribuye significativamente al poder
recámaras, de baños y los precios a los cuales se vendieron ocho casas
explicativo del modelo.
unifamiliares, se complementa la tabla como:
Ejercicios
n Y X1 X2 Yc (y - y c )2 (y c - y)2 (y - y)2
Ejercicio 1. Considere los siguientes datos 1 88,800 3 2 89108.3 95069.44 266944.44 680625
2 84,300 2 1 84216.7 6944.44 29250069.44 28355625
3 93,800 4 3 94000 40000.00 19140625.00 17430625
4 84,200 2 1 84216.7 277.78 29250069.44 29430625
5 89,700 3 2 89108.3 350069.44 266944.44 5625
6 84,900 2 2 84975 5625.00 21622500.00 22325625
7 98,400 5 3 98133.3 71111.11 72391736.11 77000625
8 92,900 4 2 93241.7 116736.11 13080277.78 10725625
( y yˆ ) ( yˆ y) 2 ( y y)
2 2
185,269,167
R2 = = 0.9963
185,955,000
Ejercicio 3 se deduce que el coeficiente de correlación múltiple es:
R = 0.9963 = 0.9981
R
2 ( yˆ y) 2
( y y) 2
como hemos visto, también se tiene que:
5
2.6 Aplicaciones
Ejercicio 1
Ejercicio 4
Ejercicio 2
(Continúa ejercicio 4)
Ejercicio 5
Ejercicio 3
En el ejercicio 2 del apartado 2.4 anterior, se presentó la siguiente ecuación
basada en 10 observaciones (para la t crítica consultar una tabla t de student)
6
7