Está en la página 1de 7

Estadística II

Módulo 3 Introducción a la regresión lineal múltiple

Evaluación de una ecuación de regresión múltiple

En su lugar se utilizan algunos métodos


que puedan medir ciertos elementos
que nos permitan determinar qué
tan apropiado es nuestro modelo de
predicción.

La tabla ANOVA

El análisis de varianza divide la variación


total en la variable de respuesta y, en
dos partes, de tal manera que podemos

Hipótesis escribir SS total = SSR + SSE.

( ∑ yi )
∑ yi - n
2

Al igual que en las pruebas de hipótesis, Donde la SSR (suma de cuadrados para
donde se pudo probar H 0 :β = 0 regresión) mide la cantidad de variación
utilizando la prueba t o en su defecto explicada usando la ecuación de
la prueba F equivalente, en la regresión regresión; y la SSE (suma de cuadrados
múltiple tenemos que encontrar una para error) mide la variación residual
manera de comparar si el modelo de en los datos que no está explicada por
regresión está bien ajustado, en este las variables independientes.
caso existe más de una pendiente
parcial, que son los coeficientes de Los grados de libertad para estas
regresión parcial, por tanto las pruebas sumas son:
t y F ya no son equivalentes.
• (n-1)-k grados libertad para el
error.
• k grados de libertad de regresión.

1/7
1. Si aplicamos la prueba ANOVA, en los datos del ejemplo anterior utilizando
MINITAB podemos observar que tenemos 15 observaciones (n=15) y además 4
variables independientes y 14 grados de libertad, donde 4 son para la regresión
y 10 para el error.

Observemos la tabla resultante:

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,85130 95,22% 93,30% 89,98%

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p

regreción 4 15598,7 3899,68 49,78 0,000

Áre de 1 3167,2 3167,21 40,43 0,000


vivienda
Pisos 1 4,9 4,85 0,06 0,809

Recámaras 1 14,2 14,19 0,18 0,679

Baños 1 485,0 485,03 6,19 0,032

Error 10 783,5 78,35

Total 14 16382,2

2/7
2. De la tabla anterior:
El primer renglón encontramos a s = √s2 =8,85
La descomposición de SSR es el valor 15598,7

Error estándar de estimación múltiple

El error estándar es considerada una medida de dispersión de la estimación de la


regresión, la cual es más precisa a medida que el grado de dispersión se hace más
pequeño. Para poder medir la variación se utiliza la siguiente fórmula:

√∑ (Y- Ŷ)2
se = n-k-1

Donde:

Y son los valores observados en la muestra.


Ŷ son los valores estimados (obtenidos mediante la ecuación de regresión).
n es el número de observaciones de la muestra.
k es el número de variables independientes.

El denominador n-k-1 indica los grados de libertad del error estándar. Por la forma
de calcular se en algunos casos es llamado raíz del error cuadrático medio o raíz de
mse (por su siglas en inglés de mean-square error).

En el ejemplo de los condóminos los resultados muestran el error estándar


representado por s en lugar de S y en Excel aparece como error típico, como se
muestra a continuación.

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,85130 95,22% 93,30% 89,98%

Captura generada en Minitab.

3/7
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,976
Coeficiente de determinación R^2 0,952
R^2 ajustado 0,933
Error típico 8,851
Observaciones 15

Tabla generada en Excel.

Otra utilidad del error estándar de la estimación es formar un intervalo de


confianza alrededor del valor estimado, para ello se utiliza la distribución t.

Coeficiente de determinación múltiple

Una pregunta que siempre surge al momento de ajustar los modelos de regresión
es, ¿qué también se ha realizado el ajuste del modelo?, para contestar esta pregunta
hacemos uso del coeficiente de determinación, R2, este estadístico nos determina
la fuerza del modelo, en otra palabras, la proporción de la variación total, este
coeficiente está definido de la siguiente manera:

SSR
R =
2
SS total

En el ejemplo sobre el precio de venta de lista de un condominio, el coe iciente de


determinación se determina de la siguiente manera; SSR = 15913 y
SS total =16382,2
15598,7
R = 16382,2 = 0,952 = 95,2%
2

Este coeficiente a veces es llamado R2 múltiple en la tabla ANOVA generada por el


software MINITAB se encuentra en el primer renglón y está representado por R-cuad.
Para Excel se encuentra como el Coeficiente de determinación R^2.

4/7
Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,85130 95,22% 93,30% 89,98%

Captura generada en Minitab.

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,976
Coeficiente de determinación R^2 0,952
R^2 ajustado 0,933
Error típico 8,851
Observaciones 15

Tabla generada en Excel.

En el ejemplo de los condominios, un valor de R2 = 95.2% para la variación total,


significa que el modelo está bien ajustado.

Coeficiente ajustado de determinación

Es importante señalar que el valor de R 2, por la naturaleza de su definición, es


vulnerable a la adición de más variables predictoras en el modelo de regresión, esto
provoca un valor inflado para R2. Este pequeño inconveniente se resuelve al utilizar
medias cuadráticas en lugar de sumas de cuadrados, es decir, se realiza un ajuste
de R2:

R2 (adj) = 1-( MSE


SS Total
n-1
) 100%

5/7
Para los datos del ejemplo del precio de condominios, se tendría:

(
R2 (adj) = 1- 78,35
16382,2 )100%
14

= ( 1- 1-78,35
1170,15 ) 100
= (1-0,06695)100

= (0,9330)100

=93,3%

En la salida de MINITAB encontramos el valor de R2 ajustado en la parte superior,


como lo indica la imagen.

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
8,85130 95,22% 93,30% 89,98%

Captura generada en Minitab.

En Excel, el valor de R2 ajustado, se encuentra en la tercera fila de la tabla que se


muestra a continuación.

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,976
Coeficiente de determinación R^2 0,952
R^2 ajustado 0,933
Error típico 8,851
Observaciones 15

Tabla generada en Excel.

6/7
Este valor, es el porcentaje de variación en la respuesta y explicada por las variables
independientes. El valor R 2 ajustado toma utilidad sobre todo para comparar
modelos de regresión, los cuales tienen números diferentes de variables predictoras
independientes.

7/7

También podría gustarte