Está en la página 1de 27

Capítulo 14

Análisis de regresión y correlación múltiples
 1. Objetivos: Al terminar este capítulo podrá: Describir la relación entre diversas variables independientes y una variable dependiente, utilizando la ecuación de regresión múltiple. Calcular e interpretar el error estándar de estimación múltiple y el coeficiente de determinación.

2.

3.
4.

Interpretar una matriz de correlación.
Establecer y explicar una tabla ANOVA.
1

Capítulo 14 (Continuación)
5. Realizar una prueba de hipótesis para determinar si los coeficientes de regresión son diferentes de cero.
Realizar una prueba de hipótesis para cada uno de los coeficientes de regresión.

6.

2

b1 es la variación neta en Y por cada unidad de variación en X1. 3 . la forma general de la ecuación de la regresión múltiple es: Y '  a  b1 X 1  b2 X 2    X1 y X2 son las variables independientes. coeficiente de regresión neta. Se denomina coeficiente de regresión parcial.Análisis de regresión múltiple  Para dos variables independientes. o simplemente coeficiente de regresión. a es la intersección en Y. manteniendo X2 constante.

se recomienda un paquete de software tal como Excel o MINITAB..Análisis de regresión múltiple  La regresión general múltiple con k variables independientes es dado por: Y '  a  b1 X1  b2 X 2 . 4 . es muy tediosa.. etc. b2.bk X k   El criterio de mínimos cuadrados se utiliza para desarrollar esta ecuación. Dado que la determinación de b1.

Es difícil determinar cuál es un valor grande y cuál es un valor pequeño del error estándar 5 . Se mide en las mismas unidades que la variable dependiente.Error estándar múltiple de estimación    El error estándar múltiple de estimación es una medida de la eficacia de la ecuación de regresión.

12.k  (Y  Y ' ) 2 n  (k  1) 6 ..Error estándar múltiple de estimación La fórmula es: s y..

7 . La variable dependiente es continua y por lo menos de nivel de intervalo.Cuando tal sea el caso. las diferencias presentan homoscedasticidad. La variación en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Los valores sucesivos de la variable dependiente deben ser sin correlación.Hipótesis para la regresión múltiple y la correlación múltiple      Las variables independientes y las variables dependientes tienen una relación lineal. están distribuidas en forma normal con media igual a 0. Esto es (Y –Y') debe ser aproximadamente igual para todos los valores de Y. Las residuales. calculadas mediante Y – Y'.

La variación explicada es considerada por el sistema de la variable independiente. La variación inexplicada o al azar no es considerada por las variables independientes 8 . La variación se divide en dos componentes.La tabla ANOVA    La tabla ANOVA reporta la variación en la variable dependiente.

 9 .Matriz de correlación Una matriz de correlación se utiliza para mostrar todos los coeficientes de correlación simples posibles entre las variables. Muestra qué tan fuerte es la correlación de cada variable independiente con la variable dependiente.  La matriz es útil para localizar variables independientes correlacionadas.

Prueba global  La prueba global se utiliza para investigar si cualquiera de las variables independientes tienen coeficientes significativos. Las hipótesis son: H0 : β1 = β2 = … = βk = 0 H1 : no todas las βs iguales a cero 10 .

donde n es el tamaño de muestra. 11 .Prueba global (Continuación)  El estadístico de prueba es la distribución F con k (número de variables independientes) y n-(k+1) grados de libertad.

El estadístico de prueba es la distribución t con n-(k+1) grados de libertad. Las variables que tienen coeficientes cero en la regresión se eliminan del análisis.Prueba para variables individuales    Esta prueba se utiliza para determinar qué variables independientes tienen coeficientes distintos a cero en la regresión. 12 .

y si la familia tiene niños en la universidad (universidad). 13 . tamaño de la familia (tamaño).Ejemplo 1 Un investigador de mercado que trabaja para el Súper Siete está estudiando el gasto anual que las familias de cuatro o más destinan a alimentos. Esas variables son: renta total de la familia (renta) en $00. Tres variables independientes se consideran para ser relacionadas con los gastos anuales del alimento (alimento).

Eso es un niño es un estudiante de universidad o no. el votante votará o no votará por el gobernador. la pieza es aceptable o inaceptable.  La variable universidad se llama una variable ficticia o de indicador.  Codificamos generalmente un valor de la variable simulada como “1” y el otro “0”. 14 .  Otros ejemplos de variables simuladas (ficticia) incluyen género. Puede tomar solamente uno de dos resultados posibles.Ejemplo 1 (Continuación) Observe lo siguiente con respecto a la ecuación de regresión.

Ejemplo 1 (Continuación) Familia 1 2 3 4 5 6 7 8 Alimento 3900 5300 4300 4900 6400 7300 4900 5300 Ingreso 376 515 516 468 538 626 543 437 Tamaño 4 5 4 5 6 7 5 4 Estudiante 0 1 0 0 1 1 0 0 9 10 11 12 6100 6400 7400 5800 608 513 493 563 5 6 6 5 1 1 1 0 15 .

para desarrollar una matriz de correlación. tal como MINITAB o Excel. tenemos la ecuación de regresión: Y’ = 954 +1. Del análisis proporcionado por MINITAB.Ejemplo 1 (Continuación)   Utilice un paquete de software.09X1 + 748X2 + 565X3  ¿Qué gasto en alimento usted estimaría para una familia de 4. sin estudiantes de universidad. y una renta de $50.000 (que se introduce como 500)? 16 .

Ejemplo 1 (Continuación)              The regression equation is Food = 954 + 1.092 748.09 Income + 748 Size + 565 Student Predictor Constant Income Size Student S = 572.4 564.14 P 0.738 0.039 0.35 2.5 SE Coef 1581 3.7 Coef 954 1.60 0.563 0.1% Analysis of Variance Source Regression Residual Error Total DF 3 8 11 SS 10762903 2623764 13386667 MS 3587634 327970 F 10.287 R-Sq = 80.4% R-Sq(adj) = 73.003 17 .1 T 0.94 P 0.0 495.47 1.153 303.

18 .  Un miembro adicional de la familia aumentará la cantidad gastada por año en alimento en $748. Esto significa que más de 80% de la variación en la cantidad gastada en alimento está considerado por las variables renta.  Una familia con un estudiante de universidad gastará $565 más por año en alimento que las familias sin un estudiante de universidad.  Cada $100 dólares adicionales de renta por año aumentarán la cantidad gastada en alimento en $109 por año.4%.Ejemplo 1 (Continuación) De la regresión de salida observamos:  El coeficiente de determinación es 80. tamaño de familia y estudiante.

Ningunas de las correlaciones entre las variables independientes deben causar problemas.491 Tamaño Ingreso Tamaño Estudiante  0.609 0.773 Ingreso 0. 19 .587 0.876 0.743  La correlación más fuerte entre la variable dependiente y una variable independiente está entre el tamaño de la familia y la cantidad gastada en alimento.70 y 70. Todas están entre -.Ejemplo 1 (Continuación)  La matriz de correlación es como sigue: Alimento 0.

000) y ningún estudiante de universidad es $4. Y’ = 954 + 1.Ejemplo 1 (Continuación)  El gasto estimado en alimento para una familia de 4 con una renta $500 (que es $50.09(500) + 748(4) + 565 (0) = 4491 20 .491.

H0 : β1 = β2 = … = β3 = 0 H1 : no todas las βs iguales a cero • H0 es rechazada si F >4.94.07. • Decisión: H0 es rechazada.Ejemplo 1 (Continuación) Realice una prueba global de hipótesis para determinar si cualquiera de los coeficientes de regresión no son cero. el valor calculado de F es 10. • De la salida de MINITAB. No todos los coeficientes de regresión son cero 21 .

22 . la única variable significativa es FAMILIA (tamaño de la familia) que usa los valores-p. H0 : 2  0  H1: 2  0  De la salida de MINITAB. usando el nivel del 5% de significación. Así.05. rechazo H0 si el valor p< . Las otras variables se pueden omitir del modelo. Esta es la hipótesis para la variable independiente tamaño de familia.Ejemplo 1 (Continuación)  Realice una prueba individual para determinar qué coeficientes no son cero.

8%.6%. 23 . La nueva ecuación de la regresión es: Y’ = 340 + 1031X2  El coeficiente de determinación es 76. Eliminamos dos variables independientes.Ejemplo 1 (Continuación)   Volvemos a efectuar el análisis usando solamente el tamaño de familia como variable independiente . y el término de R-cuadrado fue reducido por solamente 3.

7 1031.4 T 0.0 SE Coef 940.03 P 0.000 S = 557.000 24 .7 179.7 R-Sq = 76.Ejemplo 1 (Continuación) Análisis de regresión: alimento contra tamaño La ecuación de la regresión es Food = 340 + 1031 Size Predictor Constant Size Coef 339.4% Analysis of Variance Source Regression Residual Error Total DF 1 10 11 SS 10275977 3110690 13386667 MS 10275977 311069 F 33.726 0.75 P 0.8% R-Sq(adj) = 74.36 5.

Los histogramas y los diagramas de árbol y hojas son útiles en la comprobación de este requisito. Un diagrama de residuales y valores de su correspondiente Y' se utiliza para demostrar que no hay tendencias o patrones en las residuales. Las residuales deben ser normalmente distribuidas.Análisis de residuales    Una residual es la diferencia entre el valor real de Y y el valor predicho Y'. 25 .

Diagrama residual 1000 Residuales 500 0 -500 4500 6000 Y’ 26 7500 .

Histogramas de residuales 8 7 6 5 4 3 2 1 0 -600 -200 200 Residuales 27 Frecuencia 600 1000 .