Está en la página 1de 29

REGRESIN LINEAL

MLTIPLE

Anlisis de Correlacin: Matriz de correlacin (R)
Y X1 X2 X3
Y 1.0 ry1 ry2 ry3
Si ryj 1.0, Xj asociada con Y
X1 ry1 1.0 r12 r13
Si ryj 0.0, Xj no asociada con Y
X2 ry2 r12 1.0 r23
Si rjk 1.0, Xj asociada con x y hay
problema de multicolinearidad
X3 ry3 r13 r23 1.0
Preguntas: Cules variables estn estadsticamente asociadas con la
respuesta? Qu tan severa es la multicolinealidad, representa un
problema?
Medida derivada: Coeficiente de determinacin simple ri
2
mide el
porcentaje de la variabilidad de Y explicada exclusivamente por X
i
Anlisis de Correlacin
Una empresa qumica desea evaluar la efectividad de los indicadores que utiliza una
empresa externa a quien se terceriz el reclutamiento del personal para todas las
reas excepto puestos ejecutivos superiores y R&D. Se tienen los siguientes datos
para 50 personas contratadas en los ltimos dos aos:
Y = ndice de desempeo relativo segn objetivos/indicadores por rea
X1 = coeficiente de inteligencia del individuo (prueba psicolgica)
X2 = habilidad tcnica medida en trminos de las tareas completadas usando software
de apoyo
X3 = habilidades operativas segn el tiempo requerido para completar tareas varias por
ejemplo de ensamble/desensamble
X4 = habilidad verbal medida a travs de la prueba estndar del departamento de RH
X5 = habilidad cuantitativa medida a travs de la prueba estndar del departamento de
RH
X6 = relaciones interpersonales medida como un puntaje promedio resultado de la
evaluacin que hicieron los compaeros del empleado
Realizar un Anlisis de Correlacin


Estimacin del modelo de RLM

Modelo bsico:

Y =
0
+
1
X
1
+
2
X
2
+ +
k
X
k
+ , con ~ NID (0,
2
).

Matricialmente:

Y = X + , con ~N (0, I
2
)


Ecuaciones normales y solucin:
Y X X X ` =
.
|
( ) Y X X X ` `
1
.
= |
EJEMPLO 1: Problema 10-9 Montgomery
El rendimiento de un proceso qumico (Y) se relaciona con las siguientes variables
X1 = concentracin de reactivo
X2 = temperatura de operacin
Y X1 X2 X
1
2
X
2
2
X1*X2 X1*Y X2*Y
81 1 150 1 22500 150 81 12150
89 1 180 1 32400 180 89 16020
83 2 150 4 22500 300 166 12450
91 2 180 4 32400 360 182 16380
79 1 150 1 22500 150 79 11850
87 1 180 1 32400 180 87 15660
84 2 150 4 22500 300 168 12600
90 2 180 4 32400 360 180 16200
684 12 1320 20 219600 1980 1032 113310

a) Construir la matriz XX
b) Construir el sistema de ecuaciones normales
c) Resolver el sistema de ecuaciones normales
(
(
(

=
(
(
(

(
(
(


25 . 0
3
75 . 39
113310
1032
684
0005556 . 0 0 . 0 0917 . 0
0 . 0 5 . 0 75 . 0
917 . 0 75 . 0 375 . 16
c) b = (XX)
-1
XY

2 1 2 2 1 1 0
25 . 0 3 75 . 39

X X X b X b b Y
i
+ + = + + =
ANOVA EN RLM
Ho: = 0
Ninguna de las X`s es
til para explicar a Y

VS
Ha: 0
Al menos una de las Xs
es til para explicar a Y
Source df SS MS F
Regression p-1 = k bXY-FC MSR MSR/MSE
Residual o
Error
n-k-1=n-p SSE=SST
-SSR
MSE
RR =
( ) { } 1 , > k n k F F o
EJEMPLO 2. RLM para determinar salarios
Objetivo: Determinar los salarios estndar que deben asignarse a los
empleados del rea de manufactura
Seleccin de variables: El gerente de RH considera que tal objetivo puede
lograrse empleando un modelo de regresin en el cual las variables
independientes representan los diversos factores que caracterizan al
trabajo. La escala para estas variables se defini como el intervalo [1;5]
sobre el cual se expresa la importancia relativa que se asocia al factor, a
mayor valor en la escala ms importante el factor. Variables:
X
1
: Nivel de responsabilidad
X
2
: Criticalidad del puesto para la organizacin
X
3
: Nivel educativo y requerimientos de capacitacin
X
4
: Demanda fsica y nivel de stress asociado al trabajo
X
5
: Personal dependiente del puesto
X
1
X
2
X
3
X
4
X
5
Salario
1.4 0.5 1.7 2 1.5 14.63
4.2 3.3 4.1 3.5 2.1 25.64
2.1 2.6 2.5 0.8 2.1 19.32
3.6 0.3 4.7 5 2.1 22.58
3.5 4.2 3.6 5 0.8 24.6
0.8 1 3 1.1 5 22.44
5 5 3.1 2.6 4.4 31.7
2.1 2.3 1.2 0.3 0.6 14.14
1.1 4 2.6 4.2 2.5 24.33
0.7 0.9 1 0.6 0.9 11.66
1.2 2.5 2.5 3.8 2.1 20.92
2.1 2.5 1.8 1.2 0.96 16.49
4.1 1.1 5 2.6 3.5 25.25
0.98 2.3 2.1 4.3 2.6 21.49
4.4 3.2 4 5 4.5 31.61
DATOS DISPONIBLES
RLM en la determinacin de salarios
1. Estimar la ecuacin de regresin
2. Probar la significancia del modelo
3. Calcular coeficientes de determinacin mltiple,
regular y ajustado
4. Probar hiptesis individuales para los coeficientes
de regresin deberan todas las variables incluirse
en el modelo? cul de los factores es el ms
importante en la definicin del salario del
empleado?
5. Pronosticar el salario para un puesto de trabajo en el
cual X1=3, X2=.5, X3=4, X4=4.5 y X5=2



MEDIDAS DE ASOCIACIN DE RLM
1. Simples:

r
jY
= S(Y, X
j
) / [SSY * SSX
j
]
1/2

Pregunta: Hay una relacin estadstica entre la variable
independiente X
j
y la variable dependiente Y?


2. Mltiples:
R
2
= SSR/ SST

R
2
(adj) = 1 {(n-1) SSE/ (n-p) SST}

Pregunta: Qu porcentaje de la variabilidad de Y se explica con el
modelo de regresin ajustado?


3. Parciales
Ejemplo: r
2

y2.13


( )
( )
( ) ( )
( )
3 1
3 1 3 2 1
3 1
3 1 2
,
, , ,
,
,
X X SSE
X X SSR X X X
X X SSE
X X X SSR
= =
( )
( ) reducido elo mod SS
extra SS
=
Pregunta: Si a un modelo que tiene ya ciertas variables, se agrega la variable.

Xj, qu cantidad adicional de la variacin no explicada de Y se puede explicar?
Xj se elimina del modelo de regresin si:
no est asociada en forma estadsticamente significante con Y.
su contribucin marginal al modelo dadas otras variables es no significante.
MULTICOLINEALIDAD
Consecuencias
1.Cambios sustanciales en los estimados de los
coeficientes de regresin

2.Las desviaciones estndar de los coeficientes se
incrementan considerablemente.

3.Variables importantes para predecir (controlar) la
respuesta pueden resultar eliminadas del modelo

4.Los pronsticos y la media estimada para la respuesta
no resultan afectados por la multicolinealidad, el impacto es
sobre la descripcin del efecto de las Xs sobre la respuesta.

1. Coeficientes de correlacin simples r
ij
de gran
magnitud (cercanos a uno)
2. ANOVA significante, coeficiente de determinacin
cercano a uno pero varios coeficientes de regresin
parciales declarados estadsticamente cero
3. Coeficientes de correlacin Xj y Y grandes pero el
de regresin declarado 0
4. Clculo de factores inflacionarios de la varianza
(VIFs). El VIF asociado al coeficiente de regresin
de la j-sima variable independiente se define como
VIF
j
= (1 R
j
2
)
-1
= Tolerancia
-1
, para j=1,2,...,k


Deteccin
1. Transformar las variables.

Y
t
= Y
t
Y
t-1
, y X
t
= X
t
X
t-1
para toda (X,Y) en el modelo

2.Aumentar la muestra

3.Eliminar una o ms variables que estn fuertemente
relacionadas con otras variables independientes

4.Reducir el nmero de variables independientes a travs de la
formacin de variables compuestas

5.Utilizar como mtodo de estimacin la Regresin Anidada o
Puente
Solucin
OLS se modifica, permitindose obtener estimadores
sesgados para los coeficientes de regresin siempre
que su sesgo sea pequeo con respecto a su varianza.
El problema se formula matemticamente como
minimizar el error cuadrado medio, esto es
2 2 2 2
) ( } ) ( { )] ( [ ) ( min Sesgo b Var b E b E b E b E
R R R R R
+ = + = | |
Descripcin de la regresin jerrquica o anidada
EJEMPLO 3: El administrador de un hospital desea estudiar la relacin
que existe ente los ndices de satisfaccin del paciente y las
siguientes variables independientes:

X1 = edad del paciente.
X2= severidad de la enfermedad
(Esta variable se midi como un ndice de 1 a 10 puntos de acuerdo a un
conjunto de evaluaciones realizadas por los mdicos tratantes)
X3= nivel de ansiedad del paciente
(Esta variable se midi como un ndice de 1 a 10 puntos de acuerdo a un
conjunto de evaluaciones realizadas por un psiclogo clnico)
X4= das de estancia en el hospital

El administrador ajust un modelo de regresin lineal mltiple en las
cuatro variables y desea seleccionar aquel modelo que le permita
describir cules son los factores del perfil del paciente que
determinan su nivel de satisfaccin, con el propsito final de
disear programas de atencin individualizados que garanticen la
alta satisfaccin de los clientes directos del hospital. Se te solicita
apoyar al administrador en la definicin de un modelo de regresin
apropiado.
Matriz de correlacin
Y X1 X2 X3 X4
Y 1.0000 -0.7752 -0.8866 -0.6024 -0.0945
X1 1.0000 0.4721 0.4993 -0.0384
X2 1.0000 0.8952 0.1060
X3 1.0000 -0.135
X4 1.0000


ANOVA
Source df Sum of Squares Mean Square F
Regresin 4 4242.30864 1060.5772 19.5266
Residual 35 1901.00955 54.3146
6143.3182

R
2
= .6906
LISTADOS DE MINITAB
VARIABLES IN EQUATION
Variable Coefficient Estandar Error t VIF
X1 -1.2234 0.31172 -3.925 2.4
X2 -0.3396 0.9053 -0.375 10.7
X3 -13.2770 13.4450 -0.987 9.3
X4 -0.8119 0.8376 -0.969 1.5
Constant 162.9134 26.5571 6.134


MODELOS PROPUESTOS POR EL ADMINISTRADOR.
Variables en modelo SSR R
2
Coeficientes de regresin
X1, X2 3978.6412 0.65 -.15244,-11.8319
X1 (X2 ,X3) 4100.1210 0.67 -.1.6123,-1.2008,-9.1111



LISTADOS DE MINITAB
Mtodos para la seleccin del mejor
modelo de regresin
1. Todas las regresiones
2. Forward
i) Ajustar k modelos de regresin lineal simple, elegir aquel modelo que resulte
significante y con el mayor coeficiente de determinacin
ii) Calcular los coeficiente de determinacin parcial r
2

yj.i
(j=1,2,,i-1,i+1,k), probar si
la variable contribuye significativamente a explicar Var(Y) e ingresar aquella
con el mayor valor para el coeficiente de determinacin
iii) Repetir paso ii hasta que todas las variables estn en el modelo de regresin o
cuando ya no haya variables que contribuyan significativamente a explicar
Var(Y)
3. Backward
i) Ajustar un modelo de RLM en k variables
ii) Calcular los coeficientes de determinacin parcial r
2

yj.todas las otras Xs
(i=1,2,,k),
probar si la variable contribuye significativamente a explicar Var(Y), eliminar la
variable con el menor coeficiente de determinacin no significante
iii) Repetir paso ii hasta que todas las variables se hayan eliminado del modelo o
cuando no haya ninguna que resulte no-significante

Mtodos para la seleccin del mejor
modelo de regresin
4. Stepwise
i) Ajustar k modelos de regresin lineal simple, elegir aquel
modelo que resulte significante y con el mayor coeficiente
de determinacin
ii) Calcular los coeficiente de determinacin parcial r
2

yj.i

(j=1,2,,i-1,i+1,k), probar si la variable contribuye
significativamente a explicar Var(Y) e ingresar aquella con el
mayor valor para el coeficiente de determinacin
iii) Calcular los coeficientes de determinacin parcial r
2

yj.i
y probar la
significancia de Xi dado que Xj se ingres al modelo de
regresin, eliminar a Xi si no resulta significante su contribucin
iv) Repetir iii hasta que no haya ms variables que ingresar o eliminar
al modelo de RLM

EJEMPLO 4. Evaluacin del desempeo
de contratistas
Debido a la naturaleza de los grandes proyectos de construccin
que se hacen en la actualidad, es usual apoyarse en contratistas. La
administracin y evaluacin de los resultados de esos proyectos
suele resultar muy complicada. Los investigadores Xiao y Proverbs
sugieren el uso de un ndice de Desempeo del Contratista (IDC)
para seleccionar y evaluar contratistas. Componentes del ndice:
X1 = Nmero de empleados
X2 = Proporcin de proyectos ganados en licitaciones
X3 = Cumplimiento de las normas de proteccin ambiental
X4 = Cumplimiento de los tiempos de entrega estipulado
X5 = Nmero de reuniones semanales con los dueos del proyecto
X6 = Promedio de la duracin de los retrasos durante el proyecto
EJEMPLO 4. Evaluacin del desempeo
de contratistas
X7 = Compromiso de ambas partes para cooperar durante proyecto (S o
No)
X8 = Nmero de reuniones semanales con el contratista
X9 = Nmero de modificaciones al diseo del proyecto durante la
construccin
X10-X12, son tres variables relacionadas con situacin financiera del
contratista
Se ajust un modelo de regresin empleando Stepwise, el
modelo seleccionado fue el siguiente
IDC = 5.458 (6.403E-02) Promedio retrasos + 0.489 Compromiso
cooperacin + 0.172 Cumplimiento tiempos + 0.415 Nmero de
subcontrtistas (2.003E-03) Modificaciones al proyecto

EJEMPLO 4. Evaluacin del desempeo
de contratistas


EJEMPLO 5. La asociacin de ex-Tecs realiz un estudio enfocado a
determinar cules son las variables que determinan el salario de los
profesionistas que trabajan en las empresas localizadas en los parques
industriales de la ciudad de Toluca. Las variables consideradas fueron:

X1 = Experiencia del profesionista (aos de trabajo en el sector industrial)
X2 = Gnero del individuo (0 = masculino, 1 = femenino)
X3 = Ttulo del profesionista (0 = licenciatura, 1 = ingeniero)
Y = salario del profesionista ($/da)

Partes selectas del listado obtenido en MINITAB al utilizar la rutina
Regression se muestran a continuacin

Surce df SS MS F P
Regresin 3 928.85 309.62 3.41 0.037
Error 71 6453.29 90.89
Total 74 7382.14



RLM con variables indicador




Variable Coefficient Stnd Error
Coefficient
t-value P-value
Cte 437.07 23.42 18.66 0.000
X
1
0.403 0.062 6.50 0.000
X
2
-90.06 24.47 -3.68 0.041
X
3
75.51 21.60 3.49 0.037
a) Escriba el modelo de regresin para el caso de los ingenieros
b) Son tiles las variables consideradas para explicar las diferencias en los salarios
percibidos por los profesionistas? Qu tanto?
c) Se puede atribuir a las industrias de la zona de Toluca la aplicacin de polticas
de discriminacin sexual hacia las mujeres?
d) Hay diferencias significantes entre los salarios que perciben licenciados e
ingenieros?
e) Estime con un intervalo de confianza al 95% el salario medio de las
profesionistas con licenciatura cuya experiencia laboral es de 4 aos. Asuma que
la varianza muestral para la media estimada es de 0.05

Problema de aplicacin:
Regresin polinomial
Una industria qumica fabrica como uno de sus productos
principales pentaeritritol, un reactivo bsico en la sntesis de
resinas para recubrimiento. Buscando incrementar sus mrgenes
de utilidad, la empresa se propuso reducir el tiempo de reaccin
para sintetizar pentaeritritol. Dos variables de proceso crticas son:
X1 = catalizador bsico, medido como porcentaje de hidrxido de
calcio en la mezcla cataltica
X2 = temperatura de reaccin en grados centgrados.

Las condiciones actuales del proceso son (70%, 45C), bajo estas
condiciones el tiempo de proceso es en promedio de 83 min. Estas
condiciones fueron variadas bajo la estrategia experimental de
Superficies de Respuesta. En la ltima fase de experimentacin se
evaluaron nueve combinaciones de las variables de proceso y se
desea determinar las condiciones ptimas para la sntesis del
producto.
Problema de aplicacin:
Regresin Polinomial
a) Ajustar un modelo de regresin lineal mltiple a
los datos experimentales y probar por falta de
ajuste.
b) Ajustar un polinomio de segundo grado a los
datos. Probar por falta de ajuste y por la
significancia de los trminos de segundo orden
c) Realizar un anlisis de residuos y tomar medidas
correctivas de ser necesario
d) Determinar las condiciones ptimas para el
proceso asumiendo que el polinomio de segundo
grado ajustado es una superficie de respuesta que
exhibe un mnimo

También podría gustarte