Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión múltiple
CONTENIDO Interpretación de los parámetros
ESTADÍSTICA EN LA PRÁCTICA: Variables cualitativas más
complejas
dunnhumby
15.1 MODELO DE REGRESIÓN 15.8 ANÁLISIS RESIDUAL
Detección de observaciones
MÚLTIPLE
atípicas
Modelo de regresión y ecuación
Residuales estudentizados
de regresión
eliminados y observaciones
Ecuación de regresión múltiple
atípicas
estimada
Observaciones influyentes
15.2 MÉTODO DE MÍNTh10S U so de la medida de la distancia
CUADRADOS de Cook para identificar
Ejemplo: Butler Trucking observaciones influyentes
Company
15.9 REGRESIÓN LOGÍSTICA
Nota sobre la interpretación
Ecuación de regresión logística
de los coeficientes
Estimación de la ecuación
15.3 COEFICIENTE DE de regresión logística
DETERMINACIÓN MÚLTIPLE Prueba de significancia
15.4 SUPUESTOS DEL MODELO Aplicación en la administración
Interpretación de la ecuación
15.5 PRUEBA DE SIGNIFICANCIA
de regresión logística
PruebaF
Transformación logit
Prueba t
Multicolinealidad APÉNDICES
15.6 USO DE LA ECUACIÓN 15.1 REGRESIÓN MÚLTIPLE CON
DE REGRESIÓN ESTIMADA MINITAB
PARA ESTIMACIÓN 15.2 REGRESIÓN MÚLTIPLE CON
Y PREDICCIÓN EXCEL
15.7 VARIABLES 15.3 REGRESIÓN LOGÍSTICA CON
INDEPENDIENTES MINITAB
CUALITATIVAS
Ejemplo: Johnson Filtration, Inc.
Estadística en la práctica 675
dunnhumby*
LONDRES. INGLATERRA
dunnhumby, fundada en 1989 por el equipo de esposos
Clive Humby (matemático) y Edwina Dunn (experta en
marketing), combina probadas habilidades naturales con
grandes ideas para encontrar claves y patrones de lo que
compran los consumidores y por qué. La empresa convier-
te esas señales en estrategias viables que generan notorio
crecimiento y lealtad sostenible y mejoran, en última ins-
tancia, el valor de la marca y la experiencia del cliente.
Con una nómina de más de 950 personas en Europa,
Asia y América, dunnhumby proporciona servicio a una
lista de prestigiosas empresas, que incluye Kroger, Tesco,
Coca-Cola, General Milis, K.imberly-Clark, PepsiCo, Proc-
ter & Gamble y Home Depot. dunnhumbyUSA es una
empresa conjunta Uoint venture) entre Kroger Company y
dunnhumby, con oficinas en Nueva York, Chicago, Atlanta,
Minneapolis, Cincinnati y Portland.
Los estudios de dunnhumby inician con la obtención
de datos de los consumidores de la empresa que la contrata.
Los datos se toman de registros de compras con tarjetas de
descuento o recompensas para el cliente, operaciones en los
puntos electrónicos de venta e investigación tradicional de
mercados. El análisis de los datos con frecuencia se traduce
de miles de millones de puntos de datos en ideas detalladas
acerca del comportamiento, preferencias y estilos de vida de
los clientes. Tales ideas conducen a implementar efectivos
programas de comercialización, que incluyen recomenda-
dunnhumby utiliza la regresión logística para predecir
ciones estratégicas acerca de fijación de precios, promo- el comportamiento de compra del consumidor.
ción, publicidad y decisiones sobre surtido de productos. ©Micro lOx/Shutterstock.com.
Los investigadores utilizan una técnica de regresión
múltiple llamada regresión logística como ayuda en sus
análisis de datos basados en el cliente. Al utilizar la regre-
sión logística se desarrolla una ecuación de regresión múl-
tiple estimada de la siguiente forma: las variables independientes más relevantes para predecir el
grupo del consumidor y proporciona una mejor compren-
sión de la población de clientes, posibilitando análisis pos-
teriores con una confiabilidad mucho mayor. El enfoque del
La variable dependiente y es una estimación de la proba- análisis se dirige a la comprensión del cliente hasta el punto
bilidad de que un cliente pertenezca a un grupo específico de desarrollar programas de comercialización en el punto de
de consumidores. Las variables independientes x 1, .xi, x3, venta y marketing directo que maximicen la pertinencia y el
. . . , xP son medidas del comportamiento real de compra del servicio al grupo de consumidores.
consumidor y pueden incluir el artículo específico y la can- En este capítulo se analizará la regresión múltiple y
tidad adquirida, monto de la compra, día de la.semana, hora cómo los conceptos de la regresión lineal simple estudiados
del día, y así sucesivamente. El análisis ayuda a identificar en el capítulo 14 pueden aplicarse al caso de la regresión
múltiple. Además, se mostrará el uso del software respec-
• Los autores agradecen o Poul Hunter, vicepresidente senior de Solutions
tivo. En la última sección del capítulo se presenta la regre-
for dunnhumby, por proporcionar este material poro Estadística en la sión logística con un ejemplo que ilustra cómo utilizar esta
prádica. técnica en una aplicación de investigación de mercados.
676 Capítulo 15 Regresión múltiple
Modelo de
regresión múltiple
En /a regresión lineal
Datos muestrales:
simple, b0 y b 1 son los Y= f3
0 + f3 1x 1 + {3 2x 2 + · · · + fJpxp +E
estadísticos muestra/es Ecuación de regresión múltiple
utilizados para estimar
E(y) = {3
0
+ {3 1x 1 + {3 2x 2 + · · · + /Jpxp
/os parámetros {3 0 Y {3 1•
En /a regresión múltiple,
{3 0, {3 1, {3 2, ... , fJp son
en el proceso análogo de
inferencia estadística, parámetros desconocidos
bo• b1, b2 , ... , bP denotan
los estadísticos muestrales
utilizados para estimar
/os parámetros
f3o· f31, f32· · · · f3P.
Cálculo de la ecuación
b , b , b , ... , bP
de regresión múltiple
0 1 2 estimada
proporcionan las estimaciones de
y= b0 + b 1x 1 + b 2 x 2 + · · · + bPxP
f30,f31'f32·· ·· · p b , bl' b , ... bP son
0 2
estadísticos muestrales
muestra aleatoria simple. Con los estadísticos rnuestrales se obtiene la siguiente ecuación de
regresión múltiple estimada.
( 15.3)
donde
donde
Y; = valor observado de la variable dependiente para la observación i-ésima
Y; = valor estimado de la variable dependiente para la observación i-ésima
Como indica la expresión (15.4), el método de mínimos cuadrados usa datos muestrales para
obtener los valores de b0, b 1, b2, . . . , bP que hacen que la suma de los cuadrados de los residua-
les [las desviaciones entre los valores observados de la variable dependiente (y;) y los valores
estimados de la variable dependiente (y¡)] sea un mínimo.
En el capítulo 14 se proporcionaron las fórmulas para calcular los estimadores b0 y b 1
para la ecuación de regresión lineal simple estimada y = b0 + b 1x. Con conjuntos de datos
relativamente pequeños fue posible usar esas fórmulas para obtener b0 y b 1 mediante cálculos
manuales. En cambio, en la regresión múltiple las fórmulas para los coeficientes de regresión
b0 , b 1, b2, • • • , bP utilizan álgebra matricial y quedan fuera del alcance de este libro. Por esta
razón, el estudio de la regresión múltiple centrará la atención en el uso de software para obtener
la ecuación de regresión estimada y alguna otra información. Se hará énfasis en la interpreta-
ción de los resultados que proporciona este software y no en cómo efectuar los cálculos para la
regresión múltiple.
(15.5)
FIGURA 15.2 Diagrama de dispersión de los datos preliminares del ejemplo de Butler Truck.ing
•
•
• •
•
• • •
.__~~~....._~~~-'-~~~--'~~~~....._~~~-'-~~~--'-~~x,
~ ~ m w ~ 100
Millas recorridas
En la figura 15.3 se presentan los resultados obtenidos con Minitab aplicando la regresión lineal
simple a los datos de la tabla 15. l. La ecuación de regresión estimada es
y = 1.27 + 0.0678x 1
Con 0.05 como nivel de significancia, el valor F de 15.81 y su correspondiente valor-p de 0.004
indican que la relación es significativa; es decir, que H0 : /3 1 = O puede ser rechazada debido a
que el valor-pes menor que a = 0.05 . Observe que utilizando el valor t de 3.98, y su valor-p
asociado de 0.004, se llega a la misma conclusión. Por lo tanto, podemos concluir que la relación
entre el tiempo total de recorrido y el número de millas recorridas es significativa; trayectos de
más duración corresponden a cantidades mayores de millas recorridas. Como el coeficiente
de determinación (expresado como porcentaje) es R-sq = 66.4%, vemos que 66.4% de la varia-
bilidad en el tiempo de recorrido podemos explicarla por el efecto lineal del número de millas
recorridas. Este descubrimiento es bastante satisfactorio; sin embargo, los gerentes deseaban
considerar otra variable independiente más para explicar parte de la variabilidad restante de la
variable dependiente.
Al tratar de identificar otra variable independiente, los gerentes encontraron que el número
de entregas podía contribuir también a la duración total del recorrido. En la tabla 15.2 se presen-
Los pasos necesarios para
tan los datos qe Butler Trucking después de agregar el número de entregas. En la figura 15.4 se
generar los resultados en
Minitab se muestran en la
expone el resultado que provee Minitab al considerar variables independientes, tanto el número
figura 15.4 y se presentan de millas recorridas (x 1) como el número de entregas (x2) realizadas. La ecuación de regresión
en el apéndice 15.1 . estimada es
En la siguiente sección se analizará el uso del coeficiente de determinación múltiple para me-
dir qué tan buen ajuste proporciona la ecuación de regresión estimada. Antes se examinarán con
más cuidado los valores de b 1 = 0.06113 y b2 = 0.923 en la ecuación (15.6).
680 Capítulo 15 Regresión múltiple
FIGURA 15.3 Resultados de Minitab para el problema de Butler Trucking con una
variable independiente
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Los nombres de las Regression 1 15. 871 15. 8713 15.81 0.004
variables Miles (millas ) Miles 1 15. 871 15. 8713 15.81 0.004
y Time (tiempo) que Error 8 8.029 1.0036
aparecen en los resultados Lack-of-Fit 4 2 .137 l. 5343 0.36 0.825
de Minitab fueron Pure Error 4 5.892 l. 4 729
ingresados en la hoja de Total 9 23.900
trabajo como encabezados
de las columnas Model Summary
correspondientes;
por lo tanto, x 1 = Miles y s R-sq R-sq(adj) R-sq(pred)
y= Time. 1.00179 66.41% 62.21% 48.89%
Coeff icients
Terrn Coef SE Coef T-Value P-Value VIF
Constant l. 27 l. 40 0.91 0.390
Miles 0.0678 0.0171 3.98 0.004 l. 00
Regression Equation
Time = 1.27 + 0.0678 Miles
TABLA 15.2 Datos de Butler Trucking con millas recorridas (x 1) y cantidad de entregas (x2)
como variables independientes
FIGURA 15.4 Resultados de Minitab para el problema de Butler Trucking con dos
variables independientes
Analysis of Variance
Coefficients
Regression Equation
Time = -0.869 + 0.06113 Miles + 0.923 Deliveries
Nota al lector. Los ejercicios de esta sección y las siguientes en los que se proporcionan datos
están diseñados para ser resueltos con ayuda de software.
Métodos
l. A continuación se proporciona la ecuación de regresión estimada obtenida a partir de 1O ob-
servaciones para un modelo con dos variables independientes.
X¡ X2 y
30 12 94
47 10 108
DATA. 25 17 112
Exer2 51 16 178
40 5 94
51 19 175
74 7 170
36 12 117
59 13 142
76 16 211
682 Capítulo 15 Regresión múltiple
Aplicaciones
4. Una zapatería obtuvo la siguiente ecuación de regresión estimada en la que se relacionan las
ventas contra la inversión en inventario y los gastos de publicidad.
y == 25 + 10x 1 + 8x2
donde
x 1 == inversión en inventario (en miles de dólares)
x2 = gasto en publicidad (en miles de dólares)
y == ventas (en miles de dólares)
5. El propietario de Showtime Movie Theaters, Inc. desea estimar el ingreso bruto semanal (Wee-
AUTO kly Gross Revenue) en función de los gastos de publicidad por televisión (Television Adverti-
sing) y en periódicos (Newspaper Advertising). A continuación se presentan en miles de dólares
($1 OOOs) los datos históricos de ocho semanas.
a) Obtenga una ecuación de regresión estimada en la que el monto que se gastó en publicidad
por televisión sea la variable independiente.
b) Obtenga una ecuación de regresión estimada en la que los montos gastados de publicidad
:por televisión y periódico sean las variables independientes.
e) ¿Es el coeficiente correspondiente a los gastos de publicidad en televisión de la ecua-
ción de regresión estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en
cada caso.
d) ¿Cuál es la estimación del ingreso semanal bruto en una semana en la que se gastan $3 500
en publicidad en televisión y $1800 en publicidad en periódicos?
6. La NFL lleva el registro de una variedad de datos del desempeño de individuos y equipos. Para
investigar la importancia de los pases en el porcentaje de juegos ganados por un equipo, los
siguientes datos contienen información sobre la conferencia (Conf), el número promedio de
15.2 Método de mínimos cuadrados 683
yardas por intento de pase (Y ds/Att), el número de intercepciones por intento (lnt/ Att) y el
porcentaje de juegos ganados (Win%) para una muestra aleatoria de 16 equipos de la NFL en
una temporada completa.
a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pases.
b) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el por-
centaje de juegos ganados, dado el número de intercepciones por intento.
e) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pase y el número
de intercepciones por intento.
d) El número promedio de yardas por intento de pase del equipo Kansas City Chiefs fue de 6.2
y el número de intercepciones fue de 0.036. Utilice la ecuación de regresión que elaboró
en el inciso e) para predecir el porcentaje de juegos ganados para este equipo. (Nota: el
registro del equipo de Kansas City Chiefs durante la temporada 2011 fue de 7 victorias y
9 derrotas) . Compare su predicción con el porcentaje real de juegos ganados por el equipo.
Shore
Ship Overall Excursions Food/Dining
Seaboum Odyssey 94.4 90.9 97.8
Seaboum Pride 93 .0 84.2 96.7
National Geographic Endeavor 92.9 100.0 88.S
Seaboum Sojoum 91.3 94.8 97.l
Paul Gauguin 90.5 87.9 91.2
Seaboum Legend
DATAll 90.3 82.1 98.8
Seaboum Spirit 90.2 86.3 92.0
Ships
. Silver Explorer 89.9 92.6 88.9
Silver Spirit 89.4 85.9 90.8
Seven Seas Navigator 89.2 83.3 90.5
Silver Whisperer 89.2 82.0 88.6
National Geographic Explorer 89.l 93.1 89.7
Silver Cloud 88.7 78.3 91.3
Celebrity Xpedition 87.2 91.7 73.6
Silver Shadow 87.2 75.0 89.7
SilverWind 86.6 78.1 91.6
SeaDreamll 86.2 77.4 90.9
Wind Star 86.1 76.5 91.5
Wind Surf 86.l 72.3 89.3
Wind Spirit 85.2 77.4 91.9
a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la califi-
cación general, dada la calificación para las excursiones de playa.
b) Añada la variable independiente de alimentos y obtenga una ecuación de regresión es-
timada que pueda emplearse para predecir la calificación total, dadas las calificaciones de
las excursiones de playa y alimentos.
e) Estime la calificación general de un crucero con una calificación en excursiones de playa
de 80 y una en alimentos de 90.
velocidad de cabeza promedio de 124.69 millas por hora, una velocidad de pelota promedio de
184.98 y un ángulo de lanzamiento de 8.79 grados. El archivo DATAfile llamado PGADriving-
Dist contiene los datos de distancias y factores de influencia para 190 miembros del PGA Tour
(sitio web del PGA Tour, 1 de noviembre de 2012). A continuación se presenta la descripción
de las variables que aparecen en los datos.
Velocidad de cabeza (Club Head Speed): velocidad a la que la cabeza impacta la pelota
(en millas por hora).
a) Formule una ecuación de regresión estimada para predecir la cantidad de yardas por drive,
a partir de la velocidad de cabeza.
b) Formule una ecuación de regresión estimada para predecir la cantidad de yardas por drive,
a partir de la velocidad de la pelota.
e) Se recomienda desarrollar una ecuación de regresión estimada que emplee la velocidad de
la cabeza y de la pelota para predecir la cantidad promedio de yardas por drive. ¿Estaría
de acuerdo con ella? Explique su respuesta.
á) Formule una ecuación de regresión estimada para predecir la cantidad promedio de yardas
por drive a partir de la velocidad de la pelota y el ángulo de lanzamiento.
e) Suponga que un nuevo miembro del PGA Tour 2013 tiene una velocidad de pelota de
170 millas por hora y un ángulo de lanzamiento de 11 grados. Utilice la ecuación de re-
gresión del inciso á) para predecir la cantidad de yardas por drive de este jugador.
10. Las Grandes Ligas de Béisbol (MLB , por sus siglas en inglés) está constituida por equipos que
juegan en la Liga Americana y en la Liga Nacional de Estados Unidos. La MLB recaba una gran
variedad de estadísticas sobre equipos y jugadores. Algunas de éstas se utilizan con frecuencia
para evaluar el desempeño de los lanzamientos de la siguiente manera:
ERA: Número promedio de carreras ganadas dadas por el pitcher por nueve entradas. Una
carrera ganada es cualquier carrera que anota el oponente con un pitcher en particular, con
excepción de las carreras que resultan de errores.
SO/IP: Número promedio de strikeouts (ponches) por entrada.
HR/IP: Número promedio de jonrones por entrada.
R/IP: Número de carreras permitidas por entrada.
Los siguientes datos muestran los valores de estas estadísticas en una muestra de 20 lanzadores
de la Liga Americana durante un temporada.
a) Desarrolle una ecuación de regresión estimada que pueda emplearse para predecir el nú-
mero promedio de carreras cedidas por entrada, dado el número promedio de strik:eouts 0
ponches por entrada.
b) Desarrolle una ecuación de regresión estimada que pueda aplicarse para predecir el número
promedio de carreras cedidas por entrada, dado el número promedio de jonrones por en-
trada.
e) Desarrolle una ecuación de regresión estimada que pueda aplicarse para predecir el número
promedio de carreras cedidas por entrada, dados el número promedio de strikeouts o pon-
ches y el número de jonrones, ambos por entrada.
d) El lanzador de los Yankees de Nueva York, A. J. Burnett, tiene un número promedio de
strik:eouts de 0.91 y un número promedio de jonrones de 0.16 por entrada. Utilice la ecua-
ción de regresión estimada que desarrolló en el inciso e) para predecir el número promedio
de carreras cedidas por entrada por A. J. Bumett. (Nota: El valor real de R/IP fue de 0.6.)
e) Suponga que le sugieren utilizar el promedio de carreras anotadas como otra variable inde-
pendiente para desarrollar el inciso e) de este ejercicio. ¿Qué pensaría de esta sugerencia?
donde
Dado lo complejo de los cálculos de estas tres sumas de cuadrados, es necesario emplear
un software para realizarlos. En los resultados de Minitab de la figura 15.4, en la parte del aná-
lisis de varianza, se presentan estos tres valores para el problema de Butler Trucking con dos
variables independientes: STC = 23.900, SCR = 21.601 y SCE = 2.294. Cuando se empleó una
sola variable independiente (número de millas recorridas) en los resultados de Minitab de la fi-
gura 15.3, observamos que STC = 23 .900, SCR = 15.871 y SCE = 8.029. El valor de la STC es el
mismo en ambos casos, debido a que no depende de y, pero al agregar otra variable (el número
de entregas), SCR aumenta y SCE disminuye. Esto tiene como consecuencia que la ecuación de
regresión estimada tenga un mejor ajuste para los datos observados.
En el capítulo 14 se empleó el coeficiente de determinación, r 2 = SCR/STC, para medir la
bondad de ajuste de la ecuación de regresión estimada. El mismo concepto es válido en la re-
gresión múltiple. El término coeficiente de determinación múltiple indica que se mide la
bondad de ajuste de la ecuación de regresión múltiple estimada. El coeficiente de determinación
múltiple, que se denota R 2 , se calcula como sigue:
SCR
R2 = - ( 15.8)
STC
2 6 6
R2 = 1. 0 = 0.9038
23 .900
10 - 1
R; = 1 - (1 - 0.9038)
10-2-1
= 0.8763
Por lo tanto, una vez que el coeficiente de determinación múltiple se ha ajustado a dos variables
independientes, su valor es de 0.8763. En los resultados de Minitab de la figura 15.4, este valor
(expresado como porcentaje) se presenta como R-sq(adj) = 87.63%.
Si el valor de R 2 es pequeño y el número de variables gativo; en tales casos, Minitab establece el cero como
independientes en el modelo es grande, el coeficiente coeficiente de determinación ajustado.
de determinación ajustado puede asumir un valor ne-
Métodos
11. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
vaciones.
a) Calcule R 2 .
b) Calcule R; .
e) Analice la bondad de ajuste.
Aplicaciones
14. En el ejercicio 4 se proporcionó la siguiente ecuación de regresión estimada que relaciona las
ventas contra la inversión en inventario y los gastos de publicidad.
y= 25 + 10x 1 + 8x2
Los datos para desarrollar este modelo provienen de 10 tiendas; con esta información, la
STC = 16 000 y la SCR = 12000.
a) Calcule R 2 para la ecuación de regresión estimada.
b) Calcule R; .
e) ¿Este modelo parece explicar gran parte de la variabilidad de los datos? Explique.
Showtime La solución obtenida con software proporciona STC = 25.2 y SCR = 23.435.
a) Calcule e interprete R2 y R ;.
b) Cuando la publicidad en televisión es la variable independiente, R 2 = 0.653 y R; = 0.595.
¿Prefiere los resultados de la regresión múltiple? Explique.
16. En el ejercicio 6 se presentó el número promedio de yardas por intento de pase (Yds/ Att), el
número de intercepciones por intento (lnt/ ATI) y el promedio de juegos ganados (Win%) para
NFLPassing una muestra aleatoria de 16 equipos de la NFL durante una temporada.
a) ¿La ecuación de regresión estimada que emplea el número promedio de yardas por intento
de pase como variable independiente para predecir el porcentaje de juegos ganados tiene
bondad de ajuste?
b) Analice los beneficios de utilizar tanto el número promedio de yardas por intento de pase
como el número de intercepciones por intento para predecir el porcentaje de juegos ganados.
17 En el inciso d) del problema 9 se usaron los datos del DATAfile PGADrivingDist (sitio web
DATA. . del PGA Tour, 1 de noviembre de 2012) para desarrollar una ecuación de regresión estimada
PGADrivingDist
para predecir la cantidad de yardas por drive, a partir de la velocidad de la pelota y el ángulo de
lanzamiento.
a) ¿La ecuación de regresión estimada tiene un buen ajuste con los datos? Explique.
b) En el inciso b) del problema 9 se desarrolló una ecuación de regresión estimada para pre-
decir la cantidad de yardas, usando sólo la velocidad de la pelota. Compare el ajuste que se
obtiene al usar sólo la velocidad de la pelota con la que se obtiene al usar además el ángulo
de lanzamiento.
18 Refiérase al ejercicio 1O, en el que se presentaron las estadísticas de lanzamientos de la MLB
DATA. . para una muestra aleatoria de 20 lanzadores de la Liga Americana durante una temporada.
MLBPitching a) En el inci"so e) del ejercicio 10 se obtuvo una ecuación de regresión estimada que propor-
ciona el número promedio de carreras permitidas por entrada, dado el número promedio
de strikeouts y el número promedio de jonrones por entrada. ¿Cuáles son los valores de
R 2 y R;?
b) ¿La ecuación de regresión estimada tiene bondad de ajuste?
e) Suponga que en el inciso e) se utiliza el número promedio de carreras anotadas (ERA) como
variable dependiente en lugar del número promedio de carreras permitidas por entrada
lp.nzada. ¿Esta nueva ecuación de regresión tiene bondad de ajuste para los datos? Explique
su respuesta.
690 Capítulo 15 Regresión múltiple
( 15.1 O)
Los supuestos acerca del término del error E en el modelo de regresión múltiple son análogos a
los supuestos en el modelo de regresión lineal simple.
( 15. 11)
Para entender mejor la forma de la relación dada por la ecuación (15 .11), considere la si-
guiente ecuación de regresión múltiple con dos variables independientes.
y Valor de y cuando
x 1 = xj y x2 = xi
/30
/ E( y) cuando
Plano que corresponde a E x 1 = xj y x 2 = x2•
E(y) = f3o + f31x1 + /32x2
X2
X¡
§ Prueba de significancia
En esta sección se estudia cómo realizar una prueba de significancia para una relación de re-
gresión múltiple. Las pruebas de significancia que se utilizaron en la regresión lineal simple
fueron la prueba t y la prueba F, y ambas llevan a la misma conclusión; es decir, si se rechaza
*
la hipótesis nula, se concluye que /3 1 O. En la regresión múltiple, la prueba t y la prueba F
tienen propósitos diferentes.
Prueba F
El modelo de regresión múltiple que se definió en la sección 15.4 es
SCR
CMR = - - ( 15.12)
p
SCE
Cl\.1E = (15.13)
n-p-1
Como se vio en el capítulo 14, el Cl\.1E proporciona una estimación insesgada de a 2, la varianza
del término del error E. Si Ha: /3 1 = /3 2 = · · · = /3P = Oes verdadera, el CMR también provee un
estimador insesgado de a 2 , y el valor de CMR/Cl\.1E será cercano a l. Pero si Ha es falsa, el CMR
.sobreestima a 2 y el valor de CMR/ Cl\.1E será mayor. Para determinar qué tan grande debe ser este
valor para que Ha sea rechazada, se retoma el hecho de que si Ha es verdadera y los supuestos
acerca del modelo de regresión múltiple son válidos, la distribución muestra! de CMR/Cl\.1E es
una distribución F con p grados de libertad en el numerador y n - p - 1 en el denominador. A
continuación se presenta un resumen de la prueba F de significancia para la regresión múltiple.
ESTADÍSTICO DE PRUEBA
CMR
F=-- (15.14)
Cl\.1E
REGLA DE RECHAZO
FIGURA 15.6 Resultado de Minitab para el ejemplo de Butler Truck:ing con dos variables
independientes, millas recorridas (x 1) y número de entregas (x2 )
Analysis of Variance
Model Summary
Coefficiente
Regression Equation
Time = -0.869 + 0.06113 Miles + 0.923 Deliveries
En la figura 15.6 se presentan los resultados de Minitab para el modelo de regresión múltiple
con dos variables independientes, millas recorridas (x 1) y número de entregas (x2 ). En la parte
que corresponde al análisis de varianza, vemos que CMR = 10.8003 y CME = 0.3285. Con la
ecuación (15.14) obtenemos el valor del estadístico de prueba.
3
F = l0. 300 = 32.88
0.3285
Con a = 0.01, el valor-p = 0.000 que aparece en la última columna de la tabla del análi-
sis de varianza (figura 15.6) indica que H 0 : /3 1 = /32 = O puede ser rechazada, puesto que el
valor-pes menor que a = 0.01. Asimismo, en la tabla 4 del apéndice B observamos que con
2 grados de libertad en el numerador y 7 en el denominador, F 0.01 = 9.55. Como 32.88 > 9.55,
H0 : /3 1 = /3 2 = Oes rechazada, y se concluye que existe una relación significativa entre el tiem-
po de recorrido y y las dos variables independientes, millas recorridas y número de entregas.
Como ya se indicó, el error cuadrado medio proporciona un estimador insesgado de a 2 , la
varianza del término del error e. En la figura 15.6 vemos que la estimación de a 2 es CME =
0.3285. La raíz cuadrada del CME es la estimación de la desviación del término del error. Como
se definió en la sección 14.5, esta desviación es el error estándar de estimación que se denota s.
Por lo tanto, s = VCME = V0.3285 = 0.5731. Observe que este valor del error estándar de
estimación aparece en los resultados de Minitab de la figura 15.6.
La tabla 15.3 es la tabla general para el análisis de varianza (ANOVA) que proporciona los
resultados de la prueba F para un modelo de regresión múltiple. El valor del estadístico de
prueba F aparece en la última columna y debe compararse con Fa con p grados de libertad en
el numerador y n - p - 1 grados de libertad en el denominador para obtener la conclusión de
la prueba de hipótesis. Si se revisan los resultados de Minitab para el ejemplo de Butler Trucker
Company de la figura 15.6, la tabla del análisis de varianza contiene esta información. Además,
Minitab también proporciona el respectivo valor-p al estadístico de prueba F.
694 Capítulo 15 Regresión múltiple
TABLA 15.3 Tabla ANOVA para el modelo de regresión múltiple con p variables independientes
Suma de Grados de
Fuente cuadrados libertad Cuadrado medio F
SCR CMR
Regresión SCR p CMR=-- F=--
p CME
SCE
Error SCE n-p-1 CME =
n-p-1
Total STC n- 1
Prueba t
Si la prueba F indica que la relación de regresión múltiple es significativa, entonces podemos
realizar una prueba t para determinar la significancia de cada uno de los parámetros. A conti-
nuación se presenta para tal efecto la prueba t de significancia.
H 0 : /J; =O
Hª: /J; i= O
ESTADÍSTICO DE PRUEBA
(15.15)
REGLA DE RECHAZO
b¡ = 0.06113 sb = 0.00989
1
b2 = 0.923 sb
2
= 0.221
Con la ecuación (15 .15) obtenemos el estadístico de prueba para las hipótesis en que intervie-
nen /3 1 y {3 2 .
t = 0.06113/0.00989 = 6.18
t = 0.923/ 0.221 = 4.18
15.5 Prueba de significancia 695
Observe que los valores de estas dos razones-! y sus correspondientes valores-p aparecen en
la figura 15.6. Si se utiliza a = 0.01, los valores-p 0.000 y 0.004 en los resultados de Minitab
indican que H 0 : /3 1 = O y H 0 : {3 1 = O pueden ser rechazadas . Así, ambos parámetros son esta-
dísticamente significativos. Asimismo, en la tabla 2 del apéndice B se encuentra que con n -
p - 1 = 10 - 2 - 1 = 7 grados de libertad, t0 .005 = 3.499. Como 6.18 > 3.499, H0 : /3 1 = O
es rechazada. De manera similar, como 4.18 > 3 .499, H0 : /3 1 = Oes rechazada.
Multicolinealidad
En el análisis de regresión se recurre al término variable independiente para referirse a cualquier
variable utilizada para predecir o explicar el valor de la variable dependiente. Sin embargo, este
término no significa que tales variables sean independientes entre ellas en sentido estadístico.
Al contrario, en un problema de regresión múltiple la mayoría de las variables independientes
están, en cierto grado, correlacionadas unas con otras. En el ejemplo de Butler Trucking con
dos variables independientes x 1 (millas recorridas) y x1 (número de entregas), las millas reco-
rridas pueden tratarse como la variable dependiente y el número de entregas como la variable
independiente para determinar si ambas se relacionan entre sí. Después se calcula el coeficiente
de correlación muestra! rx 1x2 para determinar la magnitud de tal relación. Con esto obtenemos
rx x = 0.16. Por lo tanto, se encuentra que existe cierto grado de relación lineal entre estas dos va-
1 2
riables independientes. En el análisis de regresión múltiple, la multicolinealidad expresa la
correlación entre las variables independientes.
Para obtener una mejor perspectiva de los problemas potenciales de la multicolinealidad, se
considerará una modificación al ejemplo de Butler Trucking. En lugar de que x1 sea el número
de entregas, denotará el número de galones de gasolina consumidos. Es claro que x 1 (las mi-
llas recorridas) y x1 están relacionadas, es decir, se sabe que el número de galones de gasolina
consumidos depende del número de millas recorridas. Por lo tanto, se concluirá que x 1 y x 1 son
variables independientes fuertemente correlacionadas.
Suponga que se obtiene la ecuación y = b0 + b 1x 1 + b1 x 1 y que la prueba F indica que
esta relación es significativa. Después suponga que se realiza la prueba t para {3 1 a efecto
*
de determinar si /3 1 O y H0 : {3 1 = O no puede ser rechazada. ¿Esto significa que el tiempo de
recorrido no se relaciona con las millas recorridas? No necesariamente. Lo que probablemente
significa es que estando Xi en el modelo, x 1 no tiene una contribución significativa en la deter-
minación del valor de y. En el presente ejemplo esta interpretación parece razonable; cono-
ciendo la cantidad de gasolina consumida, no se gana más información para la predicción de y
conociendo el número de millas recorridas . De manera similar, una prueba t puede llevar a
la conclusión de que /3 2 = Ocon base en que, cuando x 1 está en el modelo, no se gana mucho al
Valores del coeficiente
de correlación muestra[ conocer la cantidad consumida de gasolina.
mayores que +0.7 En resumen, en las pruebas t para la significancia de cada uno de los parámetros, la difi-
o menores que -0.7 cultad ocasionada por la multicolinealidad lleva a concluir que ninguno de los parámetros es
para dos variables significativamente distinto de cero cuando la prueba F sobre la ecuación de regresión múltiple
independientes es una regla
general que alerta sobre
general indica que existe una relación significativa. Este problema se evita cuando existe poca
problemas potenciales de correlación entre las variables independientes.
multicolinealidad. Los expertos en estadística han desarrollado diversas pruebas a efecto de determinar si
la multicolinealida~ es lo suficientemente alta para ocasionar problemas. Con base en una regla
práctica, la multicolinealidad es un problema potencial si el valor absoluto del coeficiente de
Cuando las variables
independientes correlación muestra! es mayor que 0.7 para cualquier par de variables independientes. Otros
están fuertemente tipos de pruebas son más avanzados y quedan fuera del alcance de este libro.
correlacionadas, es Siempre que sea posible, debe evitarse incluir variables independientes fuertemente correla-
imposible determinar el cionadas. Sin embargo, en la práctica, el estricto apego a esta conducta rara vez es posible. Cuan-
efecto por separado de
cada una de las variables
do las personas que toman decisiones tienen razones para creer que existe una multicolinealidad
independientes sobre la importante, se darán cuenta de que es difícil separar los efectos de cada una de las variables
variable dependiente. independientes sobre la variable dependiente.
696 Capítulo 15 Regresión múltiple
Por lo general, la multicolinealidad no afecta la ma- erróneo. Esto es, en estudios simulados en los que los
nera en que se realiza el análisis de regresión o en que investigadores crearon el modelo de regresión sub-
se interpretan los resultados de un estudio. Pero si yacente y después aplicaron el método de mínimos
es severa --esto es, cuando dos o más variables inde- cuadrados para obtener estimaciones de {3 0, {3 1, 13
2
pendientes están altamente correlacionadas una con etc., se ha demostrado que en condiciones de fuert~
otra-, podemos tener dificultades al interpretar los multicolinealidad, las estimaciones obtenidas por mí-
resultados de las pruebas t acerca de cada uno de nimos cuadrados pueden tener signo opuesto al del
los parámetros. Además del tipo de problemas ilus- parámetro que se estima. Por ejemplo, /3 2 puede ser en
trados en esta sección, se ha demostrado que los realidad+ 10 y b2 , su estimación, resulta ser -2. Por
casos severos de multicolinealidad dan como resul- lo tanto, si existe una fuerte multicolinealidad, podrá
tado estimaciones por mínimos cuadrados con signo tenerse poca confianza en los coeficientes.
Métodos
19. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
AUTO vaciones.
y = 29.1270 + 0.5906x 1 + 0.4980x2
donde STC = 6724.125, SCR = 6216.375, sb 1 = 0.0813 y sb2 = 0.0567.
a) Calcule CMR y C:ME.
b) Determine F y realice la prueba F adecuada. Use a = 0.05.
e) Realice una prueba t para la significancia de /3 1. Utilice a = 0.05.
á) Efectúe una prueba t para la significancia de /3 2 • Utilice a = 0.05.
20. Remítase a los datos presentados en el ejercicio 2. La ecuación de regresión estimada de estos
datos es
y= -18.37 + 2.0lx 1 +4.74x2
21. Se obtuvo la siguiente ecuación de regresión estimada para un modelo con dos variables inde-
pendientes.
y = 40.7 + 8.63x 1 + 2.7lx2
Después de eliminar x2 del modelo, se aplicó el método de mínimos cuadrados para obtener una
ecuación de regresión estimada con una sola variable independiente, x 1•
y = 42.0 + 9.0lx 1
Aplicaciones
22. En el ejercicio 4 se proporcionó la siguiente ecuación de regresión estimada que relaciona las
ventas con la inversión en inventario y los gastos de publicidad.
y = 25 + lOx 1 + 8x2
15.5 Prueba de significancia 697
Los datos que se utilizaron para obtener el modelo provienen de un estudio realizado en 1O
tiendas; para estos datos, STC = 16000 y SCR = 12000.
a) Calcule SCE, CME y CMR.
b) Use la prueba F y 0.05 como nivel de significancia para determinar si existe una relación
entre las variables.
en el modelo y= {3 0 + {3 1x 1 + {3 2 x 2 + E, donde
25 . La lista Gold :de la revista Candé Nast Traveler del año 2012 proporcionó las calificacio-
nes de los 20 principales barcos de crucero pequeños (sitio web Candé Nast Traveler, 1 de
marzo de 2012). A continuación se presentan los datos con las calificaciones que recibió cada
barco (Ship) con base en los resultados de la encuesta Reader's Choice Survey de la revista.
Cada calificación representa el porcentaje de encuestados que calificó el barco como excelente
o muy bueno en varios criterios, incluyendo los horarios e itinerarios (ltineraries/Schedule), las
excursiones de playa (Shore Excursions) y alimentos (Food/Dining). También se reporta una
calificación general (Overall) que se utilizó para clasificar a los barcos. El barco mejor clasi-
ficado fue el Seabaum Odyssey, con una calificación general de 94.4, siendo su mejor califica-
ción 97.8 para sus alimentos.
698 Capítulo 15 Regresión múltiple
a) Obtenga la ecuación de regresión estimada para predecir la calificación general, dadas las
calificaciones de horarios e itinerarios (Itineraries/Schedule), las excursiones de playa
(Shore Excursions) y alimentos (Food/Dining).
b) Utilice la prueba F para determinar la significancia global de la relación. Con un nivel de
significancia de 0.05, ¿cuál es su conclusión?
e) Utilice la prueba t para determinar la significancia de cada variable independiente. Con un
nivel de significancia de 0.05, ¿cuál es su conclusión?
d) Elimine cualquier variable independiente de la ecuación de regresión que no sea significa-
tiva. ¿Cuál sería la ecuación de regresión estimada que recomendaría?
26 En el ejercicio 10 se presentaron datos sobre varias estadísticas para una muestra aleatoria de
DATAllJI . 20 lanzadores de la Liga Americana de la MLB. En el inciso e) del ejercicio se desarrolló una
MLBPitching
ecuación de regresión estimada para predecir el número promedio de carreras permitidas por
entrada (R/IP), dado el número promedio de strikeouts por entrada (SO /IP) y el número pro-
medio de jonrones por entrada (HR/IP).
a) Utilice la prueba F para determinar la significancia global de la relación. Con nivel de
significancia de 0.05, ¿cuál es su conclusión?
b) Utilice la prueba t para determinar la significancia de cada variable independiente. Con
nivel de significancia de 0.05, ¿cuál es su conclusión?
TABLA 15.4 Intervalos de 95% de confianza y de predicción para el ejemplo de Butler Trucking
ecuación de regresión estimada con x 1 (millas recorridas) y x 2 (número de entregas) para obtener
dos estimaciones por intervalo:
l. Un intervalo de confianza para la media del tiempo de recorrido de todos los camiones
que recorren 100 millas y efectúan dos entregas.
2. Un intervalo de predicción para el tiempo de recorrido de un determinado camión que
recorre 100 millas y efectúa dos entregas.
Métodos
27. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
vaciones.
Aplicaciones
29. En el ejercicio 5, el propietario de Showtime Movie Theater, Inc. aplicó el análisis de regresión
AUTO evaluación múltiple para predecir los ingresos brutos (y) en función de la publicidad en televisión (x 1) y de
la publicidad en periódicos (x2) . La ecuación de regresión estimada fue
y = 83 .2 + 2.29x 1 + l.30x 2
a) ¿Cuáles serán los ingresos brutos esperados en una semana en la que se gastan $3500 en
publicidad en televisión (x 1 = 3.5) y $1800 en publicidad en periódicos (Xz = 1.8)?
b) Proporcione un intervalo de 95% de confianza para los ingresos medios de todas las sema-
nas en las que los gastos son los que se indican en el inciso a).
e) Determine un intervalo de 95% de predicción para la media de los ingresos de una semana,
asumiendo que los gastos son los que se indican en el inciso a).
30. En el ejercicio 24 se formuló una ecuación de regresión estimada para relacionar los partidos
ganados por un equipo de la NR en la temporada 2011, a partir de las yardas obtenidas por la
NFL2011
ofensiva y las concedidas por la defensa por partido (sitio web de ESPN, 3 de noviembre de 2012).
a) Prediga el porcentaje de partidos ganados para un equipo que tiene 225 yardas obtenidas
por la ofensiva y 300 yardas concedidas por la defensa.
b) Elabore un intervalo de predicción de 95% para el porcentaje de partidos ganados por un
equipo, con 225 yardas obtenidas por la ofensiva y 300 yardas concedidas por la defensa.
31. El estudio en línea Broker Survey de la American Association of Individual Investors (AAII)
encuesta en línea a sus miembros sobre su experiencia con las transacciones electrónicas mane-
jadas por corredores de descuento. Como parte de la encuesta se les pregunta sobre su nivel de
satisfacción con el precio por transacción (Trade Price) y la velocidad de ejecución de su corre-
dor (Speed of Execution), así como sobre la satisfacción general con transacciones electrónicas
(Satisfaction Electronic Trades). Las posibles respuestas eran sin opinión (0), insatisfecho (1),
poco satisfecho (2), satisfecho (3) y muy satisfecho (4). Se calcularon las calificaciones de caéia
bróker como promedios ponderados de las calificaciones de los encuestados. A continuación se
presenta una parte de los resultados de la encuesta (sitio web de la AAII, 7 de febrero de 2012).
Satisfaction
Trade Speed of Electronic
Brokerage Price Execution 'frades
Scottrade, Inc. 3.4 3.4 3.5
Charles Schwab 3.2 3.3 3.4
Fidelity Brokerage Services 3.1 3.4 3.9
TD Ameritrade 2.9 3.6 3.7
E*Trade Financia! 2.9 3.2 2.9
DATAl l (Not listed) 2.5 3.2 2.7
Broker Vanguard Brokerage Services 2.6 3.8 2.8
USAA Brokerage Services 2.4 3.8 3.6
Thinkorswim 2.6 2.6 2.6
Wells Fargo Investments 2.3 2.7 2.3
Interactive Brokers 3.7 4.0 4.0
Zecco.com 2.5 2.5 2.5
Firstrade Securities 3.0 3.0 4.0
Banc of America Investment Services 4.0 1.0 2.0
y = {30 + {3 1x 1 + E
Si se usa Minitab para determinar la ecuación de regresión estimada, se obtienen los resultados
de la figura 15.7. La ecuación de regresión estimada es
Con 0.05 como nivel de significancia, el valor-p de 0.016 para la prueba t (o F) indica que el
número de meses transcurridos desde el último servicio se relaciona significativamente con
el tiempo que se requiere para la reparación. R-sq = 53.42% indica que x 1 explica sólo 53.42%
de la variabilidad en el tiempo necesario para una reparación.
FIGURA 15.7 Resultado de Minitab para el problema de Johnson Filtration con (x 1), con
el número de meses desde el último servicio como variable independiente
Analysis of Variance
Los nombres de las Source DF Adj SS Adj MS F-Value P-Value
variables Months (meses) y Regression 1 5.596 5.5960 9.17 0.016
Time (tiempo) que aparecen Months Since Last Service 1 5.596 5.5960 9.17 0 . 016
en los resultados de Minitab Error 8 4.880 0.6100
fueron ingresados en la hoja
Lack-of-Fit 5 3.755 0.7510 2.00 0.301
de trabajo como títulos de
Pure Error 3 1.125 0.3750
columna; por lo tanto,
Total 9 10.476
x 1 = Months y y= Time.
Model Summary
Coefficients
Regression Equation
En la tabla 15.6 se presentan los datos de la tabla 15.5, más los valores de la variable ficticia.
Customer indica cliente; Months Since Last Service, meses desde el último servicio; Type or
Repair, tipo de reparación, y Repair Time in Hours, tiempo de reparación en horas. Con Minitab
y los datos de la tabla 15.6 se pueden obtener estimaciones para los parámetros del modelo.
TABLA 15.6 Datos para el ejemplo de Johnson Filtration con el tipo de reparación indicado
por una variable ficticia (x 2 = O si es mecánica; x 2 = 1 si es eléctrica)
FIGURA 15.8 Resultado de Minitab para el ejemplo de Johnson Filtration, con (x 1),
meses desde el último servicio, y (x 2), tipo de reparación, como variables
independientes
Model Sumrnary
Coefficients
Regression Equation
En el resultado de Minitab de la figura 15.8 se puede ver que la ecuación de regresión múltiple
estimada es
y = 0.93 + 0.3876x 1 + l.263x2 ( 15.17)
(15.18)
Para entender cómo interpretar los parámetros (3 0 , (3 1 y (3 2 cuando hay una variable cualitativa,
considere el caso en que x 2 = O (reparación mecánica). Usando E(y 1 mecánica) para denotar
la media o valor esperado del tiempo necesario para una reparación dado que ésta es mecánica,
tenemos
Al comparar las ecuaciones (15.19) y (15.20) se observa que la media del tiempo requerido
para efectuar una reparación es función lineal de x 1, tanto si es de tipo mecánico como eléctrico.
La pendiente en ambas ecuaciones es /3 1, pero varía la intersección con el eje y. En la ecua-
ción (15.19) para las reparaciones mecánicas, la intersección con el eje y es /3 0 , y en la ecuación
(15 .20) para las reparaciones eléctricas, la intersección es (/3 0 + /3 2) . La interpretación de f3
2
señala la diferencia entre las medias del tiempo que se requiere para una reparación eléctrica y
una reparación mecánica.
Si /3 2 es positiva, la media del tiempo que se requiere para una reparación eléctrica será
mayor que para una mecánica; si /3 2 es negativa, la media del tiempo que se requiere para una
reparación eléctrica será menor que para la mecánica. Por último, si /3 2 = O, no existe diferencia
entre las medias del tiempo que se requiere para ambos trabajos, y el tipo de reparación no se
relaciona con el tiempo que se requiere para efectuarla.
Si se utiliza la ecuación de regresión múltiple estimada y = 0.93 + 0.3876x 1 + l.263x 2,
vemos que 0.93 es la estimación de /3 0 y la estimación de /3 2 es 1.263. Por lo tanto, cuando x 2 = o
(reparación mecánica)
FIGURA 15.9 Diagrama de dispersión para los datos de reparación de Johnson Filtration de la
tabla 15.6
.,,, ... .
.
5 E " E, M
E E •
..-- 4
"'=
,;_,,//
l¡;,C~
\...e~ , ..
•
M
\)'.'~"~.......
""'
Q
-=
'-'
"
·o=
:) )(
'Q
3 ,. -7 'J..·
\q.;-'" ,,,, •
=
~
'l/
~,;.·.)'
E,E . c,i'!
e"!#
M
i=.
~
.,/ ~
~"b1-\
""'
~
2 \) '.'
'e )(
Q
i=. ";:;.
'l
\)9" •
M
8
4.1
E==
M = reparación mecánica
E = reparación eléctrica
'--~-'-~~_._~~-'--~---'~~-'-~~..._~~.__~_._~~_._~~..__x¡
o 2 3 4 5 6 7 8 9 10
Meses desde el último servicio
15.7 Variables independientes cualitativas 705
De esta manera, usar una variable ficticia para el tipo de reparación proporciona dos ecuacio-
nes para predecir el tiempo que se requiere para efectuarla: una ecuación corresponde a las
reparaciones mecánicas y la otra a las eléctricas. Además, como b2 = 1.263, sabemos que, en
promedio, en las reparaciones eléctricas se necesitan 1.263 horas más que en las mecánicas.
En la figura 15.9 se presenta una gráfica con los datos de la tabla 15 .6. El tiempo de re-
paración en horas (y) se representa en el eje vertical y los meses transcurridos desde el último
servicio (x 1) en el eje horizontal. Los puntos que corresponden a una reparación mecánica se
indican con una M y los que corresponden a una reparación eléctrica con una E. En esta gráfi-
ca se representan también las ecuaciones (15 .21 ) y (15.22) con la finalidad de mostrar las dos
ecuaciones que sirven para predecir el tiempo que se requerirá para una y otra reparación.
x = {1 si la región de ventas es B
1
O si no es el caso
X = {1 Si la región de ventas es C
2
O si no es el caso
Región
A o o
B 1 o
e o
E( y ) = /3 0 + /3 1x 1 + /3 2 x 2
Para interpretar los- parámetros {3 0 , {3 1 y {3 2 , considere las siguientes tres variaciones de la ecua-
ción de regresión.
E(y 1 región A) = /3 0 + /3 1(0) + /3 2 (0) = f3o
E(y región B) = /3 0 + /3 1(1) + /3 2(0) = f3o + /31
1
Por lo tanto, {3 0 es la media o valor esperado de las ventas en la región A; /3 1es la diferencia entre
las medias _del número de unidades vendidas entre la región B y la región A, y /3 2 es la diferencia
entre las medias del número de unidades vendidas en la región C y la región A.
706 Capítulo 15 Regresión múltiple
Se necesitaron dos variables ficticias, debido a que la región de ventas es una variable cuali-
tativa con tres niveles. Sin embargo, la asignación de x 1 = O, x 2 = Opara identificar la región A;
X¡ = 1, X2 = o para identificar la región B, y X¡ = O, X2 = 1 para la región e fue arbitraria. De
igual manera se podría haber elegido, por ejemplo, x 1 = 1, x 2 = O para identificar la región A
x 1 = O, x 2 = O para la By x 1 = O, x 2 = 1 para la C. En ese caso, /3 1 se habría interpretado com~
la media de la diferencia entre las regiones A y B, y /3 2 como la media de la diferencia entre
CyB.
Es importante recordar que en el análisis de regresión múltiple, cuando una variable cuali-
tativa tiene k niveles, se requieren k - 1 variables ficticias. Entonces, si en el ejemplo hubiera
una cuarta región, D, se necesitarían tres variables ficticias, las cuales se pueden codificar de
la siguiente manera:
Métodos
32. Considere un estudio de regresión en el que intervienen una variable dependiente y, una varia-
AUTO ble independiente cualitativa x 1 y una variable cualitativa de dos niveles (nivel 1 y nivel 2).
a) Escriba la ecuación de regresión múltiple que relacione x1 con la variable cualitativa y.
b) ¿Cuál es el valor esperado de y que corresponde al nivel 1 de la variable cualitativa?
e) ¿Cuál es el valor esperado de y que corresponde al nivel 2 de la variable cualitativa?
d') Interprete los parámetros de la ecuación de regresión.
33. Considere un estudio de regresión en el que intervienen una variable dependiente y, una varia-
ble independiente cuantitativa x 1 y una variable cualitativa de tres niveles (nivel 1, nivel 2 y
nivel 3).
a) ¿Cuántas variables ficticias se requieren para representar la variable cualitativa?
b) Proporcione una ecuación de regresión múltiple que relacione x 1 con la variable cualita-
tiva y.
e) Interprete los parámetros de la ecuación de regresión.
Aplicaciones
34. La gerencia propuso el siguiente modelo de regresión para predecir las ventas en un estableci-
AUTO eválriación
.,.:. "-
~' ~ ' " miento de comida rápida .
donde
Se obtuvo la siguiente ecuación de regresión estimada con los datos de 20 puntos de venta.
35. Remítase al problema de Johnson Filtration que se presentó en esta sección. Suponga que
además de la información sobre los meses transcurridos desde el último servicio (Months Sin-
ce Last Service), del tipo de reparación (Type of Repair), mecánica (Mechanical) o eléctrica
(Electrical), los gerentes presentan una lista con los técnicos (Repairperson) que realizaron el
servicio. A continuación se exponen los nuevos datos.
a) Por ahora ignore los meses transcurridos desde el último servicio (x 1) y el técnico asignado .
Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo que se
requiere para la reparación (y) dado el tipo de reparación (x2 ) . Recuerde que x 2 =O si ésta
es mecánica y x 2 = 1 si es eléctrica.
b) ¿La ecuación obtenida en el inciso a) proporciona un buen ajuste de los datos observados?
Explique.
e) Por ahora ignore los meses transcurridos desde el último servicio y el tipo de reparación.
Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo necesa-
rio para la reparación, dado el técnico que realizó el servicio. Sea x3 = O si éste fue reali-
zado por Bob Iones, y x3 = 1 si lo realizó Dave Newton.
cf) ¿La ecuación obtenida en el inciso e) proporciona un buen ajuste de los datos observados?
Explique.
36. Este problema es una extensión de la situación descrita en el ejercicio 35.
a) Obtenga la ecuación de regresión estimada para predecir el tiempo que requiere una re-
paración, dados los meses transcurridos desde la última efectuada, el tipo de reparación y
el técnico que realizó el servicio.
b) Con un nivel de significancia de 0.05, realice una prueba para ver si la ecuación de regre-
sión estimada que se obtuvo en el inciso a) representa una relación significativa entre las
variables independientes y la variable dependiente.
e) ¿Es estadísticamente significativo agregar la variable x3, el técnico que realizó el servi-
cio? Use a = 0.05. ¿Qué explicación puede dar para los resultados observados?
37 . El estudio de satisfacción del cliente sobre restaurantes de Consumer Reports se basa en más
de 148 599 visitas a diferentes cadenas de servicio completo (sitio web de Consumer Reports,
11 de febrero de 2009). Suponga que los siguientes datos son representativos de los resultados
reportados. La variable tipo (Type) indica si el restaurante es de comida italiana (ltalian), o de
mariscos/ carnes (Seafood/ Steakhouse). Precio (Price) indica la cantidad promedio que paga
una persona por los alimentos y las bebidas, menos la propina. Puntuación (Score) refleja lasa-
tisfacción general de los comensales, con los valores más altos que indican mayor satisfacción
general. Podemos interpretar como "muy satisfecho" una puntuación de 80.
a) Obtenga una ecuación de regresión estimada que muestre cómo se relaciona la satisfacción
general del cliente con la variable independiente precio promedio de los alimentos.
b) Si se utiliza 0.05 como nivel de significancia, pruebe si la ecuación de regresión estimada
obtenida en el inciso a) indica una relación significativa entre la satisfacción general del
cliente y el precio promedio de los alimentos.
e) Proporcione una variable ficticia (dummy) para el tipo de restaurante (italiano o de
mariscos/ carnes).
d) Obtenga una ecuación de regresión estimada que muestre cómo se relaciona la satisfacción
general del cliente con el precio promedio de los alimentos y el tipo de restaurante.
e) ¿Es el tipo de restaurante un factor significativo en la satisfacción general del cliente?
f) Estime la puntuación de satisfacción del cliente de Consumer Reports para un restau-
rante de mariscos/carnes con un precio promedio de $20 por comida. ¿Cuánto cambiaría
la puntuación estimada para un restaurante italiano?
38. Un estudio realizado durante 10 años por la Asociación Estadounidense de Cardiología pro-
porcionó datos sobre la relación que guardan la edad (Age), la presión sanguínea (Pressure) y
el hábito de fumar sobre el riesgo de sufrir un infarto. Los datos que se listan a continuación
se obtuvieron como parte de este estudio. El riesgo (Risk) se interpreta como la probabilidad
(multiplicada por 100) de que el paciente sufra un infarto en los próximos 10 años. Para la va-
riable fumador (Smoker), defina una variable ficticia que tome los valores 1 si el individuo es
fumador y Osi no lo es.
a) Obtenga la ecuación de regresión estimada que relacione el riesgo de infarto con la edad,
la presión sanguínea y si la persona fuma o no.
b) ¿Fumar es un factor significativo para el riesgo de infarto? Explique. Use a = O.OS.
e) ¿Cuál es la probabilidad de que Art Speen sufra un infarto en la próxima década si tie-
ne 68 años, fuma y su presión sanguínea es de 17 5? ¿Qué le recomendará el médico a este
paciente?
§ Análisis residual
En el capítulo 14 se indicó que los residuales estandarizados suelen utilizarse en las gráficas de
residuales y en la identificación de observaciones atípicas. A continuación se presenta la fórmu-
la general para obtener el residual estandarizado de la observación i.
Y; - Y;
( 15.23)
donde
La fórmula general para obtener la desviación estándar del residual i se define como se indica
a continuación.
( 15.24)
donde
Como se dijo en el capítulo 14, la influencia de una observación está en función de qué tan
lejos de su_s medias se encuentran los valores de las variables independientes. En el análisis de re-
gresión múltiple, calcular h; y sY; _ Y; ' y por lo tanto el residual estandarizado de la observación i,
710 Capítulo 15 Regresión múltiple
es muy complicado como para efectuarlo a mano. Sin embargo, los residuales estandarizados
se obtienen fácilmente con el software para estadística. En la tabla 15.7 se listan valores pre-
dichos, residuales y residuales estandarizados con los datos del ejemplo de Butler Trucking
presentados previamente en este capítulo; estos valores se obtuvieron con la ayuda de Minitab.
Los valores predichos de la tabla se basan en la ecuación de regresión estimada y = -0.869 +
0.06113x 1 + 0.923x 2.
Los residuales estandarizados y los valores predichos de y de la tabla 15.7 se utilizaron en
la figura 15.10, la gráfica de residuales estandarizados para el ejemplo de regresión múltiple de
Butler Trucking. En esta gráfica no se observa ninguna anormalidad. Además, todos los resi-
duales estandarizados se encuentran entre -2 y +2; por lo tanto, no existe ninguna razón para
cuestionar el supuesto de que el término del error E es normalmente distribuido. Así, se concluye
que los supuestos del modelo son razonables.
+2
•
+1
• •
• •
o ----------------------------------.--
•
•
•
-2
•
4 5 6 7 8 9
--------------------------.-.--------------------------------------------=--
15.8 Análisis residual 711
Para determinar si la distribución de E parece ser normal, también se usa una gráfica de pro-
babilidad normal. En la sección 14.8 se analizó el procedimiento y la interpretación de ese tipo
de gráfica. Ese mismo procedimiento es adecuado para la regresión múltiple. La gráfica de
probabilidad normal se puede obtener con un software para estadística que realice los cálculos.
Observaciones influyentes
En la sección 14.9 se estudió cómo utilizar la influencia de una observación para identificar
observaciones cuyo valor de la variable independiente puede tener una fuerte influencia en los
resultados de la regresión. Como se indicó respecto de los residuales estandarizados, la influen-
cia de una observación, que se denota h;, mide qué tan lejos de sus medias se encuentran los
valores de las variables independientes. Los valores de influencia se obtienen como parte de
los resultados que proporciona el software para estadística. Minitab calcula estos valores, y
para detectar observaciones influyentes emplea la regla h¡ > 3(p + l)/n. En el ejemplo de
Butler Trucking, como hay p = 2 variables independientes y n = 10 observaciones, el valor
crítico para la influencia es 3(2 + 1)/10 = 0.9. En la tabla 15.9 se presentan los valores de
influencia correspondientes al ejemplo de Butler Trucking obtenidos con Minitab. Como nin-
TABLA 15.10 guno de los valores h¡ es mayor que 0.9, en este conjunto de datos no se detectan observacio-
nes influyentes.
Conjunto de datos
que ilustran problemas
potenciales usando el Uso de la medida de la distancia de Cook
criterio de influencia para identificar observaciones influyentes
Influencia Un problema potencial al usar la influencia para identificar observaciones influyentes es la po-
X; Y; h;
sibilidad de identificar una observación como fuertemente influyente, sin que necesariamente
1 18 0.204170
1 21 0.204170
lo sea en términos de la ecuación de regresión estimada que se obtiene. Por ejemplo, en la tabla
2 22 0.164205 15.10 se presenta un conjunto de datos que consta de ocho observaciones y sus correspondien-
3 21 0.138141 tes valores de influencia (obtenidos con Minitab). Como la influencia de la última observación
4 23 0.125977
4 24 0.125977
es 0.91 > 0.75 (el valor de influencia crítico), se le identificará como observación influyente.
5 26 0.127715 Sin embargo, antes de aceptar una conclusión final, considere la situación desde una perspec-
15 39 0.909644 tiva diferente.
15.8 Análisis residual 713
FIGURA 15.11 Diagrama de dispersión obtenido con el conjunto de datos de la tabla 15.10
40
•
La ecuación de regresión estimada
35 " utilizando todos los datos es
/
y = 18.2 + l.39x
30
/
/'
25
.. f
'
~
/
Nota: Si se elimina el punto (15.39),
la ecuación de regresión
estimada es y = 18.l + l.42x
•''
20
/
..
/
•
/
. t'
•
15
o 5 10 15
y = 18.2 + l.39x
La recta que se observa en la figura 15.11 es la gráfica de esta ecuación. Ahora, si de este con-
junto de datos se elimina la observación x = 15, y = 39, con las siete observaciones restantes
se obtiene una nueva ecuación de regresión estimada
y= 18.1 + l.42x
En la nueva ecuación se observa que la intersección con el eje y y la pendiente no tienen valores
significativamente diferentes a los de la ecuación en la que se usan todos los datos. A pesar de
que con el criterio de influencia se identificó como influyente la octava observación, es claro que
tiene poca influencia en los resultados obtenidos. Por lo tanto, hay casos en los que emplear sólo
la influencia para identificar las observaciones influyentes puede llevar a conclusiones erróneas.
La medida de la distancia de Cook utiliza tanto la influencia de la observación i, h;. como
el residual de la observación i, (y¡ - y¡), para determinar si una observación es influyente.
714 Capítulo 15 Regresión múltiple
donde
1. Los procedimientos para detectar observaciones 2. Para determinar si el valor de una medida de la
atípicas e influyentes permiten estar alerta acerca distancia de Cook D; es lo suficientemente grande
de los efectos potenciales de algunas observaciones como para concluir que la observación i-ésima es
en los resultados de la regresión. Cada observación influyente, también puede compararse el valor de
atípica o influyente justifica un examen cuidadoso. D; con el percentil SO de una distribución F (que
Si se encuentran errores en los datos, podemos co- se denota F 0 _50 ) con p + 1 grados de libertad en
rregirlos y repetir el análisis de regresión. En ge- el numerador y n - p - 1 grados de libertad en el
neral, las observaciones atípicas y las influyentes denominador. Para esta prueba se necesita contar
no deben eliminarse del conjunto de datos, a menos con tablas Fa un nivel de significancia de O.SO. La
que haya una evidencia clara que indique que no regla práctica que se proporcionó antes (D; > 1)
provienen de elementos de la población en estu- se basa en el hecho de que en muchos casos los
dio y que no tenían que ser incluidos en el conjunto valores en la tabla son cercanos a 1.
original de datos.
Métodos
., ~. - ·•w _. • • "''' "'i!l 39. A continuación se proporcionan datos para las variables x y y .
AUTO evalnació'n
.. ·,., · ._ ·, .... ,,.,..4
·~
2 3 4 s
7 s 11 14
X¡ 22 24 26 28 40
Y; 12 21 31 35 70
Aplicaciones
41. En el ejercicio 5 se presentaron los datos siguientes sobre los ingresos brutos semanales (Wee-
AUTO .evaluación
."
~,. ~ ~ ~ ,...., ; kly Gross Revenue) y la publicidad tanto en televisión (Television Advertising) como en perió-
dicos (Newspaper Advertising) de Showtime Movie Theaters.
a) Proporcione una ecuación de regresión estimada que relacione los ingresos brutos sema-
nales con los gastos de publicidad en televisión y periódicos.
b) Grafique los residuales estandarizados contra y. ¿La gráfica respalda los supuestos acer-
ca de e? Explique.
e) Revise que no existan observaciones atípicas en estos datos. ¿A qué conclusión llega?
d) ¿Hay alguna observación influyente? Explique.
42. En los siguientes datos se presenta el peso en vacío (Curb Weight), los caballos de fuerza (Horse-
power) y la velocidad en 1~ de milla (Speed at %Mile) de 16 populares automóviles deportivos
y de gran turismo (Sports & GT Car). Suponga que se tiene también el precio (Price) de cada
uno de estos vehículos . El banco de datos es el siguiente:
Curb Speed at
Price Weight %Mile
Sports & GT Car ($1000s) Oh) Horsepower (mph)
Curb Speed at
Price Weight %Mile
Sports & GT Car ($1000s) (lb) Horsepower (mph)
Mercedes-Benz SLK230 42.762 3025 185 92.3
Mitsubishi 3000GT VR-4 47.518 3737 320 99.0
Nissan 240SX SE 25.066 2862 155 84.6
Pontiac Firebird Trans Arn 27.770 3455 305 103.2
Porsche Boxster 45.560 2822 201 93.2
Toyota Supra Turbo 40.989 3505 320 105.0
Volvo C70 41.120 3285 236 97.0
8 Regresión logística
En muchas aplicaciones de la regresión, la variable dependiente asume sólo dos valores dis-
cretos. Por ejemplo, en un banco suele necesitarse una ecuación de regresión estimada para
predecir si a una persona se le aprobará su solicitud de tarjeta de crédito. A esta variable depen-
diente pueden dársele los valores y = 1 si la solicitud es aprobada, y y = Osi es rechazada. Con
la regresión logística, dado un conjunto particular de valores de las variables independientes
elegidas, se estima la probabilidad de que el banco apruebe la solicitud de tarjeta de crédito.
A continuación se considera una aplicación de la regresión logística que involucra una
promoció~ directa por correo de la cadena Sirnmons Stores. La empresa Sirnmons Stores es una
cadena nacional de ropa para dama. Ha ordenado imprimir a cuatro tintas 5 000 copias de su
costoso catálogo de productos, y en cada uno incluye un cupón de $50 de descuento en compras
por $200 o más. Corno el catálogo es costoso, Simmons desea enviarlo sólo a aquellos clientes
que tengan mayor probabilidad de usar el cupón.
La gerencia considera que la cantidad que gasta cada año por cliente en las tiendas
Simmons, así corno si posee o no una tarjeta de crédito de la tienda, son dos variables útiles para
predecir si ese cliente usará el cupón. La empresa realiza un estudio piloto con una muestra alea-
toria de 50 clientes con tarjeta de crédito de Sirnmons y 50 sin ella. Por ende, envió los catálogos
15.9 Regresión logística 717
a cada uno de estos 100 clientes elegidos. Al final del periodo de prueba, Simmons anota si
los clientes han usado o no el cupón. En la tabla 15 .11 se presentan los datos muestrales de las
10 primeras personas (Customer) que recibieron el catálogo, y se incluye la siguiente informa-
ción: cantidad en miles de dólares gastada por el cliente en las tiendas Simmons durante el año
anterior (Annual Spending), y la tarjeta de crédito de Simmons (Simmons Card) codificada
como 1 si el cliente la tiene y Osi no la tiene. En la columna correspondiente al cupón (Coupon),
1 significa que el cliente usó el cupón y O que no lo usó.
Para ayudar a Simmons a predecir si las personas que reciban el catálogo usarán o no el cu-
pón, se podría pensaren construir un modelo de regresión múltiple con los datos de la tabla 15.11.
Las variables independientes serían cantidad gastada cada año (en miles) en Simmons Stores y
tarjeta de crédito, en tanto que el cupón sería la variable dependiente. Sin embargo, el modelo
común de regresión múltiple no es aplicable, porque la variable dependiente sólo puede tomar
los valores O y 1. Con este ejemplo se ilustra el tipo de situación para la cual se creó la regre-
sión logística. A continuación se verá cómo utilizarla para ayudar a Simmons Stores a estimar
qué tipo de clientes es más probable que aproveche su promoción.
(15.26)
En la regresión logística, tanto la teoría como la práctica estadística han demostrado que la re-
lación existente entre E(y) y X¡. x 2, .. . , xP es mejor descrita por medio de la siguiente ecuación
no lineal.
(15.27)
Como los dos valores de la variable dependiente y son codificados como O y 1, el valor de E(y)
en la ecuación (15.27) proporcionará la probabilidad de que y = 1 para un conjunto dado de
Annual Spending
Customer ($1000) Simmons Card Coupon
2.291 o
2 3.215 o
DATADJI 3 2.135 1 o
4 3.924 o o
Simmons 5 2.528 1 o
6 2.473 o 1
7 2.384 o o
8 7.076 o o
9 1.182 1 1
10 3.345 o o
718 Capítulo 15 Regresión múltiple
valores de las variables independientes x 1, x2 , ••• , xP. Dado que E(y) se interpreta como una
probabilidad, la ecuación de regresión logística suele expresarse de la siguiente manera:
(15.28)
Para entender mejor las características de la ecuación de regresión logística, suponga que
el modelo sólo involucra una variable independiente x y que los valores de los parámetros del
modelo son {3 0 = - 7 y f3 1 = 3. La ecuación de regresión logística correspondiente a estos va-
lores de los parámetros es
(15.29)
En la figura 15.12 se muestra la gráfica de la ecuación (15.29). Observe que tiene forma de S.
Por ejemplo, cuando x = 2, E(y) es aproximadamente 0.27. El valor de E(y) va de O a 1, apro-
ximándose gradualmente a medida que aumenta el valor de x, y a O a medida que disminuye el
valor de x. Por ejemplo, cuando x = 2, E(y) = 0.269. Observe también que el valor de E(y),
que representa la probabilidad, se incrementa rápidamente al aumentar x de 2 a 3. El hecho
de que los valores de E(y) vayan de O a 1 y que la curva tenga forma de S hacen la ecuación
(15.29) ideal para modelar la probabilidad de que la variable dependiente sea igual a l.
1.0
0.8
,-. 0.6
.....
'-'
¡;;,¡
0 .4
0.2
o.o
o 2 3 4 5
Por lo tanto, se elige una ecuación de regresión logística con dos variables independientes.
( 15.31)
En el apéndice 15.3 se Para calcular las estimaciones de los parámetros {3 0 , {3 1 y {3 2 del modelo, se aplicó el proce-
explica cómo usar Minitab dimiento de regresión logística binaria de Minitab a los datos muestrales de la tabla 15 .11.
para generar el resultado
En la figura 15.13 se muestra parte de los resultados obtenidos. Observe que b0 = -2.146,
de la.figura 15.13.
b 1 = 0.342 y b2 = 1.099. Así, la ecuación de regresión logística estimada es
Por lo tanto, la· probabilidad estimada de que este tipo de clientes use el cupón es de 0.19.
De manera similar, la probabilidad de que lo usen aquellos que tienen un gasto anual de $2 000
en Simmons Stores y tarjeta de crédito de la tienda se estima sustituyendo x 1 = 2 y x 2 = 1 en
la ecuación (15.32).
FIGURA 15.13 Resultado parcial de la regresión logística para el ejemplo de las tiendas
Simmons
Deviance Table
Model Summary
Deviance Deviance
R-Sq R-Sq(adj) AIC
10.12% 8.64% 126.97
Coefficients
Regression Equation
Card
o Y' -2.146 + 0.3416 Spending
Así, la probabilidad de que los clientes de este grupo usen el cupón es aproximadamente de
0.41. Parece ser que quienes manejan tarjeta de crédito de Simmons tienen mayor probabilidad
de usar el cupón. Pero antes de llegar a una conclusión, es necesario evaluar la significancia
estadística de este modelo.
Prueba de significancia
La prueba de significancia en la regresión logística es similar a la que se aplica en la regresión
múltiple. Primero se prueba la significancia global. En el ejemplo de Simmons Stores, las hipó-
tesis para probar la significancia global son las siguientes:
La prueba de significancia global del modelo se basa en el valor del estadístico de prueba X2 .
Si la hipótesis nula es verdadera, la distribución muestral de X2 es una distribución ji-cuadrada
con grados de libertad igual al número de variables independientes en el modelo. El cálculo de X2
queda fuera del alcance de este libro, pero este valor y su correspondiente valor-p se obtienen
como parte del resultado de regresión logística binaria que proporciona Minitab. En la última
línea de la figura 15 .13 se encuentra que el valor de X2 es 13. 63, sus grados de libertad son 2 y su
correspondiente valor-pes 0.001. Por lo tanto, cualquier nivel de significancia a ~ 0.001, nos
llevará a rechazar la hipótesis nula y a concluir que el modelo global es significativo.
Una vez que la prueba X2 ha indicado que sí existe una significancia global, suele realizarse
otra prueba X2 para determinar si la contribución de cada una de las variables independientes al
modelo es significativa. Para cada una de las variables independientes X; las hipótesis son
H 0 : (3; =O
En el apéndice 15.3 se La prueba de significancia de una variable independiente también se basa en el valor de una prueba
presenta la fonna en que del estadístico X2 . Si la hipótesis nula es verdadera, la distribución muestra! de X2 sigue una distri-
se establece el nivel de
bución de ji-cuadrada con un grado de libertad. En la tabla de resultados de Minitab, las columnas
confianza para intervalos
de confianza de cocientes de ji-cuadrada y valor-p presentan los valores de X2 con sus valores p de prueba para cada coeficiente
probabilidades en Minitab. estimado. Suponga que en el modelo de Simmons se emplea a = 0.05 para probar la significancia
Establecer los niveles de de las variables independientes. Para x 1 el valor X2 = 7 .56 y su correspondiente valor-p es 0.006.
confianza pennite probar Por lo tanto, para el nivel de significancia 0.05 podemos rechazar H0 : (3 1 = O. De la misma manera
las hipótesis nulas para las
se rechaza H 0 : (3 2 = O, dado que el valor-p correspondiente a X2 = 6.41 es 0.011. Así, si se
variables independientes,
para cualquier nivel utiliza 0.05 como nivel de significancia, ambas variables son estadísticamente significativas.
deseado de significancia.
Aplicación en la administración
Ya se describió cómo obtener la ecuación de regresión logística estimada y cómo probar su sig-
nificancia. Ahora se podrá hacer una recomendación para la decisión que se tomará en Sirnmons
Stores sobre la promoción de su catálogo. Ya se calcularon P(y = ljx 1 = 2, x 2 = 1) = 0.4102
y P(y = ljx 1 = 2, x2 = O) = 0.1881. Con base en estas probabilidades, se observa que en-
tre aquellos clientes cuyo gasto anual en Sirnmons Stores es $2 000, los que cuentan con una
tarjeta de crédito de la tienda tienen mayor probabilidad de usar el cupón. En la tabla 15.12 se
presentan las probabilidades estimadas correspondientes a clientes tanto con tarjeta de crédi-
to como sin ella, cuyos desembolsos anuales en Simmons Stores van de $1000 hasta $7 000.
722 Capítulo 15 Regresión múltiple
¿Cómo puede utilizar Simmons esta información para elegir a los clientes a los que dirigirá la
nueva promoción? Suponga que desea enviar este catálogo sólo a clientes cuya probabilidad de
usar el cupón sea 0.40 o mayor. Con base en las probabilidades estimadas que aparecen en la
tabla 15.12, la estrategia en esta promoción de Simmons sería la siguiente:
Clientes con tarjeta de crédito de Simmons. Enviar el catálogo a todos aquellos que
durante el año pasado gastaron $2 000 o más.
Clientes sin tarjeta de crédito de Simmons. Enviar el catálogo a todos aquellos que du-
rante el año pasado gastaron $6 000 o más.
Sin embargo, al observar con más detalle las probabilidades estimadas, vemos que la proba-
bilidad de que usen el cupón aquellos clientes sin tarjeta de crédito de Simmons que gastaron
$5 000 en un año es de 0.3922. Por lo tanto, será conveniente que la tienda reconsidere su estra-
tegia e incluya a clientes que no tienen tarjeta de crédito, pero que gastaron en Simmons $5 000
o más el año pasado.
El cociente de posibilidades mide el efecto que tiene sobre estas posibilidades el incremento en
una unidad en una de las variables independientes. Es, por ende, la probabilidad de que y = 1
cuando una de las variables independientes se incrementa en una unidad (odds 1) dividida entre
las posibilidades de que y = 1, dado que no ha habido cambio en los valores de las variables
independientes (odds 0 ).
Gasto anual
odds
Cociente de posibilidades = - -1 ( 15.34)
odds0
Por ejemplo, suponga que se desea comparar las posibilidades de que use el cupón un
cliente que gasta $2000 anuales y tiene tarjeta de crédito de Simmons (x 1 = 2 y x2 = 1) con
las posibilidades de que lo use un cliente que gasta $2 000 anuales y no tiene tarjeta de crédito
de Simrnons (x 1 = 2 y x2 = 0). Lo que interesa es interpretar el efecto de un incremento de una
unidad en la variable independiente x2 . En este caso
P(y = 1 lx1 = 2, x2 = 1)
odds 1 = 1 - P( y = 1Ix 1 = 2, x 2 = 1)
P(y = 1 lx1 = 2, x2 = O)
odds0 =
1 - P(y = 1Ix 1 = 2, x2 = O)
0.4102
estimación de odds 1 = = 0.6915
1 - 0.4102
y
0.1881
estimación de odds0 = = 0.2318
1 - 0.1881
La estimación resultante es
0.6956
Estimación del cociente de posibilidades = --- = 3.00
0.2318
Por consiguiente, podemos concluir que las posibilidades estimadas de que usen el cupón los
clientes que gastaron $2 000 el año pasado y tienen tarjeta de crédito de Simmons son tres ve-
ces mayores que las de quienes gastaron $2 000 el año pasado y no tienen tarjeta de crédito de
Simmons.
El cociente de posibilidades de cada una de las variables independientes se calcula al man-
tener constantes todas las demás variables independientes. Sin embargo, no importa qué valores
constantes se usen para todas las demás variables. Por ejemplo, si se calcula el cociente de
posibilidades para la variable tarjeta de crédito de Simmons (x2 ) utilizando $3 000 en lugar
de $2000 como valor de la variable cantidad de gasto anual (x 1) , el valor obtenido para el co-
ciente de posibilidad estimado será el mismo (3 .00). Por lo tanto, se concluye que las posibili-
dades estimadas de que use el cupón un cliente con tarjeta de crédito de Simmons son tres veces
mayores que las posibilidades estimadas de que lo use un cliente sin tarjeta de crédito.
El cociente de posibilidades es un resultado estándar para la regresión logística en los pro-
gramas de software. Remítase a los resultados de Minitab de la figura 15.13. En la columna ti-
tulada Odds Ratio aparecen los cocientes de posibilidad estimados correspondientes a cada una
de las variables independientes. Para x 1 es 1.4073 y para x2 es 3.0004. Ya se indicó cómo inter-
pretar el coeficiente de posibilidad estimada en el caso de la variable binaria independiente x2.
724 Capítulo 15 Regresión múltiple
Para ilustrar esta relación con el ejemplo de Simmons Stores, considere la variable indepen-
diente x 1. El cociente de posibilidades estimado para x 1 es
Esta relación entre el cociente de posibilidades y los coeficientes de las variables independien-
tes facilitan el cálculo del primero, una vez obtenidas las estimaciones de los parámetros del
modelo. Además, también permite investigar cambios en el cociente de posibilidades cuando se
presentan variaciones mayores o menores que una unidad en una de las variables independientes
continuas.
El cociente de posibilidades de una variable independiente representa la variación en las po-
sibilidades de un cambio de una unidad en ella, permaneciendo constantes todas las demás va-
riables independientes. Suponga que se desea conocer el efecto de una variación de más de una
unidad, por ejemplo de e unidades. Digamos que, en el ejemplo de Simmons, queremos com-
parar las posibilidades de que use el cupón un cliente que gasta $5 000 anuales (x 1 = 5) con las
posibilidades de que lo use un cliente que gasta $2 000 anuales (x 1 = 2). En este caso e = 5 -
2 = 3, y el correspondiente cociente de posibilidades es
Esto indica que las posibilidades estimadas de que usen el cupón los clientes cuyo gasto anual
es de $5000 son 2.79 veces mayores que las de quienes gastan $2000. En otras palabras, el
cociente de posibilidades estimado para un incremento de $3 000 en el gasto anual es 2. 79.
En general, el cociente de posibilidades permite comparar las posibilidades de dos eventos
diferentes. Si el valor de este cociente es 1, los dos eventos tienen las mismas posibilidades. Por
lo tanto, si la variable independiente que se considera (como el estatus respecto de la tarjeta de
crédito de Simmons) tiene efecto positivo sobre la probabilidad de que ocurra el evento, el co-
ciente de posibilidades correspondiente será mayor que l. La mayoría del software para estadís-
tica también proporciona un intervalo de confianza para el cociente de posibilidades. En la figura
15.13 los resultados de Minitab indican un intervalo de 95% de confianza para cada uno de los
15. 9 Regresión logística 725
Transformación logit
Entre las posibilidades a favor de y = 1 y el exponente de e en la ecuación de regresión logís-
tica, se observa una interesante relación. Podemos demostrar que
Esta ecuación indica que el logaritmo natural de las posibilidades a favor de y = 1 es una fun-
ción lineal de las variables independientes. A esta función lineal se le llama logit. Para denotar
logit se usa la notación g(xp x 2 , . . . , xP).
LOGIT
(15.35)
Una vez estimados los parámetros de la ecuación de regresión logística, calculamos una esti-
mación del logit. Con g(xp x 2 , . . . , xP) para denotar el logit estimado tenemos
LOGIT ESTIMADO
(15.37)
Por lo tanto, debido a la relación única que existe entre el logit estimado y la ecuación de regre-
sión logística estimada, podemos calcular las probabilidades estimadas para Simmons Stores
dividiendo eg(x,,x2l entre 1 + ei<x,,x2l_
726 Capítulo 15 Regresión múltiple
l. Debido a la relación única que existe entre los de significancia para los correspondientes cocien-
coeficientes estimados del modelo y los corres- tes de posibilidades.
pondientes cocientes de posibilidades, la prueba ge- 2. En las regresiones simple y múltiple se usa el coe-
neral de significancia basada en el estadístico X2 es ficiente de determinación para medir la bondad de
también una prueba general de significancia para ajuste. En la regresión logística no existe una sola
los cocientes de posibilidades. Además, la prueba medida que tenga una interpretación similar. El
X2 para la significancia de cada uno de los paráme- estudio de la bondad de ajuste queda fuera del al-
tros del modelo también es una prueba estadística cance de esta introducción a la regresión logística.
Aplicaciones
44. Remítase al ejemplo de Simmons Stores que se presentó en esta sección. La variable depen-
DATAf l l diente es y = 1 si el cliente usó el cupón y y = Osi no lo usó. Suponga que la única información
de que se dispone para predecir si un cliente usará o no el cupón es su estatus respecto de la
Simmons
posesión de una tarjeta de crédito de la empresa, que es x = 1 si el cliente cuenta con ella y
x = Osi no cuenta con ella.
a) Proporcione la ecuación de regresión logística que relaciona x y y.
b) ¿Cuál es la interpretación de E(y) cuando x = O?
e) Con los datos de Simmons presentados en la tabla 15 .11, use Minitab para calcular el logit
estimado.
d) Con el logit estimado del inciso e) obtenga una estimación de la probabilidad de que los
clientes que no tienen tarjeta de crédito de Simmons usen el cupón y una estimación de la
probabilidad de que lo usen quienes tienen la tarjeta.
e) Proporcione la estimación del cociente de posibilidades. ¿Cuál es su interpretación?
45. En la tabla 15.12 se presentaron estimaciones de las probabilidades de uso del cupón en la
promoción por catálogo de Simmons Stores. Para cada combinación de valores de las variables
independientes se obtuvo un valor diferente.
a) Calcule las posibilidades de que use el cupón un cliente cuyo gasto anual en Simmons es
de $4000 y que no tiene tarjeta de crédito de la tienda (x 1 = 4, x2 = 0).
b) Use la información de la tabla 15.12 y el inciso a) para calcular el cociente de posibilidades
para la variable tarjeta de crédito de Simmons x2 = O, manteniendo constantes los gastos
anuales en x 1 = 4.
e) En el libro, el cociente de posibilidades para la variable tarjeta de crédito se calculó con la
información presentada en la columna $2000 de la tabla 15.12. ¿Obtuvo la misma infor-
mación para el valor del cociente de posibilidades en el inciso b)?
46. El Community Bank desea incrementar la cantidad de clientes a los que se les deposita direc-
tamente su sueldo. La gerencia está considerando una campaña que requerirá que cada gerente
de sucursal llame a cada cliente que no reciba su depósito. Corno incentivo para que acepten
esta propuesta, se les ofrecerá gratis consultas de saldo durante dos años. Debido al tiempo
y los costos de esta campaña, la gerencia desea que se dirija a clientes que tengan la mayor
probabilidad de aceptar recibir por depósito su sueldo: La gerencia piensa que el saldo prome-
dio mensual en la cuenta de cheques del cliente puede ser un predictor útil para determinar si
aceptará o no recibir su sueldo de esa manera. Para investigar la relación entre estas dos varia-
bles, Community Bank prueba la nueva campaña con una muestra de cuentas de cheques de
50 clientes que actualmente no reciben directamente por depósito su sueldo. En los datos mues-
trales se presenta el saldo mensual (Monthly Balance) promedio en la cuenta de cheques (en
miles de dólares) y si el cliente (Customer) aceptó recibir por depósito directo (Direct Deposit)
su sueldo 1 significa que aceptó y Oque no aceptó. Esta información se encuentra en el banco
de datos de nombre Bank; a continuación se presenta una parte.
15.9 Regresión logística 727
48 18.45 1
49 24.98 o
50 26.05 1
98 2.57 1
99 1.70 1
100 3.85 1
Los valores para la variable etiquetada como Wet muestran el promedio de la calificación de
desempeño de la tracción sobre superficies mojadas para cada llanta, mientras que los valores
para la variable etiquetada como Noise son los promedios de las calificaciones asignadas al
nivel de ruido generado por cada llanta. Los encuestados también respondieron si comprarían
de nuevo (Buy Again) la llanta con la siguiente escala de 10 puntos:
Los valores para la variable etiquetada como Buy Again son el promedio de respuestas de si
comprarían de nuevo. Para propósitos de este ejercicio, creamos la siguiente variable depen-
diente binaria:
En este capítulo se presentó la regresión múltiple como extensión del análisis de regresión li-
neal simple que se estudia en el capítulo 14. El análisis de regresión múltiple permite entender
cómo se relaciona una variable dependiente con dos o más variables independientes. La ecua-
ción de regresión múltiple E(y) = /3 0 + /3 1x 1 + /3 2x 2 + · · · + /3PxPindica que el valor esperado
o media de la variable dependiente y, que se denota como E(y), se relaciona con los valores de
las variables independientes x t> x2 , . . . , xP. Para obtener la ecuación de regresión múltiple es-
timada y = b0 + b 1x 1 + b2x 2 + · · · + bPxP se emplean los datos muestrales y el método de
mínimos cuadrados. En efecto, b0, b 1, b2, . . . , bP son estadísticos muestrales que se utilizan para
estimar los parámetros desconocidos {3 0 , f3" /3 2 , . . . , f3 P del modelo. A lo largo del capítulo se
emplearon salidas de pantalla de computadora para hacer énfasis en el hecho de que el software
para estadística es el único medio realista para realizar los numerosos cálculos que se requieren
en el análisis de regresión múltiple.
El coeficiente de determinación múltiple se presentó como una medida de la bondad de
ajuste de la ecuación de regresión estimada. Este coeficiente determina la proporción de la
variación en y que puede explicarse por la ecuación de regresión estimada. El coeficiente de
determinación múltiple ajustado es una medida similar de bondad de ajuste que se adapta al nú-
mero de variables independientes, evitando de esta manera sobreestimar el efecto de adicionar
más variables independientes.
Como medio para determinar estadísticamente si la relación entre las variables es signifi-
cativa, se presentaron una prueba F y una prueba t. La primera permite determinar si existe una
relación global significativa entre la variable dependiente y el conjunto de todas las variables
independientes, y la segunda se usa para determinar si existe una relación significativa entre
la variable dependiente y una determinada variable independiente del modelo de regresión.
También se estudió la relación entre las variables independientes, a lo cual se le llama multi-
colinealidad.
En la sección sobre variables cualitativas independientes se mostró el uso de variables fic-
ticias (dummy) para incorporar datos cualitativos en el análisis de regresión múltiple. En la
sección sobre análisis residual se estudió el análisis residual, el cual permite confirmar los
supuestos del modelo, detectar observaciones atípicas y observaciones influyentes. Asimismo,
se estudiaron los residuales estandarizados, la influencia, los residuales estudentizados elimi-
nados y la medida de la distancia de Cook. El capítulo concluye con una sección sobre el uso
de la regresión logística para modelar situaciones en las que la variable dependiente sólo puede
asumir dos valores.
Análisis de regresión múltiple Análisis de regresión que involucra dos o más variables in-
dependientes.
Cociente de posibilidades Cociente que se obtiene al dividir la posibilidad de que y == 1 dado
que una de las variables independientes aumentó una unidad (odds 1), entre la posibilidad de que
y = 1, dado que no hay alguna variación en los valores de las variables independientes (odds 0);
es decir, cociente de posibilidades (odds ratio) == odds 1/odds 0 .
Coeficiente de determinación múltiple Medida de la bondad de ajuste de la ecuación de
regresión múltiple estimada. Se puede interpretar como la proporción en la variabilidad de la
variable dependiente que se explica por la ecuación de regresión estimada.
Coeficiente de determinación múltiple ajustado Medida de la bondad de ajuste de la ecua-
ción de regresión múltiple estimada que se modifica con base en el número de variables inde-
pendientes en el modelo, y por lo tanto evita sobreestimar el efecto de agregar más variables
independientes. '
Ecuación de regresión logística Ecuación matemática que relaciona E(y), la probabilidad
de que y = 1, con los valores de las variables independientes; es decir E(y) = P(y = llxl'
e f3o +f3 ,x, + f32x2 + ···+/3pxp
X2, . . . , Xp) = 1 + e f3o + f3,x, +f32 x 2+ ···+{3PxP .
730 Capítulo 15 Regresión múltiple
Ecuación de regresión múltiple Ecuación matemática que relaciona el valor esperado o va-
lor medio de la variable dependiente con los valores de las variables independientes; es decir,
E(y) = {3 0 + {J 1x 1 + {J 2x 2 + · · · + {JPxP.
Ecuación de regresión múltiple estimada Estimación de la ecuación de regresión múltiple
que se basa en datos muestrales y en el método de mínimos cuadrados; es decir, y = b0 + b 1x 1 +
b2X2 + · · · + bPXP.
Influencia Mide qué tan lejos se encuentran de su media los valores de las variables ind~pen
dientes.
Logit Logaritmo natural de las posibilidades a favor de y = l; es decir, g(x 1, x 2 , . . . , xP) :::::
f3o + f31x1 + f32x2 + ... + {JPxP.
Logit estimado Estimación del logit basada en datos muestrales; es decir, g(x 1, x 2 , ... ,
( 15. 1 )
(15.2)
(15.3)
(15.4)
Fórmulas clave 731
SCR
R2 = - (15.8)
STC
n - 1
Ri = 1 - (1 - R2) = - - - -
n - p - 1
(15.9)
SCR
CMR=-- ( 15.12)
p
SCE
CME=---- (15.13)
n-p-1
Estadístico de prueba F
CMR
F=-- (15.14)
CME
Estadístico de prueba t
(15.15)
Y; - Y;
( 15.23)
s11-Y1
( 15.24)
ef3o+f3 1x1+f32x2+··-+f3pxp
E(y) = 1+ ePo+f31x1+f32x2+···+/Jpxp
( 15.27)
732 Capítulo 15 Regresión múltiple
(15.30)
odds
Cociente de posibilidades = - -1 (15.34)
odds0
Logit
(15.35)
Logit estimado
(15.37)
donde
donde
x1 = antigüedad (años)
Xi = nivel salarial (dólares)
y = puntuación en el examen sobre satisfacción laboral (las puntuaciones
más altas indican mayor satisfacción laboral)
51 . A continuación se presenta una parte del resultado obtenido con software para el análisis de
regresión.
Analysis of Variance
Model Summary
Coefficients
Regression Equation
Y= 8.103 + 7.602 Xl + 3.111 X2
52. Remítase al ejercicio 49, donde se vio que el departamento de admisión de Clearwater College
obtuvo la siguiente ecuación de regresión estimada que relaciona el promedio final obtenido
por un estudiante en la universidad (OPA) con la puntuación alcanzada en el área de matemáti-
cas del examen de admisión a la universidad (SAT) y su promedio final (OPA) en el bachillerato.
donde
Analysis of Variance
Model Summary
Coefficients
Regression Equation
y = -1.41 + 0.0235 Xl + 0.00486 X2
53. Remítase al ejercicio 50, donde el director de personal de Electronics Associates obtuvo la si-
guiente ecuación de regresión estimada que relaciona la puntuación obtenida por un empleado
en un examen sobre satisfacción laboral con su antigüedad y nivel salarial.
donde
x1 = antigüedad (años)
x2 = nivel salarial (dólares)
y = puntuación en el examen sobre satisfacción laboral (las puntuaciones
más altas indican mayor satisfacción laboral)
Ejercicios complementarios 735
A continuación se presenta una parte del resultado que se obtuvo con Minitab.
Analysis of Variance
Model Sununary
Coeff icients
Regression Equation
y = 14.41 + 8.69 Xl + 13. 52 X2
54. Tire Rack, principal distribuidor en línea de neumáticos en Estados Unidos, realiza pruebas
exhaustivas a efecto de ofrecer a sus clientes productos adecuados para su vehículo y su es-
tilo y condiciones de manejo. Además, aplica un estudio independiente de los consumidores
para ayudar a los conductores a auxiliarse mutuamente, compartiendo sus experiencias a largo
plazo con los neumáticos. Los siguientes datos muestran las calificaciones de la encuesta (en
una escala de 1 a 10, donde la calificación más alta es 10) de 18 neumáticos de verano de alto
desempeño. La variable Steering califica la respuesta de los neumáticos a la conducción, Trade
Wear evalúa la rapidez del desgaste con base en las expectativas del conductor y Buy Again
califica la satisfacción del conductor con el neumático y el deseo de comprar nuevamente uno
similar.
736 Capítulo 15 Regresión múltiple
a) Proporcione una ecuación de regresión estimada para predecir la calificación de Buy Again
con base en la puntuación de Steering. Con un nivel de signi.ficancia de 0.05, pruebe si la
relación es significativa.
b) ¿La ecuación obtenida en el inciso a) proporciona un buen ajuste de los datos? Explique.
e) Proporcione una ecuación de regresión estimada para predecir la puntuación de Buy Again
con base en la puntuación de Steering y de Trade Wear.
d'J ¿Es significativa la incorporación de la variable independiente Trade Wear? Use a = 0.05.
55. La Guía de rendimiento de combustible 2012 del Departamento de Energía y la Agencia Es-
tadounidense de Protección Ambiental provee datos de la eficiencia en el uso de combustible
para automóviles y camiones modelo 2012 (sitio web del Departamento de Energía de Estados
2012Fue1Econ
Unidos, 16 de abril de 2012). En el archivo 2012Fue1Econ encontrará una parte de la muestra
de 309 automóviles. La columna etiquetada como Manufacturer muestra el nombre de la em-
presa que fabrica el automóvil; la etiquetada como Displacement muestra el desplazamiento
del motor en litros; la etiquetada como Fuel muestra el tipo de combustible requerido o reco-
mendado (gasolina regular o Premium); la etiquetada como Drive identifica el tipo de tracción
(F para tracción delantera, R para trasera y A para tracción en las cuatro llantas), y la columna
etiquetada como Hwy MPG muestra la eficiencia de combustible en carretera en millas por
galón.
a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la eficien-
cia de combustible en carretera, dado el desplazamiento del motor. Utilice a = 0.05 para
probar la significancia.
b) Considere agregar la variable ficticia (dummy) tipo de combustible (FuelPremium), donde
el valor de 1 se asigna si el tipo recomendado de gasolina es premium y O si es regular.
Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la eficien-
cia del combustible en carretera, dado el desplazamiento del motor y la variable ficticia
tipo de combustible.
e) Utilice a = 0.05 para determinar si la variable ficticia añadida en el inciso anterior es
significativa.
d'J Considere añadir las variables ficticias tracción delantera (FrontWheel) y tracción trasera
(Rearwheel). Se asigna el valor 1 a tracción delantera cuando el vehículo tiene este tipo de
tracción y Opara cualquier otro tipo de tracción. Se asigna el valor 1 a tracción trasera si el
vehículo tiene este tipo de tracción y O para cualquier otro tipo de tracción. Considerando
lo anterior, un vehículo que tiene tracción en las cuatro llantas tendrá un valor de cero en
ambas variables. Obtenga una ecuación de regresión estimada que pueda emplearse para
predecir la eficiencia en el uso del combustible en carretera, dado el desplazamiento del
Ejercicios complementarios 737
motor, la variable ficticia tipo de combustible y las variables ficticias tracción delantera y
tracción trasera.
e) Pruebe la significancia global e individual con a = 0.05 para la ecuación que encontró en
el inciso d) .
56. A continuación se presenta un banco de datos con información de 45 fondos de inversión que
forman parte del Momingstar Funds 500. El banco de datos completo está disponible en el
archivo Mutua!Funds e incluye las siguientes cinco variables:
Fund Type (tipo de fondo). Se etiquetan como DE (capital nacional), IE (capital internacio-
nal) y FI (de renta fija) .
Net Asset Value (valor neto del activo). Precio de cierre por acción al 31 de diciembre de
2007 .
5-Year Average Retum (rendimiento promedio de 5 años). Rendimiento anual promedio del
fondo después de 5 años.
Expense Ratio (tasa de gastos): Porcentaje que se deduce de los activos cada año fiscal para
gastos del fondo.
Momingstar Rank (calificación Momingstar). Puntuación con estrellas del riesgo ajustado de
cada fondo . La calificación Momingstar va desde baja de 1 estrella hasta alta de 5 estrellas.
Net 5-Year
Asset Average Expense
Fund Value Return Ratio Momingstar
Fund Name Type ($) (%) (%) Rank
DATAfill Amer Cent Inc & Growth Inv DE 28.88 12.39 0.67 2-Star
MutualFunds American Century Intl. Disc IE 14.37 30.53 1.41 3-Star
American Century Tax-Free Bond FI 10.37 3.34 0.49 4-Star
American Century Ultra DE 24.94 10.88 0.99 3-Star
Ariel DE 46.39 11.32 1.03 2-Star
Artisan Intl Val IE 25.52 24.95 1.23 3-Star
Artisan Small Cap DE 16.92 15.67 1.18 3-Star
Baron Asset DE 50.67 16.77 1.31 5-Star
Brandywine DE 36.58 18.14 1.08 4-Star
S7. La revista Fortune publica una lista anual con las mejores 100 empresas para trabajar. Los
datos que se encuentran en el archivo FortuneBest corresponden a una parte de una muestra
aleatoria de 30 empresas incluidas en la lista de 2012 (Fortune, 6 de febrero de 2012). La
columna etiquetada como Rank muestra la posición que ocupa la empresa dentro de la lis-
ta FortunelOO; la etiquetada como Size indica si la empresa es pequeña, mediana o grande·
la etiquetada como Salaries ($1 OOOs) muestra el promedio del sueldo anual de los empleado~
en nómina redondeado en miles; la etiquetada como Hourly ($1 OOOs) muestra el promedio del
sueldo anual de los empleados por hora redondeado en miles. La revista clasifica a las empresas
como grandes cuando tienen más de 10000 empleados, medianas cuando tienen entre 2SOO y
10000 empleados, y pequeñas cuando tienen menos de 2SOO.
Salaried Hourly
Rank Company Size ($1000s) ($1000s)
4 Wegmans Food Markets Large S6 29
6 NetApp Midsize 143 76
7 Camden Property Trust Small 71 37
8 Recreational Equipment (REI) Large 103 28
10 Quicken Loans Midsize 78 54
11 Zappos.com Midsize 48 2S
12 Mercedes-Benz USA Small 118 50
20 USAA Large 96 47
22 The Container Store Midsize 71 4S
2S Ultimate Software Small 166 56
37 Plante Moran Small 73 4S
DATAl l 42 Baptist Health South Florida Large 126 80
FortuneBest
so World Wide Technology Small 129 31
S3 Methodist Hospital Large 100 83
S8 Perkins Coie Small 189 63
60 American Express Large 114 3S
64 TDindustries Small 93 47
66 QuikTrip Large 69 44
72 EOG Resources Small 189 81
75 FactSet Research Systems Small 103 Sl
80 Stryker Large 71 43
81 SRC Small 84 33
84 Booz Allen Hamilton Large lOS 77
91 CarMax Large S7 34
93 GoDaddy.com Midsize lOS 71
94 KPMG Large 79 S9
9S Navy Federal Credit Union Midsize 77 39
97 Schweitzer Engineering Labs Small 99 28
99 Darden Restaurants Large S7 24
100 Intercontinental Hotels Group Large 63 26
a) Utilice los datos para obtener una ecuación de regresión estimada que pueda emplearse
para predecir el promedio del sueldo anual para empleados en nómina, dado el promedio
del sueldo anual de los empleados por hora.
b) Utilice a = O.OS para probar la significancia global.
e) Utilizamos dos variables ficticias Tamaño-Mediano (Size-Midsize) y Tamaño-Pequeño
(Size-Small) para incluir el efecto del tamaño, una variable cualitativa con tres niveles .
Se asigna el valor 1 a Tamaño-Mediano si la empresa es mediana y O para cualquier otro
tamaño. Se asigna el valor 1 a Tamaño-Pequeño si la empresa es pequeña y O para cual-
quier otro tamaño. Obtenga una ecuación de regresión estimada que pueda aplicarse para
predecir el promedio del sueldo anual de los empleados en nómina dados el promedio del
sueldo anual de los empleados por hora y el tamaño de la empresa.
d) Utilice una prueba t para determinar la significancia de las variables independientes en la
ecuación que obtuvo en el inciso e) con a = O.OS.
Caso práctico 1 Consurner Research, lnc. 739
e) Con base en sus resultados del inciso anterior, obtenga una ecuación de regresión estimada
que pueda aplicarse para predecir el promedio del sueldo anual de los empleados en nómina
dados el promedio del sueldo anual de los empleados por hora y el tamaño de la empresa.
Informe gerencial
l. Utilice métodos de estadística descriptiva para resumir estos datos. Comente sus ha-
llazgos.
2. Obtenga ecuaciones de regresión estimada usando como variables independientes pri-
mero el ingreso anual y después el tamaño de la familia. ¿Cuál de estas variables es
mejor predictor de los cargos anuales a las tarjetas de crédito? Analice sus hallazgos.
3. Obtenga una ecuación de regresión estimada en la que el ingreso anual y el tamaño de
la familia sean las variables independientes. Analice sus hallazgos.
4. ¿Cuál es el monto del cargo anual a las tarjetas de crédito que podemos predecir para un
hogar de tres personas con un ingreso anual de $40 000?
5. Analice la necesidad de agregar al modelo otras variables independientes. ¿Cuáles se-
rían útiles?
740 Capítulo 15 Regresión múltiple
Informe gerencial
l. Suponga que desea predecir los ingresos (Winnings $) utilizando solamente el número
de posiciones pole ganadas (Poles), el número de victorias (Wins), el número de veces
en que un conductor terminó entre los mejores cinco (Top 5) o entre los mejores diez
(Top 10). ¿Cuál de estas cuatro variables es un mejor predictor de los ingresos?
2. Obtenga una ecuación de regresión estimada que pueda emplearse para predecir los
ingresos (Winnings 4) dados el número de posiciones pole ganadas (Poles), el número
de victorias (Wins), el número de veces en que un conductor terminó entre los mejores
cinco (Top 5) y entre los mejores diez (Top 10). Pruebe la significancia individual y
analice sus hallazgos y conclusiones.
3. Genere dos nuevas variables independientes: Top 2-5 y Top 6-10, en donde Top 2-5 re-
presenta el número de veces en que un conductor terminó entre el segundo y el quinto
lugar y Top 6-1 O el número de veces en que terminó entre el sexto y el décimo lugar.
Obtenga una ecuación de regresión estimada que pueda emplearse para predecir los
ingresos (Winnings $) utilizando las variables de número de posiciones pole (Poles),
victorias (Wins), Top 2-5 y Top 6-10. Pruebe la significancia individual y analice sus
hallazgos y conclusiones.
4. Con base en los resultados de su análisis, ¿cuál sería la ecuación de regresión estimada
que recomendaría para predecir los ingresos? Interprete los coeficientes de regresión
estimada para esta ecuación.
Informe gerencial
l. Utilice como variable dependiente la variable costo por milla (Cost/Mile) y obtenga una
regresión estimada con las variables independientes sedán familiar (Family-Sedan) y
sedán de lujo (Upscale-Sedan). Analice sus hallazgos.
2. Utilice como variable dependiente la variable calificación de valor (Value Score) y ob-
tenga una ecuación de regresión estimada con las variables independientes de costo por
milla (Cost/Mile), calificación de pruebas generales (Road-Test Score), confiabilidad
predicha (Predicted Reliability), sedán familiar (Family-Sedan) y sedán de lujo (Upsca-
le-Sedan).
3. Elimine de la ecuación de regresión obtenida en el punto anterior cualquier variable
independiente que no sea significativa con un nivel de significancia de 0.05. Después de
eliminar las variables no significativas, obtenga una nueva ecuación de regresión.
4. Suponga que alguien argumenta que "los automóviles pequeños ofrecen mayor valor
que los grandes". En los datos de este caso, los sedanes pequeños (Small Sedan) repre-
sentan el tipo de automóvil más pequeño y los sedanes de lujo (Upscale sedan) el más
grande. ¿Su análisis apoyaría esta idea?
5. Utilice un análisis de regresión para obtener una ecuación de regresión estimada que
pueda aplicarse para predecir la calificación de valor (Value Score), dado el valor de la
calificación de pruebas generales (Road-Test Score).
6. Utilice un análisis de regresión para obtener una ecuación de regresión estimada que
pueda aplicarse para predecir la calificación de valor (Value Score), dado el valor de
confiabilidad predicha (Predicted Reliability).
7. ¿Qué conclusiones se pueden generar con su análisis?
FIGURA 15.14 Resultados de Excel al problema de Butler Trucking con dos variables independientes
l Assi!!DJllent
1r:-·
2(
:Miles
,,....,...t-.
50
º~
Deliveries Time
º ,.,....,.,,.,.,..-..,.,,...~·--¡y-~
ingresan los rótulos Assignment, Miles, Deliveries y Time, y en las celdas B2:Dl 1 se introdu-
cen los datos muestrales. En las celdas A2:Al 1, los números 1-10 identifican cada observación.
Los siguientes pasos describen cómo usar la herramienta de regresión para el análisis de
regresión múltiple.
Paso l. Haga clic en la ficha Data en la cinta.
Paso 2. En el grupo Analyze, haga clic en Data Analysis.
Paso 3. Elija Regression en la lista de Analysis Tools.
Haga clic en OK.
Paso 4. Cuando aparezca el cuadro de diálogo Regression:
Ingrese D 1:D11 en el cuadro Input Y Range.
Ingrese B 1:C11 en el cuadro Input X Range.
Seleccione Labels.
Elija Confidence Level.
Ingrese 99 en el cuadro Confidence Level.
Seleccione Output Range.
Ingrese A13 en el cuadro Output Range (para indicar la esquina superior
izquierda de la sección de la hoja de trabajo donde deberán aparecer los
resultados).
Haga clic en O K.
En los resultados de Excel que se presentan en la figura 15.14, el rótulo para la variable inde-
pendiente x 1 es Miles (vea la celda A30) y para la variable independiente x 2 es Deliveries (vea
la celda A3 l). La ecuación de regresión estimada es
Observe que el uso de la herranúenta de regresión de Excel para la regresión múltiple es casi
igual que para la regresión lineal simple. La principal diferencia estriba en que en el caso de la
regresión múltiple se requiere un rango mayor de celdas para identificar las variables indepen-
dientes.
La información que se presenta en la figura 15.13 aparecerá como parte de los resultados.