Está en la página 1de 71

Anderson, D., Sweeney, D., Williams, T., Camm, J., Cochran, J. (2019). Regresión múltiple.

En Estadística para negocios y economía (pp.674-744)(1079p.)(13a ed). Ciudad de México :


Cengage Learning. (C99645)

Regresión múltiple
CONTENIDO Interpretación de los parámetros
ESTADÍSTICA EN LA PRÁCTICA: Variables cualitativas más
complejas
dunnhumby
15.1 MODELO DE REGRESIÓN 15.8 ANÁLISIS RESIDUAL
Detección de observaciones
MÚLTIPLE
atípicas
Modelo de regresión y ecuación
Residuales estudentizados
de regresión
eliminados y observaciones
Ecuación de regresión múltiple
atípicas
estimada
Observaciones influyentes
15.2 MÉTODO DE MÍNTh10S U so de la medida de la distancia
CUADRADOS de Cook para identificar
Ejemplo: Butler Trucking observaciones influyentes
Company
15.9 REGRESIÓN LOGÍSTICA
Nota sobre la interpretación
Ecuación de regresión logística
de los coeficientes
Estimación de la ecuación
15.3 COEFICIENTE DE de regresión logística
DETERMINACIÓN MÚLTIPLE Prueba de significancia
15.4 SUPUESTOS DEL MODELO Aplicación en la administración
Interpretación de la ecuación
15.5 PRUEBA DE SIGNIFICANCIA
de regresión logística
PruebaF
Transformación logit
Prueba t
Multicolinealidad APÉNDICES
15.6 USO DE LA ECUACIÓN 15.1 REGRESIÓN MÚLTIPLE CON
DE REGRESIÓN ESTIMADA MINITAB
PARA ESTIMACIÓN 15.2 REGRESIÓN MÚLTIPLE CON
Y PREDICCIÓN EXCEL
15.7 VARIABLES 15.3 REGRESIÓN LOGÍSTICA CON
INDEPENDIENTES MINITAB
CUALITATIVAS
Ejemplo: Johnson Filtration, Inc.
Estadística en la práctica 675

-LA PRAQfCA :. . ··~ ..~ .·,.---~·:r:-?';4:


t~..-:-:...,.. .................... ~ __ : . h1...,....-;¡,, .__:t-:,_.._

dunnhumby*
LONDRES. INGLATERRA
dunnhumby, fundada en 1989 por el equipo de esposos
Clive Humby (matemático) y Edwina Dunn (experta en
marketing), combina probadas habilidades naturales con
grandes ideas para encontrar claves y patrones de lo que
compran los consumidores y por qué. La empresa convier-
te esas señales en estrategias viables que generan notorio
crecimiento y lealtad sostenible y mejoran, en última ins-
tancia, el valor de la marca y la experiencia del cliente.
Con una nómina de más de 950 personas en Europa,
Asia y América, dunnhumby proporciona servicio a una
lista de prestigiosas empresas, que incluye Kroger, Tesco,
Coca-Cola, General Milis, K.imberly-Clark, PepsiCo, Proc-
ter & Gamble y Home Depot. dunnhumbyUSA es una
empresa conjunta Uoint venture) entre Kroger Company y
dunnhumby, con oficinas en Nueva York, Chicago, Atlanta,
Minneapolis, Cincinnati y Portland.
Los estudios de dunnhumby inician con la obtención
de datos de los consumidores de la empresa que la contrata.
Los datos se toman de registros de compras con tarjetas de
descuento o recompensas para el cliente, operaciones en los
puntos electrónicos de venta e investigación tradicional de
mercados. El análisis de los datos con frecuencia se traduce
de miles de millones de puntos de datos en ideas detalladas
acerca del comportamiento, preferencias y estilos de vida de
los clientes. Tales ideas conducen a implementar efectivos
programas de comercialización, que incluyen recomenda-
dunnhumby utiliza la regresión logística para predecir
ciones estratégicas acerca de fijación de precios, promo- el comportamiento de compra del consumidor.
ción, publicidad y decisiones sobre surtido de productos. ©Micro lOx/Shutterstock.com.
Los investigadores utilizan una técnica de regresión
múltiple llamada regresión logística como ayuda en sus
análisis de datos basados en el cliente. Al utilizar la regre-
sión logística se desarrolla una ecuación de regresión múl-
tiple estimada de la siguiente forma: las variables independientes más relevantes para predecir el
grupo del consumidor y proporciona una mejor compren-
sión de la población de clientes, posibilitando análisis pos-
teriores con una confiabilidad mucho mayor. El enfoque del
La variable dependiente y es una estimación de la proba- análisis se dirige a la comprensión del cliente hasta el punto
bilidad de que un cliente pertenezca a un grupo específico de desarrollar programas de comercialización en el punto de
de consumidores. Las variables independientes x 1, .xi, x3, venta y marketing directo que maximicen la pertinencia y el
. . . , xP son medidas del comportamiento real de compra del servicio al grupo de consumidores.
consumidor y pueden incluir el artículo específico y la can- En este capítulo se analizará la regresión múltiple y
tidad adquirida, monto de la compra, día de la.semana, hora cómo los conceptos de la regresión lineal simple estudiados
del día, y así sucesivamente. El análisis ayuda a identificar en el capítulo 14 pueden aplicarse al caso de la regresión
múltiple. Además, se mostrará el uso del software respec-
• Los autores agradecen o Poul Hunter, vicepresidente senior de Solutions
tivo. En la última sección del capítulo se presenta la regre-
for dunnhumby, por proporcionar este material poro Estadística en la sión logística con un ejemplo que ilustra cómo utilizar esta
prádica. técnica en una aplicación de investigación de mercados.
676 Capítulo 15 Regresión múltiple

En el capítulo 14 se estudia la regresión lineal simple y su uso en la obtención de una ecuación


de regresión estimada que describe la relación entre dos variables. Recuerde que la variable que
se predice o explica es la variable dependiente, mientras que la independiente se utiliza para
predecir o explicar la variable dependiente. En este capítulo continúa el estudio del análisis
de regresión considerando las situaciones en las que intervienen dos o más variables indepen-
dientes. Este estudio, que se conoce como análisis de regresión múltiple, permite tomar más
factores en consideración y, por lo tanto, obtener mejores estimaciones que las que ofrece la
regresión lineal simple.

§ Modelo de regresión múltiple


El análisis de regresión múltiple estudia la relación de una variable dependiente y con dos 0
más variables independientes. En términos generales, suele utilizarse p para denotar el número
de estas últimas.

Modelo de regresión y ecuación de regresión


Los conceptos de modelo de regresión y ecuación de regresión estudiados en el capítulo ante-
rior son aplicables al caso de la regresión múltiple. A la ecuación que describe cómo se rela-
ciona la variable dependiente y con las variables independientes x 1, .xz, ... , xP y un término de
error se le conoce como modelo de regresión múltiple. Se inicia con el supuesto de que este
modelo asume la siguiente forma:

MODELO DE REGRESIÓN MÚLTIPLE

Y= /30 + /31X¡ + /32X2 + ... + /3pxp + E ( 15.1}

En el modelo de regresión múltiple, /3 0 , /3 1, /3 2 , .•. , /3P' son los parámetros y el término de


error e (la letra griega épsilon) es una variable aleatoria. Examinando con atención este modelo
vemos que y es una función lineal de x 1, x2, ... , xP (la parte de /30 + /3 1x 1 + f3 2x 2 + · · · +
f3PxP) más el término de error e. Este último corresponde a la variabilidad en y que no puede
ser explicada por el efecto lineal de las p variables independientes.
En la sección 15.4 se discutirán los supuestos para el modelo de regresión múltiple y pa-
ra e. Uno de los supuestos indica que el valor medio o esperado de e es cero. Una consecuencia
de este supuesto implica que el valor medio o esperado de y, que se denota E(y), es igual a /3 0+
{3 1x 1 + {3 2x 2 + · · · + f3PxP. A la ecuación que describe cómo se relaciona el valor medio de y
con x 11 x1 , . . . , xP se le conoce como ecuación de regresión múltiple.

ECUACIÓN DE REGRESIÓN MÚLTIPLE

E(y) = {3 0 + f3 1x 1 + f3 2x 2 + · · · + f3PxP ( 15.2)

Ecuación de regresión múltiple estimada


Si se conocieran los valores de {3 0, /3 1, {3 2, ... , f3P, se podría usar la ecuación (15.2) a efecto
de calcular el valor medio de y para valores dados de x 1, x1 , . . . , xP. Desafortunadamente, los
valores de estos parámetros suelen no conocerse en general y es necesario estimarlos a partir
·de datos muestrales. Para calcular los valores de los estadísticos muestrales b0 , b 1, b2, .. . , b" .
que se usan como estimadores puntuales de los parámetros /3 0, /3 1, /3 2, ... , f3P, se emplea un a
15.2 Método de mínimos cuadrados 677

FIGURA 15.1 Proceso de estimación en la regresión múltiple

Modelo de
regresión múltiple
En /a regresión lineal
Datos muestrales:
simple, b0 y b 1 son los Y= f3
0 + f3 1x 1 + {3 2x 2 + · · · + fJpxp +E
estadísticos muestra/es Ecuación de regresión múltiple
utilizados para estimar
E(y) = {3
0
+ {3 1x 1 + {3 2x 2 + · · · + /Jpxp
/os parámetros {3 0 Y {3 1•
En /a regresión múltiple,
{3 0, {3 1, {3 2, ... , fJp son
en el proceso análogo de
inferencia estadística, parámetros desconocidos
bo• b1, b2 , ... , bP denotan
los estadísticos muestrales
utilizados para estimar
/os parámetros
f3o· f31, f32· · · · f3P.

Cálculo de la ecuación
b , b , b , ... , bP
de regresión múltiple
0 1 2 estimada
proporcionan las estimaciones de
y= b0 + b 1x 1 + b 2 x 2 + · · · + bPxP
f30,f31'f32·· ·· · p b , bl' b , ... bP son
0 2
estadísticos muestrales

muestra aleatoria simple. Con los estadísticos rnuestrales se obtiene la siguiente ecuación de
regresión múltiple estimada.

ECUACIÓN DE REGRESIÓN MÚLTIPLE ESTIMADA

( 15.3)

donde

b0 , b1, b2, ••• , bP son las estimaciones de {3 0, {31> {3 2 , .• . , f3P


y = valor estimado de la variable dependiente

Este proceso de estimación para la regresión múltiple se muestra en la figura 15 .1.

§ Método de mínimos cuadrados


En el capítulo 1~ se utilizó el método de mínimos cuadrados para obtener la ecuación de re-
gresión estimada que permitía aproximar mejor la relación lineal entre las variables dependiente
e independiente. Con este método también se obtiene la ecuación de regresión múltiple esti-
mada. El criterio en el método de mínimos cuadrados, como ya se dijo, es el siguiente:

CRITERIO DE MÍNIMOS CUADRADOS


(1 s.4)
min 2:(y¡ - y¡)1
678 Capítulo 15 Regresión múltiple

donde
Y; = valor observado de la variable dependiente para la observación i-ésima
Y; = valor estimado de la variable dependiente para la observación i-ésima

Los valores estimados de la variable dependiente se calculan con la ecuación de regresión


múltiple estimada

Como indica la expresión (15.4), el método de mínimos cuadrados usa datos muestrales para
obtener los valores de b0, b 1, b2, . . . , bP que hacen que la suma de los cuadrados de los residua-
les [las desviaciones entre los valores observados de la variable dependiente (y;) y los valores
estimados de la variable dependiente (y¡)] sea un mínimo.
En el capítulo 14 se proporcionaron las fórmulas para calcular los estimadores b0 y b 1
para la ecuación de regresión lineal simple estimada y = b0 + b 1x. Con conjuntos de datos
relativamente pequeños fue posible usar esas fórmulas para obtener b0 y b 1 mediante cálculos
manuales. En cambio, en la regresión múltiple las fórmulas para los coeficientes de regresión
b0 , b 1, b2, • • • , bP utilizan álgebra matricial y quedan fuera del alcance de este libro. Por esta
razón, el estudio de la regresión múltiple centrará la atención en el uso de software para obtener
la ecuación de regresión estimada y alguna otra información. Se hará énfasis en la interpreta-
ción de los resultados que proporciona este software y no en cómo efectuar los cálculos para la
regresión múltiple.

Eiemplo: Butler Trucking Company


Para ilustrar el análisis de regresión múltiple se utilizará el problema de Butler Trucking Com-
pany, una empresa que se dedica al transporte de mercancías en el sur de California. Su activi-
dad principal es hacer entregas en su área local. Para mejorar el horario de trabajo, los gerentes
deseaban estimar el tiempo total de recorrido diario necesario para efectuar las entregas.
Al principio, los gerentes creyeron que el tiempo total de recorrido diario estaba estrecha-
mente relacionado con el número de millas recorridas para realizar las entregas. A partir de una
muestra aleatoria simple de 1O repartidores con asignación de recorrido (Driving Assingment)
se obtuvieron los datos que se presentan en la tabla 15. l y en el diagrama de dispersión de la
figura 15.2. Después de observar este diagrama, los gerentes consideraron que, para descri-
bir la relación entre tiempo total de recorrido y en horas (Travel Time/hours) y el número de
millas recorridas x 1 (Miles Traveled), podía emplearse el modelo de regresión lineal simple
y = {3 0 + {3 1x 1 + e. Para estimar los parámetros {3 0 y {3 1 se utilizó el método de mínimos cua-
drados y se obtuvo la ecuación de regresión estimada.

(15.5)

TABLA 15.1 Datos preliminares para Butler Trucking

Driving X¡=Miles y = Travel Time


Assignment Traveled (hours)
1 100 9.3
2 50 4.8
3 100 8.9
4 100 6.5
Butler
5 50 4.2
6 80 6.2
7 75 7.4
8 65 6.0
9 90 7.6
10 90 6.1
15.2 Método de mínimos cuadrados 679

FIGURA 15.2 Diagrama de dispersión de los datos preliminares del ejemplo de Butler Truck.ing


• •


• • •

.__~~~....._~~~-'-~~~--'~~~~....._~~~-'-~~~--'-~~x,

~ ~ m w ~ 100

Millas recorridas

En la figura 15.3 se presentan los resultados obtenidos con Minitab aplicando la regresión lineal
simple a los datos de la tabla 15. l. La ecuación de regresión estimada es

y = 1.27 + 0.0678x 1
Con 0.05 como nivel de significancia, el valor F de 15.81 y su correspondiente valor-p de 0.004
indican que la relación es significativa; es decir, que H0 : /3 1 = O puede ser rechazada debido a
que el valor-pes menor que a = 0.05 . Observe que utilizando el valor t de 3.98, y su valor-p
asociado de 0.004, se llega a la misma conclusión. Por lo tanto, podemos concluir que la relación
entre el tiempo total de recorrido y el número de millas recorridas es significativa; trayectos de
más duración corresponden a cantidades mayores de millas recorridas. Como el coeficiente
de determinación (expresado como porcentaje) es R-sq = 66.4%, vemos que 66.4% de la varia-
bilidad en el tiempo de recorrido podemos explicarla por el efecto lineal del número de millas
recorridas. Este descubrimiento es bastante satisfactorio; sin embargo, los gerentes deseaban
considerar otra variable independiente más para explicar parte de la variabilidad restante de la
variable dependiente.
Al tratar de identificar otra variable independiente, los gerentes encontraron que el número
de entregas podía contribuir también a la duración total del recorrido. En la tabla 15.2 se presen-
Los pasos necesarios para
tan los datos qe Butler Trucking después de agregar el número de entregas. En la figura 15.4 se
generar los resultados en
Minitab se muestran en la
expone el resultado que provee Minitab al considerar variables independientes, tanto el número
figura 15.4 y se presentan de millas recorridas (x 1) como el número de entregas (x2) realizadas. La ecuación de regresión
en el apéndice 15.1 . estimada es

y= -0.869 + 0.06113x 1 + 0.923x2 (15.6)

En la siguiente sección se analizará el uso del coeficiente de determinación múltiple para me-
dir qué tan buen ajuste proporciona la ecuación de regresión estimada. Antes se examinarán con
más cuidado los valores de b 1 = 0.06113 y b2 = 0.923 en la ecuación (15.6).
680 Capítulo 15 Regresión múltiple

FIGURA 15.3 Resultados de Minitab para el problema de Butler Trucking con una
variable independiente

Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Los nombres de las Regression 1 15. 871 15. 8713 15.81 0.004
variables Miles (millas ) Miles 1 15. 871 15. 8713 15.81 0.004
y Time (tiempo) que Error 8 8.029 1.0036
aparecen en los resultados Lack-of-Fit 4 2 .137 l. 5343 0.36 0.825
de Minitab fueron Pure Error 4 5.892 l. 4 729
ingresados en la hoja de Total 9 23.900
trabajo como encabezados
de las columnas Model Summary
correspondientes;
por lo tanto, x 1 = Miles y s R-sq R-sq(adj) R-sq(pred)
y= Time. 1.00179 66.41% 62.21% 48.89%
Coeff icients
Terrn Coef SE Coef T-Value P-Value VIF
Constant l. 27 l. 40 0.91 0.390
Miles 0.0678 0.0171 3.98 0.004 l. 00

Regression Equation
Time = 1.27 + 0.0678 Miles

Nota sobre la interpretación de los coeficientes


En este punto es útil hacer una observación sobre la relación entre la ecuación de regresión esti-
mada en la que la única variable independiente es el número de millas recorridas y la ecuación en
la que, como segunda variable independiente, se incluye el número de entregas (Number of De-
liveries ). El valor de b 1 no es igual en ambos casos. En la regresión lineal simple, b 1 se interpreta
como una estimación del cambio en y debido al cambio en una unidad de la variable independien-
te. En el análisis de regresión múltiple esta interpretación cambia ligeramente. Es decir, en este
tipo de análisis cada uno de los coeficientes de regresión se interpreta como sigue: b 1 representa
la estimación del cambio en y debido a un cambio en una unidad en x;. mientras todas las demás
variables independientes permanecen constantes. En el ejemplo de Butler Trucking con dos va-
riables independientes, b 1 = 0.06113. Así, 0.06113 horas es la estimación del incremento espera-
do en el tiempo de recorrido que corresponde al incremento de una milla en la distancia recorrida
cuando el número de entregas permanece constante. De manera similar, como b1 = 0.923, una
estimación del incremento esperado en el tiempo de recorrido que corresponde al incremento de
una entrega cuando el número de millas recorridas permanece constante es 0.923 horas.

TABLA 15.2 Datos de Butler Trucking con millas recorridas (x 1) y cantidad de entregas (x2)
como variables independientes

Driving x 1 =Miles x 2 = Number y = Travel Time


Assignment Traveled of Deliveries (hours)
1 100 4 9.3
2 50 3 4.8
3 100 4 8.9
DATA. 4 100 2 6.5
5 50 2 4.2
Butler
6 80 2 6.2
7 75 3 7.4
8 65 4 6.0
9 90 3 7.6
10 90 2 6.1
15.2 Método de mínimos cuadrados 681

FIGURA 15.4 Resultados de Minitab para el problema de Butler Trucking con dos
variables independientes

Analysis of Variance

Los nombres de las Source DF Adj SS Adj MS F-Value P-Value


variables Miles (millas), Regression 2 21. 6006 10.8003 32.88 0.000
Deliveries (entregas) y Time Miles 1 12.5556 12.5556 38.22 0.004
(tiempo) que aparecen en Deliveries 1 5. 7293 5. 7293 17.44 0.004
los resultados de Minitab Error 7 2.2994 0.3285
fueron ingresados en la Lack-of-Fit 6 2.2194 0.3699 4.62 0.342
hoja de trabajo como Pure Error 1 0.0800 0.0800
encabezados de columna; Total 9 23.9000
por lo tanto, x 1 =Miles,
~ = Deliveries y y = Time.
Model Sununary

s R-sq R-sq(adj) R-sq(pred)


0.573142 90.38% 87.63% 80.76%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant -0.869 0.952 -0.91 0.392
Miles o. 06113 0.00989 6.18 0.000 l. 03
Deliveries 0.923 0.221 4.18 0.004 l. 03

Regression Equation
Time = -0.869 + 0.06113 Miles + 0.923 Deliveries

Nota al lector. Los ejercicios de esta sección y las siguientes en los que se proporcionan datos
están diseñados para ser resueltos con ayuda de software.

Métodos
l. A continuación se proporciona la ecuación de regresión estimada obtenida a partir de 1O ob-
servaciones para un modelo con dos variables independientes.

y = 29.1270 + 0.5906x 1 + 0.4980x2


a) Interprete los coeficientes b 1 y b2 de esta ecuación de regresión estimada.
b) Estime y parax 1 = 180 y x 2 = 310.
2. Considere los datos siguientes que corresponden a la variable dependiente y y las dos variables
AUTO independientes x 1 y x 2•

X¡ X2 y
30 12 94
47 10 108
DATA. 25 17 112
Exer2 51 16 178
40 5 94
51 19 175
74 7 170
36 12 117
59 13 142
76 16 211
682 Capítulo 15 Regresión múltiple

a) Obtenga una ecuación de regresión estimada que relacione y con x 1• Estime y si x 1 == 45 .


b) Obtenga una ecuación de regresión estimada que relacione y con x 2 . Estime y si x 2 == 15.
e) Obtenga una ecuación de regresión estimada que relacione y con x 1 y x 2 . Calcule y si x 1 :::
45 y X2 == 15 .
3. En un análisis de regresión se emplean 30 observaciones y se obtiene la siguiente ecuación de
regresión estimada.

y == 17.6 + 3.8x 1 - 2.3x2 + 7.6x 3 + 2.7x 4

a) Interprete los coeficientes b 1, b2 , b3 y b4 de esta ecuación de regresión estimada.


b) Estime y para x 1 == 10; x 2 == 5; x 3 == 1 y x4 == 2.

Aplicaciones
4. Una zapatería obtuvo la siguiente ecuación de regresión estimada en la que se relacionan las
ventas contra la inversión en inventario y los gastos de publicidad.

y == 25 + 10x 1 + 8x2
donde
x 1 == inversión en inventario (en miles de dólares)
x2 = gasto en publicidad (en miles de dólares)
y == ventas (en miles de dólares)

a) Estime las ventas resultantes si la inversión en inventario es de $15 000 y el presupuesto


para publicidad es de $10000.
b) Interprete b 1 y b2 en esta ecuación de regresión estimada.

5. El propietario de Showtime Movie Theaters, Inc. desea estimar el ingreso bruto semanal (Wee-
AUTO kly Gross Revenue) en función de los gastos de publicidad por televisión (Television Adverti-
sing) y en periódicos (Newspaper Advertising). A continuación se presentan en miles de dólares
($1 OOOs) los datos históricos de ocho semanas.

Weekly Television Newspaper


Gross Revenue Advertising Advertising
($1000s) ($1000s) ($1000s)
96 5.0 1.5
90 2.0 2.0
DATA. 95 4.0 1.5
Showtime 92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5

a) Obtenga una ecuación de regresión estimada en la que el monto que se gastó en publicidad
por televisión sea la variable independiente.
b) Obtenga una ecuación de regresión estimada en la que los montos gastados de publicidad
:por televisión y periódico sean las variables independientes.
e) ¿Es el coeficiente correspondiente a los gastos de publicidad en televisión de la ecua-
ción de regresión estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en
cada caso.
d) ¿Cuál es la estimación del ingreso semanal bruto en una semana en la que se gastan $3 500
en publicidad en televisión y $1800 en publicidad en periódicos?
6. La NFL lleva el registro de una variedad de datos del desempeño de individuos y equipos. Para
investigar la importancia de los pases en el porcentaje de juegos ganados por un equipo, los
siguientes datos contienen información sobre la conferencia (Conf), el número promedio de
15.2 Método de mínimos cuadrados 683

yardas por intento de pase (Y ds/Att), el número de intercepciones por intento (lnt/ Att) y el
porcentaje de juegos ganados (Win%) para una muestra aleatoria de 16 equipos de la NFL en
una temporada completa.

Team Conf Yds/Att lnt/Att Win%


Arizona Cardinals NFC 6.5 0.042 50.0
Atlanta Falcons NFC 7.1 0.022 62.5
Carolina Panthers NFC 7.4 0.033 37.5
Cincinnati Bengals AFC 6.2 0.026 56.3
Detroit Lions NFC 7.2 0.024 62.5
Green Bay Packers NFC 8.9 0.014 93 .8
Houstan Texans AFC 7.5 0.019 62.5
DATA. Indianapolis Colts AFC 5.6 0.026 12.5
NFLPassing Jacksonville Jaguars 4.6 0.032
AFC 31.3
Minnesota Vikings NFC 5.8 0.033 18.8
New England Patriots AFC 8.3 0.020 81.3
New Orleans Saints NFC 8.1 0.021 81.3
Oakland Raiders AFC 7.6 0.044 50.0
San Francisco 49ers NFC 6.5 0.011 81.3
Tennessee Titans AFC 6.7 0.024 56.3
Washington Redskins NFC 6.4 0.041 31.3

a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pases.
b) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el por-
centaje de juegos ganados, dado el número de intercepciones por intento.
e) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir el porcen-
taje de juegos ganados, dado el número promedio de yardas por intento de pase y el número
de intercepciones por intento.
d) El número promedio de yardas por intento de pase del equipo Kansas City Chiefs fue de 6.2
y el número de intercepciones fue de 0.036. Utilice la ecuación de regresión que elaboró
en el inciso e) para predecir el porcentaje de juegos ganados para este equipo. (Nota: el
registro del equipo de Kansas City Chiefs durante la temporada 2011 fue de 7 victorias y
9 derrotas) . Compare su predicción con el porcentaje real de juegos ganados por el equipo.

7. PC Magazine publicó las calificaciones para diferentes características de los monitores de


computadora, incluida una calificación general (sitio web de PC Magazine, abril de 2015). Los
siguientes datos muestran las calificaciones de contraste (Contrast Ratio), resolución (Resolu-
tion) y la calificación general (Overall Rating) para diez monitores en una escala de O a 100
puntos. El monitor mejor calificado fue el BenQ BL3201PH, con una calificación general de 87.

Model Contrast Ratio Resolution Overall Rating


BenQ BL3201PH 78 89 87
AOC U2868PQ!J 98 87 86
NEC MultiSync· PA322UHD 84 82 85
Acer XB280HK 78 77 82
DATA Asus ROG Swift PG278Q 82 82
65
MonitorRatings AOC El 759Fwu 57 78 82
Dell UltraSharp UZ27 l 5H 56 83 81
NEC MultiSync EA244UHD 77 75 79
HP DreamColor Z27x 47 81 77
Dell UltraSharp UZ2315H 55 70 76
684 Capítulo 15 Regresión múltiple

a) Desarrolle la ecuación de regresión estimada para predecir la calificación general a Partir


de la calificación de contraste.
b) Desarrolle la ecuación de regresión estimada para predecir la calificación general a partir
de las calificaciones de contraste y resolución.
e) Prediga la calificación general para un monitor con calificación de 85 de contraste y 74 de
resolución.
8. La lista Gold de la revista Condé Nast Traveler proporcionó las calificaciones de los 20 Prin-
cipales barcos pequeños de crucero. A continuación se presentan los datos con las calificacio-
nes que recibió cada barco (Ship), con base en los resultados de la encuesta Reader's Choice
Survey de la revista. Cada calificación representa el porcentaje de encuestados que calificó el
barco como excelente o muy bueno en varios criterios, incluyendo las excursiones de playa
(Shore Excursions) y alimentos (Food/Dining). También se reporta una calificación general
(overall) que se utilizó para clasificar a los barcos. El barco mejor clasificado fue el Seaboum
Odyssey, con una calificación general de 94.4, siendo su mejor componente 97.8 para sus
alimentos.

Shore
Ship Overall Excursions Food/Dining
Seaboum Odyssey 94.4 90.9 97.8
Seaboum Pride 93 .0 84.2 96.7
National Geographic Endeavor 92.9 100.0 88.S
Seaboum Sojoum 91.3 94.8 97.l
Paul Gauguin 90.5 87.9 91.2
Seaboum Legend
DATAll 90.3 82.1 98.8
Seaboum Spirit 90.2 86.3 92.0
Ships
. Silver Explorer 89.9 92.6 88.9
Silver Spirit 89.4 85.9 90.8
Seven Seas Navigator 89.2 83.3 90.5
Silver Whisperer 89.2 82.0 88.6
National Geographic Explorer 89.l 93.1 89.7
Silver Cloud 88.7 78.3 91.3
Celebrity Xpedition 87.2 91.7 73.6
Silver Shadow 87.2 75.0 89.7
SilverWind 86.6 78.1 91.6
SeaDreamll 86.2 77.4 90.9
Wind Star 86.1 76.5 91.5
Wind Surf 86.l 72.3 89.3
Wind Spirit 85.2 77.4 91.9

a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la califi-
cación general, dada la calificación para las excursiones de playa.
b) Añada la variable independiente de alimentos y obtenga una ecuación de regresión es-
timada que pueda emplearse para predecir la calificación total, dadas las calificaciones de
las excursiones de playa y alimentos.
e) Estime la calificación general de un crucero con una calificación en excursiones de playa
de 80 y una en alimentos de 90.

9 La Asociación de Golfistas Profesionales de Estados Unidos (Professional Golfers Association)


DATA1 1 · lleva registros del desempeño y los ingresos de los miembros del PGA Tour. En la temporada
PGADrivingDlst
2012, Bubba Watson lideró la lista de jugadores, con una distancia promedio de 309.20 yardas
por drive. Algunos factores que se cree que influyen en la distancia son velocidad de cabeza,
velocidad de la pelota y el ángulo de lanzamiento. En la temporada 2012, Watson tuvo una
15.2 Método de mínimos cuadrados 685

velocidad de cabeza promedio de 124.69 millas por hora, una velocidad de pelota promedio de
184.98 y un ángulo de lanzamiento de 8.79 grados. El archivo DATAfile llamado PGADriving-
Dist contiene los datos de distancias y factores de influencia para 190 miembros del PGA Tour
(sitio web del PGA Tour, 1 de noviembre de 2012). A continuación se presenta la descripción
de las variables que aparecen en los datos.

Velocidad de cabeza (Club Head Speed): velocidad a la que la cabeza impacta la pelota
(en millas por hora).

Velocidad de la pelota (Ball Speed): velocidad de la pelota en el lanzamiento (en millas


por hora).

Ángulo de lanzamiento (Launch Angle): ángulo vertical de lanzamiento después de que la


pelota deja la cabeza (en grados) .

Distancia total (Total Distance): promedio de yardas por drive.

a) Formule una ecuación de regresión estimada para predecir la cantidad de yardas por drive,
a partir de la velocidad de cabeza.
b) Formule una ecuación de regresión estimada para predecir la cantidad de yardas por drive,
a partir de la velocidad de la pelota.
e) Se recomienda desarrollar una ecuación de regresión estimada que emplee la velocidad de
la cabeza y de la pelota para predecir la cantidad promedio de yardas por drive. ¿Estaría
de acuerdo con ella? Explique su respuesta.
á) Formule una ecuación de regresión estimada para predecir la cantidad promedio de yardas
por drive a partir de la velocidad de la pelota y el ángulo de lanzamiento.
e) Suponga que un nuevo miembro del PGA Tour 2013 tiene una velocidad de pelota de
170 millas por hora y un ángulo de lanzamiento de 11 grados. Utilice la ecuación de re-
gresión del inciso á) para predecir la cantidad de yardas por drive de este jugador.

10. Las Grandes Ligas de Béisbol (MLB , por sus siglas en inglés) está constituida por equipos que
juegan en la Liga Americana y en la Liga Nacional de Estados Unidos. La MLB recaba una gran
variedad de estadísticas sobre equipos y jugadores. Algunas de éstas se utilizan con frecuencia
para evaluar el desempeño de los lanzamientos de la siguiente manera:

ERA: Número promedio de carreras ganadas dadas por el pitcher por nueve entradas. Una
carrera ganada es cualquier carrera que anota el oponente con un pitcher en particular, con
excepción de las carreras que resultan de errores.
SO/IP: Número promedio de strikeouts (ponches) por entrada.
HR/IP: Número promedio de jonrones por entrada.
R/IP: Número de carreras permitidas por entrada.

Los siguientes datos muestran los valores de estas estadísticas en una muestra de 20 lanzadores
de la Liga Americana durante un temporada.

Player Te3ID w L ERA SO/IP HR/lP R/IP


Verlander, J DET 24 5 2.40 1.00 0.10 0.29
Beckett, J BOS 13 7 2.89 0.91 0.11 0.34
Wilson, C TEX 16 7 2.94 0.92 0.07 0.40
DATA. Sabathia,C NYY 19 8 3.00 0.97 0.07 0.37
MLBPitching Haren, D LAA 16 10 3.17 0.81 0.08 0.38
McCarthy, B OAK 9 9 3.32 0.72 0.06 0.43
Saptana, E LAA 11 12 3.38 0.78 0.11 0.42
(continúa)
686 Capítulo 15 Regresión múltiple

Player Team w L ERA SO/IP HR/IP R/Ip


Lester, J BOS 15 9 3.47 0.95 0.10 0.40
Hernandez, F SEA 14 14 3.47 0.95 0.08 0.42
Buehrle, M cws 13 9 3.59 0.53 0.10 0.45
Pineda, M SEA 9 10 3.74 1.01 0.11 0.44
Colon, B NYY 8 10 4.00 0.82 0.13 0.52
Tomlin, J CLE 12 7 4.25 0.54 0.15 0.48
Pavano, C l\1IN 9 13 4.30 0.46 0.10 0.55
Danks, J cws 8 12 4.33 0.79 0.11 0.52
Guthrie, J BAL 9 17 4.33 0.63 0.13 0.54
Lewis, C TEX 14 10 4.40 0.84 0.17 0.51
Scherzer, M DET 15 9 4.43 0.89 0.15 0.52
Davis, W TB 11 10 4.45 0.57 0.13 0.52
Porcello, R DET 14 9 4.75 0.57 0.10 0.57

a) Desarrolle una ecuación de regresión estimada que pueda emplearse para predecir el nú-
mero promedio de carreras cedidas por entrada, dado el número promedio de strik:eouts 0
ponches por entrada.
b) Desarrolle una ecuación de regresión estimada que pueda aplicarse para predecir el número
promedio de carreras cedidas por entrada, dado el número promedio de jonrones por en-
trada.
e) Desarrolle una ecuación de regresión estimada que pueda aplicarse para predecir el número
promedio de carreras cedidas por entrada, dados el número promedio de strikeouts o pon-
ches y el número de jonrones, ambos por entrada.
d) El lanzador de los Yankees de Nueva York, A. J. Burnett, tiene un número promedio de
strik:eouts de 0.91 y un número promedio de jonrones de 0.16 por entrada. Utilice la ecua-
ción de regresión estimada que desarrolló en el inciso e) para predecir el número promedio
de carreras cedidas por entrada por A. J. Bumett. (Nota: El valor real de R/IP fue de 0.6.)
e) Suponga que le sugieren utilizar el promedio de carreras anotadas como otra variable inde-
pendiente para desarrollar el inciso e) de este ejercicio. ¿Qué pensaría de esta sugerencia?

§ Coeficiente de determinación múltiple


En la regresión lineal simple se mostró que la suma de cuadrados se podía dividir o particionar
en dos componentes: la suma de cuadrados debido a la regresión y la suma de cuadrados de-
bido al error. El mismo procedimiento podemos aplicarlo a la suma de cuadrados de la regresión
múltiple.

RELACIÓN ENTRE STC, SCR Y SCE

STC = SCR + SCE ( 15.7)

donde

STC = suma total de cuadrados = L(Y; - y) 2


SCR = suma de cuadrados debido a la regresión = L(Y; - )i) 2

SCE = suma de cuadrados debido al error = L(Y; - y¡)1


15.3 Coeficiente de determinación múltiple 687

Dado lo complejo de los cálculos de estas tres sumas de cuadrados, es necesario emplear
un software para realizarlos. En los resultados de Minitab de la figura 15.4, en la parte del aná-
lisis de varianza, se presentan estos tres valores para el problema de Butler Trucking con dos
variables independientes: STC = 23.900, SCR = 21.601 y SCE = 2.294. Cuando se empleó una
sola variable independiente (número de millas recorridas) en los resultados de Minitab de la fi-
gura 15.3, observamos que STC = 23 .900, SCR = 15.871 y SCE = 8.029. El valor de la STC es el
mismo en ambos casos, debido a que no depende de y, pero al agregar otra variable (el número
de entregas), SCR aumenta y SCE disminuye. Esto tiene como consecuencia que la ecuación de
regresión estimada tenga un mejor ajuste para los datos observados.
En el capítulo 14 se empleó el coeficiente de determinación, r 2 = SCR/STC, para medir la
bondad de ajuste de la ecuación de regresión estimada. El mismo concepto es válido en la re-
gresión múltiple. El término coeficiente de determinación múltiple indica que se mide la
bondad de ajuste de la ecuación de regresión múltiple estimada. El coeficiente de determinación
múltiple, que se denota R 2 , se calcula como sigue:

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

SCR
R2 = - ( 15.8)
STC

Este coeficiente puede interpretarse como la proporción de la variabilidad de la variable


dependiente que se explica por la ecuación de regresión estimada. Por lo tanto, el producto de
este coeficiente por 100 se interpreta como el porcentaje de la variabilidad en y que se explica
por la ecuación de regresión estimada.
Cuando se emplean dos variables independientes en el ejemplo de Butler Trucking, como
SCR = 21.606 y STC = 23 .900, tenemos

2 6 6
R2 = 1. 0 = 0.9038
23 .900

Por lo tanto, 90.38% de la variabilidad en el tiempo de recorrido y se explica por la ecuación de


regresión estimada en la que las variables independientes son las millas recorridas y el número
de entregas. En la figura 15.4 observamos que en el resultado proporcionado por Minitab apare-
ce también el coeficiente de determinación múltiple, que se denota R-sq = 90.38%.
Al aumentar el número de En la figura 15.3 el valor de R-sq para la ecuación de regresión estimada con una sola va-
variables independientes riable, número de millas recorridas (x 1), es 66.41 %. Así, al agregar el número de entregas como
los errores de predicción
una variable indepe_ndiente más, el porcentaje de variabilidad en el tiempo de recorrido que se
se hacen más pequeños, con
lo que se reduce la suma explica por la ecuación de regresión estimada aumenta de 66.41 a 90.38%. En general, siempre
de cuadrados debido al que se agrega al modelo una variable independiente, R 2 aumenta.
error, SCE. Como SCR = Muchos analistas prefieren ajustar R 2 al número de variables independientes para evitar
STC - SCE, cuando SCE
sobreestimar el efecto de agregar una variable independiente sobre la cantidad de la variabilidad
disminuye, SCR aumenta,
lo que ocasiona que
que se explica por la ecuación de regresión estimada. Siendo n el número de observaciones y p
2
R = SCRISTC aumente. el número de variables independientes, el coeficiente de determinación múltiple ajustado se
calcula como sigue:
688 Capítulo 15 Regresión múltiple

Cuando se agrega una


variable al modelo, R 2 COEFICIENTE DE DETERMINACIÓN MÚLTIPLE AJUSTADO
se hace más grande, aun
cuando esta variable n - 1
no sea estadísticamente R; = 1 - (1 - R 2 ) - - - - ( 15.9)
n - p - 1
significativa. El coeficiente
de determinación múltiple
ajustado compensa el
número de variables
independientes en el modelo.
En el ejemplo de Butler Trucking con n = 10 y p = 2 tenemos

10 - 1
R; = 1 - (1 - 0.9038)
10-2-1
= 0.8763

Por lo tanto, una vez que el coeficiente de determinación múltiple se ha ajustado a dos variables
independientes, su valor es de 0.8763. En los resultados de Minitab de la figura 15.4, este valor
(expresado como porcentaje) se presenta como R-sq(adj) = 87.63%.

Si el valor de R 2 es pequeño y el número de variables gativo; en tales casos, Minitab establece el cero como
independientes en el modelo es grande, el coeficiente coeficiente de determinación ajustado.
de determinación ajustado puede asumir un valor ne-

Métodos
11. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
vaciones.

y = 29.1270 + 0.5906x 1 + 0.4980x2

Los valores de STC y SCR son 6724.125 y 6216.375, respectivamente.


a) Determine SCE.
b) Calcule R 2 .
e) Calcule R;.
d) Analice la bondad de ajuste.

12. En el ejercicio 2 se presentaron 10 observaciones con los valores de la variable dependiente Y


AUTO evaluación
. .. . . .
~~- '• y dos variables independientes x 1 y x2 ; con estos datos, STC = 15182.9 y SCR = 14 052.2 .
a) Calcule R 2 •
b)_ Determine R;.
e)' ¿La ecuación de regresión estimada explica una proporción grande de la variabilidad de
los datos? Explique.
13. En el ejercicio 3 se presentó la siguiente ecuación de regresión estimada basada en 30 observa-
ciones.

y = 17.6 + 3.8X¡ - 2.3X2 + 7.6X3 + 2.7X4

Los valores de STC y SCR son 1 805 y 1 760, respectivamente.


15.3 Coeficiente de determinación múltiple 689

a) Calcule R 2 .
b) Calcule R; .
e) Analice la bondad de ajuste.

Aplicaciones
14. En el ejercicio 4 se proporcionó la siguiente ecuación de regresión estimada que relaciona las
ventas contra la inversión en inventario y los gastos de publicidad.

y= 25 + 10x 1 + 8x2

Los datos para desarrollar este modelo provienen de 10 tiendas; con esta información, la
STC = 16 000 y la SCR = 12000.
a) Calcule R 2 para la ecuación de regresión estimada.
b) Calcule R; .
e) ¿Este modelo parece explicar gran parte de la variabilidad de los datos? Explique.

15 . En el ejercicio 5, el propietario de Showtime Movie Theaters, Inc. aplicó el análisis de regre-


AUTO evalúación
t_ :• ~ • , ~ - '¿
sión múltiple para predecir el ingreso bruto (y) en función de la publicidad en televisión (x 1) y
la publicidad en periódicos (Xi) . La ecuación de regresión estimada es

y = 83.2 + 2.29x 1 - l.30x 2

Showtime La solución obtenida con software proporciona STC = 25.2 y SCR = 23.435.
a) Calcule e interprete R2 y R ;.
b) Cuando la publicidad en televisión es la variable independiente, R 2 = 0.653 y R; = 0.595.
¿Prefiere los resultados de la regresión múltiple? Explique.
16. En el ejercicio 6 se presentó el número promedio de yardas por intento de pase (Yds/ Att), el
número de intercepciones por intento (lnt/ ATI) y el promedio de juegos ganados (Win%) para
NFLPassing una muestra aleatoria de 16 equipos de la NFL durante una temporada.
a) ¿La ecuación de regresión estimada que emplea el número promedio de yardas por intento
de pase como variable independiente para predecir el porcentaje de juegos ganados tiene
bondad de ajuste?
b) Analice los beneficios de utilizar tanto el número promedio de yardas por intento de pase
como el número de intercepciones por intento para predecir el porcentaje de juegos ganados.
17 En el inciso d) del problema 9 se usaron los datos del DATAfile PGADrivingDist (sitio web
DATA. . del PGA Tour, 1 de noviembre de 2012) para desarrollar una ecuación de regresión estimada
PGADrivingDist
para predecir la cantidad de yardas por drive, a partir de la velocidad de la pelota y el ángulo de
lanzamiento.
a) ¿La ecuación de regresión estimada tiene un buen ajuste con los datos? Explique.
b) En el inciso b) del problema 9 se desarrolló una ecuación de regresión estimada para pre-
decir la cantidad de yardas, usando sólo la velocidad de la pelota. Compare el ajuste que se
obtiene al usar sólo la velocidad de la pelota con la que se obtiene al usar además el ángulo
de lanzamiento.
18 Refiérase al ejercicio 1O, en el que se presentaron las estadísticas de lanzamientos de la MLB
DATA. . para una muestra aleatoria de 20 lanzadores de la Liga Americana durante una temporada.
MLBPitching a) En el inci"so e) del ejercicio 10 se obtuvo una ecuación de regresión estimada que propor-
ciona el número promedio de carreras permitidas por entrada, dado el número promedio
de strikeouts y el número promedio de jonrones por entrada. ¿Cuáles son los valores de
R 2 y R;?
b) ¿La ecuación de regresión estimada tiene bondad de ajuste?
e) Suponga que en el inciso e) se utiliza el número promedio de carreras anotadas (ERA) como
variable dependiente en lugar del número promedio de carreras permitidas por entrada
lp.nzada. ¿Esta nueva ecuación de regresión tiene bondad de ajuste para los datos? Explique
su respuesta.
690 Capítulo 15 Regresión múltiple

§ Supuestos del modelo


En la sección 15.1 se presentó el siguiente modelo de regresión múltiple.

MODELO DE REGRESIÓN MÚLTIPLE

( 15.1 O)

Los supuestos acerca del término del error E en el modelo de regresión múltiple son análogos a
los supuestos en el modelo de regresión lineal simple.

SUPUESTOS SOBRE EL TÉRMINO DEL ERROR E EN EL MODELO DE REGRESIÓN MÚLTIPLE


y = /3 0 + /3 1x 1 + · · · + f3PxP + E.
l. El término del error E. es una variable aleatoria cuya media o valor esperado es
cero, es decir, E( E) = O
Consecuencia. Para los valores dados de x 1, x2, .. . , xP' el valor esperado o va-
lor promedio de y está dado por

( 15. 11)

Ésta es la ecuación de regresión múltiple que se presentó en la sección 15.1. En


dicha expresión, E(y) representa el promedio de todos los valores que puede
asumir y para valores dados de X¡. x 2, . . . , xP.
2. La varianza de E. se denota a 2 y es la misma para todos los valores de las varia-
bles independientes x 1, x 2, . .. , xP.
Consecuencia. La varianza de y respecto de la línea de regresión es a 2 y es la
misma para todos los valores de x 1, x 2, . .. , xP.
3. Los valores de E son independientes.
Consecuencia. El valor de E. para un determinado conjunto de valores de las va-
riables independientes no está relacionado con el valor de E de ningún otro con-
junto de valores.
4. El término del error E es una variable aleatoria distribuida normalmente y refleja
la desviación entre el valor de y y su valor esperado dado por y = {3 0 + {3 1x 1 +
f32X2 + ' . . + f3pxp.
Consecuencia. Como {3 0, {3 1, • •. , f3P son constantes para los valores dados de
X¡. x 2, . . . , xP, la variable dependiente y es también una variable aleatoria distri-
buida normalmente.

Para entender mejor la forma de la relación dada por la ecuación (15 .11), considere la si-
guiente ecuación de regresión múltiple con dos variables independientes.

La gráfica de esta ecuación es un plano en el espacio tridimensional. La figura 15.5 es un ejem-


plo de gráfica de este tipo. Observe que, como se indica, el valor de E es la diferencia entre el
verdadero valor de y y su valor esperado, E(y), cuando x 1 = xf y x2 = xf .
15.5 Prueba de significancia 691

FIGURA 15.5 Gráfica de la ecuación de regresión que se utiliza en el análisis de regresión


múltiple con dos variables independientes

y Valor de y cuando
x 1 = xj y x2 = xi

/30
/ E( y) cuando
Plano que corresponde a E x 1 = xj y x 2 = x2•
E(y) = f3o + f31x1 + /32x2

X2

Punto que corresponde a


x 1 = xj y x 2 = xi

En el análisis de regresión suele emplearse el término variable de respuesta en lugar de


variable dependiente. Además, como la ecuación de regresión múltiple genera un plano o su-
perficie, a su gráfica se le llama superficie de respuesta.

§ Prueba de significancia
En esta sección se estudia cómo realizar una prueba de significancia para una relación de re-
gresión múltiple. Las pruebas de significancia que se utilizaron en la regresión lineal simple
fueron la prueba t y la prueba F, y ambas llevan a la misma conclusión; es decir, si se rechaza
*
la hipótesis nula, se concluye que /3 1 O. En la regresión múltiple, la prueba t y la prueba F
tienen propósitos diferentes.

l. La prueba F determina si existe una relación de significancia entre la variable depen-


diente y el conjunto de todas las variables independientes; a esta prueba F se le llama
prueba de significancia global.
2. Si la prueba F indica que existe significancia global, se usa la prueba t para identificar
si cada una de las variables individuales es significativa. Para cada una de las variables
independientes del modelo se realiza una prueba t, y a cada cual se le refiere como prue-
ba de significancia individual.

A continuación se explican la prueba F y la prueba t y su aplicación al ejemplo de Butler Truc-


king Company.

Prueba F
El modelo de regresión múltiple que se definió en la sección 15.4 es

La hipótesis de la prueba F comprende los parámetros del modelo de regresión múltiple.

Ho: /31 == /32 == · · · == f3 P == O


H.: uno o más de los parámetros es diferente de cero
692 Capítulo 15 Regresión múltiple

Cuando Ha es rechazada, la prueba proporciona evidencia estadística suficiente para concluir


que uno o más de los parámetros es diferente de cero y que la relación global entre y y el con-
junto de variables independientes X¡. .xi• ... , xP es significativa. En cambio, si Ha no puede ser
rechazada, no se tiene evidencia suficiente para concluir que existe una relación significativa.
Antes de describir los pasos de la prueba F es necesario revisar el concepto de cuadrado
medio. Éste es la suma de cuadrados dividida entre sus correspondientes grados de libertad. En
el caso de la regresión múltiple, la suma de cuadrados del total tiene n - 1 grados de libertad, la
suma de cuadrados debido a la regresión (SCR) tiene p grados de libertad y la suma de cuadrados
debido al error tiene n - p - 1 grados de libertad. Por lo tanto, el cuadrado medio debido a
la regresión (CMR) es SCR/p y el cuadrado medio debido al error (Cl\.1E) es SCE/(n - p - 1).

SCR
CMR = - - ( 15.12)
p

SCE
Cl\.1E = (15.13)
n-p-1

Como se vio en el capítulo 14, el Cl\.1E proporciona una estimación insesgada de a 2, la varianza
del término del error E. Si Ha: /3 1 = /3 2 = · · · = /3P = Oes verdadera, el CMR también provee un
estimador insesgado de a 2 , y el valor de CMR/Cl\.1E será cercano a l. Pero si Ha es falsa, el CMR
.sobreestima a 2 y el valor de CMR/ Cl\.1E será mayor. Para determinar qué tan grande debe ser este
valor para que Ha sea rechazada, se retoma el hecho de que si Ha es verdadera y los supuestos
acerca del modelo de regresión múltiple son válidos, la distribución muestra! de CMR/Cl\.1E es
una distribución F con p grados de libertad en el numerador y n - p - 1 en el denominador. A
continuación se presenta un resumen de la prueba F de significancia para la regresión múltiple.

PRUEBA F DE SIGN1FICANCIA GLOBAL

Ha: /31 = /32 = · · · = /3P = O


Hª: uno o más de los parámetros son diferentes de cero

ESTADÍSTICO DE PRUEBA

CMR
F=-- (15.14)
Cl\.1E

REGLA DE RECHAZO

Método del valor-p: Rechazar Ha si el valor-p s; a


Método del valor crítico: Rechazar Ha si F 2! Fa

donde F ª pertenece a la distribución F con p grados de libertad en el numerador Y


n - p -: 1 grados de libertad en el denominador.

Enseguida se presenta la aplicación de la prueba F al problema de regresión múltiple de


Butler Trucking Company. Como se tienen dos variables independientes, las hipótesis se expre-
san de la siguiente manera:

Ha: /31 = /32 = O


Ha: /3 1y /o /3 2es diferente de cero
15.5 Prueba de significancia 693

FIGURA 15.6 Resultado de Minitab para el ejemplo de Butler Truck:ing con dos variables
independientes, millas recorridas (x 1) y número de entregas (x2 )

Analysis of Variance

So urce DF Adj SS Adj MS F-Value P-Value


Regression 2 21. 6006 10.8003 32.88 0.000
Miles 1 12.5556 12.5556 38.22 0.000
Deliveries 1 5.7293 5.7293 17.44 0.004
Error 7 2.2994 0.3285
Lack-of-Fit 6 2.2194 0.3699 4.62 0.342
Pure Error 1 0.0800 0.0800
Total 9 23.9000

Model Summary

s R-sq R-sq(adj) R-sq(pred)


0.573142 90.38% 87.63% 80.76%

Coefficiente

Term Coef SE Coef T-Value P-Value VIF


Constant -0.869 0.952 -0.91 0.392
Miles o. 06113 0.00989 6.18 0.000 l. 03
Deliveries o. 923 0.221 4.18 0.004 l. 03

Regression Equation
Time = -0.869 + 0.06113 Miles + 0.923 Deliveries

En la figura 15.6 se presentan los resultados de Minitab para el modelo de regresión múltiple
con dos variables independientes, millas recorridas (x 1) y número de entregas (x2 ). En la parte
que corresponde al análisis de varianza, vemos que CMR = 10.8003 y CME = 0.3285. Con la
ecuación (15.14) obtenemos el valor del estadístico de prueba.

3
F = l0. 300 = 32.88
0.3285

Con a = 0.01, el valor-p = 0.000 que aparece en la última columna de la tabla del análi-
sis de varianza (figura 15.6) indica que H 0 : /3 1 = /32 = O puede ser rechazada, puesto que el
valor-pes menor que a = 0.01. Asimismo, en la tabla 4 del apéndice B observamos que con
2 grados de libertad en el numerador y 7 en el denominador, F 0.01 = 9.55. Como 32.88 > 9.55,
H0 : /3 1 = /3 2 = Oes rechazada, y se concluye que existe una relación significativa entre el tiem-
po de recorrido y y las dos variables independientes, millas recorridas y número de entregas.
Como ya se indicó, el error cuadrado medio proporciona un estimador insesgado de a 2 , la
varianza del término del error e. En la figura 15.6 vemos que la estimación de a 2 es CME =
0.3285. La raíz cuadrada del CME es la estimación de la desviación del término del error. Como
se definió en la sección 14.5, esta desviación es el error estándar de estimación que se denota s.
Por lo tanto, s = VCME = V0.3285 = 0.5731. Observe que este valor del error estándar de
estimación aparece en los resultados de Minitab de la figura 15.6.
La tabla 15.3 es la tabla general para el análisis de varianza (ANOVA) que proporciona los
resultados de la prueba F para un modelo de regresión múltiple. El valor del estadístico de
prueba F aparece en la última columna y debe compararse con Fa con p grados de libertad en
el numerador y n - p - 1 grados de libertad en el denominador para obtener la conclusión de
la prueba de hipótesis. Si se revisan los resultados de Minitab para el ejemplo de Butler Trucker
Company de la figura 15.6, la tabla del análisis de varianza contiene esta información. Además,
Minitab también proporciona el respectivo valor-p al estadístico de prueba F.
694 Capítulo 15 Regresión múltiple

TABLA 15.3 Tabla ANOVA para el modelo de regresión múltiple con p variables independientes

Suma de Grados de
Fuente cuadrados libertad Cuadrado medio F
SCR CMR
Regresión SCR p CMR=-- F=--
p CME
SCE
Error SCE n-p-1 CME =
n-p-1
Total STC n- 1

Prueba t
Si la prueba F indica que la relación de regresión múltiple es significativa, entonces podemos
realizar una prueba t para determinar la significancia de cada uno de los parámetros. A conti-
nuación se presenta para tal efecto la prueba t de significancia.

PRUEBA t DE SIGNlFICANCIA PARA CADA UNO DE LOS PARÁMETROS

Para cualquier parámetro fJ;

H 0 : /J; =O
Hª: /J; i= O

ESTADÍSTICO DE PRUEBA

(15.15)

REGLA DE RECHAZO

Método del valor-p: Rechazar H 0 si el valor-p ::s a


Método del valor crítico: Rechazar H 0 si t ::s - ta; 2 o si t ~ ta; 2

donde tª 12 es un valor de la distribución t con n - p - 1 grados de libertad.

En el estadístico de prueba, sb. es la estimación de la desviación estándar de b;. El software


proporciona el valor de sb.· '
A continuación se re~liza la prueba t para el problema de regresión de Butler Trucking.
Remítase a la sección de la figura 15.6 en la que se proporcionan los resultados de Minitab para
el cálculo del cociente t. Los valores de b 1, b 2 , sb 1 y sb2 son los siguientes:

b¡ = 0.06113 sb = 0.00989
1

b2 = 0.923 sb
2
= 0.221

Con la ecuación (15 .15) obtenemos el estadístico de prueba para las hipótesis en que intervie-
nen /3 1 y {3 2 .

t = 0.06113/0.00989 = 6.18
t = 0.923/ 0.221 = 4.18
15.5 Prueba de significancia 695

Observe que los valores de estas dos razones-! y sus correspondientes valores-p aparecen en
la figura 15.6. Si se utiliza a = 0.01, los valores-p 0.000 y 0.004 en los resultados de Minitab
indican que H 0 : /3 1 = O y H 0 : {3 1 = O pueden ser rechazadas . Así, ambos parámetros son esta-
dísticamente significativos. Asimismo, en la tabla 2 del apéndice B se encuentra que con n -
p - 1 = 10 - 2 - 1 = 7 grados de libertad, t0 .005 = 3.499. Como 6.18 > 3.499, H0 : /3 1 = O
es rechazada. De manera similar, como 4.18 > 3 .499, H0 : /3 1 = Oes rechazada.

Multicolinealidad
En el análisis de regresión se recurre al término variable independiente para referirse a cualquier
variable utilizada para predecir o explicar el valor de la variable dependiente. Sin embargo, este
término no significa que tales variables sean independientes entre ellas en sentido estadístico.
Al contrario, en un problema de regresión múltiple la mayoría de las variables independientes
están, en cierto grado, correlacionadas unas con otras. En el ejemplo de Butler Trucking con
dos variables independientes x 1 (millas recorridas) y x1 (número de entregas), las millas reco-
rridas pueden tratarse como la variable dependiente y el número de entregas como la variable
independiente para determinar si ambas se relacionan entre sí. Después se calcula el coeficiente
de correlación muestra! rx 1x2 para determinar la magnitud de tal relación. Con esto obtenemos
rx x = 0.16. Por lo tanto, se encuentra que existe cierto grado de relación lineal entre estas dos va-
1 2
riables independientes. En el análisis de regresión múltiple, la multicolinealidad expresa la
correlación entre las variables independientes.
Para obtener una mejor perspectiva de los problemas potenciales de la multicolinealidad, se
considerará una modificación al ejemplo de Butler Trucking. En lugar de que x1 sea el número
de entregas, denotará el número de galones de gasolina consumidos. Es claro que x 1 (las mi-
llas recorridas) y x1 están relacionadas, es decir, se sabe que el número de galones de gasolina
consumidos depende del número de millas recorridas. Por lo tanto, se concluirá que x 1 y x 1 son
variables independientes fuertemente correlacionadas.
Suponga que se obtiene la ecuación y = b0 + b 1x 1 + b1 x 1 y que la prueba F indica que
esta relación es significativa. Después suponga que se realiza la prueba t para {3 1 a efecto
*
de determinar si /3 1 O y H0 : {3 1 = O no puede ser rechazada. ¿Esto significa que el tiempo de
recorrido no se relaciona con las millas recorridas? No necesariamente. Lo que probablemente
significa es que estando Xi en el modelo, x 1 no tiene una contribución significativa en la deter-
minación del valor de y. En el presente ejemplo esta interpretación parece razonable; cono-
ciendo la cantidad de gasolina consumida, no se gana más información para la predicción de y
conociendo el número de millas recorridas . De manera similar, una prueba t puede llevar a
la conclusión de que /3 2 = Ocon base en que, cuando x 1 está en el modelo, no se gana mucho al
Valores del coeficiente
de correlación muestra[ conocer la cantidad consumida de gasolina.
mayores que +0.7 En resumen, en las pruebas t para la significancia de cada uno de los parámetros, la difi-
o menores que -0.7 cultad ocasionada por la multicolinealidad lleva a concluir que ninguno de los parámetros es
para dos variables significativamente distinto de cero cuando la prueba F sobre la ecuación de regresión múltiple
independientes es una regla
general que alerta sobre
general indica que existe una relación significativa. Este problema se evita cuando existe poca
problemas potenciales de correlación entre las variables independientes.
multicolinealidad. Los expertos en estadística han desarrollado diversas pruebas a efecto de determinar si
la multicolinealida~ es lo suficientemente alta para ocasionar problemas. Con base en una regla
práctica, la multicolinealidad es un problema potencial si el valor absoluto del coeficiente de
Cuando las variables
independientes correlación muestra! es mayor que 0.7 para cualquier par de variables independientes. Otros
están fuertemente tipos de pruebas son más avanzados y quedan fuera del alcance de este libro.
correlacionadas, es Siempre que sea posible, debe evitarse incluir variables independientes fuertemente correla-
imposible determinar el cionadas. Sin embargo, en la práctica, el estricto apego a esta conducta rara vez es posible. Cuan-
efecto por separado de
cada una de las variables
do las personas que toman decisiones tienen razones para creer que existe una multicolinealidad
independientes sobre la importante, se darán cuenta de que es difícil separar los efectos de cada una de las variables
variable dependiente. independientes sobre la variable dependiente.
696 Capítulo 15 Regresión múltiple

Por lo general, la multicolinealidad no afecta la ma- erróneo. Esto es, en estudios simulados en los que los
nera en que se realiza el análisis de regresión o en que investigadores crearon el modelo de regresión sub-
se interpretan los resultados de un estudio. Pero si yacente y después aplicaron el método de mínimos
es severa --esto es, cuando dos o más variables inde- cuadrados para obtener estimaciones de {3 0, {3 1, 13
2
pendientes están altamente correlacionadas una con etc., se ha demostrado que en condiciones de fuert~
otra-, podemos tener dificultades al interpretar los multicolinealidad, las estimaciones obtenidas por mí-
resultados de las pruebas t acerca de cada uno de nimos cuadrados pueden tener signo opuesto al del
los parámetros. Además del tipo de problemas ilus- parámetro que se estima. Por ejemplo, /3 2 puede ser en
trados en esta sección, se ha demostrado que los realidad+ 10 y b2 , su estimación, resulta ser -2. Por
casos severos de multicolinealidad dan como resul- lo tanto, si existe una fuerte multicolinealidad, podrá
tado estimaciones por mínimos cuadrados con signo tenerse poca confianza en los coeficientes.

Métodos
19. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
AUTO vaciones.
y = 29.1270 + 0.5906x 1 + 0.4980x2
donde STC = 6724.125, SCR = 6216.375, sb 1 = 0.0813 y sb2 = 0.0567.
a) Calcule CMR y C:ME.
b) Determine F y realice la prueba F adecuada. Use a = 0.05.
e) Realice una prueba t para la significancia de /3 1. Utilice a = 0.05.
á) Efectúe una prueba t para la significancia de /3 2 • Utilice a = 0.05.
20. Remítase a los datos presentados en el ejercicio 2. La ecuación de regresión estimada de estos
datos es
y= -18.37 + 2.0lx 1 +4.74x2

donde STC = 15182.9, SCR = 14052.2, sb 1 = 0.2471 y sb2 = 0.9484.


a) Realice una prueba para determinar si existe una relación significativa entre x 1, Xi y y. Use
a= 0.05.
b) ¿Es significativo /3 1? Considere a = 0.05.
e) ¿Es significativo /3 2 ? Use a = 0.05.

21. Se obtuvo la siguiente ecuación de regresión estimada para un modelo con dos variables inde-
pendientes.
y = 40.7 + 8.63x 1 + 2.7lx2
Después de eliminar x2 del modelo, se aplicó el método de mínimos cuadrados para obtener una
ecuación de regresión estimada con una sola variable independiente, x 1•

y = 42.0 + 9.0lx 1

a) - Proporcione en ambos modelos la interpretación del coeficiente de x 1•


b) · ¿La multicolinealidad podria explicar por qué el coeficiente de x 1 es diferente en los dos
modelos? De ser así, ¿cómo ocurriría?

Aplicaciones
22. En el ejercicio 4 se proporcionó la siguiente ecuación de regresión estimada que relaciona las
ventas con la inversión en inventario y los gastos de publicidad.

y = 25 + lOx 1 + 8x2
15.5 Prueba de significancia 697

Los datos que se utilizaron para obtener el modelo provienen de un estudio realizado en 1O
tiendas; para estos datos, STC = 16000 y SCR = 12000.
a) Calcule SCE, CME y CMR.
b) Use la prueba F y 0.05 como nivel de significancia para determinar si existe una relación
entre las variables.

23. Remítase al ejercicio 5.


AUTO evaluación a) Use a = 0.01 para probar las hipótesis

Ha: f31 = f32 = O


H.: {3 1 y/ o {3 2 son diferentes de cero

en el modelo y= {3 0 + {3 1x 1 + {3 2 x 2 + E, donde

x1 = publicidad en televisión (en miles de dólares)


Xi = publicidad en periódicos (en miles de dólares)

b) Considere a = 0.05 para probar la significancia de {3 1 ; ¿debe eliminarse x 1 del modelo?


e) Considere a = 0.05 para probar la significancia de {3 2 ; ¿debe eliminarse x 2 del modelo?
24. La NFL (National Football League) registra diversos datos del desempeño de los jugadores
DATA. y los equipos. A continuación se presenta una parte de los datos que muestran la cantidad de
NFL yardas obtenidas por la ofensiva del equipo por partido (OffPassYds/G), la cantidad de yardas
concedidas por la defensa por juego(DefYds/G) y el porcentaje de juegos ganados (Win%) en
una temporada.

Team OtlPass Yds/ G DefYds/G Win%


Arizona 222.9 355.1 50.0
Atlanta 262.0 333.6 62.5
Baltimore 213.9 288.9 75.0

St. Louis 179.4 358.4 12.5


TampaBay 228.1 394.4 25.0
Tennessee 245.2 355 .l 56.3
Washington 235.8 339.8 31.3

a) Desarrolle una ecuación de regresión estimada para predecir el porcentaje de partidos


ganados a partir del número de yardas obtenidas por la ofensiva del equipo y las yardas
concedidas por la defensa por partido.
b) Use la prueba F para determinar la significancia general de la relación. Utilice un nivel de
significancia de 0.05 . ¿Cuál es su conclusión?
e) Use la prueba t para determinar la significancia de cada variable independiente. Utilice un
nivel de significancia de 0.05. ¿Cuál es su conclusión?

25 . La lista Gold :de la revista Candé Nast Traveler del año 2012 proporcionó las calificacio-
nes de los 20 principales barcos de crucero pequeños (sitio web Candé Nast Traveler, 1 de
marzo de 2012). A continuación se presentan los datos con las calificaciones que recibió cada
barco (Ship) con base en los resultados de la encuesta Reader's Choice Survey de la revista.
Cada calificación representa el porcentaje de encuestados que calificó el barco como excelente
o muy bueno en varios criterios, incluyendo los horarios e itinerarios (ltineraries/Schedule), las
excursiones de playa (Shore Excursions) y alimentos (Food/Dining). También se reporta una
calificación general (Overall) que se utilizó para clasificar a los barcos. El barco mejor clasi-
ficado fue el Seabaum Odyssey, con una calificación general de 94.4, siendo su mejor califica-
ción 97.8 para sus alimentos.
698 Capítulo 15 Regresión múltiple

ltineraries/ Shore Foodf


Ship OveraU Schedule Ex cursio ns Dining
Seaboum Odyssey 94.4 94.6 90.9 97.8
Seaboum Pride 93.0 96.7 84.2 96.7
National Geographic Endeavor 92.9 100.0 100.0 88.5
Seaboum Sojoum 91.3 88.6 94.8 97.1
Paul Gauguin 90.5 95.l 87.9 91.2
Seaboum Legend 90.3 92.5 82.1 98.8
Seaboum Spirit 90.2 96.0 86.3 92.0
DATAllJI Si/ver Explorer 89.9 92.6 92.6 88.9
Silver Spirit 89.4 94.7 85.9 90.8
CruiseShips
Seven Seas Navigator 89.2 90.6 83.3 90.5
Silver Whisperer 89.2 90.9 82.0 88.6
National Geographic Explorer 89.l 93.1 93.l 89.7
Silver Cloud 88.7 92.6 78.3 91.3
Celebrity Xpedition 87.2 93.l 91.7 73.6
Silver Shadow 87.2 91.0 75.0 89.7
Si/ver Wind 86.6 94.4 78.l 91.6
SeaDreamll 86.2 95.5 77.4 90.9
WindStar 86.l 94.9 76.5 91.5
Wind Surf 86.l 92.l 72.3 89.3
Wind Spirit 85.2 93.5 77.4 91.9

a) Obtenga la ecuación de regresión estimada para predecir la calificación general, dadas las
calificaciones de horarios e itinerarios (Itineraries/Schedule), las excursiones de playa
(Shore Excursions) y alimentos (Food/Dining).
b) Utilice la prueba F para determinar la significancia global de la relación. Con un nivel de
significancia de 0.05, ¿cuál es su conclusión?
e) Utilice la prueba t para determinar la significancia de cada variable independiente. Con un
nivel de significancia de 0.05, ¿cuál es su conclusión?
d) Elimine cualquier variable independiente de la ecuación de regresión que no sea significa-
tiva. ¿Cuál sería la ecuación de regresión estimada que recomendaría?
26 En el ejercicio 10 se presentaron datos sobre varias estadísticas para una muestra aleatoria de
DATAllJI . 20 lanzadores de la Liga Americana de la MLB. En el inciso e) del ejercicio se desarrolló una
MLBPitching
ecuación de regresión estimada para predecir el número promedio de carreras permitidas por
entrada (R/IP), dado el número promedio de strikeouts por entrada (SO /IP) y el número pro-
medio de jonrones por entrada (HR/IP).
a) Utilice la prueba F para determinar la significancia global de la relación. Con nivel de
significancia de 0.05, ¿cuál es su conclusión?
b) Utilice la prueba t para determinar la significancia de cada variable independiente. Con
nivel de significancia de 0.05, ¿cuál es su conclusión?

Uso de la ecuación de regresión estimada


par~ estimación y predicción
Los procedimientos que se siguen en la regresión múltiple para estimar el valor medio de Y Y
predecir un solo valor de y son similares a los que se utilizan en el análisis de regresión para una
sola variable independiente. Recuerde primero que en el capítulo 14 se mostró que la estimación
puntual del valor esperado de y para un valor dado de x es la misma que la estimación puntual de
un solo valor de y. En ambos casos se usó como estimación puntual y = b0 + b 1x.
En la regresión múltiple se sigue el mismo procedimiento, es decir, los valores dados de
. x 1, x2 , . . . , xP se sustituyen en la ecuación de regresión y como estimación puntual se usa el
correspondiente valor de y. Suponga que en el ejemplo de Butler Truking se desea manejar la
15.6 Uso de la ecuación de regresión estimada para estimación y predicción 699

TABLA 15.4 Intervalos de 95% de confianza y de predicción para el ejemplo de Butler Trucking

Valor de Valor de Intervalo de confianza Intervalo de predicción


X¡ X2 Límite inferior Límite superior Límite inferior Límite superior
50 2 3.146 4.924 2.414 5.656
50 3 4.127 5.789 3.368 6.548
50 4 4.815 6.948 4.157 7.607
100 2 6.258 7.926 5.500 8.683
100 3 7.385 8.645 6.520 9.510
100 4 8.135 9.742 7.362 10.515

ecuación de regresión estimada con x 1 (millas recorridas) y x 2 (número de entregas) para obtener
dos estimaciones por intervalo:

l. Un intervalo de confianza para la media del tiempo de recorrido de todos los camiones
que recorren 100 millas y efectúan dos entregas.
2. Un intervalo de predicción para el tiempo de recorrido de un determinado camión que
recorre 100 millas y efectúa dos entregas.

Siseutilizalaecuaciónderegresiónestimaday = -0.869 + 0.06113x 1 + 0.923x2 conx 1 = 100


y x2 = 2, obtenemos el siguiente valor de y.

y = -0.869 + 0.06113(100) + 0.923(2) = 7.09


Por lo tanto, en ambos casos la estimación puntual del tiempo de recorrido es de aproximada-
mente 7 horas.
Para obtener las estimaciones por intervalo del valor medio de y y un solo valor de y se
utilizan procedimientos similares a los que se aplican en el análisis de regresión con una sola
variable independiente. Las fórmulas que se necesitan quedan fuera del alcance de este libro;
sin embargo, el software para análisis de regresión múltiple suele proporcionar intervalos de
confianza, una vez que el usuario especifica los valores de x 1, x2, . • . , xP. En la tabla 15.4 se
presentan los intervalos de 95% de confianza y de predicción para algunos valores de x 1 y x 2
seleccionados del ejemplo de Butler Trucking. Estos valores se obtuvieron con ayuda de Mini-
tab. Observe que las estimaciones por intervalo para un solo valor de y proporcionan valores
más amplios que las estimaciones por intervalo para el valor esperado de y. Esta diferencia refle-
ja simplemente que, dados los valores x 1 y x2 , podernos estimar con mayor precisión el tiempo
medio de recorrido de todos los camiones que predecir el de un determinado camión.

Métodos
27. En el ejercicio 1 se presentó la siguiente ecuación de regresión estimada basada en 10 obser-
vaciones.

y = 29.1270 + 0.5906x 1 + 0.4980x2


a) Obtenga una estimación puntual del valor medio de y para x 1 = 180 y x 2 = 31 O.
b) Obtenga una estimación puntual para un solo valor de y cuando x 1 = 180 y Xz = 310.
28. Remítase al ejercicio 2. La ecuación de regresión estimada de los datos es
AUTO A

y = -18.4 + 2.0lx 1 + 4.74x2


a) Determine un intervalo de 95% de confianza para el valor medio de y cuando x 1 = 45 Y
= 15.
- X2

b) Obtenga un intervalo de 95% de predicción para el valor de y cuando x 1 = 45 Y x2 = 15.


700 Capítulo 15 Regresión múltiple

Aplicaciones
29. En el ejercicio 5, el propietario de Showtime Movie Theater, Inc. aplicó el análisis de regresión
AUTO evaluación múltiple para predecir los ingresos brutos (y) en función de la publicidad en televisión (x 1) y de
la publicidad en periódicos (x2) . La ecuación de regresión estimada fue

y = 83 .2 + 2.29x 1 + l.30x 2

a) ¿Cuáles serán los ingresos brutos esperados en una semana en la que se gastan $3500 en
publicidad en televisión (x 1 = 3.5) y $1800 en publicidad en periódicos (Xz = 1.8)?
b) Proporcione un intervalo de 95% de confianza para los ingresos medios de todas las sema-
nas en las que los gastos son los que se indican en el inciso a).
e) Determine un intervalo de 95% de predicción para la media de los ingresos de una semana,
asumiendo que los gastos son los que se indican en el inciso a).
30. En el ejercicio 24 se formuló una ecuación de regresión estimada para relacionar los partidos
ganados por un equipo de la NR en la temporada 2011, a partir de las yardas obtenidas por la
NFL2011
ofensiva y las concedidas por la defensa por partido (sitio web de ESPN, 3 de noviembre de 2012).
a) Prediga el porcentaje de partidos ganados para un equipo que tiene 225 yardas obtenidas
por la ofensiva y 300 yardas concedidas por la defensa.
b) Elabore un intervalo de predicción de 95% para el porcentaje de partidos ganados por un
equipo, con 225 yardas obtenidas por la ofensiva y 300 yardas concedidas por la defensa.
31. El estudio en línea Broker Survey de la American Association of Individual Investors (AAII)
encuesta en línea a sus miembros sobre su experiencia con las transacciones electrónicas mane-
jadas por corredores de descuento. Como parte de la encuesta se les pregunta sobre su nivel de
satisfacción con el precio por transacción (Trade Price) y la velocidad de ejecución de su corre-
dor (Speed of Execution), así como sobre la satisfacción general con transacciones electrónicas
(Satisfaction Electronic Trades). Las posibles respuestas eran sin opinión (0), insatisfecho (1),
poco satisfecho (2), satisfecho (3) y muy satisfecho (4). Se calcularon las calificaciones de caéia
bróker como promedios ponderados de las calificaciones de los encuestados. A continuación se
presenta una parte de los resultados de la encuesta (sitio web de la AAII, 7 de febrero de 2012).

Satisfaction
Trade Speed of Electronic
Brokerage Price Execution 'frades
Scottrade, Inc. 3.4 3.4 3.5
Charles Schwab 3.2 3.3 3.4
Fidelity Brokerage Services 3.1 3.4 3.9
TD Ameritrade 2.9 3.6 3.7
E*Trade Financia! 2.9 3.2 2.9
DATAl l (Not listed) 2.5 3.2 2.7
Broker Vanguard Brokerage Services 2.6 3.8 2.8
USAA Brokerage Services 2.4 3.8 3.6
Thinkorswim 2.6 2.6 2.6
Wells Fargo Investments 2.3 2.7 2.3
Interactive Brokers 3.7 4.0 4.0
Zecco.com 2.5 2.5 2.5
Firstrade Securities 3.0 3.0 4.0
Banc of America Investment Services 4.0 1.0 2.0

a) Obtenga una ecuación de regresión estimada empleando el precio de la transacción Y la


velocidad de ejecución para predecir la satisfacción general con el bróker.
b) Finger Lakes Investments ha desarrollado un nuevo sistema de transacciones electrónicas
y le gustaría predecir la satisfacción general de los clientes, suponiendo que pueden ofre-
cer niveles satisfactorios de servicio (3) tanto en el precio de las transacciones como en
la velocidad de ejecución. Utilice la ecuación de regresión estimada que desarrolló en e~
inciso a) para predecir el nivel de satisfacción general para Finger Lakes Investments SI
pueden alcanzar estos niveles de desempeño.
15.7 Variables independientes cualitativas 701

e) Determine un intervalo de 95 % de confianza para estimar la satisfacción general con las


transacciones electrónicas de todos los brókers que tienen niveles satisfactorios en el ser-
vicio tanto en el precio de la transacción como en la velocidad de ejecución.
d) Determine un intervalo de predicción de 95 % para la satisfacción general de Finger Lakes
Investments, suponiendo que pueden alcanzar niveles de servicio de (3) tanto en el precio
de la transacción como en la velocidad de ejecución.

Variables independientes cualitativas


Las variables independientes En los ejemplos considerados hasta ahora se han manejado variables independientes cuanti-
pueden ser cualitativas o tativas, por ejemplo, población de estudiantes, distancia recorrida y número de entregas. Sin
cuantitativas. embargo, en muchas situaciones se tiene que trabajar con variables independientes cualita-
tivas, como género (masculino o femenino), modo de pago (efectivo, tarjeta de crédito, che-
que), etc. En esta sección el objetivo es mostrar cómo se manejan las variables cualitativas
independientes en el análisis de regresión. Para ilustrar su uso e interpretación se considerará el
caso de Johnson Filtration, Inc.

Eiemplo: Johnson Filtration, lnc.


Esta empresa en el sur de Florida provee servicio de mantenimiento a los sistemas de filtro de
agua. Los clientes llaman a Johnson Filtration, Inc. para solicitar un servicio de mantenimiento
de sus sistemas. A efecto de estimar el tiempo que se requerirá para el servicio y su costo, los
directivos de Johnson desean predecir este tiempo para cada solicitud. Por lo tanto, el tiempo
que se requiere en horas para la reparación es la variable dependiente. Se cree que este tiem-
po se relaciona con dos factores : meses transcurridos desde el último servicio de mantenimiento
y tipo de problema (mecánico o eléctrico). En la tabla 15.5 se presentan los datos de una muestra
de 10 solicitudes de servicio.
Sea y el tiempo de reparación en horas y x 1 los meses transcurridos desde el último servicio
de mantenimiento. El modelo de regresión en el que sólo se usa x 1 para predecir y es

y = {30 + {3 1x 1 + E
Si se usa Minitab para determinar la ecuación de regresión estimada, se obtienen los resultados
de la figura 15.7. La ecuación de regresión estimada es

y = 2.147 + 0.304x 1 (15.16)

Con 0.05 como nivel de significancia, el valor-p de 0.016 para la prueba t (o F) indica que el
número de meses transcurridos desde el último servicio se relaciona significativamente con
el tiempo que se requiere para la reparación. R-sq = 53.42% indica que x 1 explica sólo 53.42%
de la variabilidad en el tiempo necesario para una reparación.

TABLA 15.5 Datos para el ejemplo de Johnson Filtration

Solicitud Meses desde el Tiempo de reparación


de servicio último servicio Tipo de reparación en horas
2 Eléctrica 2.9
2 6 Mecánica 3.0
3 8 Eléctrica 4.8
4 3 Mecánica 1.8
5 2 Eléctrica 2.9
6 7 Eléctrica 4.9
7 9 Mecánica 4.2
8 8 Mecánica 4.8
9 4 Eléctrica 4.4
10 6 Eléctrica 4.5
702 Capítulo 15 Regresión múltiple

FIGURA 15.7 Resultado de Minitab para el problema de Johnson Filtration con (x 1), con
el número de meses desde el último servicio como variable independiente

Analysis of Variance
Los nombres de las Source DF Adj SS Adj MS F-Value P-Value
variables Months (meses) y Regression 1 5.596 5.5960 9.17 0.016
Time (tiempo) que aparecen Months Since Last Service 1 5.596 5.5960 9.17 0 . 016
en los resultados de Minitab Error 8 4.880 0.6100
fueron ingresados en la hoja
Lack-of-Fit 5 3.755 0.7510 2.00 0.301
de trabajo como títulos de
Pure Error 3 1.125 0.3750
columna; por lo tanto,
Total 9 10.476
x 1 = Months y y= Time.

Model Summary

s R-sq R-sq(adj) R-sq(pred)


0.781022 53.42% 47.59% 31. 36%

Coefficients

Terrn Coef SE Coef T-Value P-Value VIF


Constant 2.147 0.605 3.55 0.008
Months Since Last Service 0.304 0.100 3.03 0.016 l. 00

Regression Equation

Repair Time_(hours) 2.147 + 0.304 Months Since Last Service

Para incluir el tipo de reparación en el modelo de regresión, se define la siguiente variable:

x = {O si el tipo de reparación es mecánica


2
1 si el tipo de reparación es eléctrica

En el análisis de regresión a Xz se le llama variable ficticia (dummy) o variable indicadora. Al


utilizar esta variable, el modelo de regresión múltiple se expresa de la siguiente manera:

y = f3o + {3¡X¡ + f32Xz + E

En la tabla 15.6 se presentan los datos de la tabla 15.5, más los valores de la variable ficticia.
Customer indica cliente; Months Since Last Service, meses desde el último servicio; Type or
Repair, tipo de reparación, y Repair Time in Hours, tiempo de reparación en horas. Con Minitab
y los datos de la tabla 15.6 se pueden obtener estimaciones para los parámetros del modelo.

TABLA 15.6 Datos para el ejemplo de Johnson Filtration con el tipo de reparación indicado
por una variable ficticia (x 2 = O si es mecánica; x 2 = 1 si es eléctrica)

Months Since Type of RepairTime


Customer Last Service (x 1) Repair (xi) in Hours (y)
2 1 2.9
2 6 o 3.0
3 8 1 4.8
DATAllll 4 3 o 1.8
Johnson 5 2 2.9
6 7 4.9
7 9 o 4.2
8 8 o 4.8
9 4 4.4
10 6 4.5
15.7 Variables independientes cualitativas 703

FIGURA 15.8 Resultado de Minitab para el ejemplo de Johnson Filtration, con (x 1),
meses desde el último servicio, y (x 2), tipo de reparación, como variables
independientes

Los nombres de las Analysis of Variance


variables Months, Type
(tipo) y Time que aparecen Source DF Adj SS Adj MS F-Value P-Value
en los resultados de Minitab Regression 2 9.0009 4.50046 21.36 0.001
fueron ingresados en la hoja Months Since_Last Service 1 8.0883 8.08826 38.38 0.000
de trabajo como títulos de Type of_Repair 1 3.4049 3.40489 16.16 0.005
columna; por lo tanto, Error 7 1.4751 0.21073
x 1 = Months, x 2 = Type Lack-of-Fit 6 1.4751 0.24585
y y= Time. Pu re Error 1 0.0000 0.00000
Total 9 10.4760

Model Sumrnary

s R-sq R-sq(adj) R-sq(pred)


0.459048 85.92% 81. 90% 71. 61%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant 0.930 0.467 l. 99 0.087
Months Since Last Service 0.3876 0.0626 6.20 0.000 1.12
Type of _Repair l. 263 0.314 4.02 0.005 1.12

Regression Equation

Repair Time_(hours) = 0.930 + 0.3876 Months Since Last


Service + 1.263 Type of_Repair

En el resultado de Minitab de la figura 15.8 se puede ver que la ecuación de regresión múltiple
estimada es
y = 0.93 + 0.3876x 1 + l.263x2 ( 15.17)

Con 0.05 como nivel de significancia, el valor-p correspondiente al estadístico de prueba F


(F = 21.36) es 0.001, lo cual indica que la relación de regresión es significativa. En la figura
15.8, en la parte de los resultados de Minitab que corresponde a la prueba t, observarnos que
tanto meses transcurridos desde el último servicio (valor-p = 0.000) como tipo de reparación
(valor-p = 0.005) son estadísticamente significativos. Además, R-sq = 85 .92% y R-sq(adj) =
81.9% indican que la ecuación de regresión estimada explica de forma adecuada la variabilidad
en el tiempo de reparación. Por lo tanto, la ecuación ( 15 .17) sí es útil para estimar el tiempo
necesario para la reparación relacionada con las diversas solicitudes de servicio.

Interpretación de los parámetros


La ecuación de regr.esión múltiple para el ejemplo de Johnson Filtration es

(15.18)

Para entender cómo interpretar los parámetros (3 0 , (3 1 y (3 2 cuando hay una variable cualitativa,
considere el caso en que x 2 = O (reparación mecánica). Usando E(y 1 mecánica) para denotar
la media o valor esperado del tiempo necesario para una reparación dado que ésta es mecánica,
tenemos

E( y 1 mecánica) = (3 0 + /3 1x 1 + /3 2 (0) = f3o + f31x1 ( 15. 19)


704 Capítulo 15 Regresión múltiple

De manera similar, en el caso de una reparación eléctrica (x 2 = 1) tenemos

E(y 1 eléctrica) = {3 0+ {3 1x 1 + {32 (1) = {3 0 + /3 1x 1 + {32 (15.20)


= (f3o + f32) + {3¡X¡

Al comparar las ecuaciones (15.19) y (15.20) se observa que la media del tiempo requerido
para efectuar una reparación es función lineal de x 1, tanto si es de tipo mecánico como eléctrico.
La pendiente en ambas ecuaciones es /3 1, pero varía la intersección con el eje y. En la ecua-
ción (15.19) para las reparaciones mecánicas, la intersección con el eje y es /3 0 , y en la ecuación
(15 .20) para las reparaciones eléctricas, la intersección es (/3 0 + /3 2) . La interpretación de f3
2
señala la diferencia entre las medias del tiempo que se requiere para una reparación eléctrica y
una reparación mecánica.
Si /3 2 es positiva, la media del tiempo que se requiere para una reparación eléctrica será
mayor que para una mecánica; si /3 2 es negativa, la media del tiempo que se requiere para una
reparación eléctrica será menor que para la mecánica. Por último, si /3 2 = O, no existe diferencia
entre las medias del tiempo que se requiere para ambos trabajos, y el tipo de reparación no se
relaciona con el tiempo que se requiere para efectuarla.
Si se utiliza la ecuación de regresión múltiple estimada y = 0.93 + 0.3876x 1 + l.263x 2,
vemos que 0.93 es la estimación de /3 0 y la estimación de /3 2 es 1.263. Por lo tanto, cuando x 2 = o
(reparación mecánica)

y= 0.93 + 0.3876x 1 { 15.21)

y cuando x 2 = 1 (reparación eléctrica)

y= 0.93 + 0.3876x 1 + 1.263(1) { 15.22)


= 2.193 + 0.3876x 1

FIGURA 15.9 Diagrama de dispersión para los datos de reparación de Johnson Filtration de la
tabla 15.6

.,,, ... .
.
5 E " E, M

E E •
..-- 4
"'=
,;_,,//
l¡;,C~
\...e~ , ..

M

\)'.'~"~.......
""'
Q
-=
'-'
"
·o=
:) )(
'Q
3 ,. -7 'J..·
\q.;-'" ,,,, •
=
~
'l/
~,;.·.)'
E,E . c,i'!
e"!#
M
i=.
~
.,/ ~
~"b1-\
""'
~
2 \) '.'
'e )(
Q
i=. ";:;.
'l
\)9" •
M
8
4.1
E==
M = reparación mecánica
E = reparación eléctrica

'--~-'-~~_._~~-'--~---'~~-'-~~..._~~.__~_._~~_._~~..__x¡

o 2 3 4 5 6 7 8 9 10
Meses desde el último servicio
15.7 Variables independientes cualitativas 705

De esta manera, usar una variable ficticia para el tipo de reparación proporciona dos ecuacio-
nes para predecir el tiempo que se requiere para efectuarla: una ecuación corresponde a las
reparaciones mecánicas y la otra a las eléctricas. Además, como b2 = 1.263, sabemos que, en
promedio, en las reparaciones eléctricas se necesitan 1.263 horas más que en las mecánicas.
En la figura 15.9 se presenta una gráfica con los datos de la tabla 15 .6. El tiempo de re-
paración en horas (y) se representa en el eje vertical y los meses transcurridos desde el último
servicio (x 1) en el eje horizontal. Los puntos que corresponden a una reparación mecánica se
indican con una M y los que corresponden a una reparación eléctrica con una E. En esta gráfi-
ca se representan también las ecuaciones (15 .21 ) y (15.22) con la finalidad de mostrar las dos
ecuaciones que sirven para predecir el tiempo que se requerirá para una y otra reparación.

Variables cualitativas más comple¡as


En el ejemplo de Johnson Filtration, como la variable cualitativa tenía dos niveles (mecánica y
eléctrica), fue fácil definirla empleando O para indicar una reparación mecánica y 1 para indicar
Para modelar una variable una reparación eléctrica. Sin embargo, cuando una variable cualitativa tiene más de dos niveles,
cualitativa con k niveles se habrá que tener cuidado tanto al definir como al interpretar estas variables ficticias. Como se
requieren k - 1 variables verá a continuación, si una variable cualitativa tiene k niveles, se necesitan k - 1 variables fic-
ficticias. Se debe tener
ticias, cada una de las cuales tomará el valor O o l.
cuidado al definir e
interpretar estas variables.
Suponga, por ejemplo, que un fabricante de fotocopiadoras divide un estado en tres regio-
nes de ventas: A, B y C. Sus gerentes desean aplicar el análisis de regresión para predecir las
ventas semanales. Utilizando como variable dependiente el número de fotocopiadoras vendi-
das, consideran diversas variables independientes (número de vendedores, gastos de publicidad,
etc.). Suponga que los gerentes piensan que la región de ventas puede ser también un factor
importante en la predicción del número de unidades vendidas. Como la región de ventas es
una variable cualitativa con tres niveles, A, B y C, para representarla se necesitarán 3 - l = 2
variables ficticias , cada una de las cuales tomará los valores O o 1.

x = {1 si la región de ventas es B
1
O si no es el caso
X = {1 Si la región de ventas es C
2
O si no es el caso

Con base en esta definición, para x 1 y x2 tenemos los siguientes valores:

Región
A o o
B 1 o
e o

En las observaciones correspondientes a la región A se codificará x 1 = O, x2 = O; en las ob-


servaciones para la región B se tendrá x 1 = 1, x 2 = O, y en las observaciones de la región C se
tendráx 1 = O, x 2 = l.
La ecuación de regresión que relaciona el valor esperado del número de fotocopiadoras
vendidas, E(y), con las variables ficticias se expresa de la siguiente manera:

E( y ) = /3 0 + /3 1x 1 + /3 2 x 2
Para interpretar los- parámetros {3 0 , {3 1 y {3 2 , considere las siguientes tres variaciones de la ecua-
ción de regresión.
E(y 1 región A) = /3 0 + /3 1(0) + /3 2 (0) = f3o
E(y región B) = /3 0 + /3 1(1) + /3 2(0) = f3o + /31
1

E( y región C) = /3 0 + /3 1(0) + /3 2(1) = f3o + /32


1

Por lo tanto, {3 0 es la media o valor esperado de las ventas en la región A; /3 1es la diferencia entre
las medias _del número de unidades vendidas entre la región B y la región A, y /3 2 es la diferencia
entre las medias del número de unidades vendidas en la región C y la región A.
706 Capítulo 15 Regresión múltiple

Se necesitaron dos variables ficticias, debido a que la región de ventas es una variable cuali-
tativa con tres niveles. Sin embargo, la asignación de x 1 = O, x 2 = Opara identificar la región A;
X¡ = 1, X2 = o para identificar la región B, y X¡ = O, X2 = 1 para la región e fue arbitraria. De

igual manera se podría haber elegido, por ejemplo, x 1 = 1, x 2 = O para identificar la región A
x 1 = O, x 2 = O para la By x 1 = O, x 2 = 1 para la C. En ese caso, /3 1 se habría interpretado com~
la media de la diferencia entre las regiones A y B, y /3 2 como la media de la diferencia entre
CyB.
Es importante recordar que en el análisis de regresión múltiple, cuando una variable cuali-
tativa tiene k niveles, se requieren k - 1 variables ficticias. Entonces, si en el ejemplo hubiera
una cuarta región, D, se necesitarían tres variables ficticias, las cuales se pueden codificar de
la siguiente manera:

x = { 1 si la región de ventas es B X = {1 Si la región de ventas es C x = {1 si la región de ventas es D


1 2 3
O si no es el caso O si no es el caso O si no es el caso

Métodos
32. Considere un estudio de regresión en el que intervienen una variable dependiente y, una varia-
AUTO ble independiente cualitativa x 1 y una variable cualitativa de dos niveles (nivel 1 y nivel 2).
a) Escriba la ecuación de regresión múltiple que relacione x1 con la variable cualitativa y.
b) ¿Cuál es el valor esperado de y que corresponde al nivel 1 de la variable cualitativa?
e) ¿Cuál es el valor esperado de y que corresponde al nivel 2 de la variable cualitativa?
d') Interprete los parámetros de la ecuación de regresión.
33. Considere un estudio de regresión en el que intervienen una variable dependiente y, una varia-
ble independiente cuantitativa x 1 y una variable cualitativa de tres niveles (nivel 1, nivel 2 y
nivel 3).
a) ¿Cuántas variables ficticias se requieren para representar la variable cualitativa?
b) Proporcione una ecuación de regresión múltiple que relacione x 1 con la variable cualita-
tiva y.
e) Interprete los parámetros de la ecuación de regresión.

Aplicaciones
34. La gerencia propuso el siguiente modelo de regresión para predecir las ventas en un estableci-
AUTO eválriación
.,.:. "-
~' ~ ' " miento de comida rápida .

donde

x1 = número de competidores a no más de una milla


x 2 =población a no más de una milla (en miles)
x = { 1 si tiene ventanilla para conductores
3
O si no es el caso
y = ventas (en miles de dólares)

Se obtuvo la siguiente ecuación de regresión estimada con los datos de 20 puntos de venta.

y = 10.l - 4.2X¡ + 6.8X2 + 15.3X3

a) ¿Cuál es la cantidad esperada de ventas atribuible a la ventanilla para conductores?


b) Pronostique las ventas de un negocio que tiene dos competidores, una población de 8 000
a no más de una milla y ventanilla para conductores.
e) Prediga las ventas de un negocio que tiene un competidor, una población de 3 000 a no
más de una milla y ventanilla para conductores.
15.7 Variables independientes cualitativas 707

35. Remítase al problema de Johnson Filtration que se presentó en esta sección. Suponga que
además de la información sobre los meses transcurridos desde el último servicio (Months Sin-
ce Last Service), del tipo de reparación (Type of Repair), mecánica (Mechanical) o eléctrica
(Electrical), los gerentes presentan una lista con los técnicos (Repairperson) que realizaron el
servicio. A continuación se exponen los nuevos datos.

RepairTime Months Since


in Hours Last Service Type of Repair Repairperson
DATAf l l 2.9 2 Electrical Dave Newton
Repair 3.0 6 Mechanical Dave Newton
4.8 8 Electrical Bob Iones
1.8 3 Mechanical DaveNewton
2.9 2 Electrical Dave Newton
4.9 7 Electrical Bob Iones
4.2 9 Mechanical Bob Iones
4.8 8 Mechanical Bob Iones
4.4 4 Electrical Bob Iones
4.5 6 Electrical Dave Newton

a) Por ahora ignore los meses transcurridos desde el último servicio (x 1) y el técnico asignado .
Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo que se
requiere para la reparación (y) dado el tipo de reparación (x2 ) . Recuerde que x 2 =O si ésta
es mecánica y x 2 = 1 si es eléctrica.
b) ¿La ecuación obtenida en el inciso a) proporciona un buen ajuste de los datos observados?
Explique.
e) Por ahora ignore los meses transcurridos desde el último servicio y el tipo de reparación.
Obtenga la ecuación de regresión lineal simple estimada para predecir el tiempo necesa-
rio para la reparación, dado el técnico que realizó el servicio. Sea x3 = O si éste fue reali-
zado por Bob Iones, y x3 = 1 si lo realizó Dave Newton.
cf) ¿La ecuación obtenida en el inciso e) proporciona un buen ajuste de los datos observados?
Explique.
36. Este problema es una extensión de la situación descrita en el ejercicio 35.
a) Obtenga la ecuación de regresión estimada para predecir el tiempo que requiere una re-
paración, dados los meses transcurridos desde la última efectuada, el tipo de reparación y
el técnico que realizó el servicio.
b) Con un nivel de significancia de 0.05, realice una prueba para ver si la ecuación de regre-
sión estimada que se obtuvo en el inciso a) representa una relación significativa entre las
variables independientes y la variable dependiente.
e) ¿Es estadísticamente significativo agregar la variable x3, el técnico que realizó el servi-
cio? Use a = 0.05. ¿Qué explicación puede dar para los resultados observados?
37 . El estudio de satisfacción del cliente sobre restaurantes de Consumer Reports se basa en más
de 148 599 visitas a diferentes cadenas de servicio completo (sitio web de Consumer Reports,
11 de febrero de 2009). Suponga que los siguientes datos son representativos de los resultados
reportados. La variable tipo (Type) indica si el restaurante es de comida italiana (ltalian), o de
mariscos/ carnes (Seafood/ Steakhouse). Precio (Price) indica la cantidad promedio que paga
una persona por los alimentos y las bebidas, menos la propina. Puntuación (Score) refleja lasa-
tisfacción general de los comensales, con los valores más altos que indican mayor satisfacción
general. Podemos interpretar como "muy satisfecho" una puntuación de 80.

DATA Restaurant Type Price ($) Seore


RestaurantRatings Bertucci's ltalian 16 77
Black Angus Steakhouse Seafood/ Steakhouse 24 79
Bonefish Grill Seafood/ Steakhouse 26 85
(continúa )
708 Capítulo 15 Regresión múltiple

Restaurant Type Price ($) Seore


Bravo! Cucina Italiana Italian 18 84
Buca di Beppo Italian 17 81
Bugaboo Creek Steak House Seafood/ S teakhouse 18 77
Carrabba's Italian Grill Italian 23 86
Charlie Brown's Steakhouse Seafood/ Steakhouse 17 75
Il Fornaio Italian 28 83
Joe's Crab Shack Seafood/ Steakhouse 15 71
Johnny Carino's Italian Italian 17 81
Lone Star Steakhouse & Saloon Seafood/ Steakhouse 17 76
LongHorn Steakhouse Seafood/ Steakhouse 19 81
Maggiano's Little Italy Italian 22 83
McGrath 's Fish House Seafood/ Steakhouse 16 81
Olive Garden Italian 19 81
Outback Steakhouse Seafood/ S teakhouse 20 80
Red Lobster Seafood/ Steakhouse 18 78
Romano's Macaroni Grill Italian 18 82
The Old Spaghetti Factory Italian 12 79
Uno Chicago Grill Italian 16 76

a) Obtenga una ecuación de regresión estimada que muestre cómo se relaciona la satisfacción
general del cliente con la variable independiente precio promedio de los alimentos.
b) Si se utiliza 0.05 como nivel de significancia, pruebe si la ecuación de regresión estimada
obtenida en el inciso a) indica una relación significativa entre la satisfacción general del
cliente y el precio promedio de los alimentos.
e) Proporcione una variable ficticia (dummy) para el tipo de restaurante (italiano o de
mariscos/ carnes).
d) Obtenga una ecuación de regresión estimada que muestre cómo se relaciona la satisfacción
general del cliente con el precio promedio de los alimentos y el tipo de restaurante.
e) ¿Es el tipo de restaurante un factor significativo en la satisfacción general del cliente?
f) Estime la puntuación de satisfacción del cliente de Consumer Reports para un restau-
rante de mariscos/carnes con un precio promedio de $20 por comida. ¿Cuánto cambiaría
la puntuación estimada para un restaurante italiano?
38. Un estudio realizado durante 10 años por la Asociación Estadounidense de Cardiología pro-
porcionó datos sobre la relación que guardan la edad (Age), la presión sanguínea (Pressure) y
el hábito de fumar sobre el riesgo de sufrir un infarto. Los datos que se listan a continuación
se obtuvieron como parte de este estudio. El riesgo (Risk) se interpreta como la probabilidad
(multiplicada por 100) de que el paciente sufra un infarto en los próximos 10 años. Para la va-
riable fumador (Smoker), defina una variable ficticia que tome los valores 1 si el individuo es
fumador y Osi no lo es.

Risk Age Pressure Smoker


12 57 152 No
24 67 163 No
13 58 155 No
DATA. 56 86 177 Yes
28 59 196 No
Stroke
51 76 189 Yes
18 56 155 Yes
31 78 120 No
37 80 135 Yes
15 78 98 No
22 71 152 No
36 70 173 Yes
(continúa)
15.8 Análisis residual 709

Risk Age Pressure Smoker


15 67 135 Yes
48 77 209 Yes
15 60 199 No
36 82 119 Yes
8 66 166 No
34 80 125 Yes
3 62 117 No
37 59 207 Yes

a) Obtenga la ecuación de regresión estimada que relacione el riesgo de infarto con la edad,
la presión sanguínea y si la persona fuma o no.
b) ¿Fumar es un factor significativo para el riesgo de infarto? Explique. Use a = O.OS.
e) ¿Cuál es la probabilidad de que Art Speen sufra un infarto en la próxima década si tie-
ne 68 años, fuma y su presión sanguínea es de 17 5? ¿Qué le recomendará el médico a este
paciente?

§ Análisis residual
En el capítulo 14 se indicó que los residuales estandarizados suelen utilizarse en las gráficas de
residuales y en la identificación de observaciones atípicas. A continuación se presenta la fórmu-
la general para obtener el residual estandarizado de la observación i.

RESIDUAL ESTANDARIZADO DE LA OBSERVACIÓN i

Y; - Y;
( 15.23)

donde

sY; _ Y; = desviación estándar del residual i

La fórmula general para obtener la desviación estándar del residual i se define como se indica
a continuación.

DESVIACIÓN ESTÁNDAR DEL RESIDUAL i

( 15.24)

donde

s = error estándar de la estimación


h; = influencia de la observación i

Como se dijo en el capítulo 14, la influencia de una observación está en función de qué tan
lejos de su_s medias se encuentran los valores de las variables independientes. En el análisis de re-
gresión múltiple, calcular h; y sY; _ Y; ' y por lo tanto el residual estandarizado de la observación i,
710 Capítulo 15 Regresión múltiple

TABLA 15.7 Residuales y residuales estandarizados correspondientes al análisis de regresión


de Butler Trucking

Millas Tiempo de Valor


recorridas Entregas recorrido pronosticado Residual Residual
(x¡) (Xz) (y) (ji) (y - y) estandarizado
100 4 9.3 8.93846 0.361541 0.78344
50 3 4.8 4.95830 -0.158304 -0.34962
100 4 8.9 8.93846 -0.038460 -0.08334
100 2 6.5 7.09161 -0.591609 -1.30929
50 2 4.2 4.03488 0.165121 0.38167
80 2 6.2 5.86892 0.331083 0.65431
75 3 7.4 6.48667 0.913331 1.68917
65 4 6.0 6.79875 -0.798749 -1.77372
90 3 7.6 7.40369 0.196311 0.36703
90 2 6.1 6.48026 -0.380263 -0.77639

es muy complicado como para efectuarlo a mano. Sin embargo, los residuales estandarizados
se obtienen fácilmente con el software para estadística. En la tabla 15.7 se listan valores pre-
dichos, residuales y residuales estandarizados con los datos del ejemplo de Butler Trucking
presentados previamente en este capítulo; estos valores se obtuvieron con la ayuda de Minitab.
Los valores predichos de la tabla se basan en la ecuación de regresión estimada y = -0.869 +
0.06113x 1 + 0.923x 2.
Los residuales estandarizados y los valores predichos de y de la tabla 15.7 se utilizaron en
la figura 15.10, la gráfica de residuales estandarizados para el ejemplo de regresión múltiple de
Butler Trucking. En esta gráfica no se observa ninguna anormalidad. Además, todos los resi-
duales estandarizados se encuentran entre -2 y +2; por lo tanto, no existe ninguna razón para
cuestionar el supuesto de que el término del error E es normalmente distribuido. Así, se concluye
que los supuestos del modelo son razonables.

FIGURA 15.1 O Gráfica de residuales estandarizados para el ejemplo de Butler Trucking

+2


+1

• •
• •
o ----------------------------------.--



-2

4 5 6 7 8 9

--------------------------.-.--------------------------------------------=--
15.8 Análisis residual 711

Para determinar si la distribución de E parece ser normal, también se usa una gráfica de pro-
babilidad normal. En la sección 14.8 se analizó el procedimiento y la interpretación de ese tipo
de gráfica. Ese mismo procedimiento es adecuado para la regresión múltiple. La gráfica de
probabilidad normal se puede obtener con un software para estadística que realice los cálculos.

Detección de observaciones atípicas


Una observación atípica es una observación inusual en relación con el conjunto de los da-
tos; en otras palabras, no sigue el patrón del resto de los datos. En el capítulo 14 se mostró
un ejemplo con una observación atípica y se vio el uso de los residuales estandarizados para
detectarla. Minitab clasifica una observación como atípica si el valor de su residual estandari-
zado es menor que -2 o mayor que +2. Si se aplica esta regla a los residuales estandarizados
del ejemplo de Butler Trucking (tabla 15 .7), en este conjunto de datos no se detecta ninguna
observación atípica.
En general, la presencia de una o más observaciones atípicas en un conjunto de datos tien-
de a incrementar s , el error estándar de estimación y, por lo tanto, a incrementar sY; _ Y;' la desvia-
ción estándar del residual i. Dado que s Y; _ Y; aparece como denominador en la fórmula (15 .23)
del residual estandarizado, el tamaño de éste disminuirá a medida que aumente s. Esto da como
resultado que, aun cuando un residual sea inusualmente grande, el denominador de la fórmula
(15 .23), que será grande, hará que falle la regla del residual estandarizado para identificar una
observación atípica. Es posible sortear esta dificultad empleando una forma de los residuales
estandarizados conocida como residuales estudentizados eliminados.

Residuales estudentizados eliminados


y observaciones atípicas
Suponga que del conjunto de datos se elimina la observación i-ésirna y que de las n - 1 observa-
ciones restantes se obtiene una nueva ecuación de regresión estimada. Sea s (i ) el error estándar
de estimación basado en el conjunto de datos en los que se ha eliminado la observación i-ésirna
Si se calcula la desviación estándar del residual i usando s (i) en lugar des, y después se calcula
el residual estandarizado de la observación i con el nuevo valor de s Y; _ Y;' al residual estandari-
zado que se obtiene se le llama residual estudentizado eliminado. Si la observación i-ésima es
atípica, s(il será menor que s. Por lo tanto, el valor absoluto del residual estudentizado eliminado
i-ésimo será mayor que el valor absoluto del residual estandarizado. De esta manera, los resi-
duales estudentizados eliminados pueden reconocer observaciones atípicas que los residuales
estandarizados no detectan.
Mucho del software para estadística proporciona una opción para obtener residuales es-
tudentizados eliminados. Para el ejemplo de Butler Trucking, Minitab proporciona los resul-
tados que se presentan en la siguiente tabla. Para determinar si los residuales estudentizados

TABLA 15.8 Residuales estudentizados eliminados de Butler Trucking

Millas recorridas Entregas Tiempo del recorrido Residual Residual estudentizado


(x¡) (Xz) (y) estandarizado eliminado
100 4 9.3 0.78344 0.75939
50 3 4.8 -0.34962 -0.32654
100 4 8.9 -0.08334 -0.07720
100 2 6.5 -1.30929 -1 .39494
50 2 4.2 0.38167 0.35709
80 2 6.2 0.65431 0.62519
75 3 7.4 1.68917 2.03187
65 4 6.0 -1.77372 -2.21314
90 3 7.6 0.36703 0.34312
90 2 6.1 -0.77639 -0.75190
712 Capítulo 15 Regresión múltiple

TABLA 15.9 Influencia y distancia de Cook correspondientes al ejemplo de Butler Trucking

Millas recorridas Entregas Tiempo del recorrido Influencia DCook


(X¡) (xz) (y) (h¡) (D¡)
100 4 9.3 0.351704 0.1 10994
50 3 4.8 0.375863 0.024536
100 4 8.9 0.351704 0.001256
100 2 6.5 0.378451 0.347923
50 2 4.2 0.430220 0.036663
80 2 6.2 0.220557 0.040381
75 3 7.4 0.110009 0.117562
65 4 6.0 0.382657 0.650029
90 3 7.6 0.129098 0.006656
90 2 6.1 0.269737 0.074217

eliminados indican la presencia de observaciones atípicas, se emplea la distribución t. Recuerde


que p denota el número de variables independientes y n el número .de observaciones. Por lo
tanto, si se elimina la observación i, el número de observaciones en el nuevo conjunto de datos
es n - 1; en este caso, la suma de cuadrados del error tiene (n - 1) - p - 1 grados de libertad.
Como en el ejemplo de Butler Trucking n = 10 y p = 2, los grados de libertad para la suma
de cuadrados del error con la observación i-ésima eliminada es 9 - 2 - 1 = 6. Si se utiliza
0.05 como nivel de significancia, en la distribución t (tabla 2 del apéndice B) para 6 grados
de libertad obtenemos, t 0.025 = 2.447. Se concluye que la observación i-ésima es atípica si el
residual estudentizado eliminado es menor que -2.447 o mayor que +2.447. En la tabla 15.8
se observa que los residuales estudentizados eliminados no se encuentran fuera de estos límites;
por lo tanto, se concluye que en este conjunto de datos no hay observaciones atípicas.

Observaciones influyentes
En la sección 14.9 se estudió cómo utilizar la influencia de una observación para identificar
observaciones cuyo valor de la variable independiente puede tener una fuerte influencia en los
resultados de la regresión. Como se indicó respecto de los residuales estandarizados, la influen-
cia de una observación, que se denota h;, mide qué tan lejos de sus medias se encuentran los
valores de las variables independientes. Los valores de influencia se obtienen como parte de
los resultados que proporciona el software para estadística. Minitab calcula estos valores, y
para detectar observaciones influyentes emplea la regla h¡ > 3(p + l)/n. En el ejemplo de
Butler Trucking, como hay p = 2 variables independientes y n = 10 observaciones, el valor
crítico para la influencia es 3(2 + 1)/10 = 0.9. En la tabla 15.9 se presentan los valores de
influencia correspondientes al ejemplo de Butler Trucking obtenidos con Minitab. Como nin-
TABLA 15.10 guno de los valores h¡ es mayor que 0.9, en este conjunto de datos no se detectan observacio-
nes influyentes.
Conjunto de datos
que ilustran problemas
potenciales usando el Uso de la medida de la distancia de Cook
criterio de influencia para identificar observaciones influyentes
Influencia Un problema potencial al usar la influencia para identificar observaciones influyentes es la po-
X; Y; h;
sibilidad de identificar una observación como fuertemente influyente, sin que necesariamente
1 18 0.204170
1 21 0.204170
lo sea en términos de la ecuación de regresión estimada que se obtiene. Por ejemplo, en la tabla
2 22 0.164205 15.10 se presenta un conjunto de datos que consta de ocho observaciones y sus correspondien-
3 21 0.138141 tes valores de influencia (obtenidos con Minitab). Como la influencia de la última observación
4 23 0.125977
4 24 0.125977
es 0.91 > 0.75 (el valor de influencia crítico), se le identificará como observación influyente.
5 26 0.127715 Sin embargo, antes de aceptar una conclusión final, considere la situación desde una perspec-
15 39 0.909644 tiva diferente.
15.8 Análisis residual 713

FIGURA 15.11 Diagrama de dispersión obtenido con el conjunto de datos de la tabla 15.10

40

La ecuación de regresión estimada
35 " utilizando todos los datos es
/
y = 18.2 + l.39x

30
/
/'

25
.. f
'
~
/
Nota: Si se elimina el punto (15.39),
la ecuación de regresión
estimada es y = 18.l + l.42x
•''

20
/
..
/

/
. t'


15

o 5 10 15

En la figura 15.11 se presenta el diagrama de dispersión que corresponde al conjunto de


datos de la tabla 15.10. A partir de estos datos se obtuvo la siguiente ecuación de regresión
estimada con Minitab.

y = 18.2 + l.39x

La recta que se observa en la figura 15.11 es la gráfica de esta ecuación. Ahora, si de este con-
junto de datos se elimina la observación x = 15, y = 39, con las siete observaciones restantes
se obtiene una nueva ecuación de regresión estimada

y= 18.1 + l.42x

En la nueva ecuación se observa que la intersección con el eje y y la pendiente no tienen valores
significativamente diferentes a los de la ecuación en la que se usan todos los datos. A pesar de
que con el criterio de influencia se identificó como influyente la octava observación, es claro que
tiene poca influencia en los resultados obtenidos. Por lo tanto, hay casos en los que emplear sólo
la influencia para identificar las observaciones influyentes puede llevar a conclusiones erróneas.
La medida de la distancia de Cook utiliza tanto la influencia de la observación i, h;. como
el residual de la observación i, (y¡ - y¡), para determinar si una observación es influyente.
714 Capítulo 15 Regresión múltiple

MEDIDA DE LA DISTANCIA DE COOK

D = (Y; - y¡)2 [ h; ] (15.25)


; (p + l)s 2 (1 - h¡)2

donde

D; = medida de la distancia de Cook para la observación i


Y; - Y; = residual de la observación i
h; = influencia de la observación i
p = número de variables independientes
s = error estándar de la estimación

Si el residual o la influencia son grandes, la medida de la distancia de Cook será grande e


indicará una observación influyente. Como regla general, se acepta que si D; > 1, la observa-
ción i-ésima es influyente y debe analizarse con más detenimiento. En la última columna de la
tabla 15.9 se presentan las medidas de la distancia de Cook correspondientes al problema Butler
Trucking obtenidas con Minitab. La observación con mayor influencia es la 8, para la que D;
= 0.650029. Sin embargo, al aplicar la regla D; > 1 vemos que no hay por qué preocuparse
acerca de la presencia de observaciones influyentes en el conjunto de datos de Butler Trucking.

1. Los procedimientos para detectar observaciones 2. Para determinar si el valor de una medida de la
atípicas e influyentes permiten estar alerta acerca distancia de Cook D; es lo suficientemente grande
de los efectos potenciales de algunas observaciones como para concluir que la observación i-ésima es
en los resultados de la regresión. Cada observación influyente, también puede compararse el valor de
atípica o influyente justifica un examen cuidadoso. D; con el percentil SO de una distribución F (que
Si se encuentran errores en los datos, podemos co- se denota F 0 _50 ) con p + 1 grados de libertad en
rregirlos y repetir el análisis de regresión. En ge- el numerador y n - p - 1 grados de libertad en el
neral, las observaciones atípicas y las influyentes denominador. Para esta prueba se necesita contar
no deben eliminarse del conjunto de datos, a menos con tablas Fa un nivel de significancia de O.SO. La
que haya una evidencia clara que indique que no regla práctica que se proporcionó antes (D; > 1)
provienen de elementos de la población en estu- se basa en el hecho de que en muchos casos los
dio y que no tenían que ser incluidos en el conjunto valores en la tabla son cercanos a 1.
original de datos.

Métodos
., ~. - ·•w _. • • "''' "'i!l 39. A continuación se proporcionan datos para las variables x y y .
AUTO evalnació'n
.. ·,., · ._ ·, .... ,,.,..4
·~

2 3 4 s
7 s 11 14

a) Obtenga una ecuación de regresión estimada para estos datos. .


Grafique los residuales estandarizados contra y. ¿Parece haber alguna observacion·, atípica
b)
en este conjunto de datos? Explique.
e) Calcule los residuales estudentizados eliminados de estos datos . Si se utiliza O.OS ,coJllO
. ?
nivel de significancia, ¿puede clasificarse cualquiera de estas observaciones como aupica.
Explique.
15.8 Análisis residual 715

40. A continuación se proporcionan datos para las variables x y y.

X¡ 22 24 26 28 40
Y; 12 21 31 35 70

a) Obtenga una ecuación de regresión estimada para estos datos.


b) Calcule los residuales estudentizados eliminados de estos datos. Si se utiliza 0.05 como
nivel de significancia, ¿puede clasificarse cualquiera de estas observaciones como atípica?
Explique.
e) Determine los valores de influencia. ¿Parece haber alguna observación influyente? Explique.
d) Calcule la medida de la distancia de Cook de estos datos. ¿Alguna de las observaciones es
influyente? Explique.

Aplicaciones
41. En el ejercicio 5 se presentaron los datos siguientes sobre los ingresos brutos semanales (Wee-
AUTO .evaluación
."
~,. ~ ~ ~ ,...., ; kly Gross Revenue) y la publicidad tanto en televisión (Television Advertising) como en perió-
dicos (Newspaper Advertising) de Showtime Movie Theaters.

Weekly Gross Revenue Television Advertising Newspaper Advertising


($1000s) ($1000s) ($1000s)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
Showtime
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5

a) Proporcione una ecuación de regresión estimada que relacione los ingresos brutos sema-
nales con los gastos de publicidad en televisión y periódicos.
b) Grafique los residuales estandarizados contra y. ¿La gráfica respalda los supuestos acer-
ca de e? Explique.
e) Revise que no existan observaciones atípicas en estos datos. ¿A qué conclusión llega?
d) ¿Hay alguna observación influyente? Explique.
42. En los siguientes datos se presenta el peso en vacío (Curb Weight), los caballos de fuerza (Horse-
power) y la velocidad en 1~ de milla (Speed at %Mile) de 16 populares automóviles deportivos
y de gran turismo (Sports & GT Car). Suponga que se tiene también el precio (Price) de cada
uno de estos vehículos . El banco de datos es el siguiente:

Curb Speed at
Price Weight %Mile
Sports & GT Car ($1000s) Oh) Horsepower (mph)

Acura Integra Type R 25 .035 2577 195 90.7


DATA Acura NSX-T 93 .758 3066 290 108.0
Auto2 BMWZ3 2.8 40.900 2844 189 93.2
Chevrolet Camaro Z28 24.865 3439 305 103.2
Chevrolet Corvette Convertible 50.144 3246 345 102.l
Dodge Viper RT11 O 69.742 3319 450 116.2
Ford Mustang GT 23 .200 3227 225 91.7
Honda Prelude Type SH 26.382 3042 195 89.7
Mercedes-Benz CLK320 44.988 3240 215 93.0
(continúa)
716 Capítulo 15 Regresión múltiple

Curb Speed at
Price Weight %Mile
Sports & GT Car ($1000s) (lb) Horsepower (mph)
Mercedes-Benz SLK230 42.762 3025 185 92.3
Mitsubishi 3000GT VR-4 47.518 3737 320 99.0
Nissan 240SX SE 25.066 2862 155 84.6
Pontiac Firebird Trans Arn 27.770 3455 305 103.2
Porsche Boxster 45.560 2822 201 93.2
Toyota Supra Turbo 40.989 3505 320 105.0
Volvo C70 41.120 3285 236 97.0

a) Obtenga la ecuación de regresión estimada en la que se utilicen precio y caballos de fuerza


para predecir la velocidad en % de milla.
b) Grafique los residuales estandarizados contra y. ¿La gráfica respalda los supuestos respecto
de e? Explique.
e) Verifique si existen observaciones atípicas. ¿A qué conclusión llega?
el) ¿Existe alguna observación influyente? Explique.
43. La Asociación de Mujeres Golfistas Profesionales (LPGA, por sus siglas en inglés) lleva es-
tadísticas sobre el desempeño y las ganancias de sus miembros en el LPGA Tour. El archivo
2014LPGAStats
2014LPGAStats contiene las estadísticas de final de año sobre el desempeño de las 34 juga-
doras en 2014 (sitio web LPGA, abril de 2015). Earnings ($1000) son las ganancias totales en
miles de dólares; Scoring Avg es el número promedio de golpes en todo el evento; Greens in
Reg es el porcentaje de las veces que una jugadora logra un green en regulación, y Putting Avg
es el promedio de golpes cortos por green en regulación. Un green se considera un golpe en
regulación si alguna parte de la bola está en contacto con la superficie de putting y la diferencia
entre el valor del par de hoyos y el número de golpes que lleva a golpear el green es menor de 2.
a) Desarrolle una ecuación de regresión estimada para predecir la puntuación promedio de
todos los eventos, dado el porcentaje de las veces que una jugadora logra un green en re-
gulación y el promedio de golpes cortos por green en regulación.
b) Grafique los residuales estandarizados contra y. ¿Esta gráfica confirma los supuestos he-
chos acerca de e? Explique.
e) Verifique si existen observaciones atípicas. ¿A qué conclusión llega?
el) ¿Hay alguna observación influyente? Explique.

8 Regresión logística
En muchas aplicaciones de la regresión, la variable dependiente asume sólo dos valores dis-
cretos. Por ejemplo, en un banco suele necesitarse una ecuación de regresión estimada para
predecir si a una persona se le aprobará su solicitud de tarjeta de crédito. A esta variable depen-
diente pueden dársele los valores y = 1 si la solicitud es aprobada, y y = Osi es rechazada. Con
la regresión logística, dado un conjunto particular de valores de las variables independientes
elegidas, se estima la probabilidad de que el banco apruebe la solicitud de tarjeta de crédito.
A continuación se considera una aplicación de la regresión logística que involucra una
promoció~ directa por correo de la cadena Sirnmons Stores. La empresa Sirnmons Stores es una
cadena nacional de ropa para dama. Ha ordenado imprimir a cuatro tintas 5 000 copias de su
costoso catálogo de productos, y en cada uno incluye un cupón de $50 de descuento en compras
por $200 o más. Corno el catálogo es costoso, Simmons desea enviarlo sólo a aquellos clientes
que tengan mayor probabilidad de usar el cupón.
La gerencia considera que la cantidad que gasta cada año por cliente en las tiendas
Simmons, así corno si posee o no una tarjeta de crédito de la tienda, son dos variables útiles para
predecir si ese cliente usará el cupón. La empresa realiza un estudio piloto con una muestra alea-
toria de 50 clientes con tarjeta de crédito de Sirnmons y 50 sin ella. Por ende, envió los catálogos
15.9 Regresión logística 717

a cada uno de estos 100 clientes elegidos. Al final del periodo de prueba, Simmons anota si
los clientes han usado o no el cupón. En la tabla 15 .11 se presentan los datos muestrales de las
10 primeras personas (Customer) que recibieron el catálogo, y se incluye la siguiente informa-
ción: cantidad en miles de dólares gastada por el cliente en las tiendas Simmons durante el año
anterior (Annual Spending), y la tarjeta de crédito de Simmons (Simmons Card) codificada
como 1 si el cliente la tiene y Osi no la tiene. En la columna correspondiente al cupón (Coupon),
1 significa que el cliente usó el cupón y O que no lo usó.
Para ayudar a Simmons a predecir si las personas que reciban el catálogo usarán o no el cu-
pón, se podría pensaren construir un modelo de regresión múltiple con los datos de la tabla 15.11.
Las variables independientes serían cantidad gastada cada año (en miles) en Simmons Stores y
tarjeta de crédito, en tanto que el cupón sería la variable dependiente. Sin embargo, el modelo
común de regresión múltiple no es aplicable, porque la variable dependiente sólo puede tomar
los valores O y 1. Con este ejemplo se ilustra el tipo de situación para la cual se creó la regre-
sión logística. A continuación se verá cómo utilizarla para ayudar a Simmons Stores a estimar
qué tipo de clientes es más probable que aproveche su promoción.

Ecuación de regresión logística


La regresión logística se parece en muchos aspectos a la regresión común. Se necesita una varia-
ble dependiente y, y una o varias variables independientes. En el análisis de regresión múltiple,
a la media o valor esperado de y se le conoce como ecuación de regresión múltiple.

(15.26)

En la regresión logística, tanto la teoría como la práctica estadística han demostrado que la re-
lación existente entre E(y) y X¡. x 2, .. . , xP es mejor descrita por medio de la siguiente ecuación
no lineal.

ECUACIÓN DE REGRESIÓN LOGÍSTICA

(15.27)

Como los dos valores de la variable dependiente y son codificados como O y 1, el valor de E(y)
en la ecuación (15.27) proporcionará la probabilidad de que y = 1 para un conjunto dado de

TABLA 15.11 Datos muestrales parciales del ejemplo de Simmons Stores

Annual Spending
Customer ($1000) Simmons Card Coupon
2.291 o
2 3.215 o
DATADJI 3 2.135 1 o
4 3.924 o o
Simmons 5 2.528 1 o
6 2.473 o 1
7 2.384 o o
8 7.076 o o
9 1.182 1 1
10 3.345 o o
718 Capítulo 15 Regresión múltiple

valores de las variables independientes x 1, x2 , ••• , xP. Dado que E(y) se interpreta como una
probabilidad, la ecuación de regresión logística suele expresarse de la siguiente manera:

INTERPRETACIÓN DE E(y) COMO UNA PROBABILIDAD EN LA REGRESIÓN LOGÍSTICA

(15.28)

Para entender mejor las características de la ecuación de regresión logística, suponga que
el modelo sólo involucra una variable independiente x y que los valores de los parámetros del
modelo son {3 0 = - 7 y f3 1 = 3. La ecuación de regresión logística correspondiente a estos va-
lores de los parámetros es

(15.29)

En la figura 15.12 se muestra la gráfica de la ecuación (15.29). Observe que tiene forma de S.
Por ejemplo, cuando x = 2, E(y) es aproximadamente 0.27. El valor de E(y) va de O a 1, apro-
ximándose gradualmente a medida que aumenta el valor de x, y a O a medida que disminuye el
valor de x. Por ejemplo, cuando x = 2, E(y) = 0.269. Observe también que el valor de E(y),
que representa la probabilidad, se incrementa rápidamente al aumentar x de 2 a 3. El hecho
de que los valores de E(y) vayan de O a 1 y que la curva tenga forma de S hacen la ecuación
(15.29) ideal para modelar la probabilidad de que la variable dependiente sea igual a l.

Estimación de la ecuación de regresión logística


En la regresión lineal simple y en la regresión múltiple, el método de mínimos cuadrados per-
mite calcular las estimaciones b0 , b 1, •••• , bP de los parámetros (/3 0 , /3 1, . . . , /3P) del mode-
lo. Debido a la forma no lineal de la ecuación de regresión logística, el método para calcular
estas estimaciones es más complejo y queda fuera del alcance de este libro. Para obtener es-
tas estimaciones se empleará software. La ecuación de regresión logística estimada se indica
enseguida.

FIGURA 15.12 Ecuación de regresión logística en la que /3 0 = -7 y /3 1 = 3

1.0

0.8

,-. 0.6
.....
'-'
¡;;,¡
0 .4

0.2

o.o
o 2 3 4 5

Variable independente (x)


15.9 Regresión logística 719

ECUACIÓN DE REGRESIÓN LOGÍSTICA ESTIMADA

ebo+ b1X1 + b2X2+ ... + bpxp


y= estimación de P(y = llx 1, x 2, . . . , x)P = -1 -
+- ------
ebo+b1x1+b2x2+···+bpxp
(15.30)

Aquí y es una estimación de la probabilidad de que y = 1 para un determinado conjunto


de valores de las variables independientes.
De vuelta al ejemplo de Simmons Stores, las variables en este estudio están definidas co-
mo sigue:

_ {ºsi el cliente no usó el cupón


y - 1 si el cliente usó el cupón

x1 = cantidad anual gastada en Simmons Stores (en miles de dólares)


_ {º si el cliente no tiene tarjeta de crédito de Simmons
x2 - 1 si el cliente tiene tarjeta de crédito de Simmons

Por lo tanto, se elige una ecuación de regresión logística con dos variables independientes.

( 15.31)

En el apéndice 15.3 se Para calcular las estimaciones de los parámetros {3 0 , {3 1 y {3 2 del modelo, se aplicó el proce-
explica cómo usar Minitab dimiento de regresión logística binaria de Minitab a los datos muestrales de la tabla 15 .11.
para generar el resultado
En la figura 15.13 se muestra parte de los resultados obtenidos. Observe que b0 = -2.146,
de la.figura 15.13.
b 1 = 0.342 y b2 = 1.099. Así, la ecuación de regresión logística estimada es

ebo+ b1x1 + b2x2 e-2.14637+0.341643x1 + l.09873xz


y = -1 - -----
+ ebo+b1X1+b2X2 + e-2.14637+0.341643x1+!.09873x2
( 15.32)

Ahora, con la ecuación (15.32) se estima la probabilidad de que un determinado tipo de


clientes use el cupón. Por ejemplo, para estimar la probabilidad de que aquellos que tienen un
gasto anual de $2000 en Simmons Stores y que no tienen tarjeta de crédito de la tienda usen el
cupón, en la ecuación (15.32) se sustituyen x 1 = 2 y x2 = O.

e -2.146 + o.342(2) + I.099(0) e-1. 462 0.2318


y= -
1+-e-2.146
- - -+ o.342(2)
--- -- - - - 462 - = - - = 0.1882
+ 1.099(0) + e-1. 1.2318

Por lo tanto, la· probabilidad estimada de que este tipo de clientes use el cupón es de 0.19.
De manera similar, la probabilidad de que lo usen aquellos que tienen un gasto anual de $2 000
en Simmons Stores y tarjeta de crédito de la tienda se estima sustituyendo x 1 = 2 y x 2 = 1 en
la ecuación (15.32).

e -2.146 + o.342(2) + 1.099( 1l - 0·363 o6956


y= -
1+-e-2.146
--- -----
+ o.342(2) + 1.099(1)
e
+ e-0.363
= - ·- - = 0.4102
1.6956
720 Capítulo 15 Regresión múltiple

FIGURA 15.13 Resultado parcial de la regresión logística para el ejemplo de las tiendas
Simmons

Deviance Table

Source DF Adj Dev Adj Mean Chi-Square P-Value


Regression 2 13.628 6.814 13. 63 0.001
Spending 1 7.556 7.556 7.56 0.006
Card 1 6.410 6.410 6.41 0.011
Error 97 120.974 1.247
Total 99 134. 602

Model Summary

Deviance Deviance
R-Sq R-Sq(adj) AIC
10.12% 8.64% 126.97

Coefficients

Term Coef SE Coef VIF


Constant -2.146 0.577
Spending 0.342 0.129 1.02
En los resultados de Card
Minitab, x 1 = Spending 1 l. 099 0.445 1.02
(cantidad gastada) y
x2 = Card (tarjeta de
crédito).
Odds Ratios far Continuous Predictors

Odds Ratio 95% CI


Spending 1.4073 (l.0936, 1.8109)

Odds Ratios far Categorical Predictors

Level A Level B Odds Ratio 95% CI


Card
1 o 3.0004 (1.2550, 7.1730)

Odds ratio far level A relative to level B

Regression Equation

P(l) = exp(Y') / ( 1 + exp(Y'))

Card
o Y' -2.146 + 0.3416 Spending

1 Y' = -1. 048 + 0.3416 Spending


15. 9 Regresión logística 721

Así, la probabilidad de que los clientes de este grupo usen el cupón es aproximadamente de
0.41. Parece ser que quienes manejan tarjeta de crédito de Simmons tienen mayor probabilidad
de usar el cupón. Pero antes de llegar a una conclusión, es necesario evaluar la significancia
estadística de este modelo.

Prueba de significancia
La prueba de significancia en la regresión logística es similar a la que se aplica en la regresión
múltiple. Primero se prueba la significancia global. En el ejemplo de Simmons Stores, las hipó-
tesis para probar la significancia global son las siguientes:

H.: uno o los dos parámetros son diferentes de cero

La prueba de significancia global del modelo se basa en el valor del estadístico de prueba X2 .
Si la hipótesis nula es verdadera, la distribución muestral de X2 es una distribución ji-cuadrada
con grados de libertad igual al número de variables independientes en el modelo. El cálculo de X2
queda fuera del alcance de este libro, pero este valor y su correspondiente valor-p se obtienen
como parte del resultado de regresión logística binaria que proporciona Minitab. En la última
línea de la figura 15 .13 se encuentra que el valor de X2 es 13. 63, sus grados de libertad son 2 y su
correspondiente valor-pes 0.001. Por lo tanto, cualquier nivel de significancia a ~ 0.001, nos
llevará a rechazar la hipótesis nula y a concluir que el modelo global es significativo.
Una vez que la prueba X2 ha indicado que sí existe una significancia global, suele realizarse
otra prueba X2 para determinar si la contribución de cada una de las variables independientes al
modelo es significativa. Para cada una de las variables independientes X; las hipótesis son

H 0 : (3; =O

H.: (3; =I= O

En el apéndice 15.3 se La prueba de significancia de una variable independiente también se basa en el valor de una prueba
presenta la fonna en que del estadístico X2 . Si la hipótesis nula es verdadera, la distribución muestra! de X2 sigue una distri-
se establece el nivel de
bución de ji-cuadrada con un grado de libertad. En la tabla de resultados de Minitab, las columnas
confianza para intervalos
de confianza de cocientes de ji-cuadrada y valor-p presentan los valores de X2 con sus valores p de prueba para cada coeficiente
probabilidades en Minitab. estimado. Suponga que en el modelo de Simmons se emplea a = 0.05 para probar la significancia
Establecer los niveles de de las variables independientes. Para x 1 el valor X2 = 7 .56 y su correspondiente valor-p es 0.006.
confianza pennite probar Por lo tanto, para el nivel de significancia 0.05 podemos rechazar H0 : (3 1 = O. De la misma manera
las hipótesis nulas para las
se rechaza H 0 : (3 2 = O, dado que el valor-p correspondiente a X2 = 6.41 es 0.011. Así, si se
variables independientes,
para cualquier nivel utiliza 0.05 como nivel de significancia, ambas variables son estadísticamente significativas.
deseado de significancia.

Aplicación en la administración
Ya se describió cómo obtener la ecuación de regresión logística estimada y cómo probar su sig-
nificancia. Ahora se podrá hacer una recomendación para la decisión que se tomará en Sirnmons
Stores sobre la promoción de su catálogo. Ya se calcularon P(y = ljx 1 = 2, x 2 = 1) = 0.4102
y P(y = ljx 1 = 2, x2 = O) = 0.1881. Con base en estas probabilidades, se observa que en-
tre aquellos clientes cuyo gasto anual en Sirnmons Stores es $2 000, los que cuentan con una
tarjeta de crédito de la tienda tienen mayor probabilidad de usar el cupón. En la tabla 15.12 se
presentan las probabilidades estimadas correspondientes a clientes tanto con tarjeta de crédi-
to como sin ella, cuyos desembolsos anuales en Simmons Stores van de $1000 hasta $7 000.
722 Capítulo 15 Regresión múltiple

¿Cómo puede utilizar Simmons esta información para elegir a los clientes a los que dirigirá la
nueva promoción? Suponga que desea enviar este catálogo sólo a clientes cuya probabilidad de
usar el cupón sea 0.40 o mayor. Con base en las probabilidades estimadas que aparecen en la
tabla 15.12, la estrategia en esta promoción de Simmons sería la siguiente:

Clientes con tarjeta de crédito de Simmons. Enviar el catálogo a todos aquellos que
durante el año pasado gastaron $2 000 o más.

Clientes sin tarjeta de crédito de Simmons. Enviar el catálogo a todos aquellos que du-
rante el año pasado gastaron $6 000 o más.

Sin embargo, al observar con más detalle las probabilidades estimadas, vemos que la proba-
bilidad de que usen el cupón aquellos clientes sin tarjeta de crédito de Simmons que gastaron
$5 000 en un año es de 0.3922. Por lo tanto, será conveniente que la tienda reconsidere su estra-
tegia e incluya a clientes que no tienen tarjeta de crédito, pero que gastaron en Simmons $5 000
o más el año pasado.

Interpretación de la ecuación de regresión logística


Para interpretar una ecuación de regresión es necesario relacionar las variables independientes
con la pregunta de negocios a la que se trató de dar respuesta con esa ecuación. En la regresión
logística, debido a que la ecuación de regresión logística no es lineal, es difícil interpretar di-
rectamente la relación entre las variables independientes y la probabilidad de que y = 1. Sin
embargo, se ha demostrado que podemos interpretar indirectamente esta relación mediante un
concepto llamado cociente de posibilidades (odds ratio).
Las posibilidades a favor de que ocurra un evento se definen como la probabilidad de
que ocurra el evento, dividida entre la probabilidad de que no ocurra. En la regresión logística
el evento de interés siempre es y = 1. Dado un determinado conjunto de valores de las variables
independientes, las posibilidades a favor de y = 1 se calculan de la siguiente manera:

P(y = Ilx 1, x 2, ..• , xP) P(y = Ilx 1, x 2 , ... , xP)


odds = = ---------~- ( 15.33)
P(y = olx¡. Xz, .. . ' xp) 1 - P(y = llx¡, Xz, . . . , xp)

El cociente de posibilidades mide el efecto que tiene sobre estas posibilidades el incremento en
una unidad en una de las variables independientes. Es, por ende, la probabilidad de que y = 1
cuando una de las variables independientes se incrementa en una unidad (odds 1) dividida entre
las posibilidades de que y = 1, dado que no ha habido cambio en los valores de las variables
independientes (odds 0 ).

TABLA 15.12 Probabilidades estimadas para Simmons Stores

Gasto anual

$1000 $2000 $3000 $4000 $5000 $6000 $7000

Tarjeta de Sí 0.3305 0.4099 0.4943 0.5791 0.6594 0.7315 0.7931

crédito No 0.1413 0.1 880 0.2457 0.3144 0.3922 0.4759 0.5610


15.9 Regresión logística 723

COCIENTE DE POSIBILIDADES (ODSS RATIO)

odds
Cociente de posibilidades = - -1 ( 15.34)
odds0

Por ejemplo, suponga que se desea comparar las posibilidades de que use el cupón un
cliente que gasta $2000 anuales y tiene tarjeta de crédito de Simmons (x 1 = 2 y x2 = 1) con
las posibilidades de que lo use un cliente que gasta $2 000 anuales y no tiene tarjeta de crédito
de Simrnons (x 1 = 2 y x2 = 0). Lo que interesa es interpretar el efecto de un incremento de una
unidad en la variable independiente x2 . En este caso

P(y = 1 lx1 = 2, x2 = 1)
odds 1 = 1 - P( y = 1Ix 1 = 2, x 2 = 1)

P(y = 1 lx1 = 2, x2 = O)
odds0 =
1 - P(y = 1Ix 1 = 2, x2 = O)

Como ya se demostró, la estimación de la probabilidad de que y = 1 cuando x 1 = 2 y x2 = 1


es 0.4102, y la estimación de la probabilidad que y = l cuando x 1 = 2 y x2 = O es 0.1881. Por
lo tanto,

0.4102
estimación de odds 1 = = 0.6915
1 - 0.4102
y
0.1881
estimación de odds0 = = 0.2318
1 - 0.1881

La estimación resultante es

0.6956
Estimación del cociente de posibilidades = --- = 3.00
0.2318

Por consiguiente, podemos concluir que las posibilidades estimadas de que usen el cupón los
clientes que gastaron $2 000 el año pasado y tienen tarjeta de crédito de Simmons son tres ve-
ces mayores que las de quienes gastaron $2 000 el año pasado y no tienen tarjeta de crédito de
Simmons.
El cociente de posibilidades de cada una de las variables independientes se calcula al man-
tener constantes todas las demás variables independientes. Sin embargo, no importa qué valores
constantes se usen para todas las demás variables. Por ejemplo, si se calcula el cociente de
posibilidades para la variable tarjeta de crédito de Simmons (x2 ) utilizando $3 000 en lugar
de $2000 como valor de la variable cantidad de gasto anual (x 1) , el valor obtenido para el co-
ciente de posibilidad estimado será el mismo (3 .00). Por lo tanto, se concluye que las posibili-
dades estimadas de que use el cupón un cliente con tarjeta de crédito de Simmons son tres veces
mayores que las posibilidades estimadas de que lo use un cliente sin tarjeta de crédito.
El cociente de posibilidades es un resultado estándar para la regresión logística en los pro-
gramas de software. Remítase a los resultados de Minitab de la figura 15.13. En la columna ti-
tulada Odds Ratio aparecen los cocientes de posibilidad estimados correspondientes a cada una
de las variables independientes. Para x 1 es 1.4073 y para x2 es 3.0004. Ya se indicó cómo inter-
pretar el coeficiente de posibilidad estimada en el caso de la variable binaria independiente x2.
724 Capítulo 15 Regresión múltiple

Ahora se considerará la interpretación de este cociente en el caso de la variable continua inde-


pendiente x 1•
El valor 1.4073 en la columna Odds Ratio de los resultados de Minitab indica que la posibi-
lidad estimada de que use el cupón un cliente que gastó $3 000 durante el año pasado es 1.4073
veces mayor que la probabilidad estimada de que lo use un cliente que gastó $2000. Más aún
esta interpretación es correcta para cualquier cambio en una unidad de x 1• Por ejemplo, las po~
sibilidades estimadas de que use el cupón alguien que gastó el año pasado $5 000 son 1.4073 ve-
ces mayores que las de que lo use un cliente cuyo gasto anual fue de $4000. Pero suponga que
interesa la variación en las posibilidades cuando hay un incremento de más de una unidad en
cualquiera de las variables independientes. Observe que x 1 toma valores desde 1 hasta 7. El
cociente de posibilidades que se presenta en los resultados de Minitab no responde esta pre-
gunta. Para responderla es necesario explorar la relación entre el cociente de posibilidades y los
coeficientes de regresión.
Existe una relación única entre el cociente de posibilidades de una variable y su corres-
pondiente coeficiente de regresión. Podemos demostrar que para toda variable independiente de
una ecuación de regresión logística

Cociente de posibilidades = e/Ji

Para ilustrar esta relación con el ejemplo de Simmons Stores, considere la variable indepen-
diente x 1. El cociente de posibilidades estimado para x 1 es

Cociente de posibilidades estimado = e b1 = e°- 342 = 1.07

De manera similar, para x2 es

Cociente de posibilidades estimado = eb 2 = e1.


099
= 3.001

Esta relación entre el cociente de posibilidades y los coeficientes de las variables independien-
tes facilitan el cálculo del primero, una vez obtenidas las estimaciones de los parámetros del
modelo. Además, también permite investigar cambios en el cociente de posibilidades cuando se
presentan variaciones mayores o menores que una unidad en una de las variables independientes
continuas.
El cociente de posibilidades de una variable independiente representa la variación en las po-
sibilidades de un cambio de una unidad en ella, permaneciendo constantes todas las demás va-
riables independientes. Suponga que se desea conocer el efecto de una variación de más de una
unidad, por ejemplo de e unidades. Digamos que, en el ejemplo de Simmons, queremos com-
parar las posibilidades de que use el cupón un cliente que gasta $5 000 anuales (x 1 = 5) con las
posibilidades de que lo use un cliente que gasta $2 000 anuales (x 1 = 2). En este caso e = 5 -
2 = 3, y el correspondiente cociente de posibilidades es

ecb 1 = e3(0.342) = el.026 = 2.79

Esto indica que las posibilidades estimadas de que usen el cupón los clientes cuyo gasto anual
es de $5000 son 2.79 veces mayores que las de quienes gastan $2000. En otras palabras, el
cociente de posibilidades estimado para un incremento de $3 000 en el gasto anual es 2. 79.
En general, el cociente de posibilidades permite comparar las posibilidades de dos eventos
diferentes. Si el valor de este cociente es 1, los dos eventos tienen las mismas posibilidades. Por
lo tanto, si la variable independiente que se considera (como el estatus respecto de la tarjeta de
crédito de Simmons) tiene efecto positivo sobre la probabilidad de que ocurra el evento, el co-
ciente de posibilidades correspondiente será mayor que l. La mayoría del software para estadís-
tica también proporciona un intervalo de confianza para el cociente de posibilidades. En la figura
15.13 los resultados de Minitab indican un intervalo de 95% de confianza para cada uno de los
15. 9 Regresión logística 725

cocientes. Por ejemplo, la estimación puntual del cociente de posibilidades de x 1 es 1.4073 y el


intervalo de 95% de confianza va de 1.0936 a 1.8109. Como este intervalo no contiene el valor 1,
se concluye que x 1 tiene un efecto significativo sobre el cociente de posibilidades estimado.
De manera similar, el intervalo de 95% de confianza para el cociente de posibilidades de x2 va
de 1.255 a 7.173, y como tampoco contiene el valor 1, también concluimos que x 2 tiene un
efecto significativo sobre el cociente de posibilidades.

Transformación logit
Entre las posibilidades a favor de y = 1 y el exponente de e en la ecuación de regresión logís-
tica, se observa una interesante relación. Podemos demostrar que

Esta ecuación indica que el logaritmo natural de las posibilidades a favor de y = 1 es una fun-
ción lineal de las variables independientes. A esta función lineal se le llama logit. Para denotar
logit se usa la notación g(xp x 2 , . . . , xP).

LOGIT

(15.35)

Al sustituir /3 1 + {3 1x 1 + /3 2x 2 + · · · + fJPxP por g(x 1, x 2, ... , xP) en la ecuación (15.27), po-


demos expresar la ecuación de regresión logística como
eg(X¡,X2, ... ,Xp)
E(y)=----- (15.36)
1+ eg(x¡ ,X2•····9

Una vez estimados los parámetros de la ecuación de regresión logística, calculamos una esti-
mación del logit. Con g(xp x 2 , . . . , xP) para denotar el logit estimado tenemos

LOGIT ESTIMADO

(15.37)

Por consiguiente, en términos del logit estimado, la ecuación de regresión estimada es


ebo+b¡X¡ +b2x2+···+bpxp eg(X¡, X2,. . .,Xp)

y= 1+ ebo+b¡x¡+b2x2+ ···+brP = 1 + eg(x¡,X2•···•Xp)


(15.38)

En el ejemplo de Simmons Stores, el logit estimado es

y la ecuación de regresión estimada es


eg(x,,x2) e-2.146 + 0.342x¡ + l.099x2
y= 1+ eg(x¡,X2)
= -- ---------
1 + e-2.146 + 0.342x¡ + J.099x2

Por lo tanto, debido a la relación única que existe entre el logit estimado y la ecuación de regre-
sión logística estimada, podemos calcular las probabilidades estimadas para Simmons Stores
dividiendo eg(x,,x2l entre 1 + ei<x,,x2l_
726 Capítulo 15 Regresión múltiple

l. Debido a la relación única que existe entre los de significancia para los correspondientes cocien-
coeficientes estimados del modelo y los corres- tes de posibilidades.
pondientes cocientes de posibilidades, la prueba ge- 2. En las regresiones simple y múltiple se usa el coe-
neral de significancia basada en el estadístico X2 es ficiente de determinación para medir la bondad de
también una prueba general de significancia para ajuste. En la regresión logística no existe una sola
los cocientes de posibilidades. Además, la prueba medida que tenga una interpretación similar. El
X2 para la significancia de cada uno de los paráme- estudio de la bondad de ajuste queda fuera del al-
tros del modelo también es una prueba estadística cance de esta introducción a la regresión logística.

Aplicaciones
44. Remítase al ejemplo de Simmons Stores que se presentó en esta sección. La variable depen-
DATAf l l diente es y = 1 si el cliente usó el cupón y y = Osi no lo usó. Suponga que la única información
de que se dispone para predecir si un cliente usará o no el cupón es su estatus respecto de la
Simmons
posesión de una tarjeta de crédito de la empresa, que es x = 1 si el cliente cuenta con ella y
x = Osi no cuenta con ella.
a) Proporcione la ecuación de regresión logística que relaciona x y y.
b) ¿Cuál es la interpretación de E(y) cuando x = O?
e) Con los datos de Simmons presentados en la tabla 15 .11, use Minitab para calcular el logit
estimado.
d) Con el logit estimado del inciso e) obtenga una estimación de la probabilidad de que los
clientes que no tienen tarjeta de crédito de Simmons usen el cupón y una estimación de la
probabilidad de que lo usen quienes tienen la tarjeta.
e) Proporcione la estimación del cociente de posibilidades. ¿Cuál es su interpretación?

45. En la tabla 15.12 se presentaron estimaciones de las probabilidades de uso del cupón en la
promoción por catálogo de Simmons Stores. Para cada combinación de valores de las variables
independientes se obtuvo un valor diferente.
a) Calcule las posibilidades de que use el cupón un cliente cuyo gasto anual en Simmons es
de $4000 y que no tiene tarjeta de crédito de la tienda (x 1 = 4, x2 = 0).
b) Use la información de la tabla 15.12 y el inciso a) para calcular el cociente de posibilidades
para la variable tarjeta de crédito de Simmons x2 = O, manteniendo constantes los gastos
anuales en x 1 = 4.
e) En el libro, el cociente de posibilidades para la variable tarjeta de crédito se calculó con la
información presentada en la columna $2000 de la tabla 15.12. ¿Obtuvo la misma infor-
mación para el valor del cociente de posibilidades en el inciso b)?
46. El Community Bank desea incrementar la cantidad de clientes a los que se les deposita direc-
tamente su sueldo. La gerencia está considerando una campaña que requerirá que cada gerente
de sucursal llame a cada cliente que no reciba su depósito. Corno incentivo para que acepten
esta propuesta, se les ofrecerá gratis consultas de saldo durante dos años. Debido al tiempo
y los costos de esta campaña, la gerencia desea que se dirija a clientes que tengan la mayor
probabilidad de aceptar recibir por depósito su sueldo: La gerencia piensa que el saldo prome-
dio mensual en la cuenta de cheques del cliente puede ser un predictor útil para determinar si
aceptará o no recibir su sueldo de esa manera. Para investigar la relación entre estas dos varia-
bles, Community Bank prueba la nueva campaña con una muestra de cuentas de cheques de
50 clientes que actualmente no reciben directamente por depósito su sueldo. En los datos mues-
trales se presenta el saldo mensual (Monthly Balance) promedio en la cuenta de cheques (en
miles de dólares) y si el cliente (Customer) aceptó recibir por depósito directo (Direct Deposit)
su sueldo 1 significa que aceptó y Oque no aceptó. Esta información se encuentra en el banco
de datos de nombre Bank; a continuación se presenta una parte.
15.9 Regresión logística 727

Customer x = Monthly Balance y = Direct Deposit


1 1.22 o
2 1.56 o
DATA. 3 2.10 o
4 2.25 o
Bank 5 2.89 o
6 3.55 o
7 3.56 o
8 3.65 1

48 18.45 1
49 24.98 o
50 26.05 1

a) Escriba la ecuación de regresión logística que relaciona x con y .


b) Con base en los datos de Community Bank, use Minitab para calcular la ecuación de re-
gresión logística estimada.
e) Realice una prueba de significancia con el estadístico de prueba X2. Use a = 0.05.
d) Estime la probabilidad de que los clientes cuyo saldo mensual promedio es de $1 000
acepten recibir directamente el depósito de su sueldo.
e) Suponga que Cornmunity Bank desea contactar sólo a los clientes para los que la probabi-
lidad de que acepten recibir directamente su sueldo es de 0.50 o mayor. ¿Cuál es el saldo
promedio mensual que se requiere para tener este nivel de probabilidad?
f) Proporcione la estimación del cociente de posibilidades. ¿Cuál es su interpretación?
47. En Lakeland College aumentó el porcentaje de estudiantes que abandonó sus estudios después
del primer año. El año pasado la institución inició un programa voluntario de orientación de
una semana para ayudar a los de primer ingreso a que se adapten a la vida del campus. Si se
demuestra que ese programa tiene resultados positivos, se considerará la posibilidad de que sea
obligatorio para todos los alumnos de primer año. La administración del colegio supone que
los estudiantes que obtienen una calificación baja en el examen GPA tienen mayor probabilidad
de abandonar los estudios al final del primer año. Con la finalidad de investigar la relación de
estas variables con la permanencia en la escuela, Lakeland College tomó una muestra aleatoria
de 100 estudiantes (Student) de primer año. La información se encuentra en el banco de datos
Lakeland. A continuación se reproduce parte de esos datos. En Program se listan los valores
asignados al programa y en Retum, los de la permanencia de los alumnos.

Student GPA Program Retoro


1 3.78 1 1
2 2.38 o 1
DATA. 3 1.30 o o
4 2.19 1 o
Lakeland 5 3.22 1 1
6 2.68 1 1

98 2.57 1
99 1.70 1
100 3.85 1

La variable dependiente toma el valor y = 1 si el estudiante permanece en la escuela y y = O


si la abandona. Las dos variables independientes son:

x 1 = GPA al final del primer semestre


x = {ºsi el estudiante participa en el programa de orientación
2
1 si el estudiante no participa en el programa de orientación
728 Capítulo 15 Regresión múltiple

a) Escriba la ecuación de regresión logística que relaciona x 1 y x 2 con y.


b) ¿Cuál es la interpretación de E(y) cuando x2 = O?
e) Use las dos variables independientes y Minitab para calcular el logit estimado.
d) Realice una prueba de significancia global empleando a = 0.05.
e) Utilizando a = 0.05, determine si cada una de las variables independientes es sign¡f¡_
cativa.
f) Con el logit estimado del inciso e) obtenga una estimación de la probabilidad de que un
estudiante cuyo GPA es 2.5 y que no participó en el programa de orientación permanezca
en la escuela. ¿Cuál es la estimación de esta probabilidad para un estudiante que Parti-
cipó en el programa de orientación cuyo GPA es 2.5?
g) Proporcione la estimación del cociente de posibilidades para el programa de orientación.
Interprétela.
h) ¿Recomendaría convertir el programa de orientación en un curso obligatorio? ¿Por qué?
48. La empresa Tire Rack mantiene un estudio independiente de consumo que ayuda a los conduc-
tores a ayudarse mutuamente al compartir sus experiencias a largo plazo con sus llantas. Los
datos que se encuentran en el archivo TireRatings muestran el resultado de la encuesta para 68
TireRatings
llantas o neumáticos de todas las temporadas. Los rasgos de desempeño se evalúan utilizando
la siguiente escala de 10 puntos:

Superior Excellent Good Fair Unacceptable


10 8 7 6 5 4 3 2 1

Los valores para la variable etiquetada como Wet muestran el promedio de la calificación de
desempeño de la tracción sobre superficies mojadas para cada llanta, mientras que los valores
para la variable etiquetada como Noise son los promedios de las calificaciones asignadas al
nivel de ruido generado por cada llanta. Los encuestados también respondieron si comprarían
de nuevo (Buy Again) la llanta con la siguiente escala de 10 puntos:

Definitely Probably Possibly Probably Not Definitely Not


10 9 8 7 6 5 4 3 2 1

Los valores para la variable etiquetada como Buy Again son el promedio de respuestas de si
comprarían de nuevo. Para propósitos de este ejercicio, creamos la siguiente variable depen-
diente binaria:

_ { 1 si el valor de la variable Buy Again es de 7 o superior


Compra - O si el valor de variable Buy Again es menor a 7

Por lo tanto, si Compra = 1, es probable o definitivo que el encuestado compre de nuev.o la


llanta.
a) Escriba la ecuación de regresión logística relacionando x 1 = calificación del desempeño
en superficies mojadas y x2 = calificación del desempeño de ruido con y = compra.
b) .Utilice Minitab para calcular el logit estimado.
e) Utilice el logit estimado para calcular la probabilidad de que un cliente probablemente
(Probably) o definitivamente (Definitely) compre de nuevo una llanta en particular, con
un desempeño en superficies mojadas de 8 y una calificación de desempeño de ruido de 8.
d) Suponga que las calificaciones para el desempeño de ruido y en superficies mojadas
son 7. ¿Cómo afectarían estas calificaciones la probabilidad de que un cliente probable-
mente o definitivamente compre de nuevo una llanta en particular?
e) Si fuera el presidente ejecutivo (CEO) de una empresa de llantas, ¿qué le indican los resul-
tados de los incisos e) y d)?
Glosario 729

En este capítulo se presentó la regresión múltiple como extensión del análisis de regresión li-
neal simple que se estudia en el capítulo 14. El análisis de regresión múltiple permite entender
cómo se relaciona una variable dependiente con dos o más variables independientes. La ecua-
ción de regresión múltiple E(y) = /3 0 + /3 1x 1 + /3 2x 2 + · · · + /3PxPindica que el valor esperado
o media de la variable dependiente y, que se denota como E(y), se relaciona con los valores de
las variables independientes x t> x2 , . . . , xP. Para obtener la ecuación de regresión múltiple es-
timada y = b0 + b 1x 1 + b2x 2 + · · · + bPxP se emplean los datos muestrales y el método de
mínimos cuadrados. En efecto, b0, b 1, b2, . . . , bP son estadísticos muestrales que se utilizan para
estimar los parámetros desconocidos {3 0 , f3" /3 2 , . . . , f3 P del modelo. A lo largo del capítulo se
emplearon salidas de pantalla de computadora para hacer énfasis en el hecho de que el software
para estadística es el único medio realista para realizar los numerosos cálculos que se requieren
en el análisis de regresión múltiple.
El coeficiente de determinación múltiple se presentó como una medida de la bondad de
ajuste de la ecuación de regresión estimada. Este coeficiente determina la proporción de la
variación en y que puede explicarse por la ecuación de regresión estimada. El coeficiente de
determinación múltiple ajustado es una medida similar de bondad de ajuste que se adapta al nú-
mero de variables independientes, evitando de esta manera sobreestimar el efecto de adicionar
más variables independientes.
Como medio para determinar estadísticamente si la relación entre las variables es signifi-
cativa, se presentaron una prueba F y una prueba t. La primera permite determinar si existe una
relación global significativa entre la variable dependiente y el conjunto de todas las variables
independientes, y la segunda se usa para determinar si existe una relación significativa entre
la variable dependiente y una determinada variable independiente del modelo de regresión.
También se estudió la relación entre las variables independientes, a lo cual se le llama multi-
colinealidad.
En la sección sobre variables cualitativas independientes se mostró el uso de variables fic-
ticias (dummy) para incorporar datos cualitativos en el análisis de regresión múltiple. En la
sección sobre análisis residual se estudió el análisis residual, el cual permite confirmar los
supuestos del modelo, detectar observaciones atípicas y observaciones influyentes. Asimismo,
se estudiaron los residuales estandarizados, la influencia, los residuales estudentizados elimi-
nados y la medida de la distancia de Cook. El capítulo concluye con una sección sobre el uso
de la regresión logística para modelar situaciones en las que la variable dependiente sólo puede
asumir dos valores.

Análisis de regresión múltiple Análisis de regresión que involucra dos o más variables in-
dependientes.
Cociente de posibilidades Cociente que se obtiene al dividir la posibilidad de que y == 1 dado
que una de las variables independientes aumentó una unidad (odds 1), entre la posibilidad de que
y = 1, dado que no hay alguna variación en los valores de las variables independientes (odds 0);
es decir, cociente de posibilidades (odds ratio) == odds 1/odds 0 .
Coeficiente de determinación múltiple Medida de la bondad de ajuste de la ecuación de
regresión múltiple estimada. Se puede interpretar como la proporción en la variabilidad de la
variable dependiente que se explica por la ecuación de regresión estimada.
Coeficiente de determinación múltiple ajustado Medida de la bondad de ajuste de la ecua-
ción de regresión múltiple estimada que se modifica con base en el número de variables inde-
pendientes en el modelo, y por lo tanto evita sobreestimar el efecto de agregar más variables
independientes. '
Ecuación de regresión logística Ecuación matemática que relaciona E(y), la probabilidad
de que y = 1, con los valores de las variables independientes; es decir E(y) = P(y = llxl'
e f3o +f3 ,x, + f32x2 + ···+/3pxp
X2, . . . , Xp) = 1 + e f3o + f3,x, +f32 x 2+ ···+{3PxP .
730 Capítulo 15 Regresión múltiple

Ecuación de regresión logística estimada Estimación de la ecuación de regresión logís-


tica que se basa en datos muestrales; es decir y = estimación de P(y = 1/x 1, x 2 , . . . , xP) :::::
ebo+b¡X¡ + b2X2+···+bpXp

Ecuación de regresión múltiple Ecuación matemática que relaciona el valor esperado o va-
lor medio de la variable dependiente con los valores de las variables independientes; es decir,
E(y) = {3 0 + {J 1x 1 + {J 2x 2 + · · · + {JPxP.
Ecuación de regresión múltiple estimada Estimación de la ecuación de regresión múltiple
que se basa en datos muestrales y en el método de mínimos cuadrados; es decir, y = b0 + b 1x 1 +
b2X2 + · · · + bPXP.
Influencia Mide qué tan lejos se encuentran de su media los valores de las variables ind~pen­
dientes.
Logit Logaritmo natural de las posibilidades a favor de y = l; es decir, g(x 1, x 2 , . . . , xP) :::::
f3o + f31x1 + f32x2 + ... + {JPxP.
Logit estimado Estimación del logit basada en datos muestrales; es decir, g(x 1, x 2 , ... ,

xP) = b0 + b 1x 1 + b2x 2 + ··· + bPxP.


Medida de la distancia de Cook Medida de la influencia de una observación basada tanto
en la influencia (leverage) de la observación i como en el residual de la observación i.
Método de mínimos cuadrados Método que se utiliza para obtener la ecuación de regresión
estimada. Pennite minimizar la suma de los cuadrados de los residuales (las desviaciones entre
los valores observados de la variable dependiente Y; y los valores estimados de la variable de-
pendiente Y;·
Modelo de regresión múltiple Ecuación matemática que describe cómo se relaciona la va-
riable dependiente y con las variables independientes x 1, x2, ... , xP y con el ténnino del error E.
Multicolinealidad Ténnino que describe la correlación entre las variables independientes.
Observación atípica Aquella que sale del patrón que sigue el resto de las observaciones.
Observación influyente Aquella que tiene una gran influencia en los resultados de la regre-
sión.
Posibilidades a favor de la ocurrencia de un evento Probabilidad de que ocurra el evento
dividida entre la probabilidad de que no ocurra.
Residuales estudentizados eliminados Residuales estandarizados que se basan en un error
estándar de estimación corregido, el cual se obtuvo eliminando la observación i del conjunto de
datos y realizando después el análisis de regresión y los cálculos.
Variable independiente categórica Variable independiente con datos categóricos.
Variable ficticia o dummy Se utiliza para modelar el efecto de las variables cualitativas
independientes. Las variables ficticias sólo toman los valores O y 1.

Modelo de regresión múltiple

( 15. 1 )

Ecuación de regresión múltiple

(15.2)

Ecuación de regresión múltiple estimada

(15.3)

Criterio de mínimos cuadrados

(15.4)
Fórmulas clave 731

Relación entre STC, SCR y SCE

STC = SCR + SCE (15.7)

Coeficiente de determinación múltiple

SCR
R2 = - (15.8)
STC

Coeficiente de determinación múltiple ajustado

n - 1
Ri = 1 - (1 - R2) = - - - -
n - p - 1
(15.9)

Cuadrado medio debido a la regresión

SCR
CMR=-- ( 15.12)
p

Cuadrado medio debido al error

SCE
CME=---- (15.13)
n-p-1

Estadístico de prueba F

CMR
F=-- (15.14)
CME

Estadístico de prueba t

(15.15)

Residual estandarizado de la observación i

Y; - Y;
( 15.23)
s11-Y1

Desviación estándar del residual i

( 15.24)

Medida de la distancia de Cook

D - (y¡ - y¡)2 [ h; ] ( 15.25)


;- (p + l)s 2 (1 - h¡)2

Ecuación de regresión logística

ef3o+f3 1x1+f32x2+··-+f3pxp
E(y) = 1+ ePo+f31x1+f32x2+···+/Jpxp
( 15.27)
732 Capítulo 15 Regresión múltiple

Ecuación de regresión logística estimada

(15.30)

Cociente de posibilidades (odds ratio)

odds
Cociente de posibilidades = - -1 (15.34)
odds0

Logit

(15.35)

Logit estimado

(15.37)

49. El departamento de admisiones de Clearwater College obtuvo la siguiente ecuación de regre-


sión estimada que relaciona el promedio final obtenido en la universidad (GPA) con la pun-
tuación del estudiante en el área de matemáticas del examen de admisión a la universidad (SAT)
y con su promedio final (GPA) en el bachillerato.

y= -1.41 + 0.0235x 1 + 0.00486x 3

donde

x 1 = promedio final en el bachillerato


Xi = puntuación en el área de matemáticas del SAT
y = promedio final en la universidad

a) Interprete los coeficientes de esta ecuación de regresión estimada.


b) Estime el promedio final (GPA) en la universidad para un estudiante cuyo promedio en el
bachillerato es 84 y cuya puntuación en el área de matemáticas del examen de admisión
(SAT) es 540.

50. El director de personal de Electronics Associates desarrolló la siguiente ecuación de regre-


sión estimada que relaciona la puntuación obtenida por un empleado en un examen de satis-
facción laboral con su antigüedad y nivel salarial.

y = 14.4 - 8.69X¡ + 13.5X2

donde

x1 = antigüedad (años)
Xi = nivel salarial (dólares)
y = puntuación en el examen sobre satisfacción laboral (las puntuaciones
más altas indican mayor satisfacción laboral)

a) Interprete los coeficientes de esta ecuación de regresión estimada.


b) Estime la puntuación obtenida en el examen sobre satisfacción laboral de un empleado que
gana $13 .00 por hora y cuya antigüedad es de cuatro años.
Ejercicios complementarios 733

51 . A continuación se presenta una parte del resultado obtenido con software para el análisis de
regresión.

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 1612 0.000
xl 1 146.366 146.366 13. 042 0.004
x2 1 289.047 289.047 25.756 0.000
Error 12 11. 223
Total

Model Summary

s R-sq R-sq(adj) R-sq(pred)


3.35 92.30% % 85.12%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant 2.667 0.010
xl 2.105 0.004 l. 62
x2 o. 613 0.000 l. 62

Regression Equation
Y= 8.103 + 7.602 Xl + 3.111 X2

a) Calcule las entradas que faltan en esta pantalla.


b) Use la prueba F y a = 0.05 para identificar si existe una relación significativa.
e) Utilice la prueba t y a = 0.05 para demostrar H 0 : /3 1 = O y H 0 : /3 2 = O.

52. Remítase al ejercicio 49, donde se vio que el departamento de admisión de Clearwater College
obtuvo la siguiente ecuación de regresión estimada que relaciona el promedio final obtenido
por un estudiante en la universidad (OPA) con la puntuación alcanzada en el área de matemáti-
cas del examen de admisión a la universidad (SAT) y su promedio final (OPA) en el bachillerato.

y= -1.41 + 0.0235x 1 + 0.00486x2

donde

x 1 = promedio final en el bachillerato

x2 = puntuación en el área de matemáticas del SAT

y = promedio final en la universidad


734 Capítulo 15 Regresión múltiple

A continuación se presenta una parte del resultado obtenido con Minitab.

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 1.76209 0.000
Xl 1 0.12389 0.12389 7.35 0.030
X2 1 0.34308 0.34308 25.36 0.003
Error
Total 9 1.88003

Model Summary

s R-sq R-sq{adj) R-sq(pred)


3.35 % % 85.12%

Coefficients

Term Coef SE Coef T-Value P-Value VIF


Constant -1.41 0.4848 0.000
xl 0.0235 0.0087 0.030 1.54
x2 0.0011 0.003 l. 54

Regression Equation
y = -1.41 + 0.0235 Xl + 0.00486 X2

a) Complete las entradas que faltan en esta pantalla.


b) Use la prueba F y 0.05 como nivel de significancia para saber si existe una relación signi-
ficativa.
e) Utilice la prueba t y a = 0.05 para probar H 0 : (3 1 = O y H 0 : /3 2 = O.
d) ¿La ecuación de regresión estimada proporciona un buen ajuste de los datos? Explique.

53. Remítase al ejercicio 50, donde el director de personal de Electronics Associates obtuvo la si-
guiente ecuación de regresión estimada que relaciona la puntuación obtenida por un empleado
en un examen sobre satisfacción laboral con su antigüedad y nivel salarial.

y = 14.4 - 8.69x 1 + 13.5x 3

donde

x1 = antigüedad (años)
x2 = nivel salarial (dólares)
y = puntuación en el examen sobre satisfacción laboral (las puntuaciones
más altas indican mayor satisfacción laboral)
Ejercicios complementarios 735

A continuación se presenta una parte del resultado que se obtuvo con Minitab.

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value


Regression 2 0.003
Xl 1 444.58 444.58 31 23 0.003
X2 1 598.57 598.57 42.05 0.001
Error 71.18
Total 7 720. 00

Model Sununary

s R-sq R-sq(adj) R-sq(pred)


3.773 % % 69.93%

Coeff icients

Term Coef SE Coef T-Value P-Value VIF


Constant 14.41 8.191 l. 76 o.139
xl l. 555 0.003 l. 95
x2 13.52 2.085 0.001 l. 95

Regression Equation
y = 14.41 + 8.69 Xl + 13. 52 X2

a) Complete las entradas que faltan en esta pantalla.


b) Calcule F. Con un nivel de significancia de 0.05, pruebe si la relación es significativa.
e) ¿La ecuación de regresión estimada proporciona un buen ajuste de los datos? Explique.
cf) Use la prueba t y a = 0.05 para probar H 0 : /3 1 = O y H 0 : /3 2 = O.

54. Tire Rack, principal distribuidor en línea de neumáticos en Estados Unidos, realiza pruebas
exhaustivas a efecto de ofrecer a sus clientes productos adecuados para su vehículo y su es-
tilo y condiciones de manejo. Además, aplica un estudio independiente de los consumidores
para ayudar a los conductores a auxiliarse mutuamente, compartiendo sus experiencias a largo
plazo con los neumáticos. Los siguientes datos muestran las calificaciones de la encuesta (en
una escala de 1 a 10, donde la calificación más alta es 10) de 18 neumáticos de verano de alto
desempeño. La variable Steering califica la respuesta de los neumáticos a la conducción, Trade
Wear evalúa la rapidez del desgaste con base en las expectativas del conductor y Buy Again
califica la satisfacción del conductor con el neumático y el deseo de comprar nuevamente uno
similar.
736 Capítulo 15 Regresión múltiple

Tire Steering Tread Wear Buy Again


Goodyear Assurance TripleTred 8.9 8.5 8.1
Michelín HydroEdge 8.9 9.0 8.3
Michelín Harmony 8.3 8.8 8.2
Dunlop SP 60 8.2 8.5 7.9
DATAllll Goodyear Assurance ComforTred 7.9 7.7 7.1
Yokohama Y372 8.4 8.2 8.9
Tire Rack
Yokohama Aegis LS4 7.9 7.0 7.1
Kurnho Power Star 758 7.9 7.9 8.3
Goodyear Assurance 7.6 5.8 4.5
Hankook H406 7.8 6.8 6.2
Michelín Energy LX4 7.4 5.7 4.8
Michelín MX4 7.0 6.5 5.3
Michelín Symmetry 6.9 5.7 4.2
Kurnho 722 7.2 6.6 5.0
Dunlop SP 40 A/S 6.2 4.2 3.4
Bridgestone Insignia SE200 5.7 5.5 3.6
Goodyear Integrity 5.7 5.4 2.9
Dunlop SP20 FE 5.7 5.0 3.3

a) Proporcione una ecuación de regresión estimada para predecir la calificación de Buy Again
con base en la puntuación de Steering. Con un nivel de signi.ficancia de 0.05, pruebe si la
relación es significativa.
b) ¿La ecuación obtenida en el inciso a) proporciona un buen ajuste de los datos? Explique.
e) Proporcione una ecuación de regresión estimada para predecir la puntuación de Buy Again
con base en la puntuación de Steering y de Trade Wear.
d'J ¿Es significativa la incorporación de la variable independiente Trade Wear? Use a = 0.05.
55. La Guía de rendimiento de combustible 2012 del Departamento de Energía y la Agencia Es-
tadounidense de Protección Ambiental provee datos de la eficiencia en el uso de combustible
para automóviles y camiones modelo 2012 (sitio web del Departamento de Energía de Estados
2012Fue1Econ
Unidos, 16 de abril de 2012). En el archivo 2012Fue1Econ encontrará una parte de la muestra
de 309 automóviles. La columna etiquetada como Manufacturer muestra el nombre de la em-
presa que fabrica el automóvil; la etiquetada como Displacement muestra el desplazamiento
del motor en litros; la etiquetada como Fuel muestra el tipo de combustible requerido o reco-
mendado (gasolina regular o Premium); la etiquetada como Drive identifica el tipo de tracción
(F para tracción delantera, R para trasera y A para tracción en las cuatro llantas), y la columna
etiquetada como Hwy MPG muestra la eficiencia de combustible en carretera en millas por
galón.
a) Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la eficien-
cia de combustible en carretera, dado el desplazamiento del motor. Utilice a = 0.05 para
probar la significancia.
b) Considere agregar la variable ficticia (dummy) tipo de combustible (FuelPremium), donde
el valor de 1 se asigna si el tipo recomendado de gasolina es premium y O si es regular.
Obtenga una ecuación de regresión estimada que pueda emplearse para predecir la eficien-
cia del combustible en carretera, dado el desplazamiento del motor y la variable ficticia
tipo de combustible.
e) Utilice a = 0.05 para determinar si la variable ficticia añadida en el inciso anterior es
significativa.
d'J Considere añadir las variables ficticias tracción delantera (FrontWheel) y tracción trasera
(Rearwheel). Se asigna el valor 1 a tracción delantera cuando el vehículo tiene este tipo de
tracción y Opara cualquier otro tipo de tracción. Se asigna el valor 1 a tracción trasera si el
vehículo tiene este tipo de tracción y O para cualquier otro tipo de tracción. Considerando
lo anterior, un vehículo que tiene tracción en las cuatro llantas tendrá un valor de cero en
ambas variables. Obtenga una ecuación de regresión estimada que pueda emplearse para
predecir la eficiencia en el uso del combustible en carretera, dado el desplazamiento del
Ejercicios complementarios 737

motor, la variable ficticia tipo de combustible y las variables ficticias tracción delantera y
tracción trasera.
e) Pruebe la significancia global e individual con a = 0.05 para la ecuación que encontró en
el inciso d) .
56. A continuación se presenta un banco de datos con información de 45 fondos de inversión que
forman parte del Momingstar Funds 500. El banco de datos completo está disponible en el
archivo Mutua!Funds e incluye las siguientes cinco variables:
Fund Type (tipo de fondo). Se etiquetan como DE (capital nacional), IE (capital internacio-
nal) y FI (de renta fija) .
Net Asset Value (valor neto del activo). Precio de cierre por acción al 31 de diciembre de
2007 .
5-Year Average Retum (rendimiento promedio de 5 años). Rendimiento anual promedio del
fondo después de 5 años.
Expense Ratio (tasa de gastos): Porcentaje que se deduce de los activos cada año fiscal para
gastos del fondo.
Momingstar Rank (calificación Momingstar). Puntuación con estrellas del riesgo ajustado de
cada fondo . La calificación Momingstar va desde baja de 1 estrella hasta alta de 5 estrellas.

Net 5-Year
Asset Average Expense
Fund Value Return Ratio Momingstar
Fund Name Type ($) (%) (%) Rank
DATAfill Amer Cent Inc & Growth Inv DE 28.88 12.39 0.67 2-Star
MutualFunds American Century Intl. Disc IE 14.37 30.53 1.41 3-Star
American Century Tax-Free Bond FI 10.37 3.34 0.49 4-Star
American Century Ultra DE 24.94 10.88 0.99 3-Star
Ariel DE 46.39 11.32 1.03 2-Star
Artisan Intl Val IE 25.52 24.95 1.23 3-Star
Artisan Small Cap DE 16.92 15.67 1.18 3-Star
Baron Asset DE 50.67 16.77 1.31 5-Star
Brandywine DE 36.58 18.14 1.08 4-Star

a) Proporcione una ecuación de regresión estimada para predecir el rendimiento promedio de


5 años cuando se conoce el tipo de fondo . Realice una prueba de significancia con 0.05.
b) ¿La ecuación obtenida en el inciso a) proporciona un buen ajuste de los datos? Explique.
e) Determine la ecuación de regresión estimada para predecir el rendimiento promedio de
5 años cuando se conoce el tipo de fondo, el valor neto de los activos y el porcentaje
de gastos. Con un nivel de significancia de 0.05, pruebe para saber si existe una relación
significativa. ¿Considera que se deberían eliminar algunas variables de la ecuación de
regresión estimada? Explique.
d) Morningstar Rank es una variable cualitativa. Corno el banco de datos contiene sólo fon-
dos con cuatro categorías (de dos a cinco estrellas), utilice las siguientes variables ficticias:
categoría de 3 estrellas = 1 para un fondo de 3 estrellas, O para cualquier otro; categoría
de 4 estrellas = 1 para un fondo de 4 estrellas, O para cualquier otro; categoría de 5 estre-
llas = 1 para un fondo de 5 estrellas, O para cualquier otro. Obtenga una ecuación de
regresión estimada para predecir el rendimiento promedio de 5 años cuando se conoce el
tipo de fondo, el porcentaje de gastos y la calificación Momingstar. Utilizando a = 0.05,
elimine todas las variables independientes que no sean significativas.
e) Utilice la ecuación de regresión estimada establecida en el inciso d) para estimar el rendi-
miento promedio de 5 años de un fondo de capital nacional con un porcentaje de gastos de
1.05% y la calificación Momingstar de 3 estrellas.
738 Capítulo 15 Regresión múltiple

S7. La revista Fortune publica una lista anual con las mejores 100 empresas para trabajar. Los
datos que se encuentran en el archivo FortuneBest corresponden a una parte de una muestra
aleatoria de 30 empresas incluidas en la lista de 2012 (Fortune, 6 de febrero de 2012). La
columna etiquetada como Rank muestra la posición que ocupa la empresa dentro de la lis-
ta FortunelOO; la etiquetada como Size indica si la empresa es pequeña, mediana o grande·
la etiquetada como Salaries ($1 OOOs) muestra el promedio del sueldo anual de los empleado~
en nómina redondeado en miles; la etiquetada como Hourly ($1 OOOs) muestra el promedio del
sueldo anual de los empleados por hora redondeado en miles. La revista clasifica a las empresas
como grandes cuando tienen más de 10000 empleados, medianas cuando tienen entre 2SOO y
10000 empleados, y pequeñas cuando tienen menos de 2SOO.

Salaried Hourly
Rank Company Size ($1000s) ($1000s)
4 Wegmans Food Markets Large S6 29
6 NetApp Midsize 143 76
7 Camden Property Trust Small 71 37
8 Recreational Equipment (REI) Large 103 28
10 Quicken Loans Midsize 78 54
11 Zappos.com Midsize 48 2S
12 Mercedes-Benz USA Small 118 50
20 USAA Large 96 47
22 The Container Store Midsize 71 4S
2S Ultimate Software Small 166 56
37 Plante Moran Small 73 4S
DATAl l 42 Baptist Health South Florida Large 126 80
FortuneBest
so World Wide Technology Small 129 31
S3 Methodist Hospital Large 100 83
S8 Perkins Coie Small 189 63
60 American Express Large 114 3S
64 TDindustries Small 93 47
66 QuikTrip Large 69 44
72 EOG Resources Small 189 81
75 FactSet Research Systems Small 103 Sl
80 Stryker Large 71 43
81 SRC Small 84 33
84 Booz Allen Hamilton Large lOS 77
91 CarMax Large S7 34
93 GoDaddy.com Midsize lOS 71
94 KPMG Large 79 S9
9S Navy Federal Credit Union Midsize 77 39
97 Schweitzer Engineering Labs Small 99 28
99 Darden Restaurants Large S7 24
100 Intercontinental Hotels Group Large 63 26

a) Utilice los datos para obtener una ecuación de regresión estimada que pueda emplearse
para predecir el promedio del sueldo anual para empleados en nómina, dado el promedio
del sueldo anual de los empleados por hora.
b) Utilice a = O.OS para probar la significancia global.
e) Utilizamos dos variables ficticias Tamaño-Mediano (Size-Midsize) y Tamaño-Pequeño
(Size-Small) para incluir el efecto del tamaño, una variable cualitativa con tres niveles .
Se asigna el valor 1 a Tamaño-Mediano si la empresa es mediana y O para cualquier otro
tamaño. Se asigna el valor 1 a Tamaño-Pequeño si la empresa es pequeña y O para cual-
quier otro tamaño. Obtenga una ecuación de regresión estimada que pueda aplicarse para
predecir el promedio del sueldo anual de los empleados en nómina dados el promedio del
sueldo anual de los empleados por hora y el tamaño de la empresa.
d) Utilice una prueba t para determinar la significancia de las variables independientes en la
ecuación que obtuvo en el inciso e) con a = O.OS.
Caso práctico 1 Consurner Research, lnc. 739

e) Con base en sus resultados del inciso anterior, obtenga una ecuación de regresión estimada
que pueda aplicarse para predecir el promedio del sueldo anual de los empleados en nómina
dados el promedio del sueldo anual de los empleados por hora y el tamaño de la empresa.

Caso práctico 1 Consumer Research, Inc.


Consumer Research, Inc. es una agencia independiente que realiza estudios para diversas em-
presas sobre las actitudes y el comportamiento del consumidor. Uno de sus clientes solicitó un
estudio sobre las características de los consumidores para predecir los montos que cargan a sus
tarjetas de crédito. De una muestra de 50 individuos se obtuvieron datos sobre ingreso anual
(Income), tamaño de la familia (Household Size) y monto cargado (Amount Charged) anuales
aplicados a las tarjetas de crédito. Los datos que se presentan a continuación provienen del
archivo Consumer.

Income Household Amount Income Household Amount


($1000s) Size Charged ($) ($1000s) Size Charged ($)
54 3 4016 54 6 5573
30 2 3159 30 2583
32 4 5100 48 2 3866
50 5 4742 34 5 3586
31 2 1864 67 4 5037
55 2 4070 50 2 3605
37 1 2731 67 5 5345
40 2 3348 55 6 5370
66 4 4764 52 2 3890
51 3 4110 62 3 4705
DATA. 25 3 4208 64 2 4157
Consumer 48 4 4219 22 3 3579
27 1 2477 29 4 3890
33 2 2514 39 2 2972
65 3 4214 35 1 3121
63 4 4965 39 4 4183
42 6 4412 54 3 3730
21 2 2448 23 6 4127
44 1 2995 27 2 2921
37 5 4171 26 7 4603
62 6 5678 61 2 4273
21 3 3623 30 2 3067
55 7 5301 22 4 3074
42 2 3020 46 5 4820
41 7 4828 66 4 5149

Informe gerencial
l. Utilice métodos de estadística descriptiva para resumir estos datos. Comente sus ha-
llazgos.
2. Obtenga ecuaciones de regresión estimada usando como variables independientes pri-
mero el ingreso anual y después el tamaño de la familia. ¿Cuál de estas variables es
mejor predictor de los cargos anuales a las tarjetas de crédito? Analice sus hallazgos.
3. Obtenga una ecuación de regresión estimada en la que el ingreso anual y el tamaño de
la familia sean las variables independientes. Analice sus hallazgos.
4. ¿Cuál es el monto del cargo anual a las tarjetas de crédito que podemos predecir para un
hogar de tres personas con un ingreso anual de $40 000?
5. Analice la necesidad de agregar al modelo otras variables independientes. ¿Cuáles se-
rían útiles?
740 Capítulo 15 Regresión múltiple

Caso práctico 2 Predicción de victorias para los conductores


de NASCAR
Matt Kenseth ganó en 2012 la carrera más importante de la temporada de NASCAR Daytona 500.
Su triunfo no sorprendió porque en la temporada 2011 terminó en el cuarto lugar con 2330
puntos, detrás de Tony Stewart (2403 puntos), Carl Edwards (2403 puntos) y Kevin Harvick
(2 345 puntos). En 2011 obtuvo ganancias por 6183 580 dólares al ganar tres Pole y ser el
conductor más rápido en las calificaciones, ganar tres carreras y concluir en las mejores cinco
posiciones en 12 ocasiones y en las primeras diez en 20 ocasiones. El sistema NASCAR en 2011
asignó 43 puntos al conductor que llegó primero, 42 al segundo, y así consecutivamente hasta un
punto para el conductor que llegó en la posición 43. Además, cualquier conductor que lideró una
vuelta recibió un punto de bono, el conductor que lideró más vueltas obtuvo otro punto adicio-
nal y el ganador de la carrera 3. El máximo número de puntos que un conductor puede obtener
por carrera es 48. La tabla 15.13 muestra los datos de los 35 mejores conductores durante la
temporada 2011 (sitio web NASCAR, 28 de febrero de 2011).

TABLA15.13 Resultados de la NASCAR en la temporada 2011

Driver Points Poles Wins Tops Top 10 Winnings ($)


Tony Stewart 2403 1 5 9 19 6,529,870
Carl Edwards 2403 3 19 26 8,485,990
Kevin Harvick 2345 o 4 9 19 6,197,140
Matt Kenseth 2330 3 3 12 20 6,183,580
Brad Keselowski 2319 1 3 10 14 5,087,740
Jimmie Johnson 2304 o 2 14 21 6,296,360
Dale Eamhardt Jr. 2290 1 o 4 12 4,163,690
Jeff Gordon 2287 1 3 13 18 5,912,830
Denny Hamlin 2284 o 5 14 5,401,190
RyanNewman 2284 3 9 17 5,303,020
Kurt Busch 2262 3 2 8 16 5,936,470
Kyle Busch 2246 1 4 14 18 6,161,020
Clint Bowyer 1047 o 1 4 16 5,633,950
Kasey Kahne 1041 2 1 8 15 4,775,160

DATA. A.. J. AJlmendinger 1013 o o 10 4,825,560


Greg Biffle 997 3 o 3 10 4,318,050
NASCAR PaulMenard 947 o 4 8 3,853,690
Martín Truex Jr. 937 1 o 3 12 3,955,560
Marcos Ambrose 936 o 1 5 12 4,750,390
Jeff Burton 935 o o 2 5 3,807,780
Juan Montoya 932 2 o 2 8 5,020,780
MarkMartin 930 2 o 2 10 3,830,910
David Ragan 906 2 1 4 8 4,203,660
Joey Logano 902 2 o 4 6 3,856,010
Brian Vickers 846 o o 3 7 4,301,880
Regan Smith 820 o 1 2 5 4,579,860
Jarnie McMurray 795 1 o 2 4 4,794,770
David Reutimann 757 1 o 3 4,374,770
Bobby Labonte 670 o o 1 2 4,505,650
David Gilliland 572 o o 1 2 3,878,390
Casey Mears 541 o o o o 2,838,320
Dave Blaney 508 o o 1 1 3,229,210
A.ndy Lally 398 o o o o 2,868,220
Robby Gordon 268 o o o o 2,271,890
J. J. Yeley 192 o o o o 2,559,500
Caso práctico 3 Cómo encontrar el automóvil de mayor valor 741

Informe gerencial
l. Suponga que desea predecir los ingresos (Winnings $) utilizando solamente el número
de posiciones pole ganadas (Poles), el número de victorias (Wins), el número de veces
en que un conductor terminó entre los mejores cinco (Top 5) o entre los mejores diez
(Top 10). ¿Cuál de estas cuatro variables es un mejor predictor de los ingresos?
2. Obtenga una ecuación de regresión estimada que pueda emplearse para predecir los
ingresos (Winnings 4) dados el número de posiciones pole ganadas (Poles), el número
de victorias (Wins), el número de veces en que un conductor terminó entre los mejores
cinco (Top 5) y entre los mejores diez (Top 10). Pruebe la significancia individual y
analice sus hallazgos y conclusiones.
3. Genere dos nuevas variables independientes: Top 2-5 y Top 6-10, en donde Top 2-5 re-
presenta el número de veces en que un conductor terminó entre el segundo y el quinto
lugar y Top 6-1 O el número de veces en que terminó entre el sexto y el décimo lugar.
Obtenga una ecuación de regresión estimada que pueda emplearse para predecir los
ingresos (Winnings $) utilizando las variables de número de posiciones pole (Poles),
victorias (Wins), Top 2-5 y Top 6-10. Pruebe la significancia individual y analice sus
hallazgos y conclusiones.
4. Con base en los resultados de su análisis, ¿cuál sería la ecuación de regresión estimada
que recomendaría para predecir los ingresos? Interprete los coeficientes de regresión
estimada para esta ecuación.

caso práctico 3 Cómo encontrar el automóvil de mayor valor


Cuando tratamos de decidir qué automóvil comprar, el valor real no se determina necesaria-
mente por cuánto se gasta en la compra inicial. En su lugar, los automóviles que son confiables
y económicos representan a menudo las opciones de mayor valor, pero sin importar qué tan
confiable o económico sea, debe tener un buen funcionamiento.
La revista Consumer Reports desarrolló una estadística conocida como calificación de valor
para medir el valor de los automóviles. Esta calificación se basa en los costos de los automó-
viles en un periodo de cinco años, calificaciones generales de pruebas y tasas de confiabilidad
predicha. Los costos en el periodo de cinco años incluyen los costos durante los primeros cinco
años de vida del automóvil, considerando su depreciación, combustible, mantenimiento y repa-
raciones, entre otros. Para estos costos se emplea la medida de costo por milla conducida (Cost
per Mile Driven) tomando como promedio 12000 millas anuales. Las calificaciones de pruebas
generales (Road Test Score) incluyen los resultados de más de 50 pruebas y evaluaciones en una
escala de 100 puntos, en donde los puntajes más altos indican mejor desempeño, comodidad,
conveniencia y rendimiento del combustible. El automóvil evaluado por Consumer Reports que
obtuvo la mejor calificación fue el Lexus LS 460L con un puntaje de 99. Las calificaciones de
confiabilidad predicha (Predicted Reliability) (1 = Deficiente, 2 = Justo, 3 =Bueno, 4 = Muy
bueno y 5 = Excelente) se basan en los datos de la encuesta Consumer Reports ' Annual Auto
SuT'Vey.
Un automóvil con una calificación de valor de 1.00 se considera de "valor promedio", uno
con calificación de 2.00 se considera doblemente bueno en relación con un automóvil de valor
CarValues 1.00, uno con valor 0.5 se considera como la mitad de bueno que el promedio, y así consecu-
tivamente. El archivo CarValues contiene los datos para una muestra de automóviles de tres
tamaños, 13 sedanes pequeños, 20 sedanes familiares y 21 sedanes de lujo, incluyendo el precio
(Price $) de cada automóvil evaluado (sitio web de Consumer Reports, 18 de abril de 2012).
Para incluir el efecto del tamaño del automóvil, una variable cualitativa con tres valores (sedán
pequeño, sedán familiar y sedán de lujo), se utilizan las siguientes variables ficticias:

, f .li { 1 si el automóvil es un sedán familiar


Seananuar=
d .
Os1 no lo es
S d, d . { 1 si el automóvil es un sedán de lujo
e an e 1UJO = O si no lo es
742 Capítulo 15 Regresión múltiple

Informe gerencial
l. Utilice como variable dependiente la variable costo por milla (Cost/Mile) y obtenga una
regresión estimada con las variables independientes sedán familiar (Family-Sedan) y
sedán de lujo (Upscale-Sedan). Analice sus hallazgos.
2. Utilice como variable dependiente la variable calificación de valor (Value Score) y ob-
tenga una ecuación de regresión estimada con las variables independientes de costo por
milla (Cost/Mile), calificación de pruebas generales (Road-Test Score), confiabilidad
predicha (Predicted Reliability), sedán familiar (Family-Sedan) y sedán de lujo (Upsca-
le-Sedan).
3. Elimine de la ecuación de regresión obtenida en el punto anterior cualquier variable
independiente que no sea significativa con un nivel de significancia de 0.05. Después de
eliminar las variables no significativas, obtenga una nueva ecuación de regresión.
4. Suponga que alguien argumenta que "los automóviles pequeños ofrecen mayor valor
que los grandes". En los datos de este caso, los sedanes pequeños (Small Sedan) repre-
sentan el tipo de automóvil más pequeño y los sedanes de lujo (Upscale sedan) el más
grande. ¿Su análisis apoyaría esta idea?
5. Utilice un análisis de regresión para obtener una ecuación de regresión estimada que
pueda aplicarse para predecir la calificación de valor (Value Score), dado el valor de la
calificación de pruebas generales (Road-Test Score).
6. Utilice un análisis de regresión para obtener una ecuación de regresión estimada que
pueda aplicarse para predecir la calificación de valor (Value Score), dado el valor de
confiabilidad predicha (Predicted Reliability).
7. ¿Qué conclusiones se pueden generar con su análisis?

Apéndice 15.1 Regresión múltiple con Minitab


En la sección 15.2 se estudió la solución de problemas de regresión múltiple utilizando soft-
ware con los resultados de Minitab para el caso de Butler Trucking Company. En este apéndice
Butler se describen los pasos necesarios para que Minitab genere esos resultados. Primero se requiere
ingresar los datos en la hoja de cálculo. Las millas recorridas se ingresan en la columna Cl, el
número de entregas en la columna C2 y el tiempo de recorrido (en horas) en la columna C3.
Los nombres de las variables, Miles (millas), Deliveries (entregas) y Time (tiempo), se ingresan
como encabezados de estas columnas. En los pasos subsecuentes se hará referencia a los da-
tos con los nombres de las variables Miles, Deliveries y Time o los identificadores de las colum-
nas Cl, C2 y C3. A continuación se describen los pasos a seguir con Minitab para obtener los
resultados de regresión que se presentan en la figura 15.4.

Paso l. Seleccione el menú Stat.


Minitab crea y usa de Paso 2. Seleccione el menú Regression.
forma automática variables Paso 3. Elija Regression.
ficticias para todas las Paso 4. Elija Fit Regression Model.
variables cualitativas
Paso 5. Cuando aparezca el cuadro de diálogo Regression:
independientes en el cuadro
Categorical Predictors Ingrese Time en la caja Response.
del cuadro de diálogo Ingrese Miles y Deliveries en el cuadro Continuous Predictors.
Regression. Haga clic en OK.

Apéndice 15.2 Regresión múltiple con Excel


En la sección 15.2 se estudió la solución de problemas de regresión múltiple empleando soft-
ware mediante los resultados proporcionados por Minitab al caso de Butler Trucking Company.
En este apéndice se describe el uso de la herramienta de regresión de Excel para obtener la
ecuación de regresión múltiple estimada para dicho problema. A medida que se describen los
Butler pasos a seguir, consulte la figura 15.14. Primero, en las celdas Al :Dl de la hoja de trabajo se
Apéndice 15.2 Regresión múltiple con Excel 743

FIGURA 15.14 Resultados de Excel al problema de Butler Trucking con dos variables independientes

l Assi!!DJllent
1r:-·
2(
:Miles
,,....,...t-.

50
º~
Deliveries Time
º ,.,....,.,,.,.,..-..,.,,...~·--¡y-~

. _3'. ·~, . 4.8~


3 ~· . ;-.,• . 11» 4 t\. . 8'. 9'
4, 100 2 6. "
5 50 2 4.2
6~ . ' ' ·so 2 6.zj
7r. ; 1'S .3 7..41
8 65 4 ~ .i>¡
3 7.6.
• 1:,, 6.

!1J hgtessioir sranmes·


_.!§jM~Je R .9.9507
_!2.)R Square 0.9038
18 tAdjusted R Squarc 0.8763
191 standardError · 0.5731
-1
20 ¡Obscrvations 1O
21 {i ..
n ¡ANOVA
23 . . <!1 SS MS. F Signi!J.cance F
24 fRegression 2 21.6006 10.8003 32.8784 0.0003
25 1Residual 7 2.2994 0.3285
-·-t .
26 ¡Total 9 23.9
27 !
\;
2i¡ · Cóefficients. Standard Error t:Stat P-value Lower 95% Upe.ir95% Lower 99. 0% Uee.er 99. O"A;
l_~IntCrcc:pt -0.8687 0.9515 ,0.9129' 0.3916 -3-.1188 1.3813 -4.1986 2.4612
~Miles 0.0611 0.0099 6.1824 0.0005 0.0378 0.0845 0.0265 0.0957
3 ~- ,Deliveries 0.9234 . 0.22h 4.1763 0.0042 0.4006 1.4463 0.1496 1.6972
32 ¡

ingresan los rótulos Assignment, Miles, Deliveries y Time, y en las celdas B2:Dl 1 se introdu-
cen los datos muestrales. En las celdas A2:Al 1, los números 1-10 identifican cada observación.
Los siguientes pasos describen cómo usar la herramienta de regresión para el análisis de
regresión múltiple.
Paso l. Haga clic en la ficha Data en la cinta.
Paso 2. En el grupo Analyze, haga clic en Data Analysis.
Paso 3. Elija Regression en la lista de Analysis Tools.
Haga clic en OK.
Paso 4. Cuando aparezca el cuadro de diálogo Regression:
Ingrese D 1:D11 en el cuadro Input Y Range.
Ingrese B 1:C11 en el cuadro Input X Range.
Seleccione Labels.
Elija Confidence Level.
Ingrese 99 en el cuadro Confidence Level.
Seleccione Output Range.
Ingrese A13 en el cuadro Output Range (para indicar la esquina superior
izquierda de la sección de la hoja de trabajo donde deberán aparecer los
resultados).
Haga clic en O K.
En los resultados de Excel que se presentan en la figura 15.14, el rótulo para la variable inde-
pendiente x 1 es Miles (vea la celda A30) y para la variable independiente x 2 es Deliveries (vea
la celda A3 l). La ecuación de regresión estimada es

y= -0.8687 + 0.06llx 1 + 0.9234x2


744 Capítulo 15 Regresión múltiple

Observe que el uso de la herranúenta de regresión de Excel para la regresión múltiple es casi
igual que para la regresión lineal simple. La principal diferencia estriba en que en el caso de la
regresión múltiple se requiere un rango mayor de celdas para identificar las variables indepen-
dientes.

Apéndice 15.3 Regresión logística con Minitab


Minitab llama regresión logística binaria a la regresión logística con una sola variable inde-
pendiente que sólo puede tomar los valores O y 1. En este apéndice se describen los pasos que
Simmons se requieren en el procedinúento de regresión logística binaria de Minitab para generar los re-
sultados que se presentan en la figura 15.13 sobre el caso de Simmons. Primero deben ingresar-
se los datos en una hoja de trabajo de Minitab. Las cantidades (en núles de dólares) que gastaron
los clientes en las tiendas Simmons se ingresan en la columna C2, los datos sobre la tarjeta de
crédito (1 si es de Simmons; O si no es el caso) se ingresan en la columna C3 y el dato sobre el
uso del cupón (1 si el cliente lo usó; Osi no lo usó) se introducen en la columna C4. Los nombres
de las variables Spending (gasto), Card (tarjeta) y Coupon (cupón) se ingresan en la hoja de
cálculo como encabezados de las columnas. En los pasos subsecuentes se hará referencia a los
datos utilizando los nombres de las variables Spending, Card y Coupon o los identificadores de
las columnas C2, C3 y C4. Los siguientes pasos generan los resultados de la regresión logística.

Paso l. Seleccione el menú Stat.


Paso 2. Seleccione el menú Regression.
Paso 3. Elija Binary Logistic Regression.
Minitab crea y usa de Paso 4. Elija Fit Binary Logistic Model.
forma automática variables Paso 5. Cuando aparezca el cuadro de diálogo Binary Logistic Regression:
ficticias para todas las Elija Response in binary response/frequency format.
variables independientes
Ingrese Coupon en el cuadro Response.
cualitativas en el cuadro
Categorical Predictors del
Ingrese Spending en el cuadro Continuous predictors.
cuadro de diálogo Binay Ingrese Card en el cuadro Categorical predictors.
Logistic Regression. Haga clic en OK.

La información que se presenta en la figura 15.13 aparecerá como parte de los resultados.

También podría gustarte