Está en la página 1de 56

Regresión lineal sim pIe

USO DE LA ESTADíSTICA en Coeficiente de Estimación del intervalo de


Sunflowers Apparel determinación confianza para la pendiente
Error estándar Prueba t para el coeficiente
12.1 Tipos de modelos de la estimación de correlación
de regresión

12.2 Determinación de la 12.4 Supuestos 12.8 Estimación de valores


ecuación de regresión medios y pronóstico
lineal simple 12.5 Análisis residual de valores individuales
Método de mínimos Evaluación de los supuest os Estimación del intervalo
cuadrados de confian za
Predicciones en el análisis de Intervalo de estimación
12.6 Medición de la
regresión. Interpolación autocorrelación.
comparada con El estadístico de 12.9 Errores en la regresión
extrapolación Durbin-Watson
Cálculo de la intersección Gráficas residuales para Piense acerca de esto. Con
con Y, bo, y la pendiente, detectar autocorrelación cualquier otro nombre
b1 El estadístico de Durbin-
Watson Revisión del USO DE LA
EXPLORACIONES VISUALES: ESTADíSTICA EN Sunflowers
EXPLORACiÓN DE LOS Apparel
12.7 Inferencias acerca de la
COEFICIENTES DE REGRESiÓN
pendiente y el coeficiente GUíA DEL CAPíTULO 12 PARA
LINEAL SIMPLE
de correlación EXCEl
12.3 Medidas de variación Prueba t para la pendiente
Cálculo de la suma Prueba F para la pendiente GUíA DEL CAPíTULO 12 PARA
de cuadrados MINITAS

Objetivos de aprendizaje
En este capítulo usted aprenderá:
• A utilizar el análisis de regresión para estimar el valor de una variable
dependiente con base en una variable independiente.
• El significado de los coeficientes de regresión bo y b 1•
• A evaluar los supuestos del análisis de regresión y lo que se debe hacer
en caso de que se violen.
• A hacer inferencias acerca de la pendiente y el coeficiente de correlación.
• A estimar valores medios y pronosticar valores individuales.
Dmitriy Shironosov/Shutterstock.com

En Sunflowers Apparel

as ventas de Sunflowers Apparel, una cadena de tiendas de ropa de lujo para dama, han

L
aumentado durante los últimos 12 años a medida que la empresa ha incrementado el nú-
mero de tiendas. Hasta ahora, los gerentes de Sunflowers han elegido los lugares con
base en factores subjetivos, como la disponibilidad de un local en renta o la percepción
de que un lugar parece ideal para una tienda de ropa. Como nuevo director de planeación,
usted necesita desarrollar un método sistemático que le permita tomar mejores decisiones durante el
proceso de selección de ubicaciones de las tiendas. Usted parte de la idea de que el tamaño de la
tienda contribuye de manera importante a las ventas y desea utilizar esta relación en el proceso de toma
de decisiones. ¿Cómo podría utilizar la estadística para pronosticar las ventas anuales de una tienda
sugerida con base en el tamaño de la misma?
crystalfoto/ Shutterstock
432 CAPÍTULO 12 Regresión lineal simple

n este capítulo y en el siguiente se estudiará la forma en que el análisis de regresión per-

E mite desarrollar un modelo para pronosticar los valores de una variable numérica con base
en el valor de otras variables.
En el análisis de regresión la variable que se desea pronosticar se conoce como variable de-
pendiente. Las variables que se utilizan para realizar el pronóstico se denominan variables indepen-
dientes. Además de pronosticar los valores de la variable dependiente, el análisis de regresión
permite identificar el tipo de relación matemática que existe entre una variable dependiente y una
variable independiente con la finalidad de cuantificar el efecto que los cambios en esta última tie-
nen sobre la primera, así como para identificar observaciones poco comunes. Por ejemplo, como
director de planeación, usted tal vez quiera pronosticar las ventas de una tienda Suntlowers con
base en sus dimensiones. Otros ejemplos incluyen el pronóstico de la renta mensual de un aparta-
mento con base en su tamaño y el pronóstico de las ventas mensuales de un producto en un super-
mercado con base en la cantidad de espacio de anaquel que se le asigna.
En este capítulo se estudia la regresión lineal simple, en la que se utiliza una sola variable
numérica independiente, X, para pronosticar la variable numérica dependiente, Y, tal como utilizar
el tamaño de una tienda para estimar sus ventas anuales. En el capítulo 13 se analizan los modelos
de regresión múltiple, los cuales utilizan más de una variable independiente para pronosticar el
comportamiento de una variable numérica dependiente, Y. Por ejemplo, los gastos de publicidad,
el precio y la cantidad de espacio de anaquel asignado a un producto se podrían utilizar para pro-
nosticar las ventas mensuales de este.

12.1 Tipos de modelos de regresión


En la sección 2.6 se utilizó un diagrama de dispersión para examinar la relación entre una varia-
ble X sobre el eje horizontal y una variable Y sobre el eje vertical. La naturaleza de la relación entre
dos variables puede adoptar muchas formas, desde funciones matemáticas sencillas hasta otras
muy complicadas. La relación más sencilla se representa con una línea recta y se define como rela-
ción lineal. En la figura 12.1 se ilustra una relación de línea recta.

FIGURA 12 . 1 y

Una relación
de línea recta
t.X= "cambio en X"
~o

oo~--------------------------x

La ecuación (12.l) representa el modelo de la línea recta (lineal).

MODELO DE REGRESiÓN LINEAL SIMPLE


Y¡ = f30 + f3¡X¡ + Ci (12.1)
donde:
f30 =
intersección con el eje Ypara la población
f3¡ =
pendiente para la población
Ci =
error aleatorio en Y para la observación i
Y¡ = variable dependiente (en ocasiones conocida como variable de
respuesta) para la observación i
Xi = variable independiente (en ocasiones conocida como variable
de predicción o variable explicativa) para la observación i.
12.1 Tipos de modelos de regresión 433

La parte Yi = f30 + f3¡Xi del modelo de regresión lineal simple expresada en la ecuación
(12 .1) es una línea recta. La pendiente de la recta, f31' representa el cambio esperado en Y por uni-
dad de cambio en X; representa la cantidad media que cambia Y (ya sea de manera positiva o nega-
tiva) por una unidad de cambio en X. La intersección con el eje Y, f3 o' representa el valor promedio
de Y cuando X es igual a O. El último componente del modelo, Si' representa el error aleatorio en Y
r;
para cada observación, i. En otras palabras, Si es la distancia vertical del valor real de por arriba
r;
o por debajo del valor esperado de sobre la recta.
La selección del modelo matemático adecuado depende de la distribución de los valores X y Y
en el diagrama de dispersión. En la figura 12.2 se ilustran seis tipos diferentes de relaciones.

FIGURA 12.2 y y

Seis tipos
de relaciones
encontradas en ~-
.....~
...
los diagramas • •
de dispersión

L..----------X
Gráfica A
L..----------X
Gráfica B
Relación lineal positiva Relación lineal negativa
y y


L..----------X
Gráfica e
'---------'----"'----X
Gráfica D
Relación curvilínea positiva Relación curvilinea en forma de U
y y

.\.• • ••• •••• •••• • ••

:~ ...
• •••• l •••••••

~----~·~·~~-
~~'--
=·~---X
Gráfica E
'-----------X
Gráfica F
Relación curvilínea negativa Sin relación entre Xy y

En la gráfica A, los valores de Y tienden a aumentar de forma lineal conforme aumenta X. Esta
gráfica es similar a la figura 12.3 de la página 434, que ilustra la relación positiva entre la extensión
en pies cuadrados de la tienda y las ventas anuales en las sucursales de la cadena de tiendas de ropa
para dama Sunflowers Appare!.
La gráfica B es un ejemplo de una relación lineal negativa. A medida que aumenta X, los valo-
res de Y tienden a disminuir. Un ejemplo de este tipo de relación podría ser el precio de un pro-
ducto en particular y el monto de las ventas.
La gráfica e muestra una relación curvilínea positiva entre X y Y. Los valores de Y aumentan
conforme aumenta X, pero este incremento se reduce a partir de ciertos valores de X. Un ejemplo de
una relación curvilínea positiva podría ser la antigüedad y el costo de mantenimiento de una máquina.
En un inicio, a medida que una máquina se vuelve más antigua, el costo de mantenimiento podría
aumentar con rapidez, pero, luego, a partir de cierto número de años, podría empezar a disminuir.
La gráfica D muestra una relación en forma de U entre X y Y. A medida que aumenta X , al prin-
cipio Y tiende a disminuir, pero conforme X continúa aumentando, Y no solo deja de disminuir sino
que aumenta por arriba de su valor mínimo. Un ejemplo de este tipo de relación podría ser el nú-
mero de errores por hora en una tarea y el número de horas trabajadas. El número de errores por
hora disminuye a medida que el individuo se vuelve más diestro en la realización de la tarea, pero
después aumenta a partir de cierto punto debido a factores como la fatiga y el aburrimiento.
434 CAPÍTULO 12 Regresión lineal simple

La gráfica E presenta una relación exponencial entre X y Y. En este caso Y disminuye con rapi-
dez a medida que, en un inicio, aumenta X, pero luego disminuye con menor rapidez a medida que
X sigue aumentando. Un ejemplo de una relación exponencial podría ser el valor de un automóvil y
su antigüedad. Durante el primer año su precio original (el valor) disminuye drásticamente, luego,
en los años subsiguientes, continúa disminuyendo pero de manera más lenta.
Por último, la gráfica F muestra un conjunto de datos en el que hay una relación mínima o nula
entre X y Y. Para cada valor de X se observan valores altos y bajos de Y
Aunque los diagramas de dispersión son útiles para presentar visualmente la forma matemática
de una relación, existen procedimientos estadísticos más complejos que permiten determinar el
modelo más adecuado para un conjunto de variables. En lo que resta de este capítulo se analiza
el modelo utilizado cuando existe una relación lineal entre variables.

12.2 Determinación de la ecuación de regresión lineal simple


En el caso Sunflowers Apparel, que se presenta en la página 431, el objetivo de negocios del direc-
tor de planeación consiste en pronosticar las ventas anuales para todas las tiendas nuevas con base
en las dimensiones del local. Para examinar la relación entre el tamaño de la tienda, expresado en
pies cuadrados, y sus ventas anuales, se reunieron datos de una muestra de 14 tiendas. En la tabla
12.1 se presentan los datos organizados, los cuales están almacenados en el archivo mm.
En la figura 12.3 se observa el diagrama de dispersión para los datos de la tabla 12.1. Observe
la relación creciente entre los pies cuadrados (X) y las ventas anuales (Y). A medida que aumenta el
tamaño de la tienda, las ventas anuales se incrementan aproximadamente como una línea recta. Por

TABLA 12.1 Pies Ventas anuales Pies Ventas anuales


Extensión (en miles cuadrados (en millones cuadrados (en millones
de pies cuadrados) Tienda (en miles) de dólares) Tienda (en miles) de dólares)
y ventas anuales (en
millones de dólares) 1 1.7 3.7 8 1.1 2.7
para una muestra 2 1.6 3.9 9 3.2 5.5
de 14 sucursales de 3 2.8 6.7 10 1.5 2.9
Sunflowers Apparel 4 5.6 9.5 11 5.2 10.7
5 1.3 3.4 12 4.6 7.6
6 2.2 5.6 13 5.8 11.8
7 1.3 3.7 14 3.0 4.1

FIGURA 12.3
Scatter Diagram for Site Selection
Diagrama de 14
dispersión para los
datos de Sunflowers 12
Apparel

'"'"
ji
11"1 6
ji
:s
e
.'i 4

o
o 2 3 4 5 6 7

Square Feet (OOO)


12.2 Determinación de la ecuación de regresión lineal simple 435

lo tanto, podemos suponer que una línea recta constituye un modelo matemático útil de esta rela-
ción. Ahora es necesario determinar la línea recta específica que se ajusta mejor a esos datos.

Método de mínimos cuadrados


En la sección anterior se planteó la hipótesis de que un modelo estadístico representa la relación
entre dos variables, la extensión en pies cuadrados y las ventas, en toda la población de tiendas de
Sunflowers Appare\. Sin embargo, como se observa en la tabla 12.1 , los datos se obtienen de una
muestra aleatoria de tiendas. Si ciertos supuestos son válidos (véase la sección 12.4), podemos uti-
lizar la intersección muestral con el eje Y, ba, y la pendiente muestral, bl' como estimadores de los
parámetros de población respectivos, {Ja y {J¡. La ecuación (12.2) utiliza esos estimadores para dar
por resultado la ecuación de regresión lineal simple. Esta línea recta se conoce con frecuencia
como línea de predicción.

ECUACiÓN DE REGRESI6N LINEAL SIMPLE. LA LfNEA DE PREDICCiÓN


El valor estimado de Yes igual a la intersección con el eje Y más la pendiente
multiplicada por el valor de X.

(12.2)

donde:
Y¡ = valor estimado de Y para la observación i
X¡ = valor de X para la observación i
ba = intersección de la muestra con el eje Y
b¡ = pendiente de la muestra

La ecuación (12.2) requiere que se determinen dos coeficientes de regresión, ba (la intersec-
ción de la muestra con el eje Y) y b¡ (la pendiente de la muestra). La forma más común para calcu-
lar ba y b¡ es el método de mínimos cuadrados. Este método reduce al mínimo la suma de las
diferencias al cuadrado entre los valores reales (Y¡) y los valores estimados (Y¡), utilizando la ecua-
ción de regresión lineal simple, es decir, la línea de predicción [véase la ecuación (12.2)]. Esta
suma de diferencias al cuadrado es igual a
n
~(Yi -
"
Y¡) 2
A

i= ¡

n n
" A
~(Yi - Yi )2_
- "
~[Yi - (b a + b¡X¡)] 2
¡= l i=l

1 La s ecuaciones utili zadas


Como esta ecuación tiene dos incógnitas, ba y bl' la suma de las diferencias al cuadrado de-
para calcular esos resultados se
presentan en los ejemplos 12.3
pende de la intersección de la muestra con el eje Y, ba, y la pendiente de la muestra, b ¡. El método
y 12.4, en las pág inas 43 8 a de mínimos cuadrados determina los valores de ba y b¡ que reducen al mínimo la suma de las di-
440 y 445 a 446. Dada la na- ferencias al cuadrado alrededor de la línea de predicción. Cualquier valor que adopten ba y b¡ que
turaleza compl eja de los con- no sea de los determinados por el método de mínimos cuadrados produce una suma mayor de dife-
juntos grandes de datos, es ne-
cesario utilizar un programa de
rencias al cuadrado entre los valores reales (Y¡) y los valores pronosticados (Y¡). En la figura 12.4
cómputo para efectuar estos se presentan los resultados del modelo de regresión lineal simple para los datos de Sunflowers
cálculos. Apparel incluidos en la tabla 12.1.¡
436 CAPÍTULO 12 Regresión lineal simple

FIGURA 12.4
Modelos de regresión lineal simple en Excel y Minitab para los datos de Sunflowers Apparel
r:!:)~."~':t~"~'-~'L;~~~~~~~ -~~:L:,~_:;;Ji~:'~,:I~:~';;-,:fL":'~J"~I~,":·.R-~-~]:,'~ ~J; ~." .-.. -,- -f'"'''"'''-' '. ':."~:q
Regression Analysis: Annual Sales versus Square Feet
t U Simple Linear Regression
1 21-
1 _ _--:---,_ _ The regressi on equati on is
¡~i,l Reqfess;on Sfatistic.s Armual Sales = 0,964 + 1. 67 Square Feet
L, ~,.,JMUltip,te.R 0.9509
L_~. ¡ R Square 0.9042
~ _~ : AdJusted R Squ.are 0.8'362
Preclictor Co e f SE Caef T P
¡,J ~Standard Error 0.9664
Cons tant 0.9645 0 . 52 62 1.83 0 . 092
L~~, I Ob5ervat~ons 14 Square l'eet 1.6699 0.1569 10 .64 0,000
191
¡:...1_0JANOVA s= 0 .966380 R-Sq = 90.Hl R-Sq(adj) = 89.61!
111 1 dI SS MS F Signi{1conceF
!).?+ -- ,.-",'--on-,---"'--'-1--'1=:::05~.74"'76:-'-=05=.74cc76:-'C:-:13'-:c.,,:c:-,,:-==o:':=:.oooo':':-
J R'.g-
¡ 13 1Resldual 12 11.2067 0.'1339
Anal y sis of Variance
lJ~'¡lotal 13 116.9543 Source D.l ' ss MS l' P
Reqression 1 1 05'.75 105 .75 113.23 0.000
1:.~1¡i-----c-
oetfi:::~.,...,.n-"-S-'o-nd,--"'.,...
d ,'"",
--- ,-,,-.,---"p-.vo-'.-. ~L-OW-"-95-":--UP-P'-'"."'''':--w-w-. ,-.s-'
.cm'--uPP
- .-,-.,.-:
cm-· Residual Error 12 11 . 21 0 .93
L.U..,¡tntercept 0.9645 0.5262 1.8129 0.0917 · 0.1820 2.1110 -0.1820 2.11095 Tot.al 13 116.95
U~}Sq uare Feet 1.6699 0.1569 10.6411 0.0000 1.3200 2.0118 U280 2.01171

Predicted Values for New Observations


New Obs Fit SE Fi t 95~ e l 95~ PI
1 7 .. 644 0.309 (6.971., 8.317 ) (5.433, 9.854)

Values of Predictors for New Obsenrations


Sqllare
New Obs l'eet
1 4.00

En la figura 12.4 observe que b o = 0.9645 Y b l = 1.6699, Usando la ecuación (12.2) de la


página 435, la línea de predicción para esos datos es

Y¡ = 0.9645 + 1.6699X¡
La pendiente, bi' es + 1.6699. Esto significa que, por cada incremento de una unidad en X, se es-
tima que el valor de Y aumente en 1.6699 unidades. En otras palabras, por cada incremento de 1,0
miles de pies cuadrados en el tamaño de la tienda, se estima que las ventas anuales pronosticadas
aumentarán 1.6699 millones de dólares, Por lo tanto, la pendiente representa la parte de las ventas
anuales que, de acuerdo con las estimaciones, varía de acuerdo con el tamaño de la tienda.
La intersección con el eje Y, b o' es +0.9645 , La intersección con el eje Y representa el valor
estimado de Y cuando X es igual a O. Como la extensión de la tienda en pies cuadrados no puede ser
O, esta intersección con el eje Y tiene muy poco o ningún significado práctico, Asimismo, la inter-
sección con el eje Y de este ejemplo se encuentra fuera del rango de los valores observados de la
variable X, por lo que el valor de bo se debe interpretar de manera cautelosa. En la figura 12.5 se
presentan los valores reales y la línea de predicción. Para ilustrar una situación en la que existe una
interpretación directa de la intersección con el eje Y, bo' véase el ejemplo 12.1.

FIGURA 12.5 Scatter Diagram for Site Selection


14
Diagrama de
dispersión y línea de
predicción para los 12
+
datos de Sunflowers
Apparel "' 10
~'"
~ 8j +

~ 61
~ 4 1
!
2 ;

!
i
O L __._ - -----. --- --- --,---- .---- -- --- ------,-- - -- - -- - -------- __o, ------___ .-------.. , .. -------.. -_.----...,. _.. -. -----_-. _____ ,__ -_____ -------__ -__ o
O 2 3 4 5 6 7

Square Feet (000)


12.2 Detenninación de la ecuación de regresión lineal simple 437

EJEMPLO 12.1 Un profesor de estadística quiere utilizar la información sobre el número de horas que un alumno
estudia para un examen final de su materia (X) con la finalidad de pronosticar la calificación en el
Interpretación de
examen final (Y). Se ajustó un modelo de regresión basado en los datos que se reunieron de un
la intersección con
grupo durante el semestre anterior, con los siguientes resultados:
el eje Y, b o' y la
pendiente, b,
Y¡ = 35.0 + 3Xj

¿Cuál es la interpretación de la intersección con el eje Y, bo, y la pendiente, b l ?


SOLUCiÓN La intersección con el eje y, b o = 35.0 indica que cuando el alumno no estudia para
el examen final, la calificación estimada en el examen es 35.0. La pendiente b l = 3 indica que por
cada incremento de una hora en el tiempo de estudio, el cambio estimado en la calificación del
examen final es +3.0. En otras palabras, se estima que la calificación del examen final aumenta en
promedio 3 puntos por cada hora de incremento en el tiempo de estudio.

Remítase al caso sobre Sunflowers Apparel que se encuentra en la página 431. En el ejemplo
12.2 se ilustra la forma de utilizar la línea de predicción para pronosticar las ventas anuales.

EJEMPLO 12.2 Utilice la línea de predicción para pronosticar las ventas anuales de una tienda con 4,000 pies cua-
drados de extensión.
Predicción de las
ventas anuales con SOLUCiÓN Se puede determinar el valor estimado sustituyendo X = 4 (miles de pies cuadrados)
base en los pies en la ecuación de regresión lineal simple:
cuadrados que
ocupa la tienda Y¡ = 0.9645 + 1.6699X¡

Y¡ = 0.9645 + 1.6699(4) = 7.644 o $7,644,000

Por lo tanto, es posible estimar que las ventas anuales de una tienda con 4,000 pies cuadrados de
extensión serán de $7,644,000.

Predicciones en el análisis de regresión. Interpolación


comparada con extrapolación
Cuando se utiliza un modelo de regresión para realizar pronósticos solo se debe considerar el
rango relevante de la variable independiente. Este rango relevante incluye todos los valores, desde
la X más pequeña hasta la más grande, que se utilizaron para crear el modelo de regresión. Por con-
siguiente, al pronosticar Y para un valor dado de X, podemos interpolar dentro de este rango rele-
vante de los valores de X, pero no debemos extrapolar más allá del rango de los valores de X.
Cuando utilizamos la extensión en pies cuadrados para pronosticar las ventas anuales, la extensión
en pies cuadrados (en miles de pies cuadrados) varía de 1.1 a 5.8 (véase la tabla 12.1 en la página '
434). Por lo tanto, debemos pronosticar las ventas anuales solo para las tiendas que tienen un ta-
maño entre 1.1 y 5.8 miles de pies cuadrados . Cualquier pronóstico de las ventas anuales de las
tiendas que están fuera de este rango supone que la relación observada entre las ventas y las tiendas
con un tamaño de 1. 1 a 5.8 miles de pies cuadrados es la misma para las tiendas que están fuera de
este rango. Así, en el ejemplo 12.2 no podemos extrapolar la relación lineal más allá de los 5,800
pies cuadrados. Sería incorrecto utilizar la línea de predicción para pronosticar las ventas de una
nueva tienda que tiene una extensión de 8,000 pies cuadrados, ya que la relación entre las ventas y
el tamaño de la tienda podría incluir un punto en el que las utilidades disminuyen. Si este fuera el
caso, a medida que la extensión en pies cuadrados aumenta más allá de 5,800 pies cuadrados,
el efecto sobre las ventas podría ser cada vez menor.
438 CAPÍTULO 12 Regresión lineal simple

Cálculo de la intersección con Y, bOl Y la pendiente, b 1


Para pequeños conjuntos de datos se puede utilizar una calculadora de mano para calcular los co-
eficientes de regresión de mínimos cuadrados. Las ecuaciones (12.3) y (12.4) proporcionan los
valores de bo y bl' que reducen al mínimo:

FÓRMULA PARA CALCULAR LA PENDIENTE, b 1

b - --
sCXY
1 - SCX
(12.3)

donde:

sCXY=

scx=

FÓRMULA PARA CALCULAR LA INTERSECCIÓN CON EL EJE Y, bo

bo = y- b 1X (12.4)
donde:
n
2: Y ¡
- i= 1
Y= - -
n
n

-
2: X;
i= 1
X= - -
n

EJEMPLO 12.3 Calcule la intersección con el eje Y, bo' y la pendiente, bl' para los datos de Sunflowers Apparel.
Cálculo de la SOLUCiÓN En las ecuaciones (12.3) y (12.4) es necesario calcular cinco cantidades para deter-
n n
intersección con
el eje Y, bo' y la
minar b 1 y b o. Estas son n, el tamaño de muestra; 2:Xi, la suma de los valores de X; 2: Yi, la suma
i= 1 i= 1
pendiente, b 1 n n
de los valores de Y; 2:xf, la suma de los valores de X elevados al cuadrado; y 2:X;Yi , la suma del
i= 1 i= 1
producto de X y Y. Para los datos de Sunflowers Apparel el número de pies cuadrados (X) se utiliza
para estimar las ventas anuales (Y) de una tienda. En la tabla 12.2 se presentan los cálculos de la
n
sumas necesarios para el problema de la selección de la ubicación. La tabla también incluye 2: y?,
i= 1
la suma de los valores de Y elevados al cuadrado que se utilizarán para calcular la scr en la
sección 12.3.
12.2 Determinación de la ecuación de regresión lineal simple 439

TA B L A 12 . 2
Tienda Pies cuadrados (X) Ventas anuales (Y) X2 y2 XY
Cálculos para los
datos de Sunflowers 1 1.7 3.7 2.89 13.69 6.29
Apparel 2 1.6 3.9 2.56 15.21 6.24
3 2.8 6.7 7.84 44.89 18.76
4 5.6 9.5 31.36 90.25 53.20
5 1.3 3.4 1.69 11.56 4.42
6 2.2 5.6 4.84 31 .36 12.32
7 1.3 3.7 1.69 13.69 4.81
8 1.1 2.7 1.21 7.29 2.97
9 3.2 5.5 10.24 30.25 17.60
10 1.5 2.9 2.25 8.41 4.35
11 5.2 10.7 27.04 114.49 55.64
12 4.6 7.6 21.16 57.76 34.96
13 5.8 11.8 33 .64 139.24 68.44
14 3.0 4.1 9.00 16.81 12.30
Totales 40.9 81.8 157.41 594.90 302.30

Usando las ecuaciones (12.3) y (12.4) se puede calcular bo y b 1:

n
:¿X ) ( :¿y
n )
(
sCXY= ±(X¡ - X)(Yi - Y) = ±XiYi _ i= 1 I i= 1 I

i= ! i= 1 n
(40.9)(81.8)
SCXY = 302.3 - 14

= 302.3 - 238.97285
= 63.32715

n n (±XiY
SCX= :¿(Xi - xf = :¿X? - _ i =_
I _
i= 1 i= 1 n
(40.9) 2
= 157.41 - - -
14
= 157.41 - 119.48642
= 37.92358
Por lo tanto,

b _ sCXY
1 - SCX

63 .32715
37.92358
= 1.6699
Y,
n
:¿Yi
- i= 1 81.8
Y = -- = - = 5.842857
n 14
n

:¿Xi
- i= 1 40.9
X = -- = - = 2.92143
n 14
440 CAPÍTULO 12 Regresión lineal simple

Por lo tanto,

ba = y - b)X
= 5.842857 - (1.6699)(2.92143)
= 0.9645

EXPLORACIONES VISUALES Exploración de los coeficientes


de regresión lineal simple

Utilice el procedimiento Visual Explorations Simple Li- Target SSE lo más pequeño posible. (Véase la pá-
near Regression para crear una línea de predicción lo más gina 444 para una explicación sobre la SCE) .
cercana posible a la línea de predicción definida por la
En cualquier momento haga chc en Reset para restable-
solución de mínimos cuadrados. Abra el libro comple-
cer los valores de b) y bo' o en Solution para revelar la línea
mentario Visual Explorations (véase la sección DA en
de predicción definida con el método de mínimos cuadra-
los apéndices) y seleccione Add-ins ~ VisualExplora-
dos. Haga clic en Finish cuando termine este ejercicio.
tions ~ Simple Linear Regression.
En el cuadro de diálogo Simple Linear Regression Uso de sus propios datos de regresión
(que se muestra abajo):
Seleccione Simple Linear Regression with your wor-
1. Haga clic para que se desplieguen los botones girato- ksheet data del menú VisualExplorations para explorar
rios de bl slope (la pendiente de la línea de predic- los coeficientes de regresión lineal simple utilizando los
ción) y de bO intercept (la intersección con el eje Y datos que usted proporcione de una hoja de cálculo. En
de la línea de predicción) para modificar la línea de el cuadro de diálogo del procedimiento, ingrese el rango de
predicción. celdas de su variable Yen Y variable Cell Range y el rango
2. Por medio de la retroalimentación visual de la grá- de celdas de su variable X en X variable Cell Range.
fica , trate de crear una línea de predicción lo más Haga clic en First cells in both ranges contain a label,
cercana posible a la línea de predicción definida por escriba un título en Title y haga chc en OK. Una vez que
las estimaciones de mínimos cuadrados. En otras pa- aparezca el diagrama de dispersión en la pantalla, conti-
labras, trate de hacer el valor de Difference from núe con las instrucciones de los pasos 1 y 2.

:~~~~~~~""~---1
1 bll#opl:: r ~~ i
¡

1 bOflt.trC~I: ro:-s-- ~ iip",,,·,:,,,,,,,,·,,,,,,,,,,,,·,,,,,,,,·,,,,,,·,,,·,,,,,,,,o,,,,,., •.""..., ,•• ,'....i.,••'....,,·,·,.,,,,'"••,.,.,,·,,.,,,,,,,,.' ••';, ,,..."""""'"'''''''''''''''''''''''''''~''''''"''''.'+''''''';,·,,,,·,·,,1


i1 ~""_.~
1'arQetS5i:
r::;-- l
! f <;<.1,1

I ~ ['-----
1-~-1
l
J
L-'_!OO~ ¡1
l::;:::-:::-_~__-_==::!j

'0

..
Problemas para la sección 12.2 441

I Problemas para la sección 12.2


APRENDIZAJE DE LOS FUNDAMENTOS de 100 restaurantes localizados en la ciudad de Nueva York y
12.1 El ajuste de una línea recta a un conjunto de datos en un suburbio de esta. Para estimar el precio por persona, con
produce la siguiente línea de predicción: base en una variable que represente la suma de las califica-
ciones para los alimentos, la decoración y el servicio, desarro-
yI = 2 + 5XI lló un modelo de regresión.
a) Interprete el significado de la intersección con el eje Y, bo'
Fuentes: Extraído de Zagat Survey 2010, New York CUy Restaurants;
b) Interprete el significado de la pendiente, b,. y Zagat Survey 2009-2010, Long [stand Restaurants.
e) Estime el valor de Y para X = 3.
a) Construya el diagrama de dispersión. Para esos datos,
12.2 Si los valores de X en el problema 12.1 van de 2 a 25,
b o = - 28 .1975 Y b l = 1.2409.
¿debería utilizar este modelo para pronosticar el valor me-
b) Suponiendo una relación lineal del costo, utilice el mé-
dio de Y cuando X es igual a
todo de mínimos cuadrados para calcular los coeficientes
a) 3?
de regresión b o y b ,.
b) -3?
e) En este problema interprete el significado de la intersec-
e) O?
ción con el eje Y, b o' y la pendiente, b l .
d)24?
d) Pronostique el costo por persona para un restaurante con
12.3 El ajuste de una línea recta a un conjunto de datos una calificación total de 50.
produce la siguiente línea de predicción:
12.6 El dueño de una empresa de mudanzas acostumbra pe-
Y¡ = 16 - 0.5Xj dir a su gerente más experimentado que realice alguna esti-
a) Interprete el significado de la intersección con el eje Y, bo' mación del número total de horas de trabajo que se requerirán
b) Interprete el significado de la pendiente, b,. para realizar una futura mudanza. Este método ha demostrado
e) Pronostique el valor de Y para X = 6. ser útil en el pasado, pero el dueño tiene el objetivo de nego-
cios de desarrollar un método más preciso para pronosticar
APLICACiÓN DE CONCEPTOS
las horas de trabajo. En un esfuerzo preliminar por obtener un
I16M¡ijMi.J 12.4 El gerente de marketing de una gran cadena método más preciso, el propietario ha decidido utilizar el nú-
. .• de supermercados tiene el objetivo de negocios de mero de pies cúbicos trasladados como variable indepen-
usar el espacio de anaquel de la forma más eficiente. Para diente, y los datos que reunió de 36 mudanzas en las que el
ello, desea considerar el espacio de anaquel con la finalidad origen y el destino estaban dentro del distrito de Manhattan
de estimar las ventas de alimento para mascotas. Se reúnen en la ciudad de Nueva York, y en las que en el tiempo de tras-
datos de una muestra aleatoria de 12 tiendas del mismo ta- lado implicó una parte insignificante de las horas trabajadas.
maño y se obtienen los siguientes resultados (almacenados Los datos están almacenados en el archivo mg.
en el archivo ¡mM!): a) Construya el diagrama de dispersión.
b) Suponiendo una relación lineal, utilice el método de mí-
Tienda Espacio de anaquel (X) (pies) Ventas semanales (Y) ($)
nimos cuadrados para determinar los coeficientes de re-
1 5 160 gresión, bo y b ,.
2 5 220 e) En este problema interprete el significado de la pen-
3 5 140 diente, b l •
4 10 190 d) Pronostique las horas de trabajo que se necesitarán para
5 10 240 trasladar 500 pies cúbicos.
6 10 260
7 15 230 12.7 Starbucks Coffee Co. utiliza un método basado en da-
8 15 270 tos para mejorar la satisfacción de los clientes y la calidad de
9 15 280 sus productos. Cuando los datos de una encuesta indicaron
10 20 260 que Starbucks necesitaba mejorar el proceso de sellado de sus
11 20 290 empaques, se llevó a cabo un experimento (datos extraídos de
12 20 310 L. Johnson y S. Burrows, "For Starbucks, Jt's In the Bag",
Quality Progress, marzo de 2011, pp. 17-23) para determinar
a) Construya el diagrama de dispersión. Para esos datos, qué factores en el equipo de sellado de bolsas podrían estar
bo = 145 Y b, = 7.4. afectando la facilidad para abrir la bolsa sin romper su reves-
b) Interprete el significado de la pendiente, bl' en este pro- timiento interno. Un factor que podría estar afectando el ín-
blema. dice de la capacidad de la bolsa para resistir las roturas era la
e) Pronostique las ventas semanales de alimento para mas- abertura de la placa en el equipo de sellado. Se reunieron da-
cotas en tiendas en las que este producto ocupa 8 pies de tos de 19 bolsas en las que se varió la abertura de la placa y
espacio del anaquel. los resultados se almacenaron en el archivo ~M:m".
12.5 Zagat's publica calificaciones para restaurantes de di- a) Construya el diagrama de dispersión.
versos lugares de Estados Unidos. El archivo liffitllltj,ifj b) Suponiendo una relación lineal, utilice el método de mí-
contiene las calificaciones de Zagat para los alimentos, la nimos cuadrados para determinar los coeficientes de re-
decoración, el servicio y el costo por persona de una muestra gresión, bo y b,.
442 CAPÍTULO 12 Regresión lineal simple

e) En este problema interprete el significado de la pen- d) Pronostique la renta mensual para un departamento que
diente, b l . tiene 1,000 pies cuadrados de extensión.
d) Pronostique el índice de rotura cuando la abertura de la e) ¿Por qué no sería adecuado utilizar el modelo para estimar
placa es igual a O. la renta mensual de apartamentos de 500 pies cuadrados?
12.8 El valor de una franquicia deportiva está directamente f) Sus amigos Jim y Jennifer están considerando la posibili-
dad de firmar un contrato de renta para un apartamento
relacionado con la cantidad de ganancias que puede generar.
en este vecindario residencial. Están tratando de decidir
El archivo !:l:j¡(4#4,\1[iH"incluye información sobre el va-
entre dos apartamentos, uno con 1,000 pies cuadrados
lor en 2011 (en millones de dólares) y las utilidades anuales
por una renta mensual de $1,275 , Y otro con 1,200 pies
(en millones de dólares) para las 30 franquicias de béisbol
cuadrados por una renta mensual de $1 ,425 . Con base en
de las grandes ligas. (Datos extraídos de www.forbes.com/
los incisos a) a d), ¿a qué apartamento cree que corres-
Iists/20 11/33//baseball-valuations-ll_ rank.html.) Su-
ponde un mejor trato?
ponga que se desea desarrollar un modelo de regresión lineal
simple para estimar el valor de la franquicia con base en las 12.10 Una empresa que posee los derechos de distribución
utilidades anuales generadas. de DVD de películas que se estrenaron únicamente en salas de
a) Construya un diagrama de dispersión. cine tiene el objetivo de negocios de desarrollar estimacio-
b) Utilice el método de mínimos cuadrados para determinar nes de ingresos por ventas de los DVD. Para lograrlo, un ana-
los coeficientes de regresión, ba y b l ' lista de la empresa planea utilizar la recaudación bruta en
e) En este problema interprete el significado de ba y b¡. taquilla con la finalidad de estimar los ingresos que generen
d) Pronostique el valor de una franquicia de béisbol que las ventas de DVD. Para las 22 películas el analista considera
genere ganancias anuales de $150 millones. la recaudación bruta en taquilla (en millones de dólares) en el
año en que se estrenaron y los ingresos de los DVD (en millo-
12.9 Un agente de una empresa de bienes raíces tiene el obje- nes de dólares) durante el siguiente año. Los datos se presen-
tivo de negocios de desarrollar estimaciones más precisas de
los costos mensuales de la renta de apartamentos. Para lograrlo,
tan a continuación y están almacenados en el archivo I!B.
al agente le gustaría utilizar el tamaño de un apartamento, defi- Título Ingreso bruto Ingresos del DVD
nido por su extensión en pies cuadrados, para estimar el costo
Bolt 109.92 81.60
de la renta mensual. El agente selecciona una muestra de 25
apartamentos en un vecindario residencial en particular y reúne
Madagascar 7: 177.02 107.54
Escape de Africa
los siguientes datos (almacenados en el archivo B). Quantum of Solace 166.82 44.41
Un Chihuahua en Beverly Hills 93 .78 60.21
Renta ($) Tamaño (pies cuadrados) Marley yyo 106.66 62.82
950 850 High School Musical 3 90.22 58.81
1,600 1,450 Fin de curso
1,200 1,085 Cuentos que no son cuentos 85.54 48.79
1,500 1,232 Un par nada ejemplar 66.70 38.78
Piña Express 87.34 44.67
950 718
La conspiración del pánico 101.40 34.88
1,700 1,485
Prueba de fuego 33.26 31.05
1,650 1,136
Mammamía! 144.13 33.14
935 726 Siete almas 60.15 27.12
875 700 Australia 46.69 28.16
1,150 956 Valkiria 60.73 26.43
1,400 1,100 Tiburón V 56.75 26.10
1,650 1,285 El curioso caso de 79.30 42.04
2,300 1,985 Benjamin Bullan
1,800 1,369 MaxPayne 40.68 25.03
1,400 1,175 Red de mentiras 39.32 21.45
1,450 1,225 Noche de tormenta 41.80 17.51
1,100 1,245 Vecinos en la mira 39.26 21.08
1,700 1,259 El espíritu 17.74 18.78
1,200 1,150
1,150 896 Fuente: Datos extraídos de www.the-numbers.com/market/mo-
1,600 f,361 vies2008.php; y www.the-numbers.comldvd/charts/annuaI/2009.php.
1,650 1,040 Para estos datos:
1,200 755 a) Construya el diagrama de dispersión.
800 1,000 b) Suponiendo una relación lineal , utilice el método de mí-
1,750 1,200 nimos cuadrados para determinar los coeficientes de re-
gresión, ba y b l .
a) Construya el diagrama de dispersión. e) Interprete lo que significa la pendiente, bl' en este pro-
b) Utilice el método de mínimos cuadrados para determinar blema.
los coeficientes de regresión, ba y b¡. d) Pronostique los ingresos por ventas de una película en
e) Interprete el significado de ba y b¡ en este problema. DVD que recaudó en taquilla $75 millones.
12.3 Medidas de variación 443

12.3 Medidas de variación


Cuando se utiliza el método de mínimos cuadrados para determinar los coeficientes de regresión de
un conjunto de datos es necesario calcular tres medidas de variación. La primera medida, la suma
de cuadrados total (SCT), es una medida de la variación de los valores ~ alrededor de la media, Y.
La variación total, o suma de cuadrados total, se subdivide en variación explicada y variación
no explicada. La variación explicada, o suma de cuadrados de regresión (SCR) representa la
variación que se explica por la relación entre X y Y, Y la variación sin explicar, o suma de cuadra-
dos del error (SCE), representa la variación debida a otros factores que no son la relación entre X
y Y. En la figura 12.6 se presentan estas diferentes medidas de variación.

FIGURA 12.6 Suma de cuadrados


del error
Medidas de variación y Y¡ /.f(Y¡_~)2=SCE
V Y,:bo+b,X,
Suma de cuadrados total
n
I (y¡_y)2 = SCT Suma de cuadrados
¡=1 de regresión
n A
.L (y¡_y)2 = SCR
______ __________ 1=1
_ _______ _ y
~
~
L
-
~
~
O~----------------------+---------------x

Cálculo de la suma de cuadrados


La suma de cuadrados de regresión (SCR) se basa en la diferencia entre }T¡ (el valor estimado de Y
a partir de la línea de predicción) y Y (el valor medio de Y). La suma de cuadrados del error (SCE)
representa la parte de la variación en Y que no está explicada por la regresión. Se basa en la dife-
rencia entre ~ y 'f¡. Las ecuaciones (12.5), (12 .6), (12.7) Y (12.8) definen esas medidas de varia-
ción y la suma de cuadrados total (SCT).

MEDIDAS DE VARIACIÓN EN LA REGRESiÓN


La suma de cuadrados totales es igual a la suma de cuadrados de regresión (SCR) más la
suma de cuadrados del error (SCE).

SCT = SCR + SCE (12.5)

SUMA DE CUADRADOS TOTAL (SCT)


La suma de cuadrados total (SCT) es igual a la suma de las diferencias al cuadrado entre
cada valor observado de Y y el valor medio de Y.

SCT = Suma de cuadrados total


n
~(Yi - y)2 (12.6)
i=!
444 CAPÍTULO 12 Regresión lineal simple

SUMA DE CUADRADOS DE REGRESiÓN (SCR)


La suma de cuadrados de regresión (SCR) es igual a la suma de las diferencias al
cuadrado entre cada valor estimado de Y y el valor medio de Y.

seR = Variación explicada o suma de cuadrados de regresión


n
= 22 (JI-i - y)2 (12.7)
i= 1

SUMA DE CUADRADOS DEL ERROR (SCE)


La suma de cuadrados del error (SCE) es igual a la suma de las diferencias al cuadrado
entre cada valor observado de Y y el valor pronosticado de Y.

SCE = Variación no explicada o suma de cuadrados del error


n
-_~(Yi
'"
- YA2
i) (12.8)
i= 1

En la figura 12.7 se presenta la parte de la suma de cuadrados de los resultados de la figura


12.4 para los datos de Sunflowers Appare!. La variación total, SCr, es igual a 116.9543. Esta canti-
dad se subdivide en la suma de cuadrados explicada por la regresión (SCR) , que es igual a 105.7476,
y la suma de cuadrados que no está explicada por la regresión (SCE), que es igual a ll.2067.A par-
tir de la ecuación (12 .5), que se encuentra en la página 443:
SCT = SCR + SCE
116.9543 = 105 .7476 + 11.2067

FIGURA 12.7
Parte de la suma de cuadrados en Excel y Minitab para los datos de Sunflowers Apparel

ss MS p
df ss MS F Significance F Regression 105. 75 113 .23 O. 000
105.7476 105.7476 113.2335 0.0000 Residual E.rro r 0 .93
12 11.2067 0.9339 Total
13 116.9543

Coeficiente de determinación
Por sí mismos, SCR , SCE y SCT brindan muy poca información. Sin embargo, el cociente de la
suma de cuadrados de regresión (SCR) y de la suma de cuadrados total (SCT) mide la proporción
de la variación en Y que se explica por la variable independiente X en el modelo de regresión. Este
cociente, llamado coeficiente de determinación, r 2 , se define en la ecuación (12.9).

COEFICIENTE DE DETERMINACION
El coeficiente de determinación es igual a la suma de cuadrados de regresión, es decir, la
variación explicada, dividida entre la suma de cuadrados total , esto es, la variación tota!.
2 Suma de cuadrados de regresión SCR
r = =-- (12.9)
Suma de cuadrados total SCT
El coeficiente de determinación mide la proporción de la variación en Y que se explica
por la variación en la variable independiente X en el modelo de regresión.
12.3 Medidas de variación 445

Para los datos de Sunflowers Apparel, con SCR = 105.7476, SCE = 11.2067 Y SCT= 116.9543,
105.7476
r2 = = 0.9042
116.9543
Por lo tanto, 90.42% de la variación en las ventas anuales se explica por la variabilidad en el ta-
maño de la tienda, medido por su extensión en pies cuadrados. Este valor elevado de r 2 indica una
fuerte relación lineal entre esas dos variables, ya que el modelo de regresión explica 90.42% de la
variabilidad en la estimación de las ventas anuales. Solo 9.58% de la variabilidad muestral de las
ventas anuales se debe a factores diferentes de los explicados por el modelo de regresión lineal que
utiliza la extensión en pies cuadrados.
En la figura 12.8 se presenta una parte de los resultados estadísticos de la regresión de la tabla
de la figura 12.4 para los datos de Sunflowers Apparel. Esta tabla contiene el coeficiente de deter-
minación (denominado R Cuadrada en Excel y R-Sq en Minitab).

FIGURA 12.8
Estadísticos de regresión en Excel y Minitab para los datos de Sunflowers Apparel
Pred:Lctor Coer SE Coef T P
Constant 0.9645 0.526.2 1.83 0.092
3 Regression Stutistics Square Feet 1.6699 0.1569 10.64 0.000
4 Multiple R
¡......-
0.9509
S = 0 .966380 R-Sq = 90.n R-Sq(adj) = 89.6~
5 R Square
¡......-
0.9042
'6 Adjusted R Square 0.8962
7 standard Error 0.9664
r ····,,·
8 Observations 14

EJEMPLO 12.4 Calcule el coeficiente de determinación, r 2 , para los datos de Sunflowers Apparel.
Cálculo del SOLUCiÓN Podemos calcular scr, CSR y SCE, que están definidos en las ecuaciones (12 .6),
coeficiente de (12.7) y (12.8), las cuales se encuentran en las páginas 443 y 444, utilizando las ecuaciones (12.10),
determinación (12.11) y (12.12).

FÓRMULA PARA EL CÁLCULO DE scr

SCT= (12.10)

FÓRMULA PARA EL CÁLCULO DE SCR


n
SCR = ~(Yi - y)2
i= l

(12.11)

FÓRMULA PARA EL CÁLCULO DE SCE


n n n n
SCE= ~(Yi - yi )2 = ~Yl- bO~Yi - bl~XiY¡ (12.12)
i=l i= l i=l i=l
446 CAPÍTULO 12 Regresión lineal simple

Usando los resultados de la tabla 12.2 en la página 439,

SCT=

(81.8)2
= 594.9 - 14

= 594.9 - 477.94571
116.95429

(81.8)2
(0.9645)(81.8) + (1.6699)(302.3)
14
105 .74726
n
SCE = .LJ (Y¡ - Y¡)2
" A

¡= !

n n n
2: Y; -
¡= !
bo 2: Y¡ -
¡= !
b! 2:x¡Y¡
¡= !

= 594.9 - (0.9645)(81.8) (1.6699)(302.3 )


= 11.2067

Por lo tanto,

105.74726
116.95429 = 0.9042

Error estándar de la estimación


Aunque el método de mínimos cuadrados produce la línea que se ajusta a los datos con la mínima
cantidad de error de estimación, a menos que todos los puntos de los datos observados caigan sobre
una línea recta, la línea de predicción no es un pronosticador perfecto. Así como no se espera que
todos los valores de los datos sean iguales a su media, tampoco se puede esperar que todos los va-
lores en un análisis de regresión caigan exactamente sobre la línea de predicción. En la figura 12.5
de la página 436 se ilustra la variabilidad alrededor de la línea de predicción para los datos de Sun-
flowers Appare\. Advierta que muchos de los valores observados de Y caen cerca de la línea de
predicción, pero ninguno de ellos cae exactamente sobre la línea.
El error estándar de la estimación mide la variabilidad de los valores observados de Ya par-
tir de los valores estimados de Y, de la misma forma que la desviación estándar que se estudió en
el capítulo 3 mide la variabilidad de cada valor alrededor de la media muestra\. En otras palabras, el
error estándar de la estimación es la desviación estándar alrededor de la línea de predicción, mien-
tras que la desviación estándar del capítulo 3 corresponde a la desviación estándar alrededor de la
media muestra\. La ecuación (12.13) define el error estándar de la estimación, representado por el
símbolo SYX"
Problemas para la sección 12.3 447

ERROR ESTÁNDAR DE LA ESTIMACIÓN


n
~ ~ 2
~(Y; - Y¡)
SYX= ~ SCE = ¡= l
(12.13)
n - 2 n - 2
donde:
Y¡ = valor real de Y para unaX¡ dada
Y¡ = valor estimado de Y para una x¡ dada
SCE = suma de cuadrados del error

De acuerdo con la ecuación (12.8) y la figura 12.4 o la figura 12.7, que se encuentran en las
páginas 436 o 444, SCE = 11.2067. Por consiguiente,

SYX = 11.2067 = 0.9664


14 - 2
Este error estándar de la estimación, que es igual a 0.9664 millones de dólares, es decir,
$966,400, se describe como Error estándar en los resultados de Excel de la figura 12.8, y como S
en los resultados de Minitab. El error estándar de la estimación representa una medida de la varia-
ción alrededor de la línea de predicción. Se mide en las mismas unidades que la variable depen-
diente Y. La interpretación del error estándar de la estimación es similar a la de la desviación
estándar. Así como la desviación estándar mide la variabilidad alrededor de la media, el error es-
tándar de la estimación mide la variabilidad alrededor de la línea de predicción. Para Sunflowers
Apparel, la típica diferencia entre las ventas anuales reales en una tienda y las ventas anuales pro-
nosticadas por medio de la ecuación de regresión es de aproximadamente $966,400.

I Problemas para la sección 12.3


APRENDIZAJE DE LOS FUNDAMENTOS a) Calcule el coeficiente de determinación, r 2 , e interprete
12.11 ¿Cómo interpretaría un coeficiente de determina- su significado.
ción, r 2, igual a 0.80? b) Determine el error estándar de la estimación.
e) ¿Qué tan útil cree que es este modelo de regresión para
12.12 Si SCR = 36 Y SCE = 4, determine SCT; después estimar las ventas?
calcule el coeficiente de determinación, r 2 , e interprete su
significado. 12.17 En el problema 12.5 de la página 441, usted utilizó
la calificación sumada para estimar el costo de un alimento
12.13 Si SCR 66 Y SCT = 88, calcule el coeficiente de
=
en un restaurante (almacenado en el archivo I#VIlIi!.Iij).
determinación, r 2 , e interprete su significado. Para esos datos, SCR = 6,951.3963 Y SCT = 15,890.11.
12.14 Si SCE = 10 Y SCR = 30, calcule el coeficiente de a) Calcule el coeficiente de determinación, r 2 , e interprete
determinación, r 2 , e interprete su significado. su significado.
b) Determine el error estándar de la estimación.
12.15 Si SCR = 120, ¿por qué es imposible que SCT sea
e) ¿Qué tan útil cree que es este modelo de regresión para
igual a 110?
pronosticar el costo de los alimentos de un restaurante?
APLICACiÓN DE CONCEPTOS 12.18 En el problema 12.6 de la página 441 el dueño de
lí6iiW12.16 En el problema 12.4 de la página 441, el
. .• gerente de marketing utilizó el espacio de anaquel
una empresa de mudanzas quería estimar horas de trabajo
con base en los pies cúbicos trasladados (almacenados en el
del alimento para mascotas para pronosticar las ventas se- archivo ~). Utilice los resultados de ese problema y
manales (almacenadas en el archivo I;;mM!). Para esos da- a) calcule el coeficiente de determinación, r 2 , e interprete
tos, SCR = 20,535 Y SCT= 30,025. su significado.
448 CAPÍTULO 12 Regresión lineal simple

b) detennine el error estándar de la estimación. 12.21 En el problema 12.9 de la página 442, un agente de
e) ¿Qué tan útil cree que es este modelo de regresión para una empresa de bienes raíces deseaba estimar la renta men-
estimar las horas de trabajo? sual de apartamentos con base en su tamaño (la infonnación
12.19 En el problema 12.7 de la página 441 se utilizó la se encuentra almacenada en el archivo 1m). Utilice los
abertura de las placas en el equipo de sellado de bolsas para resultados de ese problema y
a) calcule el coeficiente de determinación, r 2 , e interprete
pronosticar el índice de rotura de una bolsa de café (la infor-
mación se encuentra almacenada en el archivo B"tfi!1Mij). su significado.
Utilice los resultados de ese problema y b) detennine el error estándar de la estimación.
a) calcule el coeficiente de determinación, r 2 , e interprete e) ¿Qué tan útil cree que es este modelo de regresión para
su significado. estimar la renta mensual?
b) detennine el error estándar de la estimación. d) ¿Podría pensar en otras variables que expliquen la varia-
e) ¿Qué tan útil cree que es este modelo de regresión para ción en la renta mensual?
pronosticar el índice de rotura con base en la abertura de 12.22 En el problema 12.10 de la página 442, usted utilizó
la placa en el equipo de sellado de bolsas? los datos sobre la recaudación en taquilla para estimar los
12.20 En el problema 12.8, que se encuentra en las páginas ingresos por ventas de DVD (la información se encuentra
441 y 442, usted utilizó la información sobre los ingresos almacenada en el archivo [I!¡B). Utilice los resultados de
anuales para estimar el valor de una franquicia de béisbol (la ese problema y
infonnación se encuentra almacenada en el archivo 1:\:\;l4# a) calcule el coeficiente de determinación, r 2 , e interprete
MN"). Utilice los resultados de ese problema y su significado.
a) calcule el coeficiente de determinación, r 2 , e interprete b) detennine el error estándar de la estimación.
su significado. e) ¿Qué tan útil cree que es este modelo de regresión para
b) detennine el error estándar de la estimación. estimar los ingresos por ventas de DVD?
e) ¿Qué tan útil cree que es este modelo de regresión para d) ¿Podría pensar en otras variables que expliquen la varia-
estimar el valor de una franquicia de béisbol? ción en los ingresos por ventas de DVD?

12.4 Supuestos
Cuando estudiamos la prueba de hipótesis y el análisis de varianza en los capítulos 9 a 11, enfatiza-
mos la importancia de los supuestos de la validez de cualquier conclusión planteada. Los supuestos
necesarios para la regresión son similares a los del análisis de varianza porque ambos fonnan parte
de la categoría general de modelos lineales (referencia 4).
Los cuatro supuestos de la regresión (conocidos por el acrónimo UNI) son los siguientes :
• Linealidad
• Independencia de los errores
• Nonnalidad del error
• Igualdad de la varianza
El primer supuesto, el de linealidad, plantea que la relación entre variables es lineal. Las rela-
ciones entre variables que no son lineales se analizan en la referencia 4.
El segundo supuesto, la independencia de los errores, requiere que los errores (e) sean inde-
pendientes entre sÍ. Este supuesto es especialmente importante cuando los datos se reúnen a lo
largo del tiempo. En tales situaciones, los errores de un periodo específico en ocasiones se correla-
cionan con los de un periodo previo.
El tercer supuesto, el de normalidad, requiere que los errores (e) se distribuyan de manera
nonnal en cada valor de X. Al igual que la prueba t y la prueba F del ANOVA, el análisis de regre-
sión es bastante robusto con respecto a desviaciones del supuesto de nonnalidad. Siempre que la
distribución de los errores en cada nivel de X no sea demasiado diferente de una distribución nor-
mal, las inferencias acerca de f3 0 y f3¡ no se ven gravemente afectadas.
El cuarto supuesto, la igualdad de la varianza u homocedasticidad, requiere que la varianza
de los errores (e) sea constante para todos los valores de X. En otras palabras, la variabilidad de los
valores de Y cuando el valor de X es bajo es igual que cuando es alto. El supuesto de igualdad de la
varianza es importante cuando se hacen inferencias acerca de f3 0 y f3¡. Si las cosas se desvían mu-
cho de este supuesto, se pueden utilizar transfonnaciones de datos o métodos ponderados de míni-
mos cuadrados (véase la referencia 4).
12.5 Análisis residual 449

12.5 Análisis residual


En las secciones 12.2 y 12.3 se desarrolló un modelo de regresión utilizando el método de mínimos
cuadrados para los datos de Sunflowers Apparel. ¿Es este el modelo correcto para tales datos?
¿Son válidos los supuestos presentados en la sección 12.4? El análisis residual evalúa de forma
visual esos supuestos y ayuda a determinar si el modelo de regresión seleccionado es el adecuado.
El residuo, o valor del error estimado, e,1 es la diferencia entre los valores observados (Y)1 y
~

estimados (Y¡) de la variable dependiente para un valor dado de X¡. En un diagrama de dispersión el
residuo aparece como la distancia vertical entre un valor observado de Y y la línea de predicción.
La ecuación (12.14) define al residuo.

RESIDUO
El residuo es igual a la diferencia entre el valor observado de Y y el valor estimado de Y.

e¡ = Y¡ - Y; (12.14)

Evaluación de los supuestos


Recuerde que en la sección 12.4 se estableció que los cuatro supuestos de la regresión (conocidos
por el acrónimo UNI) son linealidad, independencia, normalidad e igualdad de la varianza.
Linealidad Para evaluar la linealidad se grafican los residuos en el eje vertical en oposición a los
valores X¡ correspondientes de la variable independiente en el eje horizontal. Si el modelo lineal es
adecuado para los datos, no se observa ningún patrón aparente en la gráfica. Sin embargo, si el
modelo lineal no es apropiado, en la gráfica residual habrá una relación entre los valores de X¡ y los
residuos, e¡-
En la figura 12.9 se observa un patrón como ese. La gráfica A presenta una situación en la que,
aunque existe una tendencia creciente en Ya medida que aumenta X, parece que la relación es cur-
vilínea debido a que la tendencia ascendente disminuye para los valores crecientes de X. Este
efecto cuadrático se resalta en la gráfica B, donde existe una clara relación entre X¡ y e¡. Al graficar
los residuos, la tendencia lineal de X con Y se ha eliminado, 10 que expone la falta de ajuste en el
modelo lineal simple. Por lo tanto, un modelo cuadrático se ajusta mejor y debe utilizarse en lugar
del modelo lineal simple.

FIGURA 12.9 y e
Estudio de la
idoneidad del
modelo de regresión
lineal simple

••••
• •• •

'------------x
Gráfica A
'------------x
Gráfica B

Para determinar si el modelo de regresión lineal simple es adecuado, regresaremos a la evalua-


ción de los datos de Sunflowers Apparel. En la figura 12.10 se presentan los valores y los residuos
de las ventas anuales pronosticadas.
450 CAPÍTULO 12 Regresión lineal simple

FIGURA 12.10 .1, A B ll e l D l E 1


Tabla de residuos Square Pr:edicted
para los datos de 1 Observation Feet A.nnual Sales AnnuaJSales Residuals
Sunflowers Apparel
--
2'
3
1
2
1.7
1.6
3. 803239598
3.636253367
3.7
3.9
-0.103239598
0.263746633
...............,..
4
..;...,.,........;,..
3 2.8 5.6400&&147 6.7 1.059911853
·-5- 4 5.6 10.31570263 9.5 -0.815702635
6
-
5 1.3 3.13.5294672 3.4 0.264705328
,_
7 6 2.2 4.638170757 5.6 0.961829243

-
--
8
9
7
8
1.3
1.1
3.135294672
2.801322208
3.7 0.564705328
2.7 -0.101322208
--
10
11 .
9
10
3.2
1.5
6.308033074
3.469267135
5.5
2.9
-0.808033074
-0.569267135
__
.............,,,,.,
12 11 5.2 '9.64 775 7708 10.7 1.052242292
--1314 �
,_.,

-
..
12 4.6 8.645840318 7.6 -1.()45840318
13 5.8 10.6496751 11.8 1.150324902
15 14 3.0 S.974060611 4.1 -1.874060611

Para evaluar la linealidad, en la figura 12.11 se grafican los residuos en oposición a la variable
independiente (tamaño de la tienda en miles de pies cuadrados). Aunque en la gráfica de residuos
hay una gran dispersión, no se observa un patrón claro o alguna relación entre los residuos y X;. Al
parecer, los residuos se distribuyen de manera uniforme por arriba y por debajo de O para distintos
valores de X Se concluye que el modelo lineal es adecuado para los datos de Suntlowers Apparel.

FIGURA 12.11 Square Feet Residual Plot


Gráfica de residuos 1,5 ¡
en oposición a la
extensión en pies 1 "¡ ♦ ♦ ♦

cuadrados de una ♦
tienda para los datos 0,5 t
♦ ♦
de Sunflowers o+ ♦ ♦
Apparel �
-6 -0.5 ➔-



� ♦

+1·

-1
-1.5

-2 !
-2,5 _¡ __________________ , ----· -------------•------- ---- -------' ---------
º 2 3 4 5 6 7

Square Feet

Independencia Podemos evaluar el supuesto de independencia de los errores graficando los


residuos en el orden o la secuencia en que se recolectaron los datos. Si los valores de Y forman
parte de una serie de tiempo (véase la sección 2.6), en ocasiones un residuo podría estar relacio­
nado con el anterior. Si existe una relación entre residuos consecutivos (lo que vio en el supuesto
de independencia), la gráfica de los residuos en oposición al momento en que se reunieron los da­
tos a menudo revelará un patrón cíclico. Puesto que los datos de Suntlowers Apparel se obtuvieron
durante el mismo periodo, no es necesario evaluar el supuesto de independencia para ellos.
12.5 Análisis residual 451

Normalidad Podemos evaluar el supuesto de nonnalidad en los errores organizando los residuos
en una distribución de frecuencias , como se observa en la tabla 12.3. No es posible construir un
histograma con significado, ya que el tamaño de muestra es muy pequeño, y con un tamaño de
muestra tan pequeño (n = 14) puede ser dificil evaluar el supuesto de nonnalidad utilizando un
diagrama de tallo y hoja (véase la sección 2.5), un diagrama de caja (véase la sección 3.3) o una
gráfica de probabilidad nonnal (véase la sección 6.3).

TABLA 12.3 Residuos Frecuencia


Distribución de -2.25 pero menos que - 1.75
frecuencias de 14
valores residuales
-1.75 pero menos que -1 .25 o
para los datos de -1.25 pero menos que -0.75 3
Sunflowers Apparel -0.75 pero menos que -0.25 1
-0.25 pero menos que +0.25 2
+0.25 pero menos que +0.75 3
+0.75 pero menos que + 1.25 4
14

A partir de la gráfica de probabilidad nonnal de los residuos en la figura 12.12, los datos no
parecen alejarse de manera sustancial de una distribución nonna!. La robustez de un análisis de re-
gresión con desviaciones modestas de la nonnalidad nos pennite concluir que no debemos preocu-
pamos demasiado por las desviaciones de este supuesto de nonnalidad en los datos de Sunflowers
Appare!.

FIGURA 12 . 12
Gráficas de probabilidad normal en Excel y Minitab de los residuos para los datos de Sunflowers Apparel
Normal Probability Plot of the Residuals Normal Probability Plot
I.S (response is Annual Sales)

+ .. 99 !
O.S

• •
.. 95
90 ~
i
1
¡

-o.S 80 ~
70 ~ ••
·1

• • ~ tiO i •
-1.5
~ !~ 1I
••
o.
. ,
-2 .5
., -1.5 -1 -0.5 0.5 1.5 ::J I
Z Va lufI 5~
¡ •
1 i---4------------,------r--------.------.--
-2 -1 O 1 2
Residual

Igualdad de varianzas Podemos evaluar el supuesto de igualdad de varianzas a partir de una


gráfica de los residuos con Xi' Para los datos de Sunflowers Apparel, incluidos en la figura 12.11 de
la página 450, al parecer no hay diferencias importantes en la variabilidad de los residuos para di-
ferentes valores de J\. Se concluye que no hay violación del supuesto de igualdad de varianzas en
cada nivel de X.
Para examinar un caso en el que se viola el supuesto de igualdad de varianzas, observe la fi-
gura 12.13, la cual presenta una gráfica de los residuos con J\ para un conjunto hipotético de datos.
Esta gráfica tiene fonna de abanico porque la variabilidad de los residuos aumenta drásticamente a
medida que aumenta X. Como esta gráfica muestra varianzas desiguales de los residuos en diferen-
tes niveles de X, el supuesto de igualdad de varianzas es inválido.
452 CAPÍTULO 12 Regresión lineal simple

FIGURA 12.13 Residuos

e.-••.'.-
Violación de
la igualdad
de varianzas
. ..
. ...
..
.. ..
..
"
... :.:.
-.
.-
.. .. : ... .....
. ..
.... .. . .........- -
.: .. : .... : : ....
o e '~L.!-~.l~...-~~ ___ _
.. .". -.:
••
....
• • " • es· - ••

. ......
-:":::.:
.......-.'
~------------------------x

I Problemas para la sección 12.5


APRENDIZAJE DE LOS FUNDAMENTOS APLICACiÓN DE CONCEPTOS
12.23 Los siguientes resultados incluyen los valores de X, los 12.25 En el problema 12.5 de la página 441, usted utilizó las
residuos y una gráfica de residuos de un análisis de regresión. calificaciones sumadas para pronosticar el costo de una co-
mida en un restaurante. Lleve a cabo un análisis de residuos
para esos datos (almacenados en el archivo i#W¡¡¿!.Iffl). Eva-
1- _--.. '0. - " ._"' _ •• - • _ • •, - - ; ';,;;",::'''::':'::.:;.;:,;;:.;;'.;:,;;'.::,;:.:':'',;;';;::;;;,::,,:,:;,;,:;;";:";;",:,:,;;:,:':",;;'''::'';',:':''::':;:,:':'',::,;;;,:;;;;;.;;'' .::;;;,;;;.;::'::';::,::"'::';;'.;;;. ~. ;;;.;::;::: ;;:_;:; ';;':;:..;:,:,:,.;,',:,:,;;;,;;;.:':' ; : ; :,:.:.-;;:.;.: ::, . ::, ;;;.~',,:: .:: : .• !' ":',:.:.;,:.::.-,;;...::.::.-,".

1 x Res iduals 1 :
! 1 0.70 ! Residual Plot i lúe si los supuestos de regresión se violaron gravemente.
I -0.78 ,! ¡
1
1
4
1.03J
3.0

2.,5 -1
]
!

!.
¡
IílitU,¡;J 12.26 En el problema 12.4, que se encuentra en
f
1 5
0.33 1
2.39 j
. .• la página 441 , el gerente de marketing pronosticó
¡ -¡ las ventas semanales de alimento para mascotas con base en
.. • .
6 .0,67 1 2 .0
¡ 0.16 1 1.S -1 + el espacio de anaquel que se destina a ese producto. Realice
.
7
¡ -ffi ¡
.
1 8 1.65
un análisis de residuos para estos datos (almacenados en el
i 9
i 10
¡
·1.19 :
l ~
:J 1.0 '1
i+ r
. • archivo ¡¡ztU!ttO. Evalúe si los supuestos de regresión se
• •
0.84 ¡ (1J 0 .5

.. ..
¡ 11 0.29 i el: I violaron gravemente.
I U .1.28 ! 0 .0 1,
I :
¡ 13 1. 21 1 ~O.5 ~ • 12.27 En el problema 12.7 de la página 441, usted utilizó
! 14 ·0.37! !. .+ la abertura de la placa en el equipo de sellado de bolsas para
¡ 15 1.02 ! -1.0 i •
i estimar el índice de rompimiento de una bolsa de café. Rea-
! 16
17
·0.16
142
¡:
i -1.5 ~--... _---~-------~~--------~-- .. ------~~- ..... -_._-;

lice un análisis de residuos para estos datos (almacenados
! 18 .0.71i en el archivo Hffl!t!t!j!). Con base en esos resultados, eva-
¡l 2019 -0.63 :
0.67 o:Lo ___________
X
0_ _ _ _ _ _ _ _ _ _ _ _ _ _ • _ _ _ _ _ _ ' _ _ 0_ _ _ _ _ _ _ _ _ 0_ _ _ 0. _ _ _ _ _ _ _ _ _ , _ _ _ _ _ _ _ 0• • _0 _ _ _ 0_ _ _ 0_ _ _
i
J lúe si los supuestos de regresión se violaron gravemente.
12.28 En el problema 12.6, que se encuentra en la página
¿Hay alguna evidencia de un patrón en los residuos? Expli- 441, el dueño de una empresa de mudanzas quería estimar las
que su respuesta. horas de trabajo con base en la cantidad de pies cúbicos trasla-
dados. Realice un análisis de residuos para estos datos (almace-
12.24 Los siguientes resultados incluyen los valores de X, los
nados en el archivo i&ftf1hffi) y, con base en sus resultados,
residuos y una gráfica de residuos de un análisis de regresión.
evalúe si los supuestos de regresión se violaron gravemente.
I'x~ ' R~~¡d~a;~ ¡"""m'".......""''''"'.".".''~::;~:.~~.;~:.~''......."""""""'"1 12.29 En el problema 12.9 de la página 442, un agente de
una empresa de bienes raíces quería estimar la renta men-

i.
i 1.03 ¡ 2.0 1 ! sual de apartamentos con base en su tamaño. Realice un
!
¡I
,
I
54 0.33 !
.0.39
-0.67 :
,
1
'
1.5 '1,

1.0 ~,
I

!
:,
chivo =).
análisis de residuos para estos datos (almacenados en el ar-
Con base en esos resultados, evalúe si los su-
puestos de regresión se violaron gravemente.
I! 8
9
:~:!: ! ~
.1. 19 1 ~
0 .5 .!l .. . • .. ::"
ti 12.30 En el problema 12.8 de la página 441, usted utilizó
i 10 ·0.84 ¡ .~ 0 .0 i el rendimiento anual para pronosticar el valor de una fran-
I 11 ·0.2'J i a: ! ... .. quicia de béisbol. Realice un análisis de residuos para estos
I1 11~~ -1.28
·0.211
i -0.5 ~,
I
.. .. .. ..

.. 1
:,
datos (almacenados en el archivo i:l:IM%,liIfN"). Con base
i 14
I
.0.37 !
I
-1.0 1 en esos resultados, evalúe si los supuestos de regresión se
¡ 15 0,22 ¡ ¡ • • violaron gravemente.
I 16 .0.1 6 ! -1 .5 +--------------,-------------,-----------_.---,------------__ o,
!, 17 0.82¡
, o 5 10 15 20
'
12.31 En el problema 12.10 de la página 442, se utilizaron
¡I, i, !
f__ o_ ..._________ o________ o_______ o_. ______ o____.________ o____________ o___ o___________ o_!.,
x los datos sobre la recaudación en taquilla para pronosticar los
ingresos por las ventas de DVD. Realice un análisis de resi-
duos para estos datos (almacenados en el archivo t!fJP!').
¿Hay alguna evidencia de un patrón en los residuos? Expli- Con base en los resultados que obtenga, evalúe si los supuestos
que su respuesta. de regresión se violaron gravemente.
12.6 Medición de la autocorrelación. El estadístico de Durbin-Watson 453

12.6 Medición de la autocorrelación. El estadístico


de Durbin-Watson
Uno de los supuestos básicos del modelo de regresión es la independencia de los errores. Este su­
puesto se viola en ocasiones cuando los datos se reúnen durante periodos secuenciales, ya que un
residuo en cualquier momento podría tender a ser similar a los residuos de los periodos adyacentes.
Este patrón de los residuos se denomina autocorrelación. Cuando un conjunto de datos tiene una
autocorrelación sustancial, se pone en duda la validez del modelo de regresión.

Gráficas residuales para detectar autocorrelación


Como se menciona en la sección 12.5, una forma de detectar la autocorrelación consiste en graficar
los residuos en orden de tiempo. Si existe un efecto de autocorrelación positivo, se observarán grupos
de residuos con el mismo signo y se detectará fácilmente la probable existencia de un patrón. Si se
presenta una autocorrelación negativa, los residuos tenderán a variar de lo positivo a lo negativo
de forma secuencial. Es muy inusual que se observe este tipo de patrón en el análisis de regresión.
Por lo tanto, en esta sección nos enfocarnos en la autocorrelación positiva. Para ilustrar la auto­
correlación positiva, considere el siguiente ejemplo.
El problema de negocios que enfrenta la gerente de una tienda de mensajería consiste en pro­
nosticar las ventas semanales. Para enfrentar este problema decidió desarrollar un modelo de regre­
sión y utilizar el número de clientes que hacen compras como variable independiente. Se reúnen
datos durante un periodo de 15 semanas, los cuales están organizados en la tabla 12.4 (y se encuen­
tran almacenados en el archivo (3ffiffld1.

TABLA 12.4
Semana Clientes Ventas (miles de$) Semana Clientes Ventas (miles de$)
Clientes y ventas
para un periodo 794 9.33 9 880 12.07
de 15 semanas 2 799 8.26 10 905 12.55
consecutivas 3 837 7.48 11 886 11.92
4 855 9.08 12 843 10.27
5 845 9.83 13 904 11.80
6 844 10.09 14 950 12.15
7 863 11.01 15 841 9.64
8 875 11.49

Como los datos se reunieron durante un periodo de 15 semanas consecutivas en la misma


tienda, es necesario determinar si existe autocorrelación. En la figura 12.4 se presentan los resulta­
dos para estos datos.

FIGURA 12.14
Resultados de regresión en Excel y Minitab para los datos del almacén de mensajería incluidos en la figura 12.14
,. --
�:;;r:_ ·•..:_·:-· _s _ _ _e , ·o ,- t:T. R·egression Analysis: Sales versus Customers
1 ,Package Oehvery Store Sales Analysis
The regressi.on equation i.s
2 -------- �Sales = - 16 .. O + O. 0308 Customers
3_ ; Regreu/011 stotistlcs
4 iMultiple R 0.8108
5 RSquare 0.6574 Predictor Coef SE C oef T p
6 ;AdjUSted R Square 0.6311 Constant -16. 032 5 .. 310 -3.02 0.010
7 i Standard Error 0.9360 CUstome rs o . 0307 60 0.006158 5 .. 00 O .000
8 :abservat,ons 15
9
10 'ANOVA
S = 0.936037 R-Sq = 65.H R-Sq{adj) = 63.H
11 !-¡ ------"-'fd ___=ss___M-"'S'--------'F_...:S"'-gJ ""nic..:f ci "'-anc.:.:c•"--F
12 'Regresslon 21.8604 21.8604 24.9501 0.0002 Analysis of v'.ariance
13 'Res1dl1al 13 11.3901 0.8762 Source DF SS MS F p
33.2.506 Regressi.on 1 21. 860 21. 86-0 24.95 0.000
-----------------------
14 ]Total 14
15 Residual Error 13 11. 390 0.876
16 �-----'G=º•=ffcc/c'=
'"=
's--'S'-"ta"-n"'dac..crdc..cE.c...rroc..c.r-'-'S
1 "-'ta"-t _P'---v lue w re P,:.c
-'-'- "'- .c.:95c..c9'__cu:.c
'-=a= =--=Lo P•ccr 9:..:;5'-'-,-¡ Total 14 33. 25,1
17 :intercept -16.0322 5.3102 -3.0192 0.0099 -27.5041 -4.5603
18 !customers 0.0308 0.0062 4.9950 0.0002 0.0175 0.0441 Durbin-Watson statistic = 0.883003
454 CAPÍTULO 12 Regresión lineal simple

En la figura 12.14 se observa que r 2 es 0.6574, lo que indica que 65.74% de la variación en
las ventas se explica por la variación en el número de clientes. Además, la intersección con el eje Y,
b0, es -16.0322, y la pendiente, b ¡ , es 0.0308. Sin embargo, antes de utilizar este modelo para
hacer pronósticos, es necesario llevar a cabo un análisis de residuos. Como los datos se reunieron
durante un periodo de 15 semanas consecutivas, además de verificar los supuestos de linealidad,
normali­dad e igualdad de varianzas, es necesario investigar el supuesto de independencia de los
errores. Para ello, se grafican los residuos en oposición al tiempo de la figura 12.15 para examinar
si existe algún patrón. En la figura 12.15 se observa que los residuos tienden a fluctuar hacia
arriba y hacia abajo en un patrón cíclico. Este patrón cíclico es una causa importante de
preocupación por la posibilidad de que exista una autocorrelación en los residuos y, por lo tanto,
una violación en el supuesto de independencia de los errores.

FIGURA 12.15 Package Delivery Store Sales Analysis Residual Plot


Gráfica residual 1.5
para los datos

del almacén de ♦

mensajería incluidos 0.5

en la tabla 12.4

-0.5

·l

-1.5

·2

-2.5
o 4 6 8 10 12 14 16
Semana

Estadístico de Durbin-Watson
El estadístico de Durbin-Watson se utiliza para medir la autocorrelación. Este estadístico mide la
correlación entre cada residuo y el del periodo anterior. El estadístico de Durbin- Watson se define
en la ecuación (12.15).

ESTADÍSTICO DE DURBIN WATSON


n
�(e; - e;- 1) 2
=
D = _; _2____
n _ (12.15)
�d
i=I

donde:
e; = residuo en el periodo i

n
En la ecuación ( 12.15) el numerador, � (e; - e;- 1 ) 2 , representa la diferencia al cuadrado
i=2
entre dos residuos sucesivos, sumada desde el segundo valor hasta el n-ésimo valor; por su parte, el
12.6 Medición de la autocorrelación. El estadístico de Durbin-Watson 455

n
denominador, 2:eT, representa la suma de los residuos al cuadrado. Esto significa que el valor del
i=1
estadístico de Durbin-Watson, D , se aproximará a O si los residuos sucesivos están autocorrelacio-
nado s de forma positiva. Si los residuos no están autocorrelacionados, el valor de D se acercará a 2.
(Si los residuos están autocorrelacionados de forma negativa, D será mayor que 2 e incluso podría
acercarse a su valor máximo de 4). Para los datos de la tienda de mensajería, el estadístico de Dur-
bin-Watson, D, es 0.8830. (Véase los resultados de Excel de la figura 12.16 a continuación o los
resultados de Minitab de la figura 12.14 en la página 453).

FIGURA 12.16
Hoja de cálculo de
Excel del estadístico 3 ISum of Squared Di fference of Residuals 10.0575 =SUMXMY2(RESIDUALS!E3:El6. RESIDUALS!E2:E15)
de Durbin-Watson
~i sum of Squared Res idu als 11.3901 =SUMSQ(RESIDUAlS!E2:El6)
para los datos de la
tienda de mensajería -IJ Durbin-Watson Statistic 0.88301 =B3/B4
Minitab reporta el
estadístico de Durbin-
Watson como parte de
sus resultados de
Es necesario determinar cuándo la autocorrelación es tan grande como para concluir que existe
regresión . Véase la
sección GM12.6 para una autocorrelación positiva significativa. Después de calcular D , se debe comparar con los valores
mayor información. críticos del estadístico de Durbin-Watson, que se encuentran en la tabla E.7, una parte de la cual se
presenta en la tabla 12.5. Los valores críticos dependen de a, el nivel de significancia elegido, n, el
tamaño de muestra, y k, el número de variables independientes en el modelo (en la regresión lineal
simple, k = 1).

TABLA 12.5
Cálculo de valores a = .05
críticos del
estadístico de
1k = 11 k=2 k=3 k=4 k=5
Durbin-Watson n dL du dL du dL du dL du

.95 1.54 .82 1.75 .69 1.97 .56 2.21


.98 1.54 .86 1.73 .74 1.93 .62 2.15
1.02 1.54 .90 1.71 .78 1.90 .67 2.10
1.05 1.53 .93 1.69 .82 1.87 .71 2.06

En la tabla 12.5 se muestran dos valores para cada combinación de a (nivel de significancia), n
(tamaño de muestra) y k (número de variables independientes en el modelo). El primer valor, dL' re-
presenta el valor crítico inferior. Si D está por debajo de dL' se puede concluir que existe evidencia de
una autocorrelación positiva entre los residuos. Si esto ocurre, el método de los mínimos cuadrados
utilizado en este capítulo sería inadecuado, y se tendrían que utilizar métodos alternativos (véase la
referencia 4). El segundo valor, d u' representa el valor crítico superior de D , por arriba del cual se
concluye que no existen evidencias de una autocorrelación positiva entre los residuos. Si D se en-
cuentra entre dL y d u' no es posible llegar a una conclusión definitiva.
Para los datos de la tienda de mensajería, con una variable independiente (k = 1) y 15 valores
(n = 15), dL = 1.08 Y d u = 1.36. Puesto que D = 0.8830 < 1.08, podemos concluir que existe una
autocorrelación positiva entre los residuos. El análisis de regresión de mínimos cuadrados de los
datos es inadecuado debido a la presencia de una correlación positiva significativa entre los resi-
duos. En otras palabras, el supuesto de independencia de los errores es inválido, y es necesario
utilizar métodos alternativos, los cuales se analizan en la referencia 4.
456 CAPÍTULO 12 Regresión lineal simple

1 Problemas para la sección 12.6


APRENDIZAJE DE LOS FUNDAMENTOS Administration, Departamento de Energía de Estados Uni­
12.32 Los residuos de 1 O periodos consecutivos son los dos, www.eia.doe.gov)
siguientes: a) Construya un diagrama de dispersión con el precio del
petróleo sobre el eje horizontal y el precio de la gasolina
Periodo Residuo Periodo Residuo sobre el eje vertical.
b) Utilice el método de los mínimos cuadrados para desarrollar
-5 6 +l una ecuación de regresión lineal simple que le permita esti­
2 -4 7 +2 mar el precio de un galón de gasolina, utilizando el precio
3 -3 8 +3 de un barril de petróleo crudo como variable independiente.
4 -2 9 +4 e) Interprete el significado de la pendiente, b" en este pro-
5 -1 10 +5 blema. Se refiere a hacer un gráfico de residuos vs tiempo,
siguiendo la fig 12.15
a) Grafique los residuos sobre el tiempo. ¿Qué concluye d) Grafique los residuos en oposición al periodo.
acerca del patrón de los residuos a lo largo del tiempo? e) Calcule el estadístico de Durbin-Watson.
/) Con un nivel de signiftcancia de 0.05, ¿existe evidencia
b) Con base en el inciso a), ¿qué concluye acerca de la auto­
de una autocorrelación positiva entre los residuos?
correlación de los residuos?
g) Con base en los resultados de los incisos d) a/), ¿hay
12.33 Los residuos de 15 periodos consecutivos son los alguna razón para cuestionar la validez del modelo?
siguientes: AUTO 12.36 Un negocio de pedidos por catálogo, que
· · • vende insumos para computadoras, software y
Periodo Residuo Periodo Residuo
hardware, mantiene un almacén centralizado para la distri­
1 +4 9 +6 bución de los productos solicitados. En la actualidad, la ge­
2 -6 10 -3 rencia está examinando el proceso de distribución desde el
3 -1 11 +I almacén y tiene el objetivo de negocios de determinar los
4 -5 12 +3 hechos que influyen en los costos de este. En este momento
5 +2 13 o se está añadiendo una pequeña tarifa de manejo a los pedi­
6 +5 14 -4 dos, sin importar su monto. Durante los últimos 24 meses se
7 -2 15 -7 reunieron los datos que indican los costos de distribución
8 +7 del almacén y el número de pedidos recibidos, y se almace­
naron en el archivo @@HU Los resultados son:
a) Grafique los residuos sobre el tiempo. ¿Qué concluye
acerca del patrón de los residuos a lo largo del tiempo? Costo de distribución Número
b) Calcule el estadístico de Durbin-Watson. Con un nivel de Meses (miles de$) de pedidos
significancia de 0.05, ¿existe evidencia de una autocorre­ 1 52.95 4,015
lación positiva entre los residuos? 2 71.66 3,806
e) Con base en los incisos a) y b), ¿qué concluye acerca de 3 85.58 5,309
la autocorrelación de los residuos? 4 63.69 4,262
5 72.81 4,296
APLICACIÓN DE CONCEPTOS 6 68.44 4,097
12.34 En el problema 12.4 de la página 441, acerca de las 7 52.46 3,213
ventas del alimento para mascotas, el gerente de marketing 8 70.77 4,809
utilizó el espacio de anaquel para pronosticar las ventas se­ 9 82.03 5,237
10 74.39 4,732
manales. 11 70.84 4,413
a) ¿Es necesario calcular el estadístico de Durbin-Watson en 12 54.08 2,921
este caso? Explique su respuesta. 13 62.98 3,977
b) ¿En qué circunstancias es necesario calcular el estadís­ 14 72.30 4,428
tico de Durbin-Watson antes de proceder con el método 15 58.99 3,964
del análisis de regresión por mínimos cuadrados? 16 79.38 4,582
17 94.44 5,582
12.35 ¿Qué relación existe entre el precio del petróleo 18 59.74 3,450
crudo y el precio que se paga en la gasolinera? El archivo C:lll 19 90.50 5,079
kiffifttti incluye datos sobre el precio (en$) por un barril 20
21
93.24
69.33
5,735
4,269
de petróleo crudo (precio al contado en Cushing, Oklahoma)
y un galón de gasolina (precio promedio al contado en Esta­ 22 53.71 3,708
23 89.18 5,387
dos Unidos) durante 124 semanas que terminaron el 16 de
24 66.80 4,161
mayo de 2011. (Datos extraídos de la Energy Information
12.7 Inferencias acerca de la pendiente y coeficiente de correlación 457

a) Suponga que existe una relación lineal y utilice el mé- d) Calcule el estadístico de Durbin-Watson. Con un nivel de
todo de mínimos cuadrados para calcular los coeficientes significancia de 0.05, ¿existe evidencia de una autocorre-
de regresión, ba y b l· lación positiva entre los residuos?
b) Pronostique los costos de distribución mensuales del
almacén cuando el número de pedidos es de 4,500. Obser- Compactación Tiempo Obser- Compactación Tiempo
e) Grafique los residuos en oposición al periodo. vación (pulgadas) (segundos) vación (pulgadas) (segundos)
d) Calcule el estadístico de Durbin-Watson. Con un nivel de
1 0.20 14 13 0.50 18
significancia de 0.05 , ¿existe evidencia de una auto corre-
2 0.50 14 14 0.50 13
lación positiva entre los residuos?
3 0.50 18 15 0.35 19
e) Con base en los resultados de los incisos e) y d) , ¿hay
4 0.20 16 16 0.35 19
alguna razón para cuestionar la validez del modelo?
5 0.20 16 17 0.20 17
12.37 El café expreso recién preparado tiene tres compo- 6 0.50 13 18 0.20 18
nentes diferentes: el corazón, el cuerpo y la crema. La separa- 7 0.20 12 19 0.20 15
ción de esos tres componentes suele tomar únicamente de 10 8 0.35 15 20 0.20 16
a 20 segundos. Al utilizar una máquina de expreso para pre- 9 0.50 9 21 0.35 18
parar un café con leche, un capuchino u otra bebida, el ex- 10 0.35 15 22 0.35 16
preso se debe verter en la bebida durante la separación del 11 0.50 11 23 0.35 14
corazón, el cuerpo y la crema. Si el expreso se utiliza después 12 0.50 16 24 0.35 16
de que ocurre la separación, la bebida se vuelve excesiva-
mente amarga y ácida, lo que estropea el producto final. Por e) Con base en los resultados de los incisos e) y d), ¿hay
lo tanto, un mayor tiempo de separación proporciona al ca- alguna razón para cuestionar la validez del modelo?
marero más tiempo para verter el expreso y asegurarse de que
la bebida cubra las expectativas. Un empleado de una cafete- 12.38 Los propietarios de una cadena de tiendas de hela-
ría planteó la hipótesis de que cuanto más fuerte se compacte dos tienen el objetivo de negocios de mejorar el pronóstico
el molido del café en el portafiltro antes de prepararlo, más de las ventas diarias con la finalidad de disminuir al máximo
tiempo toma la separación. Se realizó un experímento con 24 los recortes de personal durante la temporada de verano.
observaciones para someter a prueba esta relación. La varia- Como punto de inicio, los propietarios deciden desarrollar
ble independiente Tamp mide la distancia, en pulgadas, entre un modelo de regresión lineal simple para estimar las ventas
el café compactado y la parte superior del portafiltro; es decir, diarias con base en la temperatura atmosférica. Ellos selec-
a mayor compactación, mayor distancia. La variable depen- cionan una muestra de 21 días consecutivos y almacenan los
diente Time es el número de segundos que tardan en sepa- resultados en el archivo Itb3111,,1. (Sugerencia: Determine
rarse del corazón, el cuerpo y la crema; es decir, el tiempo cuáles son las variables independiente y dependiente).
que transcurre desde que se prepara el expreso hasta que se a) Suponga que existe una relación lineal y utilice el mé-
utiliza para la bebida del cliente. Los datos, que están almace- todo de mínimos cuadrados para calcular los coeficientes
nados en el archivo L!H#h se presentan a la derecha. de regresión, ba y b l •
a) Utilice el método de mínimos cuadrados para desarrollar b) Pronostique las ventas para un día en el que la tempera-
una ecuación de regresión simple con Time como varia- tura es de 83 °F.
ble dependiente y Tamp como variable independiente. e) Grafique los residuos en oposición al periodo.
b) Pronostique el tiempo de separación para una distancia d) Calcule el estadístico de Durbin-Watson. Con un nivel de
de compactación de 0.50 pulgadas. significancia de 0.05, ¿existe evidencia de una autocorre-
e) Grafique los residuos en oposición al orden del tiempo de lación positiva entre los residuos?
experimentación. ¿Es evidente la existencia de algún e) Con base en los resultados de los incisos c) y d), ¿hay
patrón? alguna razón para cuestionar la validez del modelo?

12.7 Inferencias acerca de la pendiente y coeficiente de correlación


En las secciones 12.1 a 12.3, la regresión se utilizó solo con propósitos descriptivos. Se describió la
forma en que el método de mínimos cuadrados determina los coeficientes de regresión y la manera
de pronosticar Y para un valor dado de X. Además, se explicó cómo calcular e interpretar el error
estándar de la estimación y el coeficiente de determinación.
Como se analizó en la sección 12.5, cuando un análisis de residuos indica que los supuestos de
un modelo de regresión de mínimos cuadrados no se han violado gravemente y que el modelo de la
línea recta es adecuado, podemos hacer inferencias acerca de la relación lineal entre las variables
en la población.
458 CAPíTULO 12 Regresión lineal simple

Prueba t para la pendiente


Para determinar la existencia de una relación lineal significativa entre las variables X y Y, se debe
probar si {31 (la pendiente poblacional) es igual a O. Las hipótesis nula y alternativa son las siguientes:
Ho: {31 = O [No hay relación lineal (la pendiente es cero)].
H I : {31 :f:. O [Hay una relación lineal (la pendiente no es cero)] .
Si se rechaza la hipótesis nula, se concluye que existe evidencia de una relación lineal. El estadís-
tico de prueba se define en la ecuación (12.16).

PRUEBA DE UNA HIPÓTESIS PARA UNA PENDIENTE POBLAClONAL, {31'


UTILIZANDO LA PRUEBA t
El estadístico de prueba tESTAD es igual a la diferencia entre la pendiente muestral y el
valor hipotetizado de la pendiente poblacional, dividido entre el error estándar de la
pendiente.

(12.16)

donde:

n
SCX= ~(X; -X)2
i=1

El estadístico de prueba tESTAD tiene una distribución t con n - 2 grados de libertad.

Volvamos a la sección sobre Sunflowers Apparel, que se encuentra en la página 431. Para pro-
bar si existe una relación lineal significativa entre el tamaño de la tienda y las ventas anuales, con
un nivel de significancia de 0.05, remítase a los resultados de la prueba t que se presentan en la
figura 12.17.

FIGURA 12.17 ......


di • . ~-A-~~if.."
,~""""""_._. ~_'"
_ 4 _" _ ·.:.
. . . ...
'- 4, ·
- - ..:...,. . . . . ." " . ._ ......·,..;. .
¡. .c
...,.;.~ . . . . .· _ . . ...,..~
~,...,..,.--
_ _ " " '·.......... ~·
O i,l E r---r~-r--~---t·r ~--r
i_·..,_·...¡'"""'·,~.........,_ ........._·_"""-....~·""~ .....,.._._.•"';_'"""!-''''''"'_~_,
. . ." ....
____l
.....:.~~ __ __ ....,.;_"""'_"'".k..."" ___ ~.~
1671 ¡CoefflCíents iStandardError ! tStat , P-value : Lower95% Upper95% i Lower95.0% Upper95.0%
Resultados de la "17 Intercept ." _ 0.9645, 0.5262 : 1.8329 0.0917 -0.1820 2.1110 -0.1820 2.11095
prueba t de Excel 1.6699; 0.1569 ' 10.6411 0.0000 1.3280 2.0118 1.32SO 2.01177
y Minitab para la
pendiente de los Preclictor Coer SE Coer 'T P
datos de Sunflowers Constant 0 . 964.5 0.5262 1.83 0 . 092
Apparel Square Feet 1.6699 0.1569 10.64 0 . 000

De acuerdo con las figuras 12.4 Y 12.1 7,


bl = + 1.6699 n = 14 Sb l = 0.1569

1.6699 - O
10.6411
0.1569
Con un nivel de significancia de 0.05, el valor crítico de t con n - 2 = 12 grados de libertad es
2.1788. Debido a que tESTAD = 10.6411 > 2.1788, o debido a que el valor p es aproximadamente O,
que es menor que a = 0.05, se rechaza Ho (véase la figura 12.18). Por lo tanto, se concluye que
existe una relación lineal significativa entre las ventas medias anuales y el tamaño de la tienda.
12.7 Inferencias acerca de la pendiente y coeficiente de correlación 459

FIGURA 12.18
Prueba de una
hipótesis acerca
de la pendiente
poblacional con
un nivel de
significancia de
0.05 y 12 grados t -2 .1788 +2.1788 t
de libertad Región de Región de
rechazo rechazo

Valor Valor
crítico crítico

Prueba F para la pendiente


En la regresión lineal simple se puede utilizar una prueba F como alternativa a la prueba t para de-
terminar si la pendiente es estadísticamente significativa. En la sección 10.4 se utilizó la distribu-
ción F para someter a prueba la razón de dos varianzas. La ecuación (12.17) define la prueba F
para la pendiente como la proporción de la varianza que se debe a la regresión (CMR) dividida
entre la varianza del error (MSE = Sh).

PRUEBA DE UNA HIPÓTESIS PARA UNA PENDIENTE POBLAClONAL, f3"


UTILIZANDO LA PRUEBA F
El estadístico de prueba F ESTAD es igual al cuadrado medio de regresión (CMR) dividido
entre el cuadrado medio del error (CME).
CMR
F ESTAD = CME (12.17)

donde:
SCR
CMR= - = SCR
1
CME= SCE
n-2
El estadístico de prueba FESTAD tiene una distribución F con 1 y n - 2 grados de libertad.

Con un nivel de significancia a, la regla de decisión es:


Rechazar Ha si FESTAD> F a ;

de otro modo, no rechazar Ha.

En la tabla 12.6 está organizado el conjunto completo de resultados en una tabla de análisis de
varianza (ANOVA).

TABLA 12.6 Fuente gl Suma de cuadrados Cuadrado medio (varianzas) F


Tabla de ANOVA CMR
para probar la Regresión SCR CMR = SCR = SCR FESTAD = CME
1
significancia de
un coeficiente Error n - 2 SCE CME= SCE
de regresión n - 2
Total n - 1 SCT

En la tabla 12.19, una tabla completa de ANOVA para los datos de las ventas en Sunflowers, se
observa que el estadístico de prueba FESTAD calculado es 113.2335 y que el valor p es aproximada-
mente O.
460 CAPÍTULO 12 Regresión lineal simple

FIGURA 12.19
Resultados de la prueba F en Excel y Minitab para los datos de Sunflowers Apparel

Al ~-=-- A_.~- ¡ _"-JL=r-~~~~º.·.· __r-=D---:::L J~=:I_".::"__f~.-_~::J Anall sis .o f Variance


Seurce DF SS MS F P
!~_i ANOVA
Regressien 1 105. 75 105 . 75 113,23 0,000
11 1 dI SS MS F Signiticr:mce F
-.·--.+1- - - - - - - - - < - - - - - " - ' - - - - ' - - - --"----'--- Residual Error 12 11.21 0 , 93
J_~.J Regression 1 105.7476 105.7476 113.2335 0.0000
Tetal 13 11 6,95
13 jResidual 12 11.2067 0.9339
-;"1 .
14 ¡Tota' 13 116.9543

Con un nivel de significancia de 0.05, de la tabla E.5, el valor crítico de la distribución F, con
1 y 12 grados de libertad, es 4.75 (véase la figura 12.20). Debido a que F ESTA D = 113.2335 > 4.75 o
debido a que el valor p = 0.0000 < 0.05 , se rechaza Ho y se concluye que existe una relación lineal
significativa entre el tamaño de la tienda y las ventas anuales. Debido a que la prueba F en la ecua-
ción (12.17), que se encuentra en la página 459, es equivalente a la prueba t de la ecuación (12.16),
que está en la página 458, llegamos a la misma conclusión.

FIGURA 12.20
Regiones de rechazo
y no rechazo al
someter a prueba
la significancia de la
pendiente con un
nivel de significancia
de 0.05, y 1 Y 12
grados de libertad
Región de Valer Región de
n.o rechazo crítico rechazo

Estimación del intervalo de confianza para la pendiente


Como alternativa para probar la existencia de una relación lineal entre las variables se puede cons-
truir una estimación del intervalo de confianza para f3, por medio de la ecuación (12.18).

ESTIMACiÓN DEL INTERVALO DE CONFIANZA PARA LA PENDIENTE, f3 1


La estimación del intervalo de confianza para la pendiente poblacional se construye
tomando la pendiente muestral, bl' y sumando y restando el valor crítico t multiplicado
por el error estándar de la pendiente.

b, ± taj 2Sb ¡

(12.18)

donde:

taj 2 = valor crítico correspondiente a una probabilidad de cola superior de a / 2 de la


distribución t con n - 2 grados de libertad (es decir, un área acumulativa de 1 - a / 2).

A partir de los resultados de la figura 12.17,


b, = 1.6699 n = 14 Sb¡ = 0.1569
Para construir un intervalo de confianza de 95%, a /2 = 0.025, y de la tabla E.3, ta !2 = 2.1788. Por lo
tanto,

b¡ ± t aj 2Sb¡ = 1.6699 ± (2.1788)(0.1569)


= 1.6699 ± 0.3419
1.3280 ::::; f3, ::::; 2.0118
12.7 Inferencias acerca de la pendiente y coeficiente de correlación 461

Por consiguiente, con un nivel de confianza de 95%, se estima que la pendiente poblacional
se encuentra entre 1.3280 y 2.0118. Como ambos valores son mayores que O, se concluye que
existe una relación lineal significativa entre las ventas anuales y el tamaño de la tienda. Si el inter-
valo incluyera a O, se concluiría que no existe una relación significativa entre las variables. El in-
tervalo de confianza indica que, por cada incremento de 1,000 pies cuadrados, se estima que las
ventas anuales pronosticadas aumentarán al menos $1,328,000, pero no más de $2,011,800.

Prueba t para el coeficiente de correlación


En la sección 3.5 se midió la fuerza de la relación entre dos variables numéricas utilizando el coefi-
ciente de correlación, r. Los valores del coeficiente de correlación van desde - 1 para una correlación
negativa perfecta hasta + 1 para una correlación positiva perfecta. Podemos utilizar el coeficiente
de correlación para determinar si existe una relación lineal estadísticamente significativa entre Xy
Y. Para ello, se plantea la hipótesis de que el coeficiente de correlación poblacional, p, es O. Por lo
tanto, las hipótesis nula y alternativa son:

Ho: p = O (sin correlación)


H, : p -=F O (correlación)

La ecuación (12.19) define el estadístico de prueba para determinar la existencia de una corre-
lación significativa.

PRUEBA DE LA EXISTENCIA DE UNA CORRELACiÓN

tESTAD= gr-p
1- r
---
(12.19a)

n - 2
donde:

r= + W si b, > O
r = -W si b, < O

El estadístico de prueba tESTAD tiene una distribución t con n - 2 grados de


libertad r se calcula de la siguiente manera:

cov(X,Y)
r= (12.19b)

donde:
n
2: (X¡ - X)(Yi - y)
cov(X, Y) = _i =_'_ _ _ _ __
n-l
n
2: (X¡ - X)2
i='
n - 1

Sy =
n - 1

En el problema de Sunflowers Apparel, r 2 = 0.9042 Y b, = + 1.6699 (véase la figura 12.4 en la


página 436). Dado que b, > O, el coeficiente de correlación para las ventas anuales del tamaño de
462 CAPÍTULO 12 Regresión lineal simple

la tienda es la raíz cuadrada positiva de r 2 , es decir, r = +VO.9042 = +0.9509. Utilizando la


ecuación (12 .19a) para someter a prueba la hipótesis nula de que no existe una correlación entre
esas dos variables, se obtiene el siguiente estadístico t observado:

tESTAD = g r - O
1- r
n - 2
0.9509 - O
10.6411
11 - (0.9509)2
\j 14 - 2

Con un nivel de significancia de 0.05 , como tESTAD = 10.6411 > 2.1788, se rechaza la hipótesis nula.
Concluimos que existe una asociación significativa entre las ventas anuales y el tamaño de la
tienda. Este estadístico de prueba tESTAD es equivalente al estadístico de prueba tESTAD que se obtuvo
cuando se probó si la pendiente poblacional, f31' era igual a cero.

IProblemas para la sección 12.7


APRENDIZAJE DE LOS FUNDAMENTOS APLICACiÓN DE CONCEPTOS
12.39 Usted somete a prueba la hipótesis nula de que no 12.42 En el problema 12.4, de la página 441, el gerente de
existe una relación lineal entre dos variables, X y Y. A partir marketing utilizó el espacio de anaquel que se asigna al ali-
de su muestra de n = 10, determina que r = 0. 80. mento de mascotas para estimar las ventas semanales. Los
a) ¿Cuál es el valor del estadístico tESTAD de la prueba t? datos están almacenados en el archivo liOltMI. A partir de
b) Con un nivel de significancia de a = 0.05 , ¿cuáles son los los resultados de ese problema, b¡ = 7.4 Y Sb¡ = l.59.
a) Con un nivel de significancia de 0.05, ¿existe evidencia de
valores críticos?
una relación lineal entre el espacio de anaquel y las ventas?
e) Con base en sus respuestas para los incisos a) y b), ¿qué
b) Construya un intervalo de confianza de 95% para la pen-
decisión estadística debe tomar?
diente poblacional, f3¡.
12.40 Usted está sometiendo a prueba la hipótesis nula de
12.43 En el problema 12.5 de la página 441, usted utilizó
que no existe una relación lineal entre dos variables, X y Y.
las calificaciones sumadas de un restaurante para estimar el
A partir de su muestra de n = 18, determine que b¡ = +4.5 Y costo de una comida. Los datos están almacenados en el
Sb¡ = 1.5. archivo @tiflllf!.iij. Con base en los resultados de ese pro-
a) ¿Cuál es el valor de t ESTAD? blema, b¡ = 1.2409 Y Sb¡ = 0.1421.
b) Con un nivel de significancia de a = 0.05 , ¿cuáles son los a) Con un nivel de significancia de 0.05, ¿existe evidencia
valores críticos? de una relación lineal entre la calificación sumada de un
e) Con base en sus respuestas a los incisos a) y b), ¿qué de- restaurante y el costo de una comida?
cisión estadística debe tomar? b) Construya un intervalo de confianza de 95% para la pen-
d) Construya un intervalo de confianza de 95% de la pen- diente poblacional, f3¡ .
diente poblacional, f3¡ .
12.44 En el problema 12.6, que está en la página 441 ,
12.41 Usted está sometiendo a prueba la hipótesis nula de el dueño de una empresa de mudanzas quería estimar las
que no existe una relación lineal entre dos variables, X y Y. horas de trabajo con base en el número de pies cúbicos tras-
A partir de su muestra de n = 20, determine que SCR = 60 Y ladados. Los datos están almacenados en el archivo ~.
SCE = 40. Utilice los resultados de ese problema.
a) ¿Cuál es el valor de FESTAD? a) Con un nivel de significancia de 0.05, ¿existe evidencia
b) Con un nivel de significancia de a = 0.05 , ¿cuál es el valor de una relación lineal entre el número de pies cúbicos
crítico? trasladados y las horas de trabajo?
e) Con base en sus respuestas a los incisos a) y b), ¿qué de- b) Construya un intervalo de confianza de 95% para la pen-
cisión estadística debe tomar? diente poblacional, f3¡.
d) Calcule el coeficiente de correlación obteniendo primero 12.45 En el problema 12.7 usted utilizó la abertura de la
r 2 y suponiendo que b¡ es negativa. placa en el equipo de sellado de bolsas para estimar el índice
e) Con un nivel de significancia de 0.05, ¿existe una corre- de rotura de una bolsa de café. Los datos están almacenados
lación significativa entre X y Y? en el archivo B!M!jfflij. Utilice los resultados de ese problema.
Problemas para la sección 12.7 463

a) Con un nivel de significancia de 0.05, ¿existe evidencia a) Para cada una de las seis empresas interprete el valor beta.
de una relación lineal entre la abertura de la placa de b) ¿De qué manera podrían los inversionistas utilizar el va-
la máquina de sellado de bolsas y el índice de rotura de una lor beta como una guía para sus inversiones?
bolsa de café?
b) Construya un intervalo de confianza de 95% para la pen- Empresa Símbolo de las acciones Beta
diente poblacional, f3,. Procter & Gamble PG 0.52
AT&T T 0.59
12.46 En el problema 12.8 usted utilizó las utilidades
Disney DIS 1.19
anuales para estimar el valor de una franquicia de béisbol. 1.14
Apple AAPL
Los datos están almacenados en el archivo !:I:l¡J4U4,!lI}¿'¡U eBay EBAY 1.57
Utilice los resultados de ese problema. Ford F -0.24
a) Con un nivel de significancia de 0.05 , ¿existe evidencia Fuente: Datos extraídos de finance.yahoo.com , '9 de mayo de 20 ,1.
de una relación lineal entre las utilidades anuales y el
valor de la franquicia?
12.50 Los fondos de inversión son fondos mutuos que tra-
b) Construya un intervalo de confianza de 95% para la pen-
tan de imitar el movimiento de los principales índices, como
diente poblacional, f3,.
el S&P 500 o el Russell 2000. Por lo tanto, los valores beta
12.47 En el problema 12.9 un agente de una empresa de (descritos en el problema 12.49) para estos fondos son de
bienes raíces quería estimar la renta mensual de apartamentos aproximadamente 1.0 y los modelos de mercado estimados
basándose en el tamaño de los mismos. Los datos están al- para esos fondos son aproximadamente
macenados en el archivo • . Utilice los resultados de ese
problema. (cambio porcentual semanal en el fondo índice) =
a) Con un nivel de significancia de 0.05, ¿existe evidencia 0.0 + 1.0 (cambio porcentual semanal en el índice)
de una relación lineal entre el tamaño del apartamento y Los fondos de inversión apalancados están diseñados para
la renta mensual? aumentar el movimiento de los principales índices. Direxion
b) Construya un intervalo de confianza de 95% para la pen- Funds es uno de los principales proveedores de índices apa-
diente poblacional, f3, . lancados y de otros productos de fondos mutuos de clases
12.48 En el problema 12.10 usted utilizó los datos sobre la alternativas para consejeros de inversión e inversionistas so-
recaudación de taquilla para pronosticar los ingresos por las fisticados. En la siguiente tabla se observan dos de los fon-
ventas de DVD . Los datos están almacenados en el ar- dos de la empresa. (Datos extraídos de www.direxionfunds.
chivo !mm. Utilice los resultados de ese problema. com, 17 de mayo de 2011.)
a) Con un nivel de significancia de 0.05, ¿existe evidencia
de una relación lineal entre la recaudación neta de taqui- Nombre Súobolo de las acciones Descripción
lla y los ingresos por las ventas de DVD? Daily Small TNA 300% del índice
b) Construya un intervalo de confianza de 95% para la pen- Cap 3x Fund Russell 2000
diente poblacional, f3,. Daily India INDL 200% del índice
Bu1l2x Fund Indus India
12.49 La inestabilidad de una acción suele medirse por me-
dio de su valor beta. Para estimar el valor beta de una acción,
se crea un modelo de regresión lineal simple utilizando el Los modelos de mercado estimados para esos fondos son
cambio porcentual semanal en la acción como la variable de- aproximadamente:
pendiente y el cambio porcentual semanal en el índice del (cambio porcentual semanal en TNA) = 0.0 + 3.0
mercado como la variable independiente. Un índice muy uti- (cambio porcentual semanal en el Russell 2000)
lizado es el S&P 500. Por ejemplo, si quisiera estimar el valor (cambio porcentual semanal en INDL) = 0.0 + 2.0
beta de Disney, podría utilizar el siguiente modelo, que en (cambio porcentual semanal en el índice Indus India)
ocasiones se conoce como modelo de mercado: Por lo tanto, si el índice Russell 2000 gana 10% durante un
(cambio porcentual semanal en Disney) = f3 0 periodo, el fondo mutuo apalancado TNA gana aproximada-
mente 30%. En el aspecto negativo, si el mismo índice
+ f3, (cambio porcentual semanal en el índice S&P 500) + e
pierde 20%, TNA pierde aproximadamente 60%.
La estimación de regresión de mínimos cuadrados para la a) El objetivo del fondo Large Cap Bull 3x de Direxion
pendiente, bl' es el estimador del valor beta de Disney. Una Funds, BGU, es 300% del desempeño del índice Russell
acción con un valor beta de 1.0 tiende a variar lo mismo que 1000. ¿Cuál es el modelo de mercado aproximado?
el mercado total. Una acción con un valor beta de 1.5 tiende b) Si el índice Russell 1000, gana 10% en un año, ¿qué ren-
a variar 50% más que el mercado total, y una acción con un dimientos esperaría que tuviera el BGU?
valor beta de 0.6 tiende a variar solo 60% más que el mer- e) Si el índice Russell 1000 pierde 20 % en un año, ¿qué
cado total. Las acciones con valores beta negativos tienden rendimientos esperaría que tuviera el BGU?
a variar en dirección opuesta al mercado total. La siguiente d) ¿Qué tipo de inversionistas deberían sentirse atraídos por
tabla proporciona algunos valores beta para algunas accio- los fondos de índice apalancados? ¿Qué tipo de inversio-
nes con mucho movimiento el 19 de mayo de 2011: nistas deberían alejarse de estos fondos?
464 CAPÍTULO 12 Regresión lineal simple

12.51 El archivo rmm contiene datos sobre las calorías dos, las ganancias del primer fin de semana y las ganan-
y el azúcar, en gramos, en una porción de siete cereales para cias mundiales, y las ganancias en Estados Unidos y las
el desayuno. ganancias mundiales.
b) Con un nivel de significancia de 0.05, ¿existe una relación
Cereal Calorías Azúcar lineal significativa entre las ganancias del primer fin de se-
mana y las ganancias en Estados Unidos, las ganancias del
All Bran de Kellogg's 80 6
primer fin de semana y las ganancias mundiales, y las ga-
Com Flakes de Kellogg's lOO 2
nancias en Estados Unidos y las ganancias mundiales?
Wheaties 100 4
Organic Multigrane Flakes 110 4 12.53 El básquetbol universitario es un gran negocio, ya que
de Nature's Path los salarios de los entrenadores, las ganancias y los gastos se
Rice Krispies de Kellogg's 130 4 miden en millones de dólares. El archivo College Basketball
Shredded Wheat Vanilla 190 11 incluye información sobre el salario de los entrenadores y
Almond de Post las ganancias del básquetbol universitario en 60 de las 65
Mini Wheats de Kellogg's 200 10 escuelas que participaron en el torneo masculino de la
NCAA de 2009. (Datos extraídos de "Compensation for Di-
vision 1 Men's Basketball Coaches", USA Today 2 de abril
a) Calcule e interprete el coeficiente de correlación, r. de 2010, p . 8C; y C. Isadore, "Nothing but Net: Basketball
b) Con un nivel de significancia de 0.05 , ¿existe una rela-
Dollars by School", money.cnn.com/2010/03/18/news/
ción lineal significativa entre las calorías y el azúcar? companies/basketball-profits/).
12.52 Las empresas de filmación necesitan estimar las ga- a) Calcule e interprete el coefici ente de correlación, r.
nancias netas de una película individual una vez que esta se b) Con un nivel de significancia de 0.05 , ¿existe una rela-
ha estrenado. Los siguientes resultados (almacenados en el ción lineal significativa entre el salario de un entrenador
archivo i@UMMMtto corresponden a las ganancias del pri- y las ganancias?
mer fin de semana, las ganancias en Estados Unidos y las 12.54 A los jugadores de fútbol colegial que buscan ingresar
ganancias mundiales (en millones de $) de las seis películas a la NFL se les administra la prueba de inteligencia estandari-
de Harry Potter que se estrenaron entre 2001 y 2009:
zada Wonderlic. El archivo Mfflflm@lista las puntuaciones
promedio obtenidas en la prueba Wonderlic por los jugadores
Primer fin Ganancias en Ganancias de fútbol que buscan ingresar a la NFL y el índice de gradua-
Título de semana Estados Unidos mundiales
ción de los jugadores de las escuelas a las que asistieron. (Datos
La piedrafilosofal 90.295 31 7.558 976.458 extraídos de S. Walker, "The NFL's Smartest Team", The Wall
La cámara secreta 88.357 261.98 8 878.988 Street Journal, 30 de septiembre de 2005, pp. WI , WIO.)
El prisionero de 93.687 249.539 795 .539
Azkaban
a) Calcule e interprete el coeficiente de correlación, r.
El cáliz de fu ego 102.335 290.013 896.013 b) Con un nivel de significancia de 0.05, ¿existe una rela-
La orden del 77.108 292.005 938.469 ción lineal significativa entre la puntuación promedio ob-
Fénix tenida en la prueba Wonderlic de los jugadores que
El misterio del príncipe 77.836 301.460 934.601 buscan ingresar a la NFL y el índice de graduación de los
Fuente: Datos extraídos de www.the-numhers.com/interactive/
comp-Harry-Potter.php.
jugadores en escuelas seleccionadas?
e) ¿Qué concluye acerca de la relación entre la puntuación
promedio obtenida en la prueba Wonderlic de los jugado-
a) Calcule el coeficiente de correlación entre las ganancias res que buscan ingresar a la NFL y el índice de gradua-
del primer fin de semana y las ganancias en Estados Uni- ción de los jugadores en escuelas seleccionadas?

12.8 Estimación de valores medios y predicción


de valores individuales
En el capítulo 8 se estudió el concepto del intervalo de confianza para la media poblacional. En el
ejemplo 12.2 se utilizó la línea de predicción para pronosticar el valor medio de Y para una X dada.
Se pronosticó que las ventas anuales para tiendas con una extensión de 4,000 pies cuadrados serían
de 7,644 millones de dólares ($7,644.000). Sin embargo, se trata de un estimador puntual de la
media poblacional. En esta sección se presentan los métodos que permiten desarrollar una estima-
ción del intervalo de confianza de la respuesta media para una X dada y desarrollar un intervalo de
estimación de una respuesta individual, Y, para un valor dado de X.
12.8 Estimación de valores medios y predicción de valores individuales 465

Estimación del intervalo de confianza


La ecuación ( 12.20) define la estimación del intervalo de confianza para la media para una
X dada.

ESTIMACIÓN DEL INTERVALO DE CONFIANZA PARA LA MEDIA DE Y

Y; ± fa¡2SYXVh;
(12.20)
donde:
h- = -1 + --
(X; -X
--)2
' n SCX
Y; = valor estimado de Y; Y; = b0 + b 1X;
Syx = error estándar de la estimación
n = tamaño de la muestra
x¡ = valor dado de X
µy¡x=X; = valor medio de Y cuando X= x¡

SCX= L (Xi - X)
i=l
2

ta¡2 = valor crítico correspondiente a una probabilidad de cola superior de a/2 de la


distribución t con n -2 grados de libertad, es decir, un área acumulada de 1 - a/2.

El ancho del intervalo de confianza en la ecuación (12.20) depende de varios factores. Una
gran variación alrededor de la línea de predicción, medida por medio del error estándar de la esti­
mación, produce un intervalo más ancho. Como se esperaría, un tamaño de muestra más grande
reduce el ancho del intervalo. Además, el ancho del intervalo varía con diferentes valores de X.
Cuando se estima Y para valores de X que son cercanos a X, el intervalo es más angosto que en las
estimaciones para valores X que se alejan de X.
En el ejemplo de Sunflowers Apparel suponga que desea construir una estimación del inter­
valo de confianza de 95% de las ventas medias anuales para toda la población de tiendas que tienen
4,000 pies cuadrados de extensión (X= 4). Utilizando la ecuación de regresión lineal simple,

Y; = 0.9645 + l .6699X;
= 0.9645 + 1.6699(4) = 7.6439 (millones de dólares)
Asimismo, dado lo siguiente:
X = 2.9214 S rx = 0.9664

scx= L(x; - x) 2 =
17

37.9236
i=I

A partir de la tabla ta¡2 = 2.1788. Por lo tanto,


Y; ± la¡2Srx Vh;
donde:
1 -x)
Xi--- ( 2
h=-+-
1 n SCX
de modo que

1 (4 - 2.9214) 2
= 7.6439 ± (2.1788)(0.9664) -+-----
14 37.9236
= 7.6439 ± 0.6728
466 CAPÍTULO 12 Regresión lineal simple

entonces:
6.9711 :::; ¡.L Y/X= 4 :::; 8.3167

Por lo tanto, la estimación del intervalo de confianza de 95% plantea que, para la población de tien-
das con 4,000 pies cuadrados, las ventas medias anuales están entre $6,971 ,100 y $8,316,700.

El intervalo de estimación
Además de construir un intervalo de confianza para el valor medio de Y, también se puede cons-
truir un intervalo de estimación para un valor individual de Y. Aunque la forma de este inter-
valo es similar a la de la estimación del intervalo de confianza de la ecuación (12.20), el valor de
estimación está pronosticando un valor individual, no estimando una media. La ecuación (12.21)
define el intervalo de estimación para una respuesta individual, Y, en un valor dado, Xi' de-
notado por Yx=X¡

INTERVALO DE ESTIMACIÓN PARA UNA RESPUESTA INDIVIDUAL, Y


(12.21)

donde:
YX=Xj = valor futuro de Y cuando X = X¡
ta / 2 = valor crítico correspondiente a una probabilidad de cola superior de a/ 2 de la
distribución t con n - 2 grados de libertad, es decir, un área acumulada de 1 - a/ 2.
Además, h¡, 'P¡, S YX, n, y X¡ se definen como la ecuación (12.20) de la página 465 .

Para construir un intervalo de estimación de 95% para las ventas anuales de una tienda indivi-
dual que tiene 4,000 pies cuadrados de extensión (X = 4), primero se calcula Y¡. Utilizando la línea
de predicción:

Y¡ = 0.9645 + 1.6699X¡
= 0.9645 + 1.6699(4)
= 7.6439 (millones de dólares)

Asimismo, dado lo siguiente:

X = 2.9214 S YX = 0.9664
n

SCX = L(Xi - X') 2 = 37.9236


i= !

De la tabla E.3, ta/ 2 = 2.1788 . Por lo tanto,

Yi ± la/2S yX~

donde:

1 (X¡ - Xi
h=
I
-n + n
L(Xi - X )2
i= !
Problemas para la sección 12.8 467

de manera que

1 (X; -1')2
+ - + -'--------'---
n SCX
1 (4 - 2.9214)2
= 7.6439 ± (2.1788)(0.9664) +- + -'-------~-
14 37.9236
= 7.6439 ± 2.2104

entonces,

5.4335 :::; YX= 4 :::; 9.8543

Por lo tanto, con una confianza de 95%, pronosticamos que las ventas anuales para una tienda indi-
vidual con 4,000 pies cuadrados de extensión están entre $5,433,500 y $9,854,300.
En la figura 12.21 se presentan los resultados para la estimación del intervalo de confianza y el
intervalo de estimación para los datos de Sunflowers Apparel. Si se comparan los resultados de la
estimación del intervalo de confianza con los del intervalo de estimación, se observa que el ancho
del intervalo de estimación para una tienda individual es mucho mayor que la estimación del inter-
valo de confianza para la media. Es importante recordar que hay mucho más variación al pronosti-
car un valor individual que al estimar un valor medio.

FIGURA 12.21
Resultados de la estimación del intervalo de confianza y del intervalo de estimación en Excel y Minitab para los
datos de Sunflowers Apparel
Predicted. Values. for New ObseI'lo'ations
New Obs fU SE Fí t 95~ el 95~ PI
1 7.644 0 .309 (6.971 , 8.317) (5.433 , 9.854)

Val ues O[ Predictors for New Observations


Square
-!_; Intermedlate Galculabons
New Obs Feet
I,a ~ SampleSize 14 =COUNTtSlRData!A:A)
1 4 .. 00
tf¡Oegree.s 01 Freedom
¡
12 =sa - 2
lO" v.,ue 2.1188 =T1NV(1-B5. SS}
i! lSample Mean 2.9214 =AVERAGE(SlROat a!A :A)
12.;e
; su""m",of:..::Sq""u.""ed""",,,,,
· ff,-,,e,~.nc,,,,.,----_-+-~37,,-,,.92=¡36 =DEVSQ(SlRData IA:A)
!~.",
i Sta""o""d.""'d-"E,,,,,,,,,-,,,ot,-,,th,,,,.E>~t"",m"""e'---_J----'O"-,,.9664=¡ =COMPUTE[87

~
14 ! h Statlstlc 0.1021 =1/88 + (84 - 811)"21812
01'~'l!P""<ed""ict"'
': ed'-'VJ..CVH"'.,"--_ _ _---'------'7"".64=39 =TREN D(SLRData!B2:B15. SlRD1fla!A2:A 15, 84)
16:
hi ; ForAver eY
ti~"llnterval HalfWidth 0.6728 =9 10· BU • SQRT(B14)
t~'~ ~Confidence Intervallower Umit 6.9711 =815 - 918
r~''c ;F
, C c""n'='de""o"'=o.,,,,,n,,,,,e<V8:.:::'-,,,u""e,,-,'l""'m,,,,"_...L.-----"8.~31=67 =815 + B18

l.??'.+;---""""--'-'n-=d iv"'-id"-ua-:-:'' ' --ns.-Y- - -


~ 23 ilnterval Half Width 2.2104 =B10 a BU • SQRT{1 + 914)
~?~'+,'P""";:::dict""io",,o'""n'""e"'::::>'"",lO",,"'',,-,U""m",,"_-1---,'"".4=335 =B 15 - 923
l 25 ' U='""U""mio...'_...L.-----,o• .""8S44=
",-'"-,P"""d""'ct::::'on""'o,,,,'e:..::,,,a,,,, =815 + 923

I Problemas para la sección 12.8


APRENDIZAJE DE LOS FUNDAMENTOS 12.56 Con base en una muestra de n = 20, se utilizó el mé-
12.55 Con base en una muestra de n = 20, se utilizó el mé- todo de mínimos cuadrados para crear la siguiente línea de
todo de mínimos cuadrados para crear la siguiente línea de predicción: Y; = 5 + 3X¡.
predicción: Y; = 5 + 3X¡. Además,
Además, n
n SYX = 1.0 X = 2 2: (X¡ - 1')2 = 20
SYX = 1.0 X = 2 2: (X¡ - 1')2 = 20 ;=1
;= 1

a) Construya una estimación del intervalo de confianza de 95% a) Construya una estimación del intervalo de confianza de
para la respuesta media poblacional en el caso de X = 2. 95% de la respuesta media poblacional para X = 4.
b) Construya un intervalo de estimación de 95% de una res- b) Construya un intervalo de estimación de 95% de una res-
puesta individual para X = 2. puesta individual para X = 4.
468 CAPÍTULO 12 Regresión lineal simple

e) Compare los resultados de los incisos a) y b) con los de número de pies cúbicos trasladados. Los datos están alma-
los incisos a) y b) del problema 12.55. ¿Cuáles intervalos cenados en el archivo ~.
son más anchos? Explique su respuesta. a) Construya una estimación del intervalo de confianza de
95% de las horas promedio de trabajo para todos los tras-
APLICACiÓN DE CONCEPTOS lados de 500 pies cúbicos.
12.57 En el problema 12.5 usted utilizó la calificación su- b) Construya un intervalo de estimación de 95% de las ho-
mada de un restaurante para estimar el costo de una comida. ras de trabajo para un traslado individual de más de 500
Los datos están almacenados en el archivo @fi#iIll!.1ffl. Para pies cúbicos.
esos datos, SyX = 9.5505 Y h¡ = 0.026844 cuando X = 50. e) ¿Por qué el intervalo en el inciso a) es más angosto que
a) Construya una estimación del intervalo de confianza de el intervalo en el inciso b)?
95% del costo medio de una comida para restaurantes
12.61 En el problema 12.9 un agente de una empresa de
con una calificación total de 50.
bienes raÍCes quería estimar la renta mensual de apartamen-
b) Construya un intervalo de estimación de 95% del costo
tos basándose en su tamaño. Los datos están almacenados
de una comida para un restaurante individual que tiene
en el archivo • .
una calificación total de 50.
a) Construya una estimación del intervalo de confianza de
e) Explique la diferencia en los resultados de los incisos a) y b).
95% para la renta media mensual de todos los apartamen-
~k:rf.J 12.58 En el problema 12.4 el gerente de marke- tos que tienen 1,000 pies cuadrados de extensión.
. .• ting utilizó el espacio de anaquel que se dedica al b) Construya un intervalo de estimación de 95% para la
alimento de mascotas para pronosticar las ventas semanales. renta mensual de un apartamento individual que tiene
Los datos están almacenados en el archivo !mm!. Para 1,000 pies cuadrados de extensión.
esos datos, Syx= 30.81 y h¡ = 0.1373 cuandoX = 8. e) Explique la diferencia en los resultados de los íncisos a) y b).
a) Construya una estimación del intervalo de confianza de
12.62 En el problema 12.8 usted pronosticó el valor de una
95% de las ventas medias semanales para todas las tien-
franquicia de béisbol con base en las ganancias actuales. Los
das que dedican 8 pies de espacio del anaquel al alimento
datos están almacenados en el archivo BBBRevenue2011
para mascotas.
a) Construya una estimación del intervalo de confianza de
b) Construya un intervalo de estimación de 95% de las ven-
95% para el valor medio de todas las franquicias de béis-
tas semanales de una tienda individual que dedica 8 pies
bol que generan ganancias anuales de $150 millones.
de espacio del anaquel al alimento para mascotas.
b) Construya un intervalo de estimación de 95% para el
e) Explique la diferencia en los resultados de los incisos a) y b).
valor de una franquicia de béisbol individual que genera
12.59 En el problema 12.7 usted utilizó la abertura de la ganancias anuales de $150 millones.
placa en el equipo de sellado de bolsas para estimar el ín- e) Explique la diferencia en los resultados de los incisos a) y b).
dice de rotura de una bolsa de café. Los datos están almace-
12.63 En el problema 12.10 usted utilizó los datos de la recau-
nados en el archivo @ffl!Mtf!.
dación bruta de taquilla para estimar los ingresos por las ventas
a) Construya una estimación del intervalo de confianza de
de DVD. Los datos están almacenados en el archivo [B. La
95% del índice medio de rotura para todas las bolsas de café
empresa está por poner a la venta un DVD de una película que
cuando la abertura de la placa es O.
tuvo una recaudación neta de taquilla de $75 millones.
b) Construya un intervalo de estimación de 95% del Índice
a) ¿Cuáles son los ingresos que se pronostican por las ven-
de rotura para una bolsa individual de café cuando la
tas del DVD?
abertura de la placa es O.
b) ¿Qué intervalo es más útil en este caso, la estimación del
e) ¿Por qué el intervalo en el inciso a) es más angosto que
intervalo de confianza de la media o el intervalo de estima-
el intervalo en el inciso b)?
ción de una respuesta individual? Explique su respuesta.
12.60 En el problema 12.6 el dueño de una empresa de e) Construya e interprete el intervalo que seleccionó en el
mudanzas quería estimar las horas de trabajo con base en el inciso b) .

12.9 Errores en la regresión


Los siguientes son algunos errores que resultan del uso del análisis de regresión:
• Ignorancia de los supuestos de la regresión de mínimos cuadrados
• No saber cómo evaluar los supuestos de la regresión de mínimos cuadrados
• No saber cuáles son las alternativas a la regresión de mínimos cuadrados si se viola un
supuesto en particular
• Utilizar un modelo de regresión sin conocer el tema
• Extrapolar fuera del rango relevante
• Concluir que una relación significativa identificada en un estudio observacional se debe a
una relación de causa y efecto
12.9 Errores en la regresión 469

La gran disponibilidad de las hojas de cálculo y las aplicaciones estadísticas han hecho que en
la actualidad el análisis de regresión sea mucho más accesible que en el pasado. Sin embargo, mu-
chos usuarios con acceso a este tipo de aplicaciones no saben cuándo es pertinente utilizar el análi-
sis de regresión. Es de esperar que una persona que no está familiarizada con los supuestos de la
regresión ignore cómo evaluarlos; también es muy probable que no sepa cuáles son las alternativas
a la regresión de mínimos cuadrados si se viola un supuesto en particular.
Los datos de la tabla 12.7 (almacenados en el archivo fJ.ti4.l.mij) ilustra la importancia de utilizar
diagramas de dispersión y análisis residuales para ir más allá del manejo numérico básico del cál-
culo de la intersección con el eje y, la pendiente y r 2 .

TA B LA 12.7 Conjunto de datos A Conjunto de datos B Conjunto de datos C Conjunto de datos D


Cuatro conjuntos X¡ Y¡ X¡ Y¡ X¡ Y¡ X¡ Y¡
de datos artificiales
10 8.04 10 9.14 10 7.46 8 6.58
14 9.96 14 8.10 14 8.84 8 5.76
5 5.68 5 4.74 5 5.73 8 7.71
8 6.95 8 8.14 8 6.77 8 8.84
9 8.81 9 8.77 9 7.11 8 8.47
12 10.84 12 9.13 12 8.15 8 7.04
4 4.26 4 3.10 4 5.39 8 5.25
7 4.82 7 7.26 7 6.42 19 12.50
11 8.33 11 9.26 11 7.81 8 5.56
13 7.58 13 8.74 13 12.74 8 7.91
6 7.24 6 6.13 6 6.08 8 6.89
Fuente: Datos extraídos de F. J. Anscombe, "Graphs in Statistical Analysis", The American Statistician,
27 (1973), 17-21.

Anscombe (referencia 1) demostró que los cuatro conjuntos de datos incluidos en la tabla 12.7
tienen los siguientes resultados idénticos:
Yi = 3.0 + 0.5X¡
SYX = 1.237
Sb¡ = 0.118
2
r = 0.667
n
SCR= Variación explicada = ~(Yi - y)2 = 27.51
¡= I
n

SCE = Variación no explicada = ~ (Y¡ - Yy = 13.76


¡= I
n

SCT= Variación total = ~(Yi - y) 2 = 41.27


i= 1

Si el análisis se detuviera en este punto, no podríamos observar las diferencias importantes que
existen entre estos cuatro conjuntos de datos.
A partir de los diagramas de dispersión de la figura 12.22 y las gráficas de residuos de la figura
12.23 , que se encuentran en la página 470, se aprecia lo diferentes que son los conjuntos de datos.
Cada uno tiene una relación diferente entre X y Y. El único conjunto de datos que parece tener
aproximadamente una línea recta es el conjunto de datos A. La gráfica de residuos para el conjunto
de datos A no revela ningún patrón evidente ni residuos extremos. Esto no ocurre con los conjuntos de
datos B, C y D. El diagrama de dispersión del conjunto de datos B indica que sería más adecuado
utilizar un modelo de regresión curvilíneo. Esta conclusión es reforzada por la gráfica residual del
conjunto de datos B. El diagrama de dispersión y la gráfica de residuos del conjunto de datos C
muestran claramente una observación extrema. En este caso un método consiste en eliminar el
valor extremo y volver a estimar el modelo de regresión (véase la referencia 4). El diagrama de dis-
persión para el conjunto de datos D representa una situación en la que el modelo es muy depen-
diente del resultado de un solo dato (X8 = 19 Y Y8 = 12.50). Cualquier modelo de regresión con esta
característica debe utilizarse de manera cautelosa.
470 CAPÍTULO 12 Regresión lineal simple

FIGURA 12.22
Diagramas de dispersión para cuatro conjuntos de datos

y y y y

10
... 10
..... 10 10

5 5 5
...... ..- 5

X X '----t----'-----I----i X
~ __ ~ ____ ~ __ ~ __ ~X

5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20
Gráfica A Gráfica B Gráfica e Gráfica D

FIGURA 12.23
Gráficas de residuos para cuatro conjuntos de datos

Residual Residual
+4 +4

+3 +3

Residual Residual
+2 +2 +2 +2

+1 • +1 • •• +1 +1

O .. O O
••
• .• O •
••
-1


-1 • -1 •

-1
.•
-2 X -2 X -2 X -2 X
5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20
Gráfica A Gráfica B Gráfica e Gráfica D

En resumen, los diagramas de dispersión y las gráficas de residuos son de vital importancia
para un análisis de regresión completo. La información que proporcionan es fundamental para un
análisis digno de crédito que estos métodos gráficos siempre se deben incluir como parte de un análi-
sis de regresión. Por lo tanto, una estrategia que resulta útil para evitar los errores de la regresión es
la siguiente:
1. Empiece con un diagrama de dispersión para observar la posible relación entre X y Y
2. Verifique los supuestos de la regresión (linealidad, independencia, normalidad, igualdad de
varianzas) realizando un análisis residual que incluya:
a) Graficar los residuos en oposición a la variable independiente para determinar si el modelo
lineal es adecuado y verificar la igualdad de varianzas.
b) Construir un histograma, un diagrama de tallo y hoja, un diagrama de caja o una gráfica de
probabilidad normal de los residuos para verificar la normalidad.
e) Graficar los residuos en oposición al tiempo para verificar la independencia. (Este paso
solo es necesario si los datos se reunieron a lo largo del tiempo).
3. Si se violan los supuestos, utilice métodos alternativos a la regresión de mínimos cuadrados o
modelos de mínimos cuadrados alternativos (véase la referencia 4).
4. Si no se violan los supuestos, realice pruebas para la significancia de los coeficientes de regre-
sión y construya intervalos de confianza y de estimación.
5. Evite hacer estimaciones y pronósticos fuera del rango relevante de la variable independiente.
USO DE LA ESTADÍSTICA En Sunflowers Apparel , Revisión 471

6. No olvide que las relaciones identificadas en los estudios observacionales pueden deberse o no
a relaciones de causa y efecto. Recuerde que, aunque la causalidad implica correlación, esta
última no implica causalidad.

uier otro nombre


Es probable Que no haya escuchado con frecuencia modelo sobre momentos de mercado Que, con • Bienes raíces. Zillow.com utiliza información
la frase "modelo de regresión" fuera de un salón de base en el dividendo producido por el merca- referente a las características de una vivienda
clases, pero los conceptos básicos de la regresión do bursátil y la tasa de interés a 90 días de y su localización para desarrollar estimaciones
se encuentran con diferentes nombres en muchos los bonos del Tesoro , pronostica los rendi- sobre su valor de mercado mediante una
sectores de la economía. mientos de acciones en los siguientes tres a "fórmula" creada con un modelo de propiedad.
• Publicidad y marketing. Los gerentes utilizan cinco años.
En una famosa historia de 2006 , Busines-
modelos econométricos (en otras palabras, mo- • Alimentos y bebidas. Enologix, una empresa sWeek pronosticó Que la estadística y la probabili-
delos de regresión) para , con base en un de consultoría de California, desarrolló una dad se convertirían en habilidades fundamentales
conjunto de factores, determinar el efecto de "fórmula" (un modelo de regresión) Que pro- para la gente de negocios y los consumidores.
un anuncio sobre las ventas. En un ejemplo nostica un índice de calidad del vino con base (Véase S. Baker, "Why Math Will Rock Your World :
reciente, el número de tweets Que mencio- en un conjunto de componentes Químicos Que More Math Geeks Are Calling the Shots in Business.
nan productos específicos se utilizó para se encuentran en esta bebida. (Véase D. Dar- Is Your Industry Next? BusinessWeek , 23 de enero
hacer pronósticos precisos acerca de las ten- lington, "The Chemistry of a 90+ Wine ", The de 2006, pp. 54-62).Según el artículo, las personas
dencias de ventas. (Véase H. Rui, A. Whinston y New York Times Magazine, 7 de agosto de
exitosas sabrían cómo utilizar la estadística, ya sea
E. Winkler, "Follow the Tweets", The Wall 2005, pp. 36-39.)
Que se dediquen a construir modelos financieros o
Street Journal, 30 de noviembre de 2009 , • Gobierno. El Bureau of Labor Statistics utiliza a elaborar planes de marketing. Artículos más re-
p. R4.) Asimismo, los gerentes utilizan la mi- modelos hedónicos, un tipo de modelo de re- cientes, incluyendo el de S. Lohr, "For Today's Gra-
nería de datos para, con base en información gresión, para ajustar y administrar su índice de duate, Just One Word: Statistics " (The New York
histórica acerca de los consumidores, pronos- Precios al consumidor ("Hedonic Quality Ad- Times, 6 de agosto de 2009, pp. A1, A3), confirman
ticar patrones de comportamiento sobre lo Que justment in the CPI ", Consumer Price Index, esta opinión y analizan aspectos como la forma en
los clientes comprarán en el futuro. stat.bls.gov/cpi/cpihqaitem.htm). Que se utiliza la estadística para "minar" grandes
• Finanzas. Cada vez Que lee acerca de un • Transporte. Bing Travel utiliza minería de da- conjuntos de datos con la finalidad de descubrir
"modelo" financiero, debe suponer Que se uti- tos y tecnologías de estimación para pronosti- patrones, a menudo mediante el empleo de mode-
lizó algún tipo de modelo de regresión . Por car de manera objetiva las tarifas aéreas. los de regresión . En el artículo se cita a Hal Varian,
ejemplo, un artículo publicado en el New York (Véase C. Elliot, "Bing Travel's Crean: We Save el economista en jefe de Google, Quien sostiene lo
Times el 18 de junio de 2006, con el título "An the Average Couple $50 per Trip", Elliot Blog, siguiente: "Sigo diciendo que el puesto más atrac-
Old Formula That Points to New Worry" y es- www.elliot.org/first-person/bing-travel- tivo en los siguientes 10 años será el de experto en
crito por Mark Hulbert (p. BUB) , analiza un we-save-the-average-couple-50-per-tripl). estadística".

En Sunflowers Apparel, Revisión

E
n la sección inicial acerca de Sunflowers Apparel, supusimos
que usted era el director de planeación de una cadena de tien-
das de ropa de lujo para dama. Hasta ahora los gerentes de
Sunflowers seleccionaban las ubicaciones con base en factores
como la disponibilidad de un local en renta o la opinión subjetiva de que
el lugar parecía ser adecuado para una tienda. Con la finalidad de tomar deci-
Dmitriy Shi ronosov/Shutterstock.com siones más objetivas, usted desarrolló un modelo de regresión para anali-
zar la relación entre el tamaño de una tienda y sus ventas anuales . El modelo indicó que
aprOximadamente 90.4% de la variación en las ventas se explicaba por el tamaño de la tienda.
Además, se estimó que por cada aumento de 1,000 pies cuadrados, las ventas medi as anuales au-
mentaban en $1.67 millones. Ahora usted podrá utilizar su modelo para tomar mejores decisiones
cuando seleccione nuevas ubicaciones para las tiendas, así como para pronosticar las ventas de las
tiendas existentes.
472 CAPÍTULO 12 Regresión lineal simple

RESUMEN
Como se observa en el diagrama de flujo de la figura predicción y la prueba para la significancia de la pen-
12.24, en este capítulo se desarrolla el modelo de regresión diente. En el capítulo 13 el análisis de regresión se exten-
lineal simple, y se analizan los supuestos y la manera de derá a situaciones en las que se utiliza más de una variable
evaluarlos. Una vez que se está seguro de que el modelo es independiente para pronosticar el valor de una variable de-
adecuado, se pueden estimar valores utilizando la línea de pendiente.

FIGURA 12.24
Regresión y correlación
Diagrama para lineal simple
la regresión lineal
simple

Regresión Correlación

Coeficiente de
Análisis de regresión correlación, r
de mínimos cuadrados

Prueba de Ho:
p=O
Diagrama de dispersión

Línea de predicción

Graficación de
residuos a lo Sí
largo del tiempo

Calcular el
No
estadístico de
Durbin-Watson
Análisis residual

Usar una alternativa


a la regresión de Si No Sí No
mínimos cuadrados

Prueba de Ho:
~1 =O
(ver supuestos)

No Si

Usar modelo para


pronóstico y estimación

Estimar Estimar Pronosticar


~1 ~YIX=Xi Yx=x¡
Ecuaciones clave 473

ECUACIONES CLAVE
Modelo de regresión lineal simple Fórmula para el cálculo de SCR
n
(12.1)
SCR = 2:(Y i - f)2
i=\

Ecuación de regresión lineal simple. La línea


de predicción
(12.11)
Yi = ba + b\Xi (12.2)

Fórmula para calcular la pendiente, b.


Fórmula para el cálculo de la SCE
b _ SCXY
\ - SCX (12.3) n n n n
SCE= L(Yi - fY = LY? - baLYi - b\2:X;Yi
i=\ i=\ i=\ i=\
(12.12)
Fórmula para calcular la intersección con el eje y, bo
(12.4)
Error estándar de la estimación
n
~ 2
~(Yi -
A
Yi)
Medidas de variación en la regresión
SCT = SCR + SCE (12.5)
SYX =) SCE =
n - 2
i= \
n - 2
(12.13)

Suma de cuadrados total (SCT) Residuo


n
SCT = Suma de cuadrados total = L (Y i - y)2 (12.6) (12.14)
i=\

Estadístico de Durbin-Watson
Suma de cuadrados de regresión (SCR)
n
SSR = Variación explicada o suma de cuadrados 2: (ei - ei_d 2
de regresión D = _i=_2_ _ _ __ (12.15)
n
n
= L(Yi - y)2 (12.7) 2: er
i=\
i=\
Suma de cuadrados del error (SCE)
Prueba de hipótesis para una pendiente poblacional, /3.,
SCE = Variación no explicada o suma de cuadrados
utilizando la prueba t
del error
n
~
~(Yi
A

- Yi)
2
(12.8) (12.16)
i=\

Coeficiente de determinación Prueba de hipótesis para una pendiente poblacional, /3 ..


Suma de cuadrados de regresión SCR utilizando la prueba F
r2 = ------------------~---- (12.9)
Suma de cuadrados total SCT SCR
F - - (12.17)
ESTA D - SCE

Fórmula para el cálculo de SCT


Estimación del intervalo de confianza para la pendiente, /3.
b\ ± ta / 2Sb ]
SCT= (12.10)
(12.18)
474 CAPÍTULO 12 Regresión lineal simple

Prueba de la existencia de una correlación Intervalo de estimación para una respuesta individual, Y

tESTAD = Fzr-p
1- r
(12.19a) Y¡ ± ta/2SyX~

n - 2 Y; - ta/2SyX~ ::::; Yx=x; ::::; Y¡ + ta/2SyX~


cov(X,Y) (12.21)
r= (12.19b)
SxSy

Estimación del intervalo de confianza para la medía de Y

Y¡ ± ta /2S YX ~

Y¡ - ta/ 2SYX ~ ::::; JLY Ix=x; ::::; Y¡ + ta/2S YX ~ (12.20)

TÉRMINOS CLAVE
análisis de regresión 432 igualdad de varianzas 448 suma de cuadrados de regresión
análisis residual 449 independencia de los errores 448 (SCR) 443
autocorrelación 453 intersección con el eje Y 443 suma de cuadrados del error
coeficiente de correlación 461 intervalo de estimación para una (SCE) 443
coeficiente de determinación 444 respuesta individual, Y 466 suma de cuadrados total (SCT) 443
coeficientes de regresión 435 línea de predicción 435 supuestos de la regresión 448
diagrama de dispersión 432 linealidad 448 variable de respuesta 432
ecuación de regresión lineal método de mínimos cuadrados 435 variable dependiente 432
simple 435 normalidad 448 variable explicatoria 432
error estándar de la estimación 446 pendiente 433 variable independiente 432
estadístico de Durbin-Watson 454 rango relevante 437 variación explicada 443
estimación del intervalo de confianza relación lineal 432 variación no explicada 443
para la respuesta media 464 regresión lineal simple 432 variación total 443
homocedasticidad 448 residuo 449

PROBLEMAS DE REPASO DEL CAPíTULO


VERIFICACiÓN DE SU COMPRENSiÓN 12.71 ¿Cómo y cuándo se utiliza el estadísti..;o de Durbin-
12.64 ¿Cómo se interpreta la intersección con el eje Yy la Watson?
pendiente en la ecuación de regresión lineal simple? 12.72 ¿Qué diferencia hay entre una estimación del inter-
12.65 ¿Cuál es la interpretación del coeficiente de deter- valo de confianza de la respuesta media, JL Ylx=x;, Yun intervalo
minación? de estimación de Yx=x?

12.66 ¿En qué casos la variación no explicada, es decir, la APLICACiÓN DE CONCEPTOS


suma de cuadrados del error, es igual a O? 12.73 Investigadores de la Escuela de Administración de
Pace University realizaron un estudio sobre los cursos respal-
12.67 ¿En qué casos la variación explicada, es decir,
dados por Internet. En una parte del estudio, se reunieron cua-
la suma de cuadrados de regresión, es igual a O?
tro variables numéricas sobre 108 estudiantes de un curso de
12.68 ¿Por qué siempre se debe llevar a cabo un análisis introducción a la administración que se impartió una vez por
de residuos como parte de un modelo de regresión? semana durante un semestre completo. Una de las variables
reunidas fue la consistencia de los chcs que daban los estu-
12.69 ¿Cuáles son los supuestos del análisis de regresión?
diantes. Para medir la consistencia de los clics, los investigado-
12.70 ¿Cómo se evalúan los supuestos del análisis de res hicieron lo siguiente: si un estudiante no visitaba el sitio
regresión? de Internet en el periodo entre las clases, a ese periodo le
Problemas de repaso del capítulo 475

asignaban un O. Si en el periodo entre las clases el estudiante a) Utilice el método de mínimos cuadrados para calcular
visitaba el sitio de Internet en una o más ocasiones, a ese pe- los coeficientes de regresión, bo y b l'
riodo le asignaban un l. Como había un total de 13 periodos b) Interprete el significado de bo y b l en este problema.
entre clases, la puntuación en la consistencia de los clics que e) Pronostique el tiempo de entrega para 150 cajas de be-
daba un estudiante iba de Oa 13. bida gaseosa.
Las otras tres variables incluían la puntuación promedio d) ¿Se debe utilizar el modelo para pronosticar el tiempo de
en el curso, el promedio de puntuación acumulado (PPA) y entrega con un cliente que recibe 500 cajas de bebida ga-
el número total de los clics que dio el estudiante en el sitio seosa? Explique su respuesta.
de Internet que apoyaba el curso. En la siguiente tabla se e) Calcule el coeficiente de determinación, r 2 , y explique su
presenta el coeficiente de correlación para todos los pares significado en este problema.
de variables. Observe que las correlaciones marcadas con f) Realice un análisis de residuos. ¿Existe alguna evidencia
un * son estadísticamente significativas, con Q' = 0.001: de un patrón en los residuos? Explique su respuesta.
g) Con un nivel de significancia de 0.05, ¿existe evidencia
Variable de una relación lineal entre el tiempo de entrega y el nú-
Correlación
mero de cajas entregadas?
Promedio en el curso, Promedio acumulado 0.72* h) Construya una estimación del intervalo de confianza de
Promedio en el curso, Total de clics 0.08 95% para el tiempo medio de entrega de 150 cajas de be-
Promedio en el curso, Consistencia de los clics 0.37* bida gaseosa y un intervalo de estimación de 95% para el
Promedio acumulado, Total de clics 0.12 tiempo de entrega de una sola entrega de 150 cajas de
Promedio acumulado, Consistencia de los clics 0.32* bebida gaseosa.
Clics totales y Consistencia de los clics 0.64* 12.75 Medir la altura de un pino californiano es una tarea
Fuente: Datos extraídos de D. Baugher, A. Varanelli y E. Weisbord,
"Student Hits in an Internet. Supported Course: How Can Instructors
muy dificil debido a que esos árboles alcanzan alturas de más
Use Them and What Do They Mean?", Decision Sciences Journa/ of de 300 pies. Quienes están familiarizados con estos árboles
Innnovative Education, 1 (otoño de 2003), 159-179. saben que la altura de un pino californiano se relaciona con
otras de sus características, entre las que se incluye el diáme-
a) ¿Qué concluye a partir de este análisis de correlación? tro de su tronco a la altura del pecho de una persona. Los da-
b) ¿Le sorprenden los resultados o coinciden con sus pro- tos en el archivo !¡mM:.!.!.! representan la altura (en pies) y el
pias observaciones y experiencias? diámetro del tronco (en pulgadas) de una muestra de 21 pinos
californianos a la altura del pecho de una persona.
12.74 Los directivos de una empresa embotelladora de be- a) Suponiendo una relación lineal, utilice el método de mí-
bidas gaseosas tienen como objetivo de negocios desarrollar nimos cuadrados para calcular los coeficientes de regre-
un método para distribuir los costos de entrega entre los clien- sión, bo y b l • Establezca la ecuación de regresión que
tes. Aunque uno de los costos se relaciona claramente con el estima la altura de un árbol con base en el diámetro de su
tiempo de traslado dentro de una ruta particular, otro costo tronco a la altura del pecho de una persona.
variable refleja el tiempo requerido para descargar las cajas b) Interprete el significado de la pendiente en esta ecuación.
de bebida gaseosa en el punto de entrega. Para empezar, los e) Pronostique la altura de un árbol cuyo tronco tiene un diá-
directivos decidieron desarrollar un modelo de regresión que metro de 25 pulgadas a la altura del pecho de una persona.
permita estimar el tiempo de entrega con base en el número d) Interprete el significado del coeficiente de determinación
de cajas entregadas. Se seleccionó una muestra de 20 entregas en este problema.
dentro de un territorio. Los tiempos de entrega y el número de e) Realice un análisis de residuos sobre los resultados y de-
cajas entregadas están organizados en la siguiente tabla (y al- termine qué tan adecuado es el modelo.
macenados en el archivo !.1j1llq;5): f) Determine si existe una relación significativa entre la al-
tura de los pinos californianos y el diámetro de su tronco
Número Tiempo de Número Tiempo de a la altura del pecho de una persona, con un nivel de sig-
de entrega de entrega nificancia de 0.05.
Cliente casos (minutos) Cliente casos (minutos) g) Construya una estimación del intervalo de confianza de
95% de la pendiente poblacional entre la altura de los pi-
52 32.1 11 161 43.0 nos y el diámetro a la altura del pecho de una persona.
2 64 34.8 12 184 49.4
3 73 36.2 13 202 57.2 12.76 Usted desea desarrollar un modelo para estimar el
4 85 37.8 14 218 56.8 precio de venta de viviendas con base en un avalúo. Se selec-
5 95 37.8 15 243 60.6 cionó una muestra de 30 casas para una sola familia, vendidas
6 103 39.7 16 254 61.2 recientemente en una pequeña ciudad, para estudiar la rela-
7 116 38.5 17 267 58.2 ción entre el precio de venta (en miles de dólares) y el avalúo
8 121 41.9 18 275 63.1 (en miles de dólares). Un año antes del estudio, las casas se
9 143 44.2 19 287 65.6
revaluaron a su valor completo. Los resultados se encuentran
10 157 47.1 20 298 67.3
en el archivo m!!!II. (Sugerencia: Primero determine cuáles
son las variables independiente y dependiente).
476 CAPÍTULO 12 Regresión lineal simple

a) Construya un diagrama de dispersión y, suponiendo una e) Realice un análisis de residuos con sus resultados y eva-
relación lineal, utilice el método de mínimos cuadrados lúe los supuestos de la regresión.
para calcular los coeficientes de regresión, b o y b l' f) Con un nivel de significancia de 0.05, ¿existe evidencia
b) Interprete el significado de la intersección con el eje Y, de una relación lineal entre la puntuación en el examen
bo' y de la pendiente, bl' en este problema. GMAT y el PPA?
e) Utilice la línea de predicción creada en el inciso a) para g) Construya una estimación del intervalo de confianza de
pronosticar el precio de venta de una casa con un avalúo 95 % para el PPA de los estudiantes que obtuvieron una
de $170,000. calificación de 600 en el examen GMAT y un intervalo
d) Calcule el coeficiente de determinación, r 2 , e interprete de estimación de 95% del PPA para un estudiante especí-
su significado en este problema. fico con una calificación de 600 en el examen GMAT.
e) Realice un análisis de residuos con sus resultados y eva-
h) Construya una estimación del intervalo de confianza de
95% de la pendiente poblacional.
lúe los supuestos de la regresión.
/) Con un nivel de significancia de 0.05, ¿existe evidencia de 12.79 El contador de una gran tienda departamental tiene
una relación lineal entre el precio de venta y el avalúo? el objetivo de negocios de desarrollar un modelo para esti-
g) Construya una estimación del intervalo de confianza de mar la cantidad de tiempo que toma el procesamiento de las
95% para la pendiente poblacional. facturas. Se reúnen datos de los últimos 32 días laborales, y
el número de facturas procesadas y el tiempo de procesa-
12.77 Usted quiere desarrollar un modelo para estimar el
miento (en horas) se almacenan en el archivo lBIJ. (Su-
valor del avalúo de viviendas con base en el área que cuenta
gerencia : Primero determine cuáles son las variables
con calefacción. Se selecciona una muestra de 15 casas para independiente y dependiente).
una sola familia en una ciudad. El valor del avalúo (en miles
a) Suponiendo una relación lineal, utilice el método de mí-
de dólares) y el área con calefacción de las casas (en miles de nimos cuadrados para calcular los coeficientes de regre-
pies cuadrados) están registrados y almacenados en el ar- sión, b o y b l •
chivo m.hiil (Sugerencia: Primero determine cuáles son b) Interprete el significado de la intersección con el eje Y,
las variables independiente y dependiente). b o' y de la pendiente, b p en este problema.
a) Construya un diagrama de dispersión y, suponiendo una e) Utilice la línea de predicción creada en el inciso a) para
relación lineal, utilice el método de mínimos cuadrados pronosticar la cantidad de tiempo que se requeriría
para calcular los coeficientes de regresión, bo y b l ' para procesar 150 facturas .
b) Interprete el significado de la intersección con el eje Y, d) Calcule el coeficiente de determinación, r 2 , e interprete
bo' y de la pendiente, bl' en este problema. su significado en este problema.
e) Utilice la línea de predicción creada en el inciso a) para e) Grafique los residuos en oposición al número de facturas
pronosticar el valor del avalúo de una casa que tiene un procesadas y también en oposición al tiempo.
área de 1,750 pies cuadrados con calefacción. f) Con base en las gráficas del inciso e), ¿parece que el mo-
d) Calcule el coeficiente de determinación, r 2 , e interprete delo es adecuado?
su significado en este problema. g) Con base en los resultados obtenidos en los incisos e) y
e) Realice un análisis de residuos con sus resultados y eva- j), ¿qué concluye acerca de la validez del pronóstico rea-
lúe los supuestos de la regresión. lizado en el inciso e)?
f) Con un nivel de significancia de 0.05, ¿existe evidencia 12.80 El 28 de enero de 1986 la nave espacial Challenger
de una relación lineal entre el valor del avalúo y el área explotó y murieron siete astronautas. Antes del lanzamiento,
con calefacción? la temperatura atmosférica pronosticada indicaba un clima
12.78 El director de estudios de posgrado de una gran uni- de congelamiento en el lugar en el que se realizaría. Los in-
versidad de negocios tiene el objetivo de estimar el prome- genieros de Morton Thiokol (el fabricante del motor turbo)
dio de puntuación acumulado (PPA) de los estudiantes en un prepararon gráficas para demostrar que el lanzamiento no
programa de maestría en administración. El director co- debería llevarse a cabo en un clima tan frío . Estos argumen-
tos se pasaron por alto y se procedió al trágico lanzamiento.
mienza utilizando la puntuación en el examen Graduate Ma-
Gracias a investigaciones realizadas después de la tragedia,
nagement Admission Test (GMAT). Selecciona una muestra
los expertos coincidieron en que el desastre se debió a fugas
de 20 estudiantes que completaron dos años en el programa
en los anillos selladores, los cuales no cerraron adecuada-
y almacena los datos en el archivo (MMMU mente debido a la baja temperatura. Los datos que indican la
a) Construya un diagrama de dispersión y, suponiendo una
temperatura atmosférica registrada cuando se realizaron
relación lineal, utilice el método de mínimos cuadrados los 23 anteriores lanzamientos y el índice de daño de los
para calcular los coeficientes de regresión, b o y b l • anillos selladores están almacenados en el archivo r:JmJ.
b) Interprete el significado de la intersección con el eje Y,
Nota: Los datos del vuelo 4 se omitieron porque se desconocen las
bo' y de la pendiente, bl' en este problema. condiciones de los anillos selladores.
e) Utilice la línea de predicción creada en el inciso a) para
pronosticar el PPA de un estudiante con una calificación Fuentes: Datos extraídos de Report ofthe Presidential Commission on
the Space Shuttle Challenger Accident, Washington D.C., 1986, Vol.
de 600 en la prueba GMAT. 11 (HI-H3); Y Vol. IV (664), Y Post Challenger Evaluation ofSpace
d) Calcule el coeficiente de determinación, r 2 , e interprete Shuttle Risk Assessment and Man agement, Washington D.C. , 1988,
su significado en este problema. pp. 135-136.
Problemas de repaso del capítulo 477

a) Construya un diagrama de dispersión para los siete vue- j) Los 30 equipos constituyen una población. Para utilizar
los en los que hubo daño en los anillos selladores (índice la inferencia estadística, como se hizo en los incisos!)
de daño en los anillos selladores # O) . ¿Qué concluye a i) , se debe suponer que los datos representan una mues-
acerca de la relación entre la temperatura atmosférica y el tra aleatoria. ¿Acerca de qué "población" se estarían sa-
daño en los anillos selladores, si acaso hubiera alguna? cando conclusiones a partir de esta muestra?
b) Construya un diagrama de dispersión para los 23 vuelos. k) ¿Qué otras variables independientes podría considerar
e) Explique cualquier diferencia en la interpretación de la para incluir en el modelo?
relación entre la temperatura atmosférica y el daño en los
12.82 ¿Podría utilizar los ingresos anuales generados por
anillos selladores en los incisos a) y b) .
las franquicias de la National Basketball Association (NBA)
d) Con base en el diagrama de dispersión del inciso b) des-
para estimar los valores de franquicias? En la figura 2.15 de
criba las razones por las que no es posible hacer un pro-
la página 55 se observa un diagrama de dispersión de los
nóstico para una temperatura atmosférica de 31 °F, igual a
ingresos con el valor de la franquicia, mientras que en la fi-
la que había la mañana en que se lanzó el Challenger.
gura 3.10 de la página 125 se presenta el coeficiente de co-
e) Aun cuando existe la posibilidad de que el supuesto de
rrelación. Ahora usted quiere desarrollar un modelo de
una relación lineal no sea válido para el conjunto de 23
regresión lineal simple para estimar los valores de las fran-
vuelos, ajuste un modelo de regresión lineal simple para
quicias con base en los ingresos. (La información sobre los
estimar el daño de los anillos selladores con base en la
valores y los ingresos de la franquicia están almacenados en
temperatura atmosférica.
el archivo W:hl1!!t!f1).
f) Incluya la línea de predicción calculada en el inciso e) en
a) Suponiendo una relación lineal, utilice el método de mÍ-
el diagrama de dispersión creado en el inciso b).
nimos cuadrados para calcular los coeficientes de regre-
g) Con base en los resultados del inciso f), ¿cree que un modelo
sión, bo y b,.
lineal sería adecuado para esos datos? Explique su respuesta.
b) Interprete el significado de la intersección con el eje Y,
h) Realice un análisis de residuos. ¿Qué conclusiones plantea?
bo' y de la pendiente, bl' en este problema.
e) Realice un pronóstico del valor de una franquicia de la
12.81 Un analista de béisbol desea estudiar diversos datos
estadísticos de los equipos de la temporada 2010 de béisbol NBA para generar ingresos anuales de $150 millones.
d) Calcule el coeficiente de determinación, r 2 , e interprete
con la finalidad de determinar cuáles variables podrían ser
útiles para estimar el número de triunfos logrados por los su significado.
e) Realice un análisis de residuos con sus resultados y eva-
equipos durante la temporada. Comienza por utilizar el pro-
medio de carreras limpias (ERA, por las siglas de earned lúe los supuestos de la regresión.
f) Con un nivel de significancia de 0.05 , ¿existe evidencia
run average ), una medida del desempeño de picheo, para
pronosticar el número de triunfos. Después reúne los ERA y de una relación lineal entre los ingresos anuales genera-
los triunfos por equipo para cada uno de los 30 equipos de dos y el valor de una franquicia de la NBA?
g) Construya una estimación del intervalo de confianza de
béisbol de las Ligas Mayores y almacena esos datos en el
archivo i:!:fNt.l. (Sugerencia: Primero determine cuáles son 95% del valor medio de todas las franquicias de la NBA
las variables independiente y dependiente). para generar ganancias anuales de $150 millones.
h) Construya un intervalo de estimación de 95% del valor
a) Suponiendo una relación lineal, utilice el método de mÍ-
nimos cuadrados para calcular los coeficientes de regre- de una franquicia individual de la NBA para generar in-
sión, bo y b,. gresos anuales de $150 millones.
i) Compare los resultados de los incisos a) a h) con los de
b) Interprete el significado de la intersección con el eje Y,
las franquicias de béisbol de los problemas 12.8, 12.20,
bo' y de la pendiente, bl' en este problema.
e) Utilice la línea de predicción creada en el inciso a) con la
12.30, 12.46 Y 12.62, así como con los de los equipos de
finalidad de pronosticar el número de triunfos para un fútbol soccer europeos del problema 12.83.
equipo con un ERA de 4.50. 12.83 En el problema 12.82 se utilizaron los datos sobre
d) Calcule el coeficiente de determinación, r 2 , e interprete los ingresos anuales para desarrollar un modelo que permita
su significado en este problema. estimar el valor de la franquicia de los equipos de la Natio-
e) Realice un análisis de residuos con sus resultados y de- nal Basketball Association (NBA). ¿También podría utilizar
termine qué tan adecuado es el ajuste del modelo. los ingresos anuales generados por los equipos de fútbol
f) Con un nivel de significancia de 0.05, ¿existe evidencia de soccer europeos para pronosticar los valores de las franqui-
una relación lineal entre el número de triunfos y el ERA? cias? (La información sobre los valores y los ingresos de los
g) Construya una estimación del intervalo de confianza de equipos de fútbol soccer europeos están almacenados en el
95% del número medio de triunfos esperados para los archivo ).
equipos con un ERA de 4.50. a) Repita los incisos a) a h) del problema 12.82 para los
h) Construya un intervalo de estimación de 95% del nú- equipos de fútbol europeos.
mero de triunfos para un equipo individual que tiene un b) Compare los resultados del inciso a) con los de las fran-
ERA de 4.50. quicias de béisbol de los problemas 12.8, 12.20, 12.30,
i) Construya una estimación del intervalo de confianza de 12.46 y 12.62, así como con los de las franquicias de la
95% de la pendiente poblacional. NBA del problema 12.82.
478 CAPÍTULO 12 Regresión lineal simple

12.84 Durante la temporada de cosecha de otoño, en Esta- b) Suponiendo una relación lineal, utilice el método de mí-
dos Unidos, las calabazas se venden en grandes cantidades en nimos cuadrados para calcular los coeficientes de regre-
puestos ubicados en las granjas. Con frecuencia, en lugar de sión b o y hl'
pesar las calabazas antes de venderlas, el vendedor solo co- e) Interprete el significado de la intersección con el eje Y,
loca la calabaza en el hueco circular de corte sobre la caja re- bo' y de la pendiente, b¡, en este problema.
gistradora. Cuando se le preguntó a un granjero por qué hacía d) Calcule el coeficiente de determinación, r 2 , e interprete
esto, contestó: "Puedo conocer el peso de la calabaza a partir su significado.
de su circunferencia". Para determinar si esto es verdad, se e) Realice un análisis de residuos con sus resultados y de-
midió la circunferencia y se pesó una muestra de 23 calaba- termine qué tan adecuado es el ajuste del modelo.
zas, y los resultados se almacenaron en el archivo iQI!"IW. f) Con un nivel de significancia de 0.05 , ¿existe evidencia
a) Suponiendo una relación lineal, utilice el método de mí- de una relación lineal entre la variable independiente y la
nimos cuadrados para calcular los coeficientes de regre- variable dependiente?
sión, bo y b l . g) Construya una estimación del intervalo de confianza de
b) Interprete el significado de la pendiente, bl' en este pro- 95% de la pendiente poblacional e interprete su significado.
blema.
12.86 Para los datos del problema 12.85, repita del inciso
e) Realice un pronóstico del peso de una calabaza que tiene
a) al g) utilizando la edad como variable independiente.
una circunferencia de 60 centímetros.
d) ¿Cree que es buena idea que el granjero venda las calaba- 12.87 Para los datos del problema 12.85, repita los incisos
zas por su circunferencia y no por su peso? Explique su a) al g) utilizando Bach como variable independiente.
respuesta. 12.88 Para los datos del problema 12.85, repita los incisos
e) Calcule el coeficiente de determinación, r 2 , e interprete a) al g) utilizando Univ como variable independiente.
su significado.
f) Realice un análisis de residuos para estos datos y evalúe 12.89 Para los datos del problema 12.85, repita los incisos
los supuestos de la regresión.
a) al g) utilizando Crecimiento como variable indepen-
g) Con un nivel de significancia de 0.05 , ¿existe evidencia diente.
de una relación lineal entre la circunferencia y el peso de 12.90 El archivo CEO-Compensation incluye la remunera-
una calabaza? ción total (en $) de los directores generales de 161 empresas
h) Construya una estimación del intervalo de confianza de públicas grandes y su rentabilidad durante 2010.
95% de la pendiente poblacional , f3 1• Fuente: Datos extraídos de M. Krantz y B. Hansen, "CEO Pay Soars
While Workers' Pay Stalls", USA Today, l de abril de 2011 , pp. lB,
12.85 ¿La información demográfica es útil para estimar 2B Y money.usatoday.com.
las ventas en tiendas de productos deportivos? El ar-
chivo tl·f.I,@ contiene información sobre las ventas men- a) Calcule el coeficiente de correlación entre la remunera-
suales totales de una muestra aleatoria de 38 tiendas de una ción y la rentabilidad en 2010.
gran cadena nacional de tiendas de productos deportivos . b) Con un nivel de significancia de 0.05, ¿la correlación en-
Todas las tiendas de la franquicia y, por lo tanto, dentro de tre la remuneración y la rentabilidad en 2010 es estadísti-
la muestra, tienen aproximadamente el mismo tamaño y camente significativa?
venden la misma mercancía. El país o, en algunos casos, los e) Escriba un breve resumen de sus hallazgos en los incisos
países en los que la tienda obtiene la mayoría de sus clientes a) y b) . ¿Le sorprenden los resultados?
se denomina aquí base de clientes. Para cada una de las 38 12.91 Remítase al análisis sobre los valores beta y los mo-
tiendas se presenta información demográfica acerca de la delos de mercado en el problema 12.49 de la página 463. El
base de clientes. Los datos son reales, pero por solicitud de Índice S&P 500 hace un seguimiento del movimiento general
la empresa no se precisa el nombre de la franquicia. El con- del mercado de valores considerando los precios accionarios
junto de datos contiene las siguientes variables : de 500 grandes corporaciones. El archivo Bt't@btttfHi.¡
Ventas: Ventas totales (en dólares) del último mes contiene datos semanales de 20 l O para las acciones S&P 500
Edad: Edad mediana de la base de clientes (en años) y tres empresas. Se incluyen las siguientes variables:
Bach: Porcentaje de la base de clientes con certificado Semana: La semana que finaliza en la fecha dada
de bachillerato S&P: Valor de cierre semanal para el Índice S&P 500
Univ: Porcentaje de la base de clientes con título univer- GE: Precio de cierre semanal de las acciones de GE
sitario DISCA: Precio de cierre semanal de las acciones de Dis-
Crecimiento: Tasa de crecimiento poblacional anual de la covery Communications
base de cl ientes durante los últimos 10 años GOOG: Precio de cierre semanal de las acciones de Google
Ingreso: Ingreso mediano familiar de la base de clientes
Fuente: Datos extraídos de finance.yahoo.com , 20 de mayo de 2011 .
(en dólares)
a) Construya un diagrama de dispersión utilizando las ven- a) Estime el modelo de mercado para GE. (Sugerencia: Utilice
tas como variable dependiente y el ingreso mediano fa- el cambio de porcentaje en el Índice S&P 500 como varia-
miliar como variable independiente. Analice el diagrama ble independiente y el cambio de porcentaje en el precio
de dispersión. de las acciones de GE como variable dependiente).
Caso digital 479

h) Interprete el valor beta para GE. EJERCICIO DE REPORTE ESCRITO


e) Repita los incisos a) y b) para Discovery Cornmunications. 12.92 En los problemas 12.85 a 12.89, usted desarrolló
d) Repita los incisos a) y b) para Google. modelos de regresión para estimar las ventas mensuales en
e) Escriba un breve resumen de sus descubrimientos. una tienda de productos deportivos. Ahora escriba un in-
forme basado en los modelos que desarrolló. Anexe a su re-
porte todas las gráficas e información estadística pertinentes.

ADMINISTRACiÓN DE ASHLAND
MULTICOMM SERVICES
Para asegurarse de que la mayor cantidad de suscripciones en WLlEJ) sobre el número de nuevas suscripciones y las
de prueba posibles al servicio 3-For-All se conviertan en horas dedicadas cada mes al telemarketing durante los últi-
suscripciones regulares, el departamento de marketing tra- mos dos años.
baja en coordinación con el departamento de apoyo al
cliente con la finalidad de lograr un proceso inicial sin difi- EJERCICIOS
cultades para los clientes con suscripción de prueba. Para 1. ¿Qué críticas podría hacer respecto al método de pronós-
ayudar en esta tarea, el departamento de marketing necesita tico que implica tomar los datos de nuevas suscripciones
pronosticar con precisión el total mensual de nuevas sus- de los tres meses anteriores como base para las proyec-
cripciones regulares. ciones futuras?
Se reunió un equipo de gerentes de los departamentos 2. ¿Qué factores, además del número de horas de telemar-
de marketing y de apoyo al cliente con la finalidad de desa- keting, podrían ser útiles para estimar el número de nue-
rrollar un mejor método para pronosticar nuevas suscripcio- vas suscripciones? Explique su respuesta.
nes. Anteriormente, después de examinar los datos de las 3. a) Con base en el número de horas dedicadas al telemar-
nuevas suscripciones durante los tres meses previos, un keting para las nuevas suscripciones, analice los datos
grupo de tres gerentes realizaba un pronóstico subjetivo del y desarrolle un modelo de regresión que permita esti-
número de nuevas suscripciones. Livia Salvador, quien fue mar el número de nuevas suscripciones para un mes.
contratada recientemente por la empresa para compartir su h) Si usted espera dedicar 1,200 horas al mes al telemar-
experiencia en métodos cuantitativos de pronóstico, sugirió keting, estime el número de nuevas suscripciones para
que el departamento debía buscar factores que pudieran el mes. Indique los supuestos en que se basa esta esti-
ayudar a estimar las nuevas suscripciones. mación. ¿Cree que esos supuestos son válidos? Expli-
Los miembros del equipo encontraron que los pronósti- que su respuesta.
cos del año anterior habían sido especialmente imprecisos e) ¿Cuál sería el peligro de pronosticar el número de
debido a que en ciertos meses se dedicó más tiempo al tele- nuevas suscripciones para un mes en el que se dedica-
marketing que en otros . Livia reunió datos (almacenados ron 2,000 horas al telemarketing?

CASO DIGITAL
Aplique sus conocimientos acerca de la regresión lineal Abra Triangle_ Sunflower.pdf y revise la propuesta de
simple en este Caso digital, que es una continuación de la los agentes de bienes raíces, así como los documentos de res-
sección de este capítulo sobre el Uso de la estadística en paldo. Después responda las siguientes preguntas:
Sunjlowers Apparel.
1. ¿Se deben utilizar los ingresos medios disponibles para
Agentes de bienes raíces de Triangle Mall Management pronosticar las ventas con base en la muestra de 14 tien-
Corporation sugirieron a Sunflowers que considere varios das Sunflowers?
locales en algunos centros comerciales de Triangle recién 2. ¿La administración de Sunflowers debe aceptar las afir-
renovados, dirigidos a compradores que disponen de ingre- maciones de los agentes de Triangle? Explique su res-
sos más altos que el promedio. Aunque los locales son puesta.
más pequeños que los que suele utilizar Sunflowers, los 3. ¿Es posible que el ingreso medio disponible del área
agentes de bienes raíces argumentan que los ingresos dispo- circunvecina no sea un factor tan importante para rentar
nibles más altos que el promedio en la comunidad circunve- nuevos locales? Explique su respuesta.
cina predicen mejor un alto nivel de ventas que el tamaño de 4. ¿Existen algunos otros factores que no mencionaron los
la tienda. Los agentes aseguran que los datos muestrales agentes de bienes raíces, pero que podrían ser relevan-
de 14 tiendas Sunflowers demuestran que esto es verdad. tes para la decisión de renta de la tienda?
480 CAPÍTULO 12 Regresión lineal simple

REFERENCIAS
l. Anscombe, F. J., "Graphs and Statistical Analysis", The 4 . Kutner, M. H., C. J. Nachtsheim, J. Neter y W. Li,
American Statistician, 27 (1973), 17-2l. Applied Linear Statistical Models, McGraw-Hill/Irwin,
2. Hoaglin, D. C. y R. Welsch, "The Hat Matrix in Regres- 5a ed., Nueva York, 2005.
sion and ANOVA", The American Statistician, 32 5. Microsoft Excel2010. Microsoft Corp., Redmond, WA,
(1978), 17-22. 2010.
3. Hocking, R. R., "Developments in Linear Regression 6. Minitab Release 16. Minitab lnc., State College, PA,
Methodology: 1959-1982", Technometrics. 25 (1983), 2010.
219-250.
Guía del capítulo 12 para Excel 481

GE12.1 TIPOS DE MODELOS DE REGRESiÓN Excel en profundidad Utilice la hoja de cálculo


COMPUTE del libro Simple Linear Regression , que se
Excel no cuenta con instrucciones para esta sección. observa en la figura 12.4 de la página 433 como plantilla
para realizar una regresión lineal simple. Las columnas A a I
de esta hoja de cálculo duplican el diseño visual de la hoja de
GE12.2 DETERMINACiÓN DE LA ECUACiÓN cálculo de regresión de las Herramientas para análisis. La
DE REGRESiÓN LINEAL SIMPLE hoja de cálculo utiliza los datos de regresión de la hoja de
PHStat2 Utilice Simple Linear Regression para realizar cálculo SLRDATA para realizar el análisis de regresión con
un análisis de regresión lineal simple. Por ejemplo, para lle- los datos de Sunflowers Apparel de la tabla 12.1.
var a cabo el análisis de la figura 12.4 de los datos de Sun- En la figura 12.4 no se incluye el área de cálculos de las
flowers Apparel, que se encuentra en la página 436, abra la columnas K a M. Esta área contiene una fórmula en el rango
hoja de cálculo DATA del libro Site. Seleccione PHStat de celdas L6:M6 que incluye la expresión LINEST(cell
-+ Regression -+ Simple Linear Regression. En el cuadro range of Y variable, cell range of X variable, True, True)
de diálogo del procedimiento (que se muestra abajo): para calcular los coeficientes, b, y bo' en las celdas L2 y M2,
los errores estándar, b, y bo' en las celdas L3 y M3, r 2 y el
1. Ingrese Cl:CI5 como Y Variable Cell Range.
error estándar de la estimación en las celdas L4 y M4, el
2. Ingrese Bl:BI5 como X Variable Cell Range.
estadístico de prueba F y los gl del error en las celdas L5 y
3. Marque First cells in both ranges contain labels.
M5, Y SCR Y SCE en las celdas L6 y M6. En la celda L9 la
4. Escriba 95 en Confidence level for regression coeffi-
expresión TINV(l -level of confidence, Error degrees of
cients. freedom) calcula el valor crítico para la prueba t. Abra la
5. Marque Regression Statistics Table y ANOVA and hoja de cálculo COMPUTE_FORMULAS para examinar
Coefficients Table. todas las fórmulas en esa hoja, algunas de las cuales se ana-
6. Escriba un título en Title y haga clic en OK. lizan en secciones posteriores de esta guía de Excel.
El procedimiento crea una hoja de cálculo que contiene Para realizar la regresión lineal simple para otros da-
una copia de sus datos, así como la hoja de cálculo que se tos, pegue los datos de regresión en la hoja de cálculo SLR-
presenta en la figura 12.4. DATA. Pegue los valores para la variable X en la columna A
y los valores para la variable Yen la columna B. Luego abra
la hoja de cálculo COMPUTE. Ingrese el nivel de confianza
Simple Linear Regresslon
en la celda L8 y edite la fórmula en el rango de celdas
r- Data ------------------------------ .. ---------: I L2:M6. Para editar la fórmula , primero seleccione L2:M6;
¡
,
YVariable CeIIR_e: 1C1:CI5 ::J
-:1
;, luego haga los cambios a la fórmula y después, mientras
i X Variable Cel R_ e: 181:815 ..d I '1
I
¡ P
.
First ceIls in botM ranges contaln label .

11
mantiene presionadas las teclas Control y Shift (o la tecla
J Conñdence leve! for rege5ston coeffident5:
L ____________________________________________ .________ 1
F % ¡ I! Apple en una Mac), presione la tecla Enter.
,- Regressíon Too! OUtput Options
j P' Regression Statistics Table
---------------------¡
¡
I Para crear un diagrama de dispersión que contenga una línea
de predicción y una ecuación de regresión similares a las de la
1 I
: r,; ANOVA and Coeffidents Table : I figura 12.5, comience por utilizar las instrucciones para crear el
! r Residuals Table iI diagrama de dispersión de Excel en profundidad que se dan en la
¡1_ -- __r - -------
Residual Piot
-- -- _--.---.-- ---.- -- _-- -- --- ____ o _ .-.- - - - ----'
]!
I sección GE2.6 y genere una gráfica básica con los datos de Sun-
:- OUtpu! Options •••••---.-----------.-.---.---.-••-.-.j I flowers Appare! de la tabla 12.1. Luego seleccione la gráfica y:
¡I TIlle: I ¡I
¡ r Scatter Pio!
;I
¡I 1. Seleccione Layout -+ Trendline y seleccione More
¡ r Durbin·Watson Stabsbc ¡I Trendline Options de la galería Trendline.
¡¡ r ~onfid~nce
. .
I~t. Est. & Prediction In!. for X = r -11
,¡ I En el cuadro de diálogo Format Trendline (que se muestra
ll--.-::~~:iT:'·~~~'i:'-p~' ---,r=:=:_~:::~ii -'--~S~'~;J
..
en la página 482):
2. Haga clic en Trendline Options en e! cuadro izquierdo. En
el cuadro Trendline Options ubicado a la derecha, haga
Para obtener mayor información acerca de esas hojas de clic en Linear, marque Display Equation on chart,
cálculo, lea la siguiente sección de Excel en profundidad. marque Display R-squared value on chart y luego
Para crear un diagrama de dispersión que contenga una haga clic en Close.
línea de predicción y una ecuación de regresión similares a Para construir diagramas de dispersión de otros datos, si
las de la figura 12.5, modifique el paso 6 y marque la opción no aparece el eje X en la parte inferior de la gráfica, haga clic
Scatter Plot antes de hacer clic en OK. derecho en Y axis y haga clic en Format Axis del menú
482 CAPÍTULO 12 Regresión lineal simple

Si utiliza las instrucciones de PHStat2 o de Excel en


profundidad de la sección GEI2.2, las fórmulas utilizadas
para calcular estas medidas se encuentran en la hoja de
cálculo COMPUTE que se crea. Las fórmulas en las celdas
B5, B7, B13, C12, C13 , 012 y E12 copian los valores calcu-
lados por la fórmula en el rango de celdas L2:M6. La fórmula
de la celda F 12, con la forma =FDIST(F test statistic, 1,
error degrees offreedom), calcula el valor p para la prueba
F de la pendiente que se estudió en la sección 12.7.

GE12.4 SUPUESTOS
Excel no cuenta con instrucciones para esta sección.

GE12.5 ANÁLISIS RESIDUAL


PHStat2 Utilice las instrucciones de PHStat2 de la sección
rápido. En el cuadro de diálogo FomatAxis, haga dic en Axis GEI2.2. Modifique el paso 5 marcando Residuals Table y
Options en el cuadro izquierdo. En el cuadro Axis Options, Residual Plot, además de marcar Regression Statistics Ta-
ubicado a la derecha, haga dic en Axis value y en su recuadro ble y ANOVA and Coefficients Table.
ingrese el valor que se muestra en el recuadro gris Minimum Excel en profundidad Utilice la hoja de cálculo RESI-
en la parte superior del cuadro. Luego haga clic en Close. DUALS del libro Simple Linear Regression, que se pre-
Herramientas para análisis (Analysis Toolpak) Utilice senta en la figura 12.10 de la página 450, como plantilla
Regression para realizar una regresión lineal simple. Por para crear una hoja de cálculo de residuos. Esta hoja calcula
ejemplo, para llevar a cabo el análisis de la figura 12.4 con los residuos para el análisis de regresión de la tabla 12.1
los datos de Sunflowers Apparel (véase la página 436), abra con los datos de Sunflowers Apparel. En la columna C la
la hoja de cálculo DATA del libro Site y: hoja calcula los valores Y estimados (que aparecen como
Predicted Annual Sales en la figura 12.10) multiplicando
1. Seleccione Data -+ Data analysis.
primero los valores de X por el coeficiente b, en la celda
2. En el cuadro de diálogo Data Analysis, seleccione Re-
B 18 de la hoja de cálculo COMPUTE y luego sumando el
gression de la lista de Analysis Tools y luego haga dic
coeficiente b a (en la celda B 17 de COMPUTE). En la co-
enOK.
lumna E la hoja calcula los residuos restando los valores Y
En el cuadro de diálogo Regression (que se muestra abajo):
pronosticados de los valores Y
3. Ingrese Cl:ClS en Input Y Range e ingrese Bl:BlS
Para otros problemas, modifique esta hoja de cálculo 1
en Input x Range.
pegando los valores X en la columna B y los valores Yen la co-
4. Marque Labels y marque Confidence Level y escriba lumna D. Luego, para tamaños de muestra menores que 14,
95 en el cuadro. borre los renglones sobrantes. Para tamaños de muestra mayo-
5. Haga dic en New Worksheet Ply y luego haga dic en res que 14, copie las fórmulas de las columnas C y E hacia
OK. abajo hasta el renglón que contenga el último par de valores X y
Y, Y agregue los nuevos números observados en la columna A.
Rcg"",ioo ~"
r-;;;~------"-~------~~' -~~-~~~~~~·~~~~~~~;-~~·---' --t::i::i-l Herramientas para análisis (Analysis Toolpak) Utilice
I '''''''1_' :.c.1,"1S _______ jfií] ,--,,------, 1
! _t ~R..",., r~i~~s_-_-: _ _ _ :_ _
-.f[@ ~=:::~ I las instrucciones de las Herramientas para análisis de la
! 0 !.lIbeIs ~1c:.~~tis¡e"O l_~_..J 1
sección GEI2.2. Modifique el paso 5 marcando Residuals y
1 {lI Confidera l e-.'eI: !~~ ___ J% 1 Residuals Plots antes de marcar New Worksheet Ply y luego
! ~optiOnS 1 haga clic en OK.
1 1t) QJl:put RanQe: )

1" @~worl<sheet l3y: I


,1 Para crear un diagrama de dispersión similar a la de la
1 €J -l'i-""" figura 12 . 11 , utilice la variable X original y los residuos
1 ResidJas ! (graficados como la variable Y) como los datos de la gráfica.
I tJ &~ t'.:i ~PIots ¡
I ~J S~thedR~ eL LPfitPlots I
I
¡ Normal Probabilty
,!

! lrj tlalMl Probabity PIots ! GE12.6 MEDICiÓN DE LA


L-----------.---,--_.-._.."."..".-"-,. , ,-. ,.___._"'._______:::: : : : :.:.:::::::::::::::.: : ;:.____,_1 AUTOCORRELACIÓN. EL
ESTADíSTICO DE DURBIN-WATSON
GE12.3 MEDIDAS DE VARIACiÓN
PHStat2 Utilice las instrucciones de PHStat2 que aparecen
Las medidas de variación se calculan como parte de la crea- al inicio de la sección GEI2.2. Modifique el paso 6 mar-
ción de una hoja de cálculo de regresión lineal simple utili- cando la opción de salida Durbin-Watson Statistics antes
zando las instrucciones de la sección GEI2.2. de hacer clic en OK.
Guía del capítulo 12 para Excel 483

Excel en profundidad Utilice la hoja de cálculo DUR- 6. Marque Confidence Int. Est. & Prediction Int. for
BIN_WATSON del libro Simple Linear Regression, que X = Y escriba 4 en el cuadro. Escriba 95 como el por-
es similar a la hoja de cálculo que se presenta en la figura centaje para Confidence level for intervals.
12.16 de la página 455, como plantilla para calcular el esta- 7. Escriba un título en Title y haga clic en OK.
dístico de Durbin-Watson. La hoja calcula el estadístico
La hoja de cálculo adicional creada se describe en las
para el modelo de regresión lineal simple de la entrega de
siguientes instrucciones de Excel en profundidad.
paquetes. En la celda B3 la hoja de cálculo utiliza la expre-
sión SUMXMY2(cell range ofthe second through last re- Excel en profundidad Utilice la hoja de cálculo CIEan-
sidual, cell range of the first through second-to-last dPI del libro Simple Linear Regression, que se presenta
residual) para calcular la suma de la diferencia al cuadrado en la figura 12.21 de la página 467, como plantilla para calcu-
de los residuos, el numerador en la ecuación (12.15) de la lar la estimación de intervalos de confianza e intervalos de
página 454, y la celda B4 utiliza SUMSQ(cell range ofthe estimación. La hoja de cálculo contiene los datos y las fórmu-
residuals) para calcular la suma de los residuos al cuadrado, las para los ejemplos de la sección 12.8 que utilizan los datos
el denominador en la ecuación (12.1 5). de Sunflowers Apparel de la tabla 12. 1. La hoja de cálculo
Para calcular el estadístico de Durbin-Watson en otros utiliza la expresión TINV(l -level of confidence, degrees
problemas, debe comenzar por crear el modelo de regresión offreedom) para calcular el valor crítico t en la celda B 1OY
lineal simple y la hoja de trabajo RESIDUALS para ellos la expresión TREND(Yvariable cell range, X variable cell
utilizando las instrucciones de las secciones GE 12.2 Y range, X value) para calcular el valor estimado de Y para el
GEl2.5. Luego abra la hoja de cálculo DURBIN_ WATSON valor X en la celda B 15. En la celda B 12 la expresión
y edite las fórmulas en las celdas B3 y B4 para señalar el DEVSQ(X variable cell range) calcule el valor SCx, que se
rango de celdas adecuado de los nuevos residuos. utiliza, a la vez, para obtener el estadístico h.
Para calcular una estimación del intervalo de confianza
y un intervalo de estimación para otros problemas:
GE12.7 INFERENCIAS SOBRE LA
PENDIENTE Y EL COEFICIENTE 1. Pegue los datos de regresión en la hoja de cálculo SL-
DE CORRELACiÓN RData. Utilice la columna A para los datos de la varia-
ble X y la columna B para los datos de la variable Y.
La prueba t para la pendiente y la prueba F para la pendiente 2. Abra la hoja de cálculo CIEandPI.
están incluidas en la hoja de cálculo creada para utilizar las
instrucciones de la sección GE 12.2. Los cálculos de la En la hoja de cálculo CIEandPI:
prueba t en las hojas de cálculo creadas por medio de las 3. Cambie los valores para X Value y Confidence Level
instrucciones de PHStat2 y Excel en profundidad se descri- según sea necesario.
ben en la sección GEI2 .2 . Los cálculos de la prueba F se 4. Edite los rangos de celdas utilizados en la fórmula de la
describen en la sección GEl2.3. celda B 15 que utiliza la función TREND para referirse
a los nuevos rangos de celdas para las variables Y y X

GE12.8 ESTIMACiÓN DE VALORES MEDIOS


Y PRONÓSTICO DE VALORES
INDIVIDUALES
PHStat2 Utilice las instrucciones de PHStat2 de la sección
GE12.2, pero reemplace el paso 6 con los siguientes pasos
6 y 7:
484 CAPÍTULO 12 Regresión lineal si mple

GM12.1 TIPOS DE MODELOS 8. De regreso en el cuadro de diálogo Regression haga clic


DE REGRESiÓN en ResuIts.

Minitab no cuenta con instrucciones para esta sección. En el cuadro de diálogo Regression-Results (que no se
muestra):

GM12.2 DETERMINACiÓN DE LA 9. Haga clic en Regression equation, table of coeffi-


ECUACiÓN DE REGRESiÓN cients, s, R-squared, and basic analysis of variance y
LINEAL SIMPLE luego haga clic en OK.
10. De regreso en el cuadro de diálogo Regression, haga
Utilice Regression para realizar un análisis de regresión lineal clic en Options.
simple. Por ejemplo, para llevar a cabo el análisis de la figura
12.4 con los datos de Sunflowers Apparel, abra la hoja de En el cuadro de diálogo Regression-Options (que se mues-
cálculo Site, seleccione Stat -+ Regression -+ Regression. tra abajo):
En el cuadro de diálogo Regression (que se muestra abajo): 11. Haga clic en Fit Intercept.
1. Haga doble clic en C3 Annual Sales en la lista de varia- 12. Quite todas las marcas en los cuadros Display y Lack
bles para agregar' Annual Sales' al cuadro Response. ofFit Test.
2. Haga doble clic en C2 Square Feet en la lista de varia- 13. Escriba 4 en el cuadro Prediction intervals for new
bles para agregar 'Square Feet' al cuadro Predictors. observations.
3. Haga clic en Graphs. 14. Escriba 95 en el cuadro Confidence level.
15. Haga clic en OK.
16. De regreso en el cuadro de diálogo Regression haga clic
enOK.

F~~;:~~~::~;l
j r" r:uoo·W"tson st.!\tisbC r C!6tb ~tlr!g l'
: r PRESS and Pf~ R-squM1! f

¡l .
Pr~tion 1I'\~1'¡a!~ W
.
l"!eW obseVlilJOl'!S:
!
J
1 1-,- - - - - - - - - - I

En el cuadro de diálogo Regression-Graphs (que se muestra


l
1
::.,.,,,,,,,,,
Storage
'v<; ¡g,--- i
¡
1 ,Fin; r-CoI'I~im!ts I[
abajo): i r- SEsoffie r Pr~nrP1mts 1

l----:~~-==_=~~~:~=~:-J
4. Haga clic en Regular (en Residuals for Plots) y en In-
dividual Plots (en Residual Plots).
5. Marque Histograms of residuals , Normal plot of resi-
duals, Residuals versus fits y Residuals versus order
y luego presione Tab. Para crear un diagrama de dispersión que contenga una
6. Haga doble clic en C2 Square Feet en la lista de varia- línea de predicción y una ecuación de regresión similares a
bles para agregar 'Square Feet' al cuadro Residuals las de la figura 12.5 , utilice las instrucciones para el dia-
versus the variables. grama de dispersión de la sección GM2.6 con los datos de
7. Haga clic en OK. Sunflowers Apparel de la tabla 12.1.

{~~~~~~~=~----=~~~~~~=~~~~~===~~~~--~l GM12.3 MEDIDAS DE VARIACiÓN


, ..._""PI<""
I1
I r.;' R~ór r Standardized (' Ddeted !:1¡
i 1I
:¡ ResJdualPlon; i: Las medidas de variación se calculan en la tabla del análisis
¡I r. lndividualolots i¡
11 W ~amofreSlduals ¡I de varianza que forma parte de los resultados de la regresión
1 W NormaIokltofre~ !!
(, p ReSldtl3ls.ver~...,-sfits ¡ ¡
lineal simple creados por medio de las instrucciones de la
¡I r- ~~~ ,~,"".der iI sección GM 12.2.
II R.esoIdvais vetSlJ~ the variables: ¡!q
1 r's~af;-¡;;-'---. ~-~..,---~.~
JI ir

i -----.J
! - II
I1
GM12.4 SUPUESTOS
¡ _~..~ Cancel !I
L-..,-----,------.--,----=========:::::.::.======.:::0 Minitab no cuenta con instrucciones para esta sección.
Guía del capítulo 12 para Minitab 485

GM12.5 ANÁLISIS RESIDUAL Watson statistic (en el cuadro de diálogo Regression- .!I',

Options) como parte del paso 12.


Las selecciones del paso 5 en las instrucciones de la sección
GM12 .2 crean las gráficas residuales y las gráficas de pro-
babilidad normal necesarias para el análisis residual. Para GM12.7 INFERENCIAS SOBRE LA
crear la lista de valores residuales similares a los de la PENDIENTE Y EL COEFICIENTE
columna E de la figura 12.10, sustituya el paso 15 de las DE CORRELACiÓN
instrucciones de la sección GM12.2 con los pasos 15 a 17
siguientes: La prueba t para la pendiente y la prueba F para la pendiente
están incluidas en los resultados que se obtuvieron siguiendo
15. Haga clic en Storage. las instrucciones de la sección GMI2.2.
16. En el cuadro de diálogo Regression-Storage, marque
Residuals y luego haga clic en OK.
17. De regreso en el cuadro de diálogo Regression haga clic GM12.8 ESTIMACiÓN DE VALORES
enOK. MEDIOS Y PRONÓSTICO DE
VALORES INDIVIDUALES

GM12.6 MEDICiÓN DE LA La estimación del intervalo de confianza y el intervalo de


AUTOCORRELACIÓN. EL estimación están incluidos en los resultados que se obtuvie-
ESTADíSTICO DE DURBIN-WATSON ron siguiendo las instrucciones de la sección GMI2.2.

Para calcular el estadístico de Durbin-Watson utilice las ins-


trucciones de la sección GMI2.2, pero marque Durbin-

También podría gustarte