Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos de aprendizaje
En este capítulo usted aprenderá:
• A utilizar el análisis de regresión para estimar el valor de una variable
dependiente con base en una variable independiente.
• El significado de los coeficientes de regresión bo y b 1•
• A evaluar los supuestos del análisis de regresión y lo que se debe hacer
en caso de que se violen.
• A hacer inferencias acerca de la pendiente y el coeficiente de correlación.
• A estimar valores medios y pronosticar valores individuales.
Dmitriy Shironosov/Shutterstock.com
En Sunflowers Apparel
as ventas de Sunflowers Apparel, una cadena de tiendas de ropa de lujo para dama, han
L
aumentado durante los últimos 12 años a medida que la empresa ha incrementado el nú-
mero de tiendas. Hasta ahora, los gerentes de Sunflowers han elegido los lugares con
base en factores subjetivos, como la disponibilidad de un local en renta o la percepción
de que un lugar parece ideal para una tienda de ropa. Como nuevo director de planeación,
usted necesita desarrollar un método sistemático que le permita tomar mejores decisiones durante el
proceso de selección de ubicaciones de las tiendas. Usted parte de la idea de que el tamaño de la
tienda contribuye de manera importante a las ventas y desea utilizar esta relación en el proceso de toma
de decisiones. ¿Cómo podría utilizar la estadística para pronosticar las ventas anuales de una tienda
sugerida con base en el tamaño de la misma?
crystalfoto/ Shutterstock
432 CAPÍTULO 12 Regresión lineal simple
E mite desarrollar un modelo para pronosticar los valores de una variable numérica con base
en el valor de otras variables.
En el análisis de regresión la variable que se desea pronosticar se conoce como variable de-
pendiente. Las variables que se utilizan para realizar el pronóstico se denominan variables indepen-
dientes. Además de pronosticar los valores de la variable dependiente, el análisis de regresión
permite identificar el tipo de relación matemática que existe entre una variable dependiente y una
variable independiente con la finalidad de cuantificar el efecto que los cambios en esta última tie-
nen sobre la primera, así como para identificar observaciones poco comunes. Por ejemplo, como
director de planeación, usted tal vez quiera pronosticar las ventas de una tienda Suntlowers con
base en sus dimensiones. Otros ejemplos incluyen el pronóstico de la renta mensual de un aparta-
mento con base en su tamaño y el pronóstico de las ventas mensuales de un producto en un super-
mercado con base en la cantidad de espacio de anaquel que se le asigna.
En este capítulo se estudia la regresión lineal simple, en la que se utiliza una sola variable
numérica independiente, X, para pronosticar la variable numérica dependiente, Y, tal como utilizar
el tamaño de una tienda para estimar sus ventas anuales. En el capítulo 13 se analizan los modelos
de regresión múltiple, los cuales utilizan más de una variable independiente para pronosticar el
comportamiento de una variable numérica dependiente, Y. Por ejemplo, los gastos de publicidad,
el precio y la cantidad de espacio de anaquel asignado a un producto se podrían utilizar para pro-
nosticar las ventas mensuales de este.
FIGURA 12 . 1 y
Una relación
de línea recta
t.X= "cambio en X"
~o
oo~--------------------------x
La parte Yi = f30 + f3¡Xi del modelo de regresión lineal simple expresada en la ecuación
(12 .1) es una línea recta. La pendiente de la recta, f31' representa el cambio esperado en Y por uni-
dad de cambio en X; representa la cantidad media que cambia Y (ya sea de manera positiva o nega-
tiva) por una unidad de cambio en X. La intersección con el eje Y, f3 o' representa el valor promedio
de Y cuando X es igual a O. El último componente del modelo, Si' representa el error aleatorio en Y
r;
para cada observación, i. En otras palabras, Si es la distancia vertical del valor real de por arriba
r;
o por debajo del valor esperado de sobre la recta.
La selección del modelo matemático adecuado depende de la distribución de los valores X y Y
en el diagrama de dispersión. En la figura 12.2 se ilustran seis tipos diferentes de relaciones.
FIGURA 12.2 y y
Seis tipos
de relaciones
encontradas en ~-
.....~
...
los diagramas • •
de dispersión
L..----------X
Gráfica A
L..----------X
Gráfica B
Relación lineal positiva Relación lineal negativa
y y
•
L..----------X
Gráfica e
'---------'----"'----X
Gráfica D
Relación curvilínea positiva Relación curvilinea en forma de U
y y
:~ ...
• •••• l •••••••
•
~----~·~·~~-
~~'--
=·~---X
Gráfica E
'-----------X
Gráfica F
Relación curvilínea negativa Sin relación entre Xy y
En la gráfica A, los valores de Y tienden a aumentar de forma lineal conforme aumenta X. Esta
gráfica es similar a la figura 12.3 de la página 434, que ilustra la relación positiva entre la extensión
en pies cuadrados de la tienda y las ventas anuales en las sucursales de la cadena de tiendas de ropa
para dama Sunflowers Appare!.
La gráfica B es un ejemplo de una relación lineal negativa. A medida que aumenta X, los valo-
res de Y tienden a disminuir. Un ejemplo de este tipo de relación podría ser el precio de un pro-
ducto en particular y el monto de las ventas.
La gráfica e muestra una relación curvilínea positiva entre X y Y. Los valores de Y aumentan
conforme aumenta X, pero este incremento se reduce a partir de ciertos valores de X. Un ejemplo de
una relación curvilínea positiva podría ser la antigüedad y el costo de mantenimiento de una máquina.
En un inicio, a medida que una máquina se vuelve más antigua, el costo de mantenimiento podría
aumentar con rapidez, pero, luego, a partir de cierto número de años, podría empezar a disminuir.
La gráfica D muestra una relación en forma de U entre X y Y. A medida que aumenta X , al prin-
cipio Y tiende a disminuir, pero conforme X continúa aumentando, Y no solo deja de disminuir sino
que aumenta por arriba de su valor mínimo. Un ejemplo de este tipo de relación podría ser el nú-
mero de errores por hora en una tarea y el número de horas trabajadas. El número de errores por
hora disminuye a medida que el individuo se vuelve más diestro en la realización de la tarea, pero
después aumenta a partir de cierto punto debido a factores como la fatiga y el aburrimiento.
434 CAPÍTULO 12 Regresión lineal simple
La gráfica E presenta una relación exponencial entre X y Y. En este caso Y disminuye con rapi-
dez a medida que, en un inicio, aumenta X, pero luego disminuye con menor rapidez a medida que
X sigue aumentando. Un ejemplo de una relación exponencial podría ser el valor de un automóvil y
su antigüedad. Durante el primer año su precio original (el valor) disminuye drásticamente, luego,
en los años subsiguientes, continúa disminuyendo pero de manera más lenta.
Por último, la gráfica F muestra un conjunto de datos en el que hay una relación mínima o nula
entre X y Y. Para cada valor de X se observan valores altos y bajos de Y
Aunque los diagramas de dispersión son útiles para presentar visualmente la forma matemática
de una relación, existen procedimientos estadísticos más complejos que permiten determinar el
modelo más adecuado para un conjunto de variables. En lo que resta de este capítulo se analiza
el modelo utilizado cuando existe una relación lineal entre variables.
FIGURA 12.3
Scatter Diagram for Site Selection
Diagrama de 14
dispersión para los
datos de Sunflowers 12
Apparel
'"'"
ji
11"1 6
ji
:s
e
.'i 4
o
o 2 3 4 5 6 7
lo tanto, podemos suponer que una línea recta constituye un modelo matemático útil de esta rela-
ción. Ahora es necesario determinar la línea recta específica que se ajusta mejor a esos datos.
(12.2)
donde:
Y¡ = valor estimado de Y para la observación i
X¡ = valor de X para la observación i
ba = intersección de la muestra con el eje Y
b¡ = pendiente de la muestra
La ecuación (12.2) requiere que se determinen dos coeficientes de regresión, ba (la intersec-
ción de la muestra con el eje Y) y b¡ (la pendiente de la muestra). La forma más común para calcu-
lar ba y b¡ es el método de mínimos cuadrados. Este método reduce al mínimo la suma de las
diferencias al cuadrado entre los valores reales (Y¡) y los valores estimados (Y¡), utilizando la ecua-
ción de regresión lineal simple, es decir, la línea de predicción [véase la ecuación (12.2)]. Esta
suma de diferencias al cuadrado es igual a
n
~(Yi -
"
Y¡) 2
A
i= ¡
n n
" A
~(Yi - Yi )2_
- "
~[Yi - (b a + b¡X¡)] 2
¡= l i=l
FIGURA 12.4
Modelos de regresión lineal simple en Excel y Minitab para los datos de Sunflowers Apparel
r:!:)~."~':t~"~'-~'L;~~~~~~~ -~~:L:,~_:;;Ji~:'~,:I~:~';;-,:fL":'~J"~I~,":·.R-~-~]:,'~ ~J; ~." .-.. -,- -f'"'''"'''-' '. ':."~:q
Regression Analysis: Annual Sales versus Square Feet
t U Simple Linear Regression
1 21-
1 _ _--:---,_ _ The regressi on equati on is
¡~i,l Reqfess;on Sfatistic.s Armual Sales = 0,964 + 1. 67 Square Feet
L, ~,.,JMUltip,te.R 0.9509
L_~. ¡ R Square 0.9042
~ _~ : AdJusted R Squ.are 0.8'362
Preclictor Co e f SE Caef T P
¡,J ~Standard Error 0.9664
Cons tant 0.9645 0 . 52 62 1.83 0 . 092
L~~, I Ob5ervat~ons 14 Square l'eet 1.6699 0.1569 10 .64 0,000
191
¡:...1_0JANOVA s= 0 .966380 R-Sq = 90.Hl R-Sq(adj) = 89.61!
111 1 dI SS MS F Signi{1conceF
!).?+ -- ,.-",'--on-,---"'--'-1--'1=:::05~.74"'76:-'-=05=.74cc76:-'C:-:13'-:c.,,:c:-,,:-==o:':=:.oooo':':-
J R'.g-
¡ 13 1Resldual 12 11.2067 0.'1339
Anal y sis of Variance
lJ~'¡lotal 13 116.9543 Source D.l ' ss MS l' P
Reqression 1 1 05'.75 105 .75 113.23 0.000
1:.~1¡i-----c-
oetfi:::~.,...,.n-"-S-'o-nd,--"'.,...
d ,'"",
--- ,-,,-.,---"p-.vo-'.-. ~L-OW-"-95-":--UP-P'-'"."'''':--w-w-. ,-.s-'
.cm'--uPP
- .-,-.,.-:
cm-· Residual Error 12 11 . 21 0 .93
L.U..,¡tntercept 0.9645 0.5262 1.8129 0.0917 · 0.1820 2.1110 -0.1820 2.11095 Tot.al 13 116.95
U~}Sq uare Feet 1.6699 0.1569 10.6411 0.0000 1.3200 2.0118 U280 2.01171
Y¡ = 0.9645 + 1.6699X¡
La pendiente, bi' es + 1.6699. Esto significa que, por cada incremento de una unidad en X, se es-
tima que el valor de Y aumente en 1.6699 unidades. En otras palabras, por cada incremento de 1,0
miles de pies cuadrados en el tamaño de la tienda, se estima que las ventas anuales pronosticadas
aumentarán 1.6699 millones de dólares, Por lo tanto, la pendiente representa la parte de las ventas
anuales que, de acuerdo con las estimaciones, varía de acuerdo con el tamaño de la tienda.
La intersección con el eje Y, b o' es +0.9645 , La intersección con el eje Y representa el valor
estimado de Y cuando X es igual a O. Como la extensión de la tienda en pies cuadrados no puede ser
O, esta intersección con el eje Y tiene muy poco o ningún significado práctico, Asimismo, la inter-
sección con el eje Y de este ejemplo se encuentra fuera del rango de los valores observados de la
variable X, por lo que el valor de bo se debe interpretar de manera cautelosa. En la figura 12.5 se
presentan los valores reales y la línea de predicción. Para ilustrar una situación en la que existe una
interpretación directa de la intersección con el eje Y, bo' véase el ejemplo 12.1.
~ 61
~ 4 1
!
2 ;
!
i
O L __._ - -----. --- --- --,---- .---- -- --- ------,-- - -- - -- - -------- __o, ------___ .-------.. , .. -------.. -_.----...,. _.. -. -----_-. _____ ,__ -_____ -------__ -__ o
O 2 3 4 5 6 7
EJEMPLO 12.1 Un profesor de estadística quiere utilizar la información sobre el número de horas que un alumno
estudia para un examen final de su materia (X) con la finalidad de pronosticar la calificación en el
Interpretación de
examen final (Y). Se ajustó un modelo de regresión basado en los datos que se reunieron de un
la intersección con
grupo durante el semestre anterior, con los siguientes resultados:
el eje Y, b o' y la
pendiente, b,
Y¡ = 35.0 + 3Xj
Remítase al caso sobre Sunflowers Apparel que se encuentra en la página 431. En el ejemplo
12.2 se ilustra la forma de utilizar la línea de predicción para pronosticar las ventas anuales.
EJEMPLO 12.2 Utilice la línea de predicción para pronosticar las ventas anuales de una tienda con 4,000 pies cua-
drados de extensión.
Predicción de las
ventas anuales con SOLUCiÓN Se puede determinar el valor estimado sustituyendo X = 4 (miles de pies cuadrados)
base en los pies en la ecuación de regresión lineal simple:
cuadrados que
ocupa la tienda Y¡ = 0.9645 + 1.6699X¡
Por lo tanto, es posible estimar que las ventas anuales de una tienda con 4,000 pies cuadrados de
extensión serán de $7,644,000.
b - --
sCXY
1 - SCX
(12.3)
donde:
sCXY=
scx=
bo = y- b 1X (12.4)
donde:
n
2: Y ¡
- i= 1
Y= - -
n
n
-
2: X;
i= 1
X= - -
n
EJEMPLO 12.3 Calcule la intersección con el eje Y, bo' y la pendiente, bl' para los datos de Sunflowers Apparel.
Cálculo de la SOLUCiÓN En las ecuaciones (12.3) y (12.4) es necesario calcular cinco cantidades para deter-
n n
intersección con
el eje Y, bo' y la
minar b 1 y b o. Estas son n, el tamaño de muestra; 2:Xi, la suma de los valores de X; 2: Yi, la suma
i= 1 i= 1
pendiente, b 1 n n
de los valores de Y; 2:xf, la suma de los valores de X elevados al cuadrado; y 2:X;Yi , la suma del
i= 1 i= 1
producto de X y Y. Para los datos de Sunflowers Apparel el número de pies cuadrados (X) se utiliza
para estimar las ventas anuales (Y) de una tienda. En la tabla 12.2 se presentan los cálculos de la
n
sumas necesarios para el problema de la selección de la ubicación. La tabla también incluye 2: y?,
i= 1
la suma de los valores de Y elevados al cuadrado que se utilizarán para calcular la scr en la
sección 12.3.
12.2 Determinación de la ecuación de regresión lineal simple 439
TA B L A 12 . 2
Tienda Pies cuadrados (X) Ventas anuales (Y) X2 y2 XY
Cálculos para los
datos de Sunflowers 1 1.7 3.7 2.89 13.69 6.29
Apparel 2 1.6 3.9 2.56 15.21 6.24
3 2.8 6.7 7.84 44.89 18.76
4 5.6 9.5 31.36 90.25 53.20
5 1.3 3.4 1.69 11.56 4.42
6 2.2 5.6 4.84 31 .36 12.32
7 1.3 3.7 1.69 13.69 4.81
8 1.1 2.7 1.21 7.29 2.97
9 3.2 5.5 10.24 30.25 17.60
10 1.5 2.9 2.25 8.41 4.35
11 5.2 10.7 27.04 114.49 55.64
12 4.6 7.6 21.16 57.76 34.96
13 5.8 11.8 33 .64 139.24 68.44
14 3.0 4.1 9.00 16.81 12.30
Totales 40.9 81.8 157.41 594.90 302.30
n
:¿X ) ( :¿y
n )
(
sCXY= ±(X¡ - X)(Yi - Y) = ±XiYi _ i= 1 I i= 1 I
i= ! i= 1 n
(40.9)(81.8)
SCXY = 302.3 - 14
= 302.3 - 238.97285
= 63.32715
n n (±XiY
SCX= :¿(Xi - xf = :¿X? - _ i =_
I _
i= 1 i= 1 n
(40.9) 2
= 157.41 - - -
14
= 157.41 - 119.48642
= 37.92358
Por lo tanto,
b _ sCXY
1 - SCX
63 .32715
37.92358
= 1.6699
Y,
n
:¿Yi
- i= 1 81.8
Y = -- = - = 5.842857
n 14
n
:¿Xi
- i= 1 40.9
X = -- = - = 2.92143
n 14
440 CAPÍTULO 12 Regresión lineal simple
Por lo tanto,
ba = y - b)X
= 5.842857 - (1.6699)(2.92143)
= 0.9645
Utilice el procedimiento Visual Explorations Simple Li- Target SSE lo más pequeño posible. (Véase la pá-
near Regression para crear una línea de predicción lo más gina 444 para una explicación sobre la SCE) .
cercana posible a la línea de predicción definida por la
En cualquier momento haga chc en Reset para restable-
solución de mínimos cuadrados. Abra el libro comple-
cer los valores de b) y bo' o en Solution para revelar la línea
mentario Visual Explorations (véase la sección DA en
de predicción definida con el método de mínimos cuadra-
los apéndices) y seleccione Add-ins ~ VisualExplora-
dos. Haga clic en Finish cuando termine este ejercicio.
tions ~ Simple Linear Regression.
En el cuadro de diálogo Simple Linear Regression Uso de sus propios datos de regresión
(que se muestra abajo):
Seleccione Simple Linear Regression with your wor-
1. Haga clic para que se desplieguen los botones girato- ksheet data del menú VisualExplorations para explorar
rios de bl slope (la pendiente de la línea de predic- los coeficientes de regresión lineal simple utilizando los
ción) y de bO intercept (la intersección con el eje Y datos que usted proporcione de una hoja de cálculo. En
de la línea de predicción) para modificar la línea de el cuadro de diálogo del procedimiento, ingrese el rango de
predicción. celdas de su variable Yen Y variable Cell Range y el rango
2. Por medio de la retroalimentación visual de la grá- de celdas de su variable X en X variable Cell Range.
fica , trate de crear una línea de predicción lo más Haga clic en First cells in both ranges contain a label,
cercana posible a la línea de predicción definida por escriba un título en Title y haga chc en OK. Una vez que
las estimaciones de mínimos cuadrados. En otras pa- aparezca el diagrama de dispersión en la pantalla, conti-
labras, trate de hacer el valor de Difference from núe con las instrucciones de los pasos 1 y 2.
:~~~~~~~""~---1
1 bll#opl:: r ~~ i
¡
I ~ ['-----
1-~-1
l
J
L-'_!OO~ ¡1
l::;:::-:::-_~__-_==::!j
'0
..
Problemas para la sección 12.2 441
e) En este problema interprete el significado de la pen- d) Pronostique la renta mensual para un departamento que
diente, b l . tiene 1,000 pies cuadrados de extensión.
d) Pronostique el índice de rotura cuando la abertura de la e) ¿Por qué no sería adecuado utilizar el modelo para estimar
placa es igual a O. la renta mensual de apartamentos de 500 pies cuadrados?
12.8 El valor de una franquicia deportiva está directamente f) Sus amigos Jim y Jennifer están considerando la posibili-
dad de firmar un contrato de renta para un apartamento
relacionado con la cantidad de ganancias que puede generar.
en este vecindario residencial. Están tratando de decidir
El archivo !:l:j¡(4#4,\1[iH"incluye información sobre el va-
entre dos apartamentos, uno con 1,000 pies cuadrados
lor en 2011 (en millones de dólares) y las utilidades anuales
por una renta mensual de $1,275 , Y otro con 1,200 pies
(en millones de dólares) para las 30 franquicias de béisbol
cuadrados por una renta mensual de $1 ,425 . Con base en
de las grandes ligas. (Datos extraídos de www.forbes.com/
los incisos a) a d), ¿a qué apartamento cree que corres-
Iists/20 11/33//baseball-valuations-ll_ rank.html.) Su-
ponde un mejor trato?
ponga que se desea desarrollar un modelo de regresión lineal
simple para estimar el valor de la franquicia con base en las 12.10 Una empresa que posee los derechos de distribución
utilidades anuales generadas. de DVD de películas que se estrenaron únicamente en salas de
a) Construya un diagrama de dispersión. cine tiene el objetivo de negocios de desarrollar estimacio-
b) Utilice el método de mínimos cuadrados para determinar nes de ingresos por ventas de los DVD. Para lograrlo, un ana-
los coeficientes de regresión, ba y b l ' lista de la empresa planea utilizar la recaudación bruta en
e) En este problema interprete el significado de ba y b¡. taquilla con la finalidad de estimar los ingresos que generen
d) Pronostique el valor de una franquicia de béisbol que las ventas de DVD. Para las 22 películas el analista considera
genere ganancias anuales de $150 millones. la recaudación bruta en taquilla (en millones de dólares) en el
año en que se estrenaron y los ingresos de los DVD (en millo-
12.9 Un agente de una empresa de bienes raíces tiene el obje- nes de dólares) durante el siguiente año. Los datos se presen-
tivo de negocios de desarrollar estimaciones más precisas de
los costos mensuales de la renta de apartamentos. Para lograrlo,
tan a continuación y están almacenados en el archivo I!B.
al agente le gustaría utilizar el tamaño de un apartamento, defi- Título Ingreso bruto Ingresos del DVD
nido por su extensión en pies cuadrados, para estimar el costo
Bolt 109.92 81.60
de la renta mensual. El agente selecciona una muestra de 25
apartamentos en un vecindario residencial en particular y reúne
Madagascar 7: 177.02 107.54
Escape de Africa
los siguientes datos (almacenados en el archivo B). Quantum of Solace 166.82 44.41
Un Chihuahua en Beverly Hills 93 .78 60.21
Renta ($) Tamaño (pies cuadrados) Marley yyo 106.66 62.82
950 850 High School Musical 3 90.22 58.81
1,600 1,450 Fin de curso
1,200 1,085 Cuentos que no son cuentos 85.54 48.79
1,500 1,232 Un par nada ejemplar 66.70 38.78
Piña Express 87.34 44.67
950 718
La conspiración del pánico 101.40 34.88
1,700 1,485
Prueba de fuego 33.26 31.05
1,650 1,136
Mammamía! 144.13 33.14
935 726 Siete almas 60.15 27.12
875 700 Australia 46.69 28.16
1,150 956 Valkiria 60.73 26.43
1,400 1,100 Tiburón V 56.75 26.10
1,650 1,285 El curioso caso de 79.30 42.04
2,300 1,985 Benjamin Bullan
1,800 1,369 MaxPayne 40.68 25.03
1,400 1,175 Red de mentiras 39.32 21.45
1,450 1,225 Noche de tormenta 41.80 17.51
1,100 1,245 Vecinos en la mira 39.26 21.08
1,700 1,259 El espíritu 17.74 18.78
1,200 1,150
1,150 896 Fuente: Datos extraídos de www.the-numbers.com/market/mo-
1,600 f,361 vies2008.php; y www.the-numbers.comldvd/charts/annuaI/2009.php.
1,650 1,040 Para estos datos:
1,200 755 a) Construya el diagrama de dispersión.
800 1,000 b) Suponiendo una relación lineal , utilice el método de mí-
1,750 1,200 nimos cuadrados para determinar los coeficientes de re-
gresión, ba y b l .
a) Construya el diagrama de dispersión. e) Interprete lo que significa la pendiente, bl' en este pro-
b) Utilice el método de mínimos cuadrados para determinar blema.
los coeficientes de regresión, ba y b¡. d) Pronostique los ingresos por ventas de una película en
e) Interprete el significado de ba y b¡ en este problema. DVD que recaudó en taquilla $75 millones.
12.3 Medidas de variación 443
FIGURA 12.7
Parte de la suma de cuadrados en Excel y Minitab para los datos de Sunflowers Apparel
ss MS p
df ss MS F Significance F Regression 105. 75 113 .23 O. 000
105.7476 105.7476 113.2335 0.0000 Residual E.rro r 0 .93
12 11.2067 0.9339 Total
13 116.9543
Coeficiente de determinación
Por sí mismos, SCR , SCE y SCT brindan muy poca información. Sin embargo, el cociente de la
suma de cuadrados de regresión (SCR) y de la suma de cuadrados total (SCT) mide la proporción
de la variación en Y que se explica por la variable independiente X en el modelo de regresión. Este
cociente, llamado coeficiente de determinación, r 2 , se define en la ecuación (12.9).
COEFICIENTE DE DETERMINACION
El coeficiente de determinación es igual a la suma de cuadrados de regresión, es decir, la
variación explicada, dividida entre la suma de cuadrados total , esto es, la variación tota!.
2 Suma de cuadrados de regresión SCR
r = =-- (12.9)
Suma de cuadrados total SCT
El coeficiente de determinación mide la proporción de la variación en Y que se explica
por la variación en la variable independiente X en el modelo de regresión.
12.3 Medidas de variación 445
Para los datos de Sunflowers Apparel, con SCR = 105.7476, SCE = 11.2067 Y SCT= 116.9543,
105.7476
r2 = = 0.9042
116.9543
Por lo tanto, 90.42% de la variación en las ventas anuales se explica por la variabilidad en el ta-
maño de la tienda, medido por su extensión en pies cuadrados. Este valor elevado de r 2 indica una
fuerte relación lineal entre esas dos variables, ya que el modelo de regresión explica 90.42% de la
variabilidad en la estimación de las ventas anuales. Solo 9.58% de la variabilidad muestral de las
ventas anuales se debe a factores diferentes de los explicados por el modelo de regresión lineal que
utiliza la extensión en pies cuadrados.
En la figura 12.8 se presenta una parte de los resultados estadísticos de la regresión de la tabla
de la figura 12.4 para los datos de Sunflowers Apparel. Esta tabla contiene el coeficiente de deter-
minación (denominado R Cuadrada en Excel y R-Sq en Minitab).
FIGURA 12.8
Estadísticos de regresión en Excel y Minitab para los datos de Sunflowers Apparel
Pred:Lctor Coer SE Coef T P
Constant 0.9645 0.526.2 1.83 0.092
3 Regression Stutistics Square Feet 1.6699 0.1569 10.64 0.000
4 Multiple R
¡......-
0.9509
S = 0 .966380 R-Sq = 90.n R-Sq(adj) = 89.6~
5 R Square
¡......-
0.9042
'6 Adjusted R Square 0.8962
7 standard Error 0.9664
r ····,,·
8 Observations 14
EJEMPLO 12.4 Calcule el coeficiente de determinación, r 2 , para los datos de Sunflowers Apparel.
Cálculo del SOLUCiÓN Podemos calcular scr, CSR y SCE, que están definidos en las ecuaciones (12 .6),
coeficiente de (12.7) y (12.8), las cuales se encuentran en las páginas 443 y 444, utilizando las ecuaciones (12.10),
determinación (12.11) y (12.12).
SCT= (12.10)
(12.11)
SCT=
(81.8)2
= 594.9 - 14
= 594.9 - 477.94571
116.95429
(81.8)2
(0.9645)(81.8) + (1.6699)(302.3)
14
105 .74726
n
SCE = .LJ (Y¡ - Y¡)2
" A
¡= !
n n n
2: Y; -
¡= !
bo 2: Y¡ -
¡= !
b! 2:x¡Y¡
¡= !
Por lo tanto,
105.74726
116.95429 = 0.9042
De acuerdo con la ecuación (12.8) y la figura 12.4 o la figura 12.7, que se encuentran en las
páginas 436 o 444, SCE = 11.2067. Por consiguiente,
b) detennine el error estándar de la estimación. 12.21 En el problema 12.9 de la página 442, un agente de
e) ¿Qué tan útil cree que es este modelo de regresión para una empresa de bienes raíces deseaba estimar la renta men-
estimar las horas de trabajo? sual de apartamentos con base en su tamaño (la infonnación
12.19 En el problema 12.7 de la página 441 se utilizó la se encuentra almacenada en el archivo 1m). Utilice los
abertura de las placas en el equipo de sellado de bolsas para resultados de ese problema y
a) calcule el coeficiente de determinación, r 2 , e interprete
pronosticar el índice de rotura de una bolsa de café (la infor-
mación se encuentra almacenada en el archivo B"tfi!1Mij). su significado.
Utilice los resultados de ese problema y b) detennine el error estándar de la estimación.
a) calcule el coeficiente de determinación, r 2 , e interprete e) ¿Qué tan útil cree que es este modelo de regresión para
su significado. estimar la renta mensual?
b) detennine el error estándar de la estimación. d) ¿Podría pensar en otras variables que expliquen la varia-
e) ¿Qué tan útil cree que es este modelo de regresión para ción en la renta mensual?
pronosticar el índice de rotura con base en la abertura de 12.22 En el problema 12.10 de la página 442, usted utilizó
la placa en el equipo de sellado de bolsas? los datos sobre la recaudación en taquilla para estimar los
12.20 En el problema 12.8, que se encuentra en las páginas ingresos por ventas de DVD (la información se encuentra
441 y 442, usted utilizó la información sobre los ingresos almacenada en el archivo [I!¡B). Utilice los resultados de
anuales para estimar el valor de una franquicia de béisbol (la ese problema y
infonnación se encuentra almacenada en el archivo 1:\:\;l4# a) calcule el coeficiente de determinación, r 2 , e interprete
MN"). Utilice los resultados de ese problema y su significado.
a) calcule el coeficiente de determinación, r 2 , e interprete b) detennine el error estándar de la estimación.
su significado. e) ¿Qué tan útil cree que es este modelo de regresión para
b) detennine el error estándar de la estimación. estimar los ingresos por ventas de DVD?
e) ¿Qué tan útil cree que es este modelo de regresión para d) ¿Podría pensar en otras variables que expliquen la varia-
estimar el valor de una franquicia de béisbol? ción en los ingresos por ventas de DVD?
12.4 Supuestos
Cuando estudiamos la prueba de hipótesis y el análisis de varianza en los capítulos 9 a 11, enfatiza-
mos la importancia de los supuestos de la validez de cualquier conclusión planteada. Los supuestos
necesarios para la regresión son similares a los del análisis de varianza porque ambos fonnan parte
de la categoría general de modelos lineales (referencia 4).
Los cuatro supuestos de la regresión (conocidos por el acrónimo UNI) son los siguientes :
• Linealidad
• Independencia de los errores
• Nonnalidad del error
• Igualdad de la varianza
El primer supuesto, el de linealidad, plantea que la relación entre variables es lineal. Las rela-
ciones entre variables que no son lineales se analizan en la referencia 4.
El segundo supuesto, la independencia de los errores, requiere que los errores (e) sean inde-
pendientes entre sÍ. Este supuesto es especialmente importante cuando los datos se reúnen a lo
largo del tiempo. En tales situaciones, los errores de un periodo específico en ocasiones se correla-
cionan con los de un periodo previo.
El tercer supuesto, el de normalidad, requiere que los errores (e) se distribuyan de manera
nonnal en cada valor de X. Al igual que la prueba t y la prueba F del ANOVA, el análisis de regre-
sión es bastante robusto con respecto a desviaciones del supuesto de nonnalidad. Siempre que la
distribución de los errores en cada nivel de X no sea demasiado diferente de una distribución nor-
mal, las inferencias acerca de f3 0 y f3¡ no se ven gravemente afectadas.
El cuarto supuesto, la igualdad de la varianza u homocedasticidad, requiere que la varianza
de los errores (e) sea constante para todos los valores de X. En otras palabras, la variabilidad de los
valores de Y cuando el valor de X es bajo es igual que cuando es alto. El supuesto de igualdad de la
varianza es importante cuando se hacen inferencias acerca de f3 0 y f3¡. Si las cosas se desvían mu-
cho de este supuesto, se pueden utilizar transfonnaciones de datos o métodos ponderados de míni-
mos cuadrados (véase la referencia 4).
12.5 Análisis residual 449
estimados (Y¡) de la variable dependiente para un valor dado de X¡. En un diagrama de dispersión el
residuo aparece como la distancia vertical entre un valor observado de Y y la línea de predicción.
La ecuación (12.14) define al residuo.
RESIDUO
El residuo es igual a la diferencia entre el valor observado de Y y el valor estimado de Y.
e¡ = Y¡ - Y; (12.14)
FIGURA 12.9 y e
Estudio de la
idoneidad del
modelo de regresión
lineal simple
••••
• •• •
•
'------------x
Gráfica A
'------------x
Gráfica B
-
--
8
9
7
8
1.3
1.1
3.135294672
2.801322208
3.7 0.564705328
2.7 -0.101322208
--
10
11 .
9
10
3.2
1.5
6.308033074
3.469267135
5.5
2.9
-0.808033074
-0.569267135
__
.............,,,,.,
12 11 5.2 '9.64 775 7708 10.7 1.052242292
--1314 �
,_.,
-
..
12 4.6 8.645840318 7.6 -1.()45840318
13 5.8 10.6496751 11.8 1.150324902
15 14 3.0 S.974060611 4.1 -1.874060611
Para evaluar la linealidad, en la figura 12.11 se grafican los residuos en oposición a la variable
independiente (tamaño de la tienda en miles de pies cuadrados). Aunque en la gráfica de residuos
hay una gran dispersión, no se observa un patrón claro o alguna relación entre los residuos y X;. Al
parecer, los residuos se distribuyen de manera uniforme por arriba y por debajo de O para distintos
valores de X Se concluye que el modelo lineal es adecuado para los datos de Suntlowers Apparel.
cuadrados de una ♦
tienda para los datos 0,5 t
♦ ♦
de Sunflowers o+ ♦ ♦
Apparel �
-6 -0.5 ➔-
•
♦
� ♦
+1·
♦
-1
-1.5
-2 !
-2,5 _¡ __________________ , ----· -------------•------- ---- -------' ---------
º 2 3 4 5 6 7
Square Feet
Normalidad Podemos evaluar el supuesto de nonnalidad en los errores organizando los residuos
en una distribución de frecuencias , como se observa en la tabla 12.3. No es posible construir un
histograma con significado, ya que el tamaño de muestra es muy pequeño, y con un tamaño de
muestra tan pequeño (n = 14) puede ser dificil evaluar el supuesto de nonnalidad utilizando un
diagrama de tallo y hoja (véase la sección 2.5), un diagrama de caja (véase la sección 3.3) o una
gráfica de probabilidad nonnal (véase la sección 6.3).
A partir de la gráfica de probabilidad nonnal de los residuos en la figura 12.12, los datos no
parecen alejarse de manera sustancial de una distribución nonna!. La robustez de un análisis de re-
gresión con desviaciones modestas de la nonnalidad nos pennite concluir que no debemos preocu-
pamos demasiado por las desviaciones de este supuesto de nonnalidad en los datos de Sunflowers
Appare!.
FIGURA 12 . 12
Gráficas de probabilidad normal en Excel y Minitab de los residuos para los datos de Sunflowers Apparel
Normal Probability Plot of the Residuals Normal Probability Plot
I.S (response is Annual Sales)
+ .. 99 !
O.S
• •
.. 95
90 ~
i
1
¡
•
-o.S 80 ~
70 ~ ••
·1
•
• • ~ tiO i •
-1.5
~ !~ 1I
••
o.
. ,
-2 .5
., -1.5 -1 -0.5 0.5 1.5 ::J I
Z Va lufI 5~
¡ •
1 i---4------------,------r--------.------.--
-2 -1 O 1 2
Residual
e.-••.'.-
Violación de
la igualdad
de varianzas
. ..
. ...
..
.. ..
..
"
... :.:.
-.
.-
.. .. : ... .....
. ..
.... .. . .........- -
.: .. : .... : : ....
o e '~L.!-~.l~...-~~ ___ _
.. .". -.:
••
....
• • " • es· - ••
. ......
-:":::.:
.......-.'
~------------------------x
1 x Res iduals 1 :
! 1 0.70 ! Residual Plot i lúe si los supuestos de regresión se violaron gravemente.
I -0.78 ,! ¡
1
1
4
1.03J
3.0
2.,5 -1
]
!
•
!.
¡
IílitU,¡;J 12.26 En el problema 12.4, que se encuentra en
f
1 5
0.33 1
2.39 j
. .• la página 441 , el gerente de marketing pronosticó
¡ -¡ las ventas semanales de alimento para mascotas con base en
.. • .
6 .0,67 1 2 .0
¡ 0.16 1 1.S -1 + el espacio de anaquel que se destina a ese producto. Realice
.
7
¡ -ffi ¡
.
1 8 1.65
un análisis de residuos para estos datos (almacenados en el
i 9
i 10
¡
·1.19 :
l ~
:J 1.0 '1
i+ r
. • archivo ¡¡ztU!ttO. Evalúe si los supuestos de regresión se
• •
0.84 ¡ (1J 0 .5
.. ..
¡ 11 0.29 i el: I violaron gravemente.
I U .1.28 ! 0 .0 1,
I :
¡ 13 1. 21 1 ~O.5 ~ • 12.27 En el problema 12.7 de la página 441, usted utilizó
! 14 ·0.37! !. .+ la abertura de la placa en el equipo de sellado de bolsas para
¡ 15 1.02 ! -1.0 i •
i estimar el índice de rompimiento de una bolsa de café. Rea-
! 16
17
·0.16
142
¡:
i -1.5 ~--... _---~-------~~--------~-- .. ------~~- ..... -_._-;
•
lice un análisis de residuos para estos datos (almacenados
! 18 .0.71i en el archivo Hffl!t!t!j!). Con base en esos resultados, eva-
¡l 2019 -0.63 :
0.67 o:Lo ___________
X
0_ _ _ _ _ _ _ _ _ _ _ _ _ _ • _ _ _ _ _ _ ' _ _ 0_ _ _ _ _ _ _ _ _ 0_ _ _ 0. _ _ _ _ _ _ _ _ _ , _ _ _ _ _ _ _ 0• • _0 _ _ _ 0_ _ _ 0_ _ _
i
J lúe si los supuestos de regresión se violaron gravemente.
12.28 En el problema 12.6, que se encuentra en la página
¿Hay alguna evidencia de un patrón en los residuos? Expli- 441, el dueño de una empresa de mudanzas quería estimar las
que su respuesta. horas de trabajo con base en la cantidad de pies cúbicos trasla-
dados. Realice un análisis de residuos para estos datos (almace-
12.24 Los siguientes resultados incluyen los valores de X, los
nados en el archivo i&ftf1hffi) y, con base en sus resultados,
residuos y una gráfica de residuos de un análisis de regresión.
evalúe si los supuestos de regresión se violaron gravemente.
I'x~ ' R~~¡d~a;~ ¡"""m'".......""''''"'.".".''~::;~:.~~.;~:.~''......."""""""'"1 12.29 En el problema 12.9 de la página 442, un agente de
una empresa de bienes raíces quería estimar la renta men-
i.
i 1.03 ¡ 2.0 1 ! sual de apartamentos con base en su tamaño. Realice un
!
¡I
,
I
54 0.33 !
.0.39
-0.67 :
,
1
'
1.5 '1,
1.0 ~,
I
•
!
:,
chivo =).
análisis de residuos para estos datos (almacenados en el ar-
Con base en esos resultados, evalúe si los su-
puestos de regresión se violaron gravemente.
I! 8
9
:~:!: ! ~
.1. 19 1 ~
0 .5 .!l .. . • .. ::"
ti 12.30 En el problema 12.8 de la página 441, usted utilizó
i 10 ·0.84 ¡ .~ 0 .0 i el rendimiento anual para pronosticar el valor de una fran-
I 11 ·0.2'J i a: ! ... .. quicia de béisbol. Realice un análisis de residuos para estos
I1 11~~ -1.28
·0.211
i -0.5 ~,
I
.. .. .. ..
•
.. 1
:,
datos (almacenados en el archivo i:l:IM%,liIfN"). Con base
i 14
I
.0.37 !
I
-1.0 1 en esos resultados, evalúe si los supuestos de regresión se
¡ 15 0,22 ¡ ¡ • • violaron gravemente.
I 16 .0.1 6 ! -1 .5 +--------------,-------------,-----------_.---,------------__ o,
!, 17 0.82¡
, o 5 10 15 20
'
12.31 En el problema 12.10 de la página 442, se utilizaron
¡I, i, !
f__ o_ ..._________ o________ o_______ o_. ______ o____.________ o____________ o___ o___________ o_!.,
x los datos sobre la recaudación en taquilla para pronosticar los
ingresos por las ventas de DVD. Realice un análisis de resi-
duos para estos datos (almacenados en el archivo t!fJP!').
¿Hay alguna evidencia de un patrón en los residuos? Expli- Con base en los resultados que obtenga, evalúe si los supuestos
que su respuesta. de regresión se violaron gravemente.
12.6 Medición de la autocorrelación. El estadístico de Durbin-Watson 453
TABLA 12.4
Semana Clientes Ventas (miles de$) Semana Clientes Ventas (miles de$)
Clientes y ventas
para un periodo 794 9.33 9 880 12.07
de 15 semanas 2 799 8.26 10 905 12.55
consecutivas 3 837 7.48 11 886 11.92
4 855 9.08 12 843 10.27
5 845 9.83 13 904 11.80
6 844 10.09 14 950 12.15
7 863 11.01 15 841 9.64
8 875 11.49
FIGURA 12.14
Resultados de regresión en Excel y Minitab para los datos del almacén de mensajería incluidos en la figura 12.14
,. --
�:;;r:_ ·•..:_·:-· _s _ _ _e , ·o ,- t:T. R·egression Analysis: Sales versus Customers
1 ,Package Oehvery Store Sales Analysis
The regressi.on equation i.s
2 -------- �Sales = - 16 .. O + O. 0308 Customers
3_ ; Regreu/011 stotistlcs
4 iMultiple R 0.8108
5 RSquare 0.6574 Predictor Coef SE C oef T p
6 ;AdjUSted R Square 0.6311 Constant -16. 032 5 .. 310 -3.02 0.010
7 i Standard Error 0.9360 CUstome rs o . 0307 60 0.006158 5 .. 00 O .000
8 :abservat,ons 15
9
10 'ANOVA
S = 0.936037 R-Sq = 65.H R-Sq{adj) = 63.H
11 !-¡ ------"-'fd ___=ss___M-"'S'--------'F_...:S"'-gJ ""nic..:f ci "'-anc.:.:c•"--F
12 'Regresslon 21.8604 21.8604 24.9501 0.0002 Analysis of v'.ariance
13 'Res1dl1al 13 11.3901 0.8762 Source DF SS MS F p
33.2.506 Regressi.on 1 21. 860 21. 86-0 24.95 0.000
-----------------------
14 ]Total 14
15 Residual Error 13 11. 390 0.876
16 �-----'G=º•=ffcc/c'=
'"=
's--'S'-"ta"-n"'dac..crdc..cE.c...rroc..c.r-'-'S
1 "-'ta"-t _P'---v lue w re P,:.c
-'-'- "'- .c.:95c..c9'__cu:.c
'-=a= =--=Lo P•ccr 9:..:;5'-'-,-¡ Total 14 33. 25,1
17 :intercept -16.0322 5.3102 -3.0192 0.0099 -27.5041 -4.5603
18 !customers 0.0308 0.0062 4.9950 0.0002 0.0175 0.0441 Durbin-Watson statistic = 0.883003
454 CAPÍTULO 12 Regresión lineal simple
En la figura 12.14 se observa que r 2 es 0.6574, lo que indica que 65.74% de la variación en
las ventas se explica por la variación en el número de clientes. Además, la intersección con el eje Y,
b0, es -16.0322, y la pendiente, b ¡ , es 0.0308. Sin embargo, antes de utilizar este modelo para
hacer pronósticos, es necesario llevar a cabo un análisis de residuos. Como los datos se reunieron
durante un periodo de 15 semanas consecutivas, además de verificar los supuestos de linealidad,
normalidad e igualdad de varianzas, es necesario investigar el supuesto de independencia de los
errores. Para ello, se grafican los residuos en oposición al tiempo de la figura 12.15 para examinar
si existe algún patrón. En la figura 12.15 se observa que los residuos tienden a fluctuar hacia
arriba y hacia abajo en un patrón cíclico. Este patrón cíclico es una causa importante de
preocupación por la posibilidad de que exista una autocorrelación en los residuos y, por lo tanto,
una violación en el supuesto de independencia de los errores.
en la tabla 12.4
-0.5
�
·l
-1.5
·2
-2.5
o 4 6 8 10 12 14 16
Semana
Estadístico de Durbin-Watson
El estadístico de Durbin-Watson se utiliza para medir la autocorrelación. Este estadístico mide la
correlación entre cada residuo y el del periodo anterior. El estadístico de Durbin- Watson se define
en la ecuación (12.15).
donde:
e; = residuo en el periodo i
n
En la ecuación ( 12.15) el numerador, � (e; - e;- 1 ) 2 , representa la diferencia al cuadrado
i=2
entre dos residuos sucesivos, sumada desde el segundo valor hasta el n-ésimo valor; por su parte, el
12.6 Medición de la autocorrelación. El estadístico de Durbin-Watson 455
n
denominador, 2:eT, representa la suma de los residuos al cuadrado. Esto significa que el valor del
i=1
estadístico de Durbin-Watson, D , se aproximará a O si los residuos sucesivos están autocorrelacio-
nado s de forma positiva. Si los residuos no están autocorrelacionados, el valor de D se acercará a 2.
(Si los residuos están autocorrelacionados de forma negativa, D será mayor que 2 e incluso podría
acercarse a su valor máximo de 4). Para los datos de la tienda de mensajería, el estadístico de Dur-
bin-Watson, D, es 0.8830. (Véase los resultados de Excel de la figura 12.16 a continuación o los
resultados de Minitab de la figura 12.14 en la página 453).
FIGURA 12.16
Hoja de cálculo de
Excel del estadístico 3 ISum of Squared Di fference of Residuals 10.0575 =SUMXMY2(RESIDUALS!E3:El6. RESIDUALS!E2:E15)
de Durbin-Watson
~i sum of Squared Res idu als 11.3901 =SUMSQ(RESIDUAlS!E2:El6)
para los datos de la
tienda de mensajería -IJ Durbin-Watson Statistic 0.88301 =B3/B4
Minitab reporta el
estadístico de Durbin-
Watson como parte de
sus resultados de
Es necesario determinar cuándo la autocorrelación es tan grande como para concluir que existe
regresión . Véase la
sección GM12.6 para una autocorrelación positiva significativa. Después de calcular D , se debe comparar con los valores
mayor información. críticos del estadístico de Durbin-Watson, que se encuentran en la tabla E.7, una parte de la cual se
presenta en la tabla 12.5. Los valores críticos dependen de a, el nivel de significancia elegido, n, el
tamaño de muestra, y k, el número de variables independientes en el modelo (en la regresión lineal
simple, k = 1).
TABLA 12.5
Cálculo de valores a = .05
críticos del
estadístico de
1k = 11 k=2 k=3 k=4 k=5
Durbin-Watson n dL du dL du dL du dL du
En la tabla 12.5 se muestran dos valores para cada combinación de a (nivel de significancia), n
(tamaño de muestra) y k (número de variables independientes en el modelo). El primer valor, dL' re-
presenta el valor crítico inferior. Si D está por debajo de dL' se puede concluir que existe evidencia de
una autocorrelación positiva entre los residuos. Si esto ocurre, el método de los mínimos cuadrados
utilizado en este capítulo sería inadecuado, y se tendrían que utilizar métodos alternativos (véase la
referencia 4). El segundo valor, d u' representa el valor crítico superior de D , por arriba del cual se
concluye que no existen evidencias de una autocorrelación positiva entre los residuos. Si D se en-
cuentra entre dL y d u' no es posible llegar a una conclusión definitiva.
Para los datos de la tienda de mensajería, con una variable independiente (k = 1) y 15 valores
(n = 15), dL = 1.08 Y d u = 1.36. Puesto que D = 0.8830 < 1.08, podemos concluir que existe una
autocorrelación positiva entre los residuos. El análisis de regresión de mínimos cuadrados de los
datos es inadecuado debido a la presencia de una correlación positiva significativa entre los resi-
duos. En otras palabras, el supuesto de independencia de los errores es inválido, y es necesario
utilizar métodos alternativos, los cuales se analizan en la referencia 4.
456 CAPÍTULO 12 Regresión lineal simple
a) Suponga que existe una relación lineal y utilice el mé- d) Calcule el estadístico de Durbin-Watson. Con un nivel de
todo de mínimos cuadrados para calcular los coeficientes significancia de 0.05, ¿existe evidencia de una autocorre-
de regresión, ba y b l· lación positiva entre los residuos?
b) Pronostique los costos de distribución mensuales del
almacén cuando el número de pedidos es de 4,500. Obser- Compactación Tiempo Obser- Compactación Tiempo
e) Grafique los residuos en oposición al periodo. vación (pulgadas) (segundos) vación (pulgadas) (segundos)
d) Calcule el estadístico de Durbin-Watson. Con un nivel de
1 0.20 14 13 0.50 18
significancia de 0.05 , ¿existe evidencia de una auto corre-
2 0.50 14 14 0.50 13
lación positiva entre los residuos?
3 0.50 18 15 0.35 19
e) Con base en los resultados de los incisos e) y d) , ¿hay
4 0.20 16 16 0.35 19
alguna razón para cuestionar la validez del modelo?
5 0.20 16 17 0.20 17
12.37 El café expreso recién preparado tiene tres compo- 6 0.50 13 18 0.20 18
nentes diferentes: el corazón, el cuerpo y la crema. La separa- 7 0.20 12 19 0.20 15
ción de esos tres componentes suele tomar únicamente de 10 8 0.35 15 20 0.20 16
a 20 segundos. Al utilizar una máquina de expreso para pre- 9 0.50 9 21 0.35 18
parar un café con leche, un capuchino u otra bebida, el ex- 10 0.35 15 22 0.35 16
preso se debe verter en la bebida durante la separación del 11 0.50 11 23 0.35 14
corazón, el cuerpo y la crema. Si el expreso se utiliza después 12 0.50 16 24 0.35 16
de que ocurre la separación, la bebida se vuelve excesiva-
mente amarga y ácida, lo que estropea el producto final. Por e) Con base en los resultados de los incisos e) y d), ¿hay
lo tanto, un mayor tiempo de separación proporciona al ca- alguna razón para cuestionar la validez del modelo?
marero más tiempo para verter el expreso y asegurarse de que
la bebida cubra las expectativas. Un empleado de una cafete- 12.38 Los propietarios de una cadena de tiendas de hela-
ría planteó la hipótesis de que cuanto más fuerte se compacte dos tienen el objetivo de negocios de mejorar el pronóstico
el molido del café en el portafiltro antes de prepararlo, más de las ventas diarias con la finalidad de disminuir al máximo
tiempo toma la separación. Se realizó un experímento con 24 los recortes de personal durante la temporada de verano.
observaciones para someter a prueba esta relación. La varia- Como punto de inicio, los propietarios deciden desarrollar
ble independiente Tamp mide la distancia, en pulgadas, entre un modelo de regresión lineal simple para estimar las ventas
el café compactado y la parte superior del portafiltro; es decir, diarias con base en la temperatura atmosférica. Ellos selec-
a mayor compactación, mayor distancia. La variable depen- cionan una muestra de 21 días consecutivos y almacenan los
diente Time es el número de segundos que tardan en sepa- resultados en el archivo Itb3111,,1. (Sugerencia: Determine
rarse del corazón, el cuerpo y la crema; es decir, el tiempo cuáles son las variables independiente y dependiente).
que transcurre desde que se prepara el expreso hasta que se a) Suponga que existe una relación lineal y utilice el mé-
utiliza para la bebida del cliente. Los datos, que están almace- todo de mínimos cuadrados para calcular los coeficientes
nados en el archivo L!H#h se presentan a la derecha. de regresión, ba y b l •
a) Utilice el método de mínimos cuadrados para desarrollar b) Pronostique las ventas para un día en el que la tempera-
una ecuación de regresión simple con Time como varia- tura es de 83 °F.
ble dependiente y Tamp como variable independiente. e) Grafique los residuos en oposición al periodo.
b) Pronostique el tiempo de separación para una distancia d) Calcule el estadístico de Durbin-Watson. Con un nivel de
de compactación de 0.50 pulgadas. significancia de 0.05, ¿existe evidencia de una autocorre-
e) Grafique los residuos en oposición al orden del tiempo de lación positiva entre los residuos?
experimentación. ¿Es evidente la existencia de algún e) Con base en los resultados de los incisos c) y d), ¿hay
patrón? alguna razón para cuestionar la validez del modelo?
(12.16)
donde:
n
SCX= ~(X; -X)2
i=1
Volvamos a la sección sobre Sunflowers Apparel, que se encuentra en la página 431. Para pro-
bar si existe una relación lineal significativa entre el tamaño de la tienda y las ventas anuales, con
un nivel de significancia de 0.05, remítase a los resultados de la prueba t que se presentan en la
figura 12.17.
1.6699 - O
10.6411
0.1569
Con un nivel de significancia de 0.05, el valor crítico de t con n - 2 = 12 grados de libertad es
2.1788. Debido a que tESTAD = 10.6411 > 2.1788, o debido a que el valor p es aproximadamente O,
que es menor que a = 0.05, se rechaza Ho (véase la figura 12.18). Por lo tanto, se concluye que
existe una relación lineal significativa entre las ventas medias anuales y el tamaño de la tienda.
12.7 Inferencias acerca de la pendiente y coeficiente de correlación 459
FIGURA 12.18
Prueba de una
hipótesis acerca
de la pendiente
poblacional con
un nivel de
significancia de
0.05 y 12 grados t -2 .1788 +2.1788 t
de libertad Región de Región de
rechazo rechazo
Valor Valor
crítico crítico
donde:
SCR
CMR= - = SCR
1
CME= SCE
n-2
El estadístico de prueba FESTAD tiene una distribución F con 1 y n - 2 grados de libertad.
En la tabla 12.6 está organizado el conjunto completo de resultados en una tabla de análisis de
varianza (ANOVA).
En la tabla 12.19, una tabla completa de ANOVA para los datos de las ventas en Sunflowers, se
observa que el estadístico de prueba FESTAD calculado es 113.2335 y que el valor p es aproximada-
mente O.
460 CAPÍTULO 12 Regresión lineal simple
FIGURA 12.19
Resultados de la prueba F en Excel y Minitab para los datos de Sunflowers Apparel
Con un nivel de significancia de 0.05, de la tabla E.5, el valor crítico de la distribución F, con
1 y 12 grados de libertad, es 4.75 (véase la figura 12.20). Debido a que F ESTA D = 113.2335 > 4.75 o
debido a que el valor p = 0.0000 < 0.05 , se rechaza Ho y se concluye que existe una relación lineal
significativa entre el tamaño de la tienda y las ventas anuales. Debido a que la prueba F en la ecua-
ción (12.17), que se encuentra en la página 459, es equivalente a la prueba t de la ecuación (12.16),
que está en la página 458, llegamos a la misma conclusión.
FIGURA 12.20
Regiones de rechazo
y no rechazo al
someter a prueba
la significancia de la
pendiente con un
nivel de significancia
de 0.05, y 1 Y 12
grados de libertad
Región de Valer Región de
n.o rechazo crítico rechazo
b, ± taj 2Sb ¡
(12.18)
donde:
Por consiguiente, con un nivel de confianza de 95%, se estima que la pendiente poblacional
se encuentra entre 1.3280 y 2.0118. Como ambos valores son mayores que O, se concluye que
existe una relación lineal significativa entre las ventas anuales y el tamaño de la tienda. Si el inter-
valo incluyera a O, se concluiría que no existe una relación significativa entre las variables. El in-
tervalo de confianza indica que, por cada incremento de 1,000 pies cuadrados, se estima que las
ventas anuales pronosticadas aumentarán al menos $1,328,000, pero no más de $2,011,800.
La ecuación (12.19) define el estadístico de prueba para determinar la existencia de una corre-
lación significativa.
tESTAD= gr-p
1- r
---
(12.19a)
n - 2
donde:
r= + W si b, > O
r = -W si b, < O
cov(X,Y)
r= (12.19b)
donde:
n
2: (X¡ - X)(Yi - y)
cov(X, Y) = _i =_'_ _ _ _ __
n-l
n
2: (X¡ - X)2
i='
n - 1
Sy =
n - 1
tESTAD = g r - O
1- r
n - 2
0.9509 - O
10.6411
11 - (0.9509)2
\j 14 - 2
Con un nivel de significancia de 0.05 , como tESTAD = 10.6411 > 2.1788, se rechaza la hipótesis nula.
Concluimos que existe una asociación significativa entre las ventas anuales y el tamaño de la
tienda. Este estadístico de prueba tESTAD es equivalente al estadístico de prueba tESTAD que se obtuvo
cuando se probó si la pendiente poblacional, f31' era igual a cero.
a) Con un nivel de significancia de 0.05, ¿existe evidencia a) Para cada una de las seis empresas interprete el valor beta.
de una relación lineal entre la abertura de la placa de b) ¿De qué manera podrían los inversionistas utilizar el va-
la máquina de sellado de bolsas y el índice de rotura de una lor beta como una guía para sus inversiones?
bolsa de café?
b) Construya un intervalo de confianza de 95% para la pen- Empresa Símbolo de las acciones Beta
diente poblacional, f3,. Procter & Gamble PG 0.52
AT&T T 0.59
12.46 En el problema 12.8 usted utilizó las utilidades
Disney DIS 1.19
anuales para estimar el valor de una franquicia de béisbol. 1.14
Apple AAPL
Los datos están almacenados en el archivo !:I:l¡J4U4,!lI}¿'¡U eBay EBAY 1.57
Utilice los resultados de ese problema. Ford F -0.24
a) Con un nivel de significancia de 0.05 , ¿existe evidencia Fuente: Datos extraídos de finance.yahoo.com , '9 de mayo de 20 ,1.
de una relación lineal entre las utilidades anuales y el
valor de la franquicia?
12.50 Los fondos de inversión son fondos mutuos que tra-
b) Construya un intervalo de confianza de 95% para la pen-
tan de imitar el movimiento de los principales índices, como
diente poblacional, f3,.
el S&P 500 o el Russell 2000. Por lo tanto, los valores beta
12.47 En el problema 12.9 un agente de una empresa de (descritos en el problema 12.49) para estos fondos son de
bienes raíces quería estimar la renta mensual de apartamentos aproximadamente 1.0 y los modelos de mercado estimados
basándose en el tamaño de los mismos. Los datos están al- para esos fondos son aproximadamente
macenados en el archivo • . Utilice los resultados de ese
problema. (cambio porcentual semanal en el fondo índice) =
a) Con un nivel de significancia de 0.05, ¿existe evidencia 0.0 + 1.0 (cambio porcentual semanal en el índice)
de una relación lineal entre el tamaño del apartamento y Los fondos de inversión apalancados están diseñados para
la renta mensual? aumentar el movimiento de los principales índices. Direxion
b) Construya un intervalo de confianza de 95% para la pen- Funds es uno de los principales proveedores de índices apa-
diente poblacional, f3, . lancados y de otros productos de fondos mutuos de clases
12.48 En el problema 12.10 usted utilizó los datos sobre la alternativas para consejeros de inversión e inversionistas so-
recaudación de taquilla para pronosticar los ingresos por las fisticados. En la siguiente tabla se observan dos de los fon-
ventas de DVD . Los datos están almacenados en el ar- dos de la empresa. (Datos extraídos de www.direxionfunds.
chivo !mm. Utilice los resultados de ese problema. com, 17 de mayo de 2011.)
a) Con un nivel de significancia de 0.05, ¿existe evidencia
de una relación lineal entre la recaudación neta de taqui- Nombre Súobolo de las acciones Descripción
lla y los ingresos por las ventas de DVD? Daily Small TNA 300% del índice
b) Construya un intervalo de confianza de 95% para la pen- Cap 3x Fund Russell 2000
diente poblacional, f3,. Daily India INDL 200% del índice
Bu1l2x Fund Indus India
12.49 La inestabilidad de una acción suele medirse por me-
dio de su valor beta. Para estimar el valor beta de una acción,
se crea un modelo de regresión lineal simple utilizando el Los modelos de mercado estimados para esos fondos son
cambio porcentual semanal en la acción como la variable de- aproximadamente:
pendiente y el cambio porcentual semanal en el índice del (cambio porcentual semanal en TNA) = 0.0 + 3.0
mercado como la variable independiente. Un índice muy uti- (cambio porcentual semanal en el Russell 2000)
lizado es el S&P 500. Por ejemplo, si quisiera estimar el valor (cambio porcentual semanal en INDL) = 0.0 + 2.0
beta de Disney, podría utilizar el siguiente modelo, que en (cambio porcentual semanal en el índice Indus India)
ocasiones se conoce como modelo de mercado: Por lo tanto, si el índice Russell 2000 gana 10% durante un
(cambio porcentual semanal en Disney) = f3 0 periodo, el fondo mutuo apalancado TNA gana aproximada-
mente 30%. En el aspecto negativo, si el mismo índice
+ f3, (cambio porcentual semanal en el índice S&P 500) + e
pierde 20%, TNA pierde aproximadamente 60%.
La estimación de regresión de mínimos cuadrados para la a) El objetivo del fondo Large Cap Bull 3x de Direxion
pendiente, bl' es el estimador del valor beta de Disney. Una Funds, BGU, es 300% del desempeño del índice Russell
acción con un valor beta de 1.0 tiende a variar lo mismo que 1000. ¿Cuál es el modelo de mercado aproximado?
el mercado total. Una acción con un valor beta de 1.5 tiende b) Si el índice Russell 1000, gana 10% en un año, ¿qué ren-
a variar 50% más que el mercado total, y una acción con un dimientos esperaría que tuviera el BGU?
valor beta de 0.6 tiende a variar solo 60% más que el mer- e) Si el índice Russell 1000 pierde 20 % en un año, ¿qué
cado total. Las acciones con valores beta negativos tienden rendimientos esperaría que tuviera el BGU?
a variar en dirección opuesta al mercado total. La siguiente d) ¿Qué tipo de inversionistas deberían sentirse atraídos por
tabla proporciona algunos valores beta para algunas accio- los fondos de índice apalancados? ¿Qué tipo de inversio-
nes con mucho movimiento el 19 de mayo de 2011: nistas deberían alejarse de estos fondos?
464 CAPÍTULO 12 Regresión lineal simple
12.51 El archivo rmm contiene datos sobre las calorías dos, las ganancias del primer fin de semana y las ganan-
y el azúcar, en gramos, en una porción de siete cereales para cias mundiales, y las ganancias en Estados Unidos y las
el desayuno. ganancias mundiales.
b) Con un nivel de significancia de 0.05, ¿existe una relación
Cereal Calorías Azúcar lineal significativa entre las ganancias del primer fin de se-
mana y las ganancias en Estados Unidos, las ganancias del
All Bran de Kellogg's 80 6
primer fin de semana y las ganancias mundiales, y las ga-
Com Flakes de Kellogg's lOO 2
nancias en Estados Unidos y las ganancias mundiales?
Wheaties 100 4
Organic Multigrane Flakes 110 4 12.53 El básquetbol universitario es un gran negocio, ya que
de Nature's Path los salarios de los entrenadores, las ganancias y los gastos se
Rice Krispies de Kellogg's 130 4 miden en millones de dólares. El archivo College Basketball
Shredded Wheat Vanilla 190 11 incluye información sobre el salario de los entrenadores y
Almond de Post las ganancias del básquetbol universitario en 60 de las 65
Mini Wheats de Kellogg's 200 10 escuelas que participaron en el torneo masculino de la
NCAA de 2009. (Datos extraídos de "Compensation for Di-
vision 1 Men's Basketball Coaches", USA Today 2 de abril
a) Calcule e interprete el coeficiente de correlación, r. de 2010, p . 8C; y C. Isadore, "Nothing but Net: Basketball
b) Con un nivel de significancia de 0.05 , ¿existe una rela-
Dollars by School", money.cnn.com/2010/03/18/news/
ción lineal significativa entre las calorías y el azúcar? companies/basketball-profits/).
12.52 Las empresas de filmación necesitan estimar las ga- a) Calcule e interprete el coefici ente de correlación, r.
nancias netas de una película individual una vez que esta se b) Con un nivel de significancia de 0.05 , ¿existe una rela-
ha estrenado. Los siguientes resultados (almacenados en el ción lineal significativa entre el salario de un entrenador
archivo i@UMMMtto corresponden a las ganancias del pri- y las ganancias?
mer fin de semana, las ganancias en Estados Unidos y las 12.54 A los jugadores de fútbol colegial que buscan ingresar
ganancias mundiales (en millones de $) de las seis películas a la NFL se les administra la prueba de inteligencia estandari-
de Harry Potter que se estrenaron entre 2001 y 2009:
zada Wonderlic. El archivo Mfflflm@lista las puntuaciones
promedio obtenidas en la prueba Wonderlic por los jugadores
Primer fin Ganancias en Ganancias de fútbol que buscan ingresar a la NFL y el índice de gradua-
Título de semana Estados Unidos mundiales
ción de los jugadores de las escuelas a las que asistieron. (Datos
La piedrafilosofal 90.295 31 7.558 976.458 extraídos de S. Walker, "The NFL's Smartest Team", The Wall
La cámara secreta 88.357 261.98 8 878.988 Street Journal, 30 de septiembre de 2005, pp. WI , WIO.)
El prisionero de 93.687 249.539 795 .539
Azkaban
a) Calcule e interprete el coeficiente de correlación, r.
El cáliz de fu ego 102.335 290.013 896.013 b) Con un nivel de significancia de 0.05, ¿existe una rela-
La orden del 77.108 292.005 938.469 ción lineal significativa entre la puntuación promedio ob-
Fénix tenida en la prueba Wonderlic de los jugadores que
El misterio del príncipe 77.836 301.460 934.601 buscan ingresar a la NFL y el índice de graduación de los
Fuente: Datos extraídos de www.the-numhers.com/interactive/
comp-Harry-Potter.php.
jugadores en escuelas seleccionadas?
e) ¿Qué concluye acerca de la relación entre la puntuación
promedio obtenida en la prueba Wonderlic de los jugado-
a) Calcule el coeficiente de correlación entre las ganancias res que buscan ingresar a la NFL y el índice de gradua-
del primer fin de semana y las ganancias en Estados Uni- ción de los jugadores en escuelas seleccionadas?
Y; ± fa¡2SYXVh;
(12.20)
donde:
h- = -1 + --
(X; -X
--)2
' n SCX
Y; = valor estimado de Y; Y; = b0 + b 1X;
Syx = error estándar de la estimación
n = tamaño de la muestra
x¡ = valor dado de X
µy¡x=X; = valor medio de Y cuando X= x¡
SCX= L (Xi - X)
i=l
2
El ancho del intervalo de confianza en la ecuación (12.20) depende de varios factores. Una
gran variación alrededor de la línea de predicción, medida por medio del error estándar de la esti
mación, produce un intervalo más ancho. Como se esperaría, un tamaño de muestra más grande
reduce el ancho del intervalo. Además, el ancho del intervalo varía con diferentes valores de X.
Cuando se estima Y para valores de X que son cercanos a X, el intervalo es más angosto que en las
estimaciones para valores X que se alejan de X.
En el ejemplo de Sunflowers Apparel suponga que desea construir una estimación del inter
valo de confianza de 95% de las ventas medias anuales para toda la población de tiendas que tienen
4,000 pies cuadrados de extensión (X= 4). Utilizando la ecuación de regresión lineal simple,
Y; = 0.9645 + l .6699X;
= 0.9645 + 1.6699(4) = 7.6439 (millones de dólares)
Asimismo, dado lo siguiente:
X = 2.9214 S rx = 0.9664
scx= L(x; - x) 2 =
17
37.9236
i=I
1 (4 - 2.9214) 2
= 7.6439 ± (2.1788)(0.9664) -+-----
14 37.9236
= 7.6439 ± 0.6728
466 CAPÍTULO 12 Regresión lineal simple
entonces:
6.9711 :::; ¡.L Y/X= 4 :::; 8.3167
Por lo tanto, la estimación del intervalo de confianza de 95% plantea que, para la población de tien-
das con 4,000 pies cuadrados, las ventas medias anuales están entre $6,971 ,100 y $8,316,700.
El intervalo de estimación
Además de construir un intervalo de confianza para el valor medio de Y, también se puede cons-
truir un intervalo de estimación para un valor individual de Y. Aunque la forma de este inter-
valo es similar a la de la estimación del intervalo de confianza de la ecuación (12.20), el valor de
estimación está pronosticando un valor individual, no estimando una media. La ecuación (12.21)
define el intervalo de estimación para una respuesta individual, Y, en un valor dado, Xi' de-
notado por Yx=X¡
donde:
YX=Xj = valor futuro de Y cuando X = X¡
ta / 2 = valor crítico correspondiente a una probabilidad de cola superior de a/ 2 de la
distribución t con n - 2 grados de libertad, es decir, un área acumulada de 1 - a/ 2.
Además, h¡, 'P¡, S YX, n, y X¡ se definen como la ecuación (12.20) de la página 465 .
Para construir un intervalo de estimación de 95% para las ventas anuales de una tienda indivi-
dual que tiene 4,000 pies cuadrados de extensión (X = 4), primero se calcula Y¡. Utilizando la línea
de predicción:
Y¡ = 0.9645 + 1.6699X¡
= 0.9645 + 1.6699(4)
= 7.6439 (millones de dólares)
X = 2.9214 S YX = 0.9664
n
Yi ± la/2S yX~
donde:
1 (X¡ - Xi
h=
I
-n + n
L(Xi - X )2
i= !
Problemas para la sección 12.8 467
de manera que
1 (X; -1')2
+ - + -'--------'---
n SCX
1 (4 - 2.9214)2
= 7.6439 ± (2.1788)(0.9664) +- + -'-------~-
14 37.9236
= 7.6439 ± 2.2104
entonces,
Por lo tanto, con una confianza de 95%, pronosticamos que las ventas anuales para una tienda indi-
vidual con 4,000 pies cuadrados de extensión están entre $5,433,500 y $9,854,300.
En la figura 12.21 se presentan los resultados para la estimación del intervalo de confianza y el
intervalo de estimación para los datos de Sunflowers Apparel. Si se comparan los resultados de la
estimación del intervalo de confianza con los del intervalo de estimación, se observa que el ancho
del intervalo de estimación para una tienda individual es mucho mayor que la estimación del inter-
valo de confianza para la media. Es importante recordar que hay mucho más variación al pronosti-
car un valor individual que al estimar un valor medio.
FIGURA 12.21
Resultados de la estimación del intervalo de confianza y del intervalo de estimación en Excel y Minitab para los
datos de Sunflowers Apparel
Predicted. Values. for New ObseI'lo'ations
New Obs fU SE Fí t 95~ el 95~ PI
1 7.644 0 .309 (6.971 , 8.317) (5.433 , 9.854)
~
14 ! h Statlstlc 0.1021 =1/88 + (84 - 811)"21812
01'~'l!P""<ed""ict"'
': ed'-'VJ..CVH"'.,"--_ _ _---'------'7"".64=39 =TREN D(SLRData!B2:B15. SlRD1fla!A2:A 15, 84)
16:
hi ; ForAver eY
ti~"llnterval HalfWidth 0.6728 =9 10· BU • SQRT(B14)
t~'~ ~Confidence Intervallower Umit 6.9711 =815 - 918
r~''c ;F
, C c""n'='de""o"'=o.,,,,,n,,,,,e<V8:.:::'-,,,u""e,,-,'l""'m,,,,"_...L.-----"8.~31=67 =815 + B18
a) Construya una estimación del intervalo de confianza de 95% a) Construya una estimación del intervalo de confianza de
para la respuesta media poblacional en el caso de X = 2. 95% de la respuesta media poblacional para X = 4.
b) Construya un intervalo de estimación de 95% de una res- b) Construya un intervalo de estimación de 95% de una res-
puesta individual para X = 2. puesta individual para X = 4.
468 CAPÍTULO 12 Regresión lineal simple
e) Compare los resultados de los incisos a) y b) con los de número de pies cúbicos trasladados. Los datos están alma-
los incisos a) y b) del problema 12.55. ¿Cuáles intervalos cenados en el archivo ~.
son más anchos? Explique su respuesta. a) Construya una estimación del intervalo de confianza de
95% de las horas promedio de trabajo para todos los tras-
APLICACiÓN DE CONCEPTOS lados de 500 pies cúbicos.
12.57 En el problema 12.5 usted utilizó la calificación su- b) Construya un intervalo de estimación de 95% de las ho-
mada de un restaurante para estimar el costo de una comida. ras de trabajo para un traslado individual de más de 500
Los datos están almacenados en el archivo @fi#iIll!.1ffl. Para pies cúbicos.
esos datos, SyX = 9.5505 Y h¡ = 0.026844 cuando X = 50. e) ¿Por qué el intervalo en el inciso a) es más angosto que
a) Construya una estimación del intervalo de confianza de el intervalo en el inciso b)?
95% del costo medio de una comida para restaurantes
12.61 En el problema 12.9 un agente de una empresa de
con una calificación total de 50.
bienes raÍCes quería estimar la renta mensual de apartamen-
b) Construya un intervalo de estimación de 95% del costo
tos basándose en su tamaño. Los datos están almacenados
de una comida para un restaurante individual que tiene
en el archivo • .
una calificación total de 50.
a) Construya una estimación del intervalo de confianza de
e) Explique la diferencia en los resultados de los incisos a) y b).
95% para la renta media mensual de todos los apartamen-
~k:rf.J 12.58 En el problema 12.4 el gerente de marke- tos que tienen 1,000 pies cuadrados de extensión.
. .• ting utilizó el espacio de anaquel que se dedica al b) Construya un intervalo de estimación de 95% para la
alimento de mascotas para pronosticar las ventas semanales. renta mensual de un apartamento individual que tiene
Los datos están almacenados en el archivo !mm!. Para 1,000 pies cuadrados de extensión.
esos datos, Syx= 30.81 y h¡ = 0.1373 cuandoX = 8. e) Explique la diferencia en los resultados de los íncisos a) y b).
a) Construya una estimación del intervalo de confianza de
12.62 En el problema 12.8 usted pronosticó el valor de una
95% de las ventas medias semanales para todas las tien-
franquicia de béisbol con base en las ganancias actuales. Los
das que dedican 8 pies de espacio del anaquel al alimento
datos están almacenados en el archivo BBBRevenue2011
para mascotas.
a) Construya una estimación del intervalo de confianza de
b) Construya un intervalo de estimación de 95% de las ven-
95% para el valor medio de todas las franquicias de béis-
tas semanales de una tienda individual que dedica 8 pies
bol que generan ganancias anuales de $150 millones.
de espacio del anaquel al alimento para mascotas.
b) Construya un intervalo de estimación de 95% para el
e) Explique la diferencia en los resultados de los incisos a) y b).
valor de una franquicia de béisbol individual que genera
12.59 En el problema 12.7 usted utilizó la abertura de la ganancias anuales de $150 millones.
placa en el equipo de sellado de bolsas para estimar el ín- e) Explique la diferencia en los resultados de los incisos a) y b).
dice de rotura de una bolsa de café. Los datos están almace-
12.63 En el problema 12.10 usted utilizó los datos de la recau-
nados en el archivo @ffl!Mtf!.
dación bruta de taquilla para estimar los ingresos por las ventas
a) Construya una estimación del intervalo de confianza de
de DVD. Los datos están almacenados en el archivo [B. La
95% del índice medio de rotura para todas las bolsas de café
empresa está por poner a la venta un DVD de una película que
cuando la abertura de la placa es O.
tuvo una recaudación neta de taquilla de $75 millones.
b) Construya un intervalo de estimación de 95% del Índice
a) ¿Cuáles son los ingresos que se pronostican por las ven-
de rotura para una bolsa individual de café cuando la
tas del DVD?
abertura de la placa es O.
b) ¿Qué intervalo es más útil en este caso, la estimación del
e) ¿Por qué el intervalo en el inciso a) es más angosto que
intervalo de confianza de la media o el intervalo de estima-
el intervalo en el inciso b)?
ción de una respuesta individual? Explique su respuesta.
12.60 En el problema 12.6 el dueño de una empresa de e) Construya e interprete el intervalo que seleccionó en el
mudanzas quería estimar las horas de trabajo con base en el inciso b) .
La gran disponibilidad de las hojas de cálculo y las aplicaciones estadísticas han hecho que en
la actualidad el análisis de regresión sea mucho más accesible que en el pasado. Sin embargo, mu-
chos usuarios con acceso a este tipo de aplicaciones no saben cuándo es pertinente utilizar el análi-
sis de regresión. Es de esperar que una persona que no está familiarizada con los supuestos de la
regresión ignore cómo evaluarlos; también es muy probable que no sepa cuáles son las alternativas
a la regresión de mínimos cuadrados si se viola un supuesto en particular.
Los datos de la tabla 12.7 (almacenados en el archivo fJ.ti4.l.mij) ilustra la importancia de utilizar
diagramas de dispersión y análisis residuales para ir más allá del manejo numérico básico del cál-
culo de la intersección con el eje y, la pendiente y r 2 .
Anscombe (referencia 1) demostró que los cuatro conjuntos de datos incluidos en la tabla 12.7
tienen los siguientes resultados idénticos:
Yi = 3.0 + 0.5X¡
SYX = 1.237
Sb¡ = 0.118
2
r = 0.667
n
SCR= Variación explicada = ~(Yi - y)2 = 27.51
¡= I
n
Si el análisis se detuviera en este punto, no podríamos observar las diferencias importantes que
existen entre estos cuatro conjuntos de datos.
A partir de los diagramas de dispersión de la figura 12.22 y las gráficas de residuos de la figura
12.23 , que se encuentran en la página 470, se aprecia lo diferentes que son los conjuntos de datos.
Cada uno tiene una relación diferente entre X y Y. El único conjunto de datos que parece tener
aproximadamente una línea recta es el conjunto de datos A. La gráfica de residuos para el conjunto
de datos A no revela ningún patrón evidente ni residuos extremos. Esto no ocurre con los conjuntos de
datos B, C y D. El diagrama de dispersión del conjunto de datos B indica que sería más adecuado
utilizar un modelo de regresión curvilíneo. Esta conclusión es reforzada por la gráfica residual del
conjunto de datos B. El diagrama de dispersión y la gráfica de residuos del conjunto de datos C
muestran claramente una observación extrema. En este caso un método consiste en eliminar el
valor extremo y volver a estimar el modelo de regresión (véase la referencia 4). El diagrama de dis-
persión para el conjunto de datos D representa una situación en la que el modelo es muy depen-
diente del resultado de un solo dato (X8 = 19 Y Y8 = 12.50). Cualquier modelo de regresión con esta
característica debe utilizarse de manera cautelosa.
470 CAPÍTULO 12 Regresión lineal simple
FIGURA 12.22
Diagramas de dispersión para cuatro conjuntos de datos
y y y y
10
... 10
..... 10 10
5 5 5
...... ..- 5
X X '----t----'-----I----i X
~ __ ~ ____ ~ __ ~ __ ~X
5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20
Gráfica A Gráfica B Gráfica e Gráfica D
FIGURA 12.23
Gráficas de residuos para cuatro conjuntos de datos
Residual Residual
+4 +4
+3 +3
Residual Residual
+2 +2 +2 +2
•
+1 • +1 • •• +1 +1
•
O .. O O
••
• .• O •
••
-1
•
•
-1 • -1 •
•
-1
.•
-2 X -2 X -2 X -2 X
5 10 15 20 5 10 15 20 5 10 15 20 5 10 15 20
Gráfica A Gráfica B Gráfica e Gráfica D
En resumen, los diagramas de dispersión y las gráficas de residuos son de vital importancia
para un análisis de regresión completo. La información que proporcionan es fundamental para un
análisis digno de crédito que estos métodos gráficos siempre se deben incluir como parte de un análi-
sis de regresión. Por lo tanto, una estrategia que resulta útil para evitar los errores de la regresión es
la siguiente:
1. Empiece con un diagrama de dispersión para observar la posible relación entre X y Y
2. Verifique los supuestos de la regresión (linealidad, independencia, normalidad, igualdad de
varianzas) realizando un análisis residual que incluya:
a) Graficar los residuos en oposición a la variable independiente para determinar si el modelo
lineal es adecuado y verificar la igualdad de varianzas.
b) Construir un histograma, un diagrama de tallo y hoja, un diagrama de caja o una gráfica de
probabilidad normal de los residuos para verificar la normalidad.
e) Graficar los residuos en oposición al tiempo para verificar la independencia. (Este paso
solo es necesario si los datos se reunieron a lo largo del tiempo).
3. Si se violan los supuestos, utilice métodos alternativos a la regresión de mínimos cuadrados o
modelos de mínimos cuadrados alternativos (véase la referencia 4).
4. Si no se violan los supuestos, realice pruebas para la significancia de los coeficientes de regre-
sión y construya intervalos de confianza y de estimación.
5. Evite hacer estimaciones y pronósticos fuera del rango relevante de la variable independiente.
USO DE LA ESTADÍSTICA En Sunflowers Apparel , Revisión 471
6. No olvide que las relaciones identificadas en los estudios observacionales pueden deberse o no
a relaciones de causa y efecto. Recuerde que, aunque la causalidad implica correlación, esta
última no implica causalidad.
E
n la sección inicial acerca de Sunflowers Apparel, supusimos
que usted era el director de planeación de una cadena de tien-
das de ropa de lujo para dama. Hasta ahora los gerentes de
Sunflowers seleccionaban las ubicaciones con base en factores
como la disponibilidad de un local en renta o la opinión subjetiva de que
el lugar parecía ser adecuado para una tienda. Con la finalidad de tomar deci-
Dmitriy Shi ronosov/Shutterstock.com siones más objetivas, usted desarrolló un modelo de regresión para anali-
zar la relación entre el tamaño de una tienda y sus ventas anuales . El modelo indicó que
aprOximadamente 90.4% de la variación en las ventas se explicaba por el tamaño de la tienda.
Además, se estimó que por cada aumento de 1,000 pies cuadrados, las ventas medi as anuales au-
mentaban en $1.67 millones. Ahora usted podrá utilizar su modelo para tomar mejores decisiones
cuando seleccione nuevas ubicaciones para las tiendas, así como para pronosticar las ventas de las
tiendas existentes.
472 CAPÍTULO 12 Regresión lineal simple
RESUMEN
Como se observa en el diagrama de flujo de la figura predicción y la prueba para la significancia de la pen-
12.24, en este capítulo se desarrolla el modelo de regresión diente. En el capítulo 13 el análisis de regresión se exten-
lineal simple, y se analizan los supuestos y la manera de derá a situaciones en las que se utiliza más de una variable
evaluarlos. Una vez que se está seguro de que el modelo es independiente para pronosticar el valor de una variable de-
adecuado, se pueden estimar valores utilizando la línea de pendiente.
FIGURA 12.24
Regresión y correlación
Diagrama para lineal simple
la regresión lineal
simple
Regresión Correlación
Coeficiente de
Análisis de regresión correlación, r
de mínimos cuadrados
Prueba de Ho:
p=O
Diagrama de dispersión
Línea de predicción
Graficación de
residuos a lo Sí
largo del tiempo
Calcular el
No
estadístico de
Durbin-Watson
Análisis residual
Prueba de Ho:
~1 =O
(ver supuestos)
No Si
ECUACIONES CLAVE
Modelo de regresión lineal simple Fórmula para el cálculo de SCR
n
(12.1)
SCR = 2:(Y i - f)2
i=\
Estadístico de Durbin-Watson
Suma de cuadrados de regresión (SCR)
n
SSR = Variación explicada o suma de cuadrados 2: (ei - ei_d 2
de regresión D = _i=_2_ _ _ __ (12.15)
n
n
= L(Yi - y)2 (12.7) 2: er
i=\
i=\
Suma de cuadrados del error (SCE)
Prueba de hipótesis para una pendiente poblacional, /3.,
SCE = Variación no explicada o suma de cuadrados
utilizando la prueba t
del error
n
~
~(Yi
A
- Yi)
2
(12.8) (12.16)
i=\
Prueba de la existencia de una correlación Intervalo de estimación para una respuesta individual, Y
tESTAD = Fzr-p
1- r
(12.19a) Y¡ ± ta/2SyX~
Y¡ ± ta /2S YX ~
TÉRMINOS CLAVE
análisis de regresión 432 igualdad de varianzas 448 suma de cuadrados de regresión
análisis residual 449 independencia de los errores 448 (SCR) 443
autocorrelación 453 intersección con el eje Y 443 suma de cuadrados del error
coeficiente de correlación 461 intervalo de estimación para una (SCE) 443
coeficiente de determinación 444 respuesta individual, Y 466 suma de cuadrados total (SCT) 443
coeficientes de regresión 435 línea de predicción 435 supuestos de la regresión 448
diagrama de dispersión 432 linealidad 448 variable de respuesta 432
ecuación de regresión lineal método de mínimos cuadrados 435 variable dependiente 432
simple 435 normalidad 448 variable explicatoria 432
error estándar de la estimación 446 pendiente 433 variable independiente 432
estadístico de Durbin-Watson 454 rango relevante 437 variación explicada 443
estimación del intervalo de confianza relación lineal 432 variación no explicada 443
para la respuesta media 464 regresión lineal simple 432 variación total 443
homocedasticidad 448 residuo 449
asignaban un O. Si en el periodo entre las clases el estudiante a) Utilice el método de mínimos cuadrados para calcular
visitaba el sitio de Internet en una o más ocasiones, a ese pe- los coeficientes de regresión, bo y b l'
riodo le asignaban un l. Como había un total de 13 periodos b) Interprete el significado de bo y b l en este problema.
entre clases, la puntuación en la consistencia de los clics que e) Pronostique el tiempo de entrega para 150 cajas de be-
daba un estudiante iba de Oa 13. bida gaseosa.
Las otras tres variables incluían la puntuación promedio d) ¿Se debe utilizar el modelo para pronosticar el tiempo de
en el curso, el promedio de puntuación acumulado (PPA) y entrega con un cliente que recibe 500 cajas de bebida ga-
el número total de los clics que dio el estudiante en el sitio seosa? Explique su respuesta.
de Internet que apoyaba el curso. En la siguiente tabla se e) Calcule el coeficiente de determinación, r 2 , y explique su
presenta el coeficiente de correlación para todos los pares significado en este problema.
de variables. Observe que las correlaciones marcadas con f) Realice un análisis de residuos. ¿Existe alguna evidencia
un * son estadísticamente significativas, con Q' = 0.001: de un patrón en los residuos? Explique su respuesta.
g) Con un nivel de significancia de 0.05, ¿existe evidencia
Variable de una relación lineal entre el tiempo de entrega y el nú-
Correlación
mero de cajas entregadas?
Promedio en el curso, Promedio acumulado 0.72* h) Construya una estimación del intervalo de confianza de
Promedio en el curso, Total de clics 0.08 95% para el tiempo medio de entrega de 150 cajas de be-
Promedio en el curso, Consistencia de los clics 0.37* bida gaseosa y un intervalo de estimación de 95% para el
Promedio acumulado, Total de clics 0.12 tiempo de entrega de una sola entrega de 150 cajas de
Promedio acumulado, Consistencia de los clics 0.32* bebida gaseosa.
Clics totales y Consistencia de los clics 0.64* 12.75 Medir la altura de un pino californiano es una tarea
Fuente: Datos extraídos de D. Baugher, A. Varanelli y E. Weisbord,
"Student Hits in an Internet. Supported Course: How Can Instructors
muy dificil debido a que esos árboles alcanzan alturas de más
Use Them and What Do They Mean?", Decision Sciences Journa/ of de 300 pies. Quienes están familiarizados con estos árboles
Innnovative Education, 1 (otoño de 2003), 159-179. saben que la altura de un pino californiano se relaciona con
otras de sus características, entre las que se incluye el diáme-
a) ¿Qué concluye a partir de este análisis de correlación? tro de su tronco a la altura del pecho de una persona. Los da-
b) ¿Le sorprenden los resultados o coinciden con sus pro- tos en el archivo !¡mM:.!.!.! representan la altura (en pies) y el
pias observaciones y experiencias? diámetro del tronco (en pulgadas) de una muestra de 21 pinos
californianos a la altura del pecho de una persona.
12.74 Los directivos de una empresa embotelladora de be- a) Suponiendo una relación lineal, utilice el método de mí-
bidas gaseosas tienen como objetivo de negocios desarrollar nimos cuadrados para calcular los coeficientes de regre-
un método para distribuir los costos de entrega entre los clien- sión, bo y b l • Establezca la ecuación de regresión que
tes. Aunque uno de los costos se relaciona claramente con el estima la altura de un árbol con base en el diámetro de su
tiempo de traslado dentro de una ruta particular, otro costo tronco a la altura del pecho de una persona.
variable refleja el tiempo requerido para descargar las cajas b) Interprete el significado de la pendiente en esta ecuación.
de bebida gaseosa en el punto de entrega. Para empezar, los e) Pronostique la altura de un árbol cuyo tronco tiene un diá-
directivos decidieron desarrollar un modelo de regresión que metro de 25 pulgadas a la altura del pecho de una persona.
permita estimar el tiempo de entrega con base en el número d) Interprete el significado del coeficiente de determinación
de cajas entregadas. Se seleccionó una muestra de 20 entregas en este problema.
dentro de un territorio. Los tiempos de entrega y el número de e) Realice un análisis de residuos sobre los resultados y de-
cajas entregadas están organizados en la siguiente tabla (y al- termine qué tan adecuado es el modelo.
macenados en el archivo !.1j1llq;5): f) Determine si existe una relación significativa entre la al-
tura de los pinos californianos y el diámetro de su tronco
Número Tiempo de Número Tiempo de a la altura del pecho de una persona, con un nivel de sig-
de entrega de entrega nificancia de 0.05.
Cliente casos (minutos) Cliente casos (minutos) g) Construya una estimación del intervalo de confianza de
95% de la pendiente poblacional entre la altura de los pi-
52 32.1 11 161 43.0 nos y el diámetro a la altura del pecho de una persona.
2 64 34.8 12 184 49.4
3 73 36.2 13 202 57.2 12.76 Usted desea desarrollar un modelo para estimar el
4 85 37.8 14 218 56.8 precio de venta de viviendas con base en un avalúo. Se selec-
5 95 37.8 15 243 60.6 cionó una muestra de 30 casas para una sola familia, vendidas
6 103 39.7 16 254 61.2 recientemente en una pequeña ciudad, para estudiar la rela-
7 116 38.5 17 267 58.2 ción entre el precio de venta (en miles de dólares) y el avalúo
8 121 41.9 18 275 63.1 (en miles de dólares). Un año antes del estudio, las casas se
9 143 44.2 19 287 65.6
revaluaron a su valor completo. Los resultados se encuentran
10 157 47.1 20 298 67.3
en el archivo m!!!II. (Sugerencia: Primero determine cuáles
son las variables independiente y dependiente).
476 CAPÍTULO 12 Regresión lineal simple
a) Construya un diagrama de dispersión y, suponiendo una e) Realice un análisis de residuos con sus resultados y eva-
relación lineal, utilice el método de mínimos cuadrados lúe los supuestos de la regresión.
para calcular los coeficientes de regresión, b o y b l' f) Con un nivel de significancia de 0.05, ¿existe evidencia
b) Interprete el significado de la intersección con el eje Y, de una relación lineal entre la puntuación en el examen
bo' y de la pendiente, bl' en este problema. GMAT y el PPA?
e) Utilice la línea de predicción creada en el inciso a) para g) Construya una estimación del intervalo de confianza de
pronosticar el precio de venta de una casa con un avalúo 95 % para el PPA de los estudiantes que obtuvieron una
de $170,000. calificación de 600 en el examen GMAT y un intervalo
d) Calcule el coeficiente de determinación, r 2 , e interprete de estimación de 95% del PPA para un estudiante especí-
su significado en este problema. fico con una calificación de 600 en el examen GMAT.
e) Realice un análisis de residuos con sus resultados y eva-
h) Construya una estimación del intervalo de confianza de
95% de la pendiente poblacional.
lúe los supuestos de la regresión.
/) Con un nivel de significancia de 0.05, ¿existe evidencia de 12.79 El contador de una gran tienda departamental tiene
una relación lineal entre el precio de venta y el avalúo? el objetivo de negocios de desarrollar un modelo para esti-
g) Construya una estimación del intervalo de confianza de mar la cantidad de tiempo que toma el procesamiento de las
95% para la pendiente poblacional. facturas. Se reúnen datos de los últimos 32 días laborales, y
el número de facturas procesadas y el tiempo de procesa-
12.77 Usted quiere desarrollar un modelo para estimar el
miento (en horas) se almacenan en el archivo lBIJ. (Su-
valor del avalúo de viviendas con base en el área que cuenta
gerencia : Primero determine cuáles son las variables
con calefacción. Se selecciona una muestra de 15 casas para independiente y dependiente).
una sola familia en una ciudad. El valor del avalúo (en miles
a) Suponiendo una relación lineal, utilice el método de mí-
de dólares) y el área con calefacción de las casas (en miles de nimos cuadrados para calcular los coeficientes de regre-
pies cuadrados) están registrados y almacenados en el ar- sión, b o y b l •
chivo m.hiil (Sugerencia: Primero determine cuáles son b) Interprete el significado de la intersección con el eje Y,
las variables independiente y dependiente). b o' y de la pendiente, b p en este problema.
a) Construya un diagrama de dispersión y, suponiendo una e) Utilice la línea de predicción creada en el inciso a) para
relación lineal, utilice el método de mínimos cuadrados pronosticar la cantidad de tiempo que se requeriría
para calcular los coeficientes de regresión, bo y b l ' para procesar 150 facturas .
b) Interprete el significado de la intersección con el eje Y, d) Calcule el coeficiente de determinación, r 2 , e interprete
bo' y de la pendiente, bl' en este problema. su significado en este problema.
e) Utilice la línea de predicción creada en el inciso a) para e) Grafique los residuos en oposición al número de facturas
pronosticar el valor del avalúo de una casa que tiene un procesadas y también en oposición al tiempo.
área de 1,750 pies cuadrados con calefacción. f) Con base en las gráficas del inciso e), ¿parece que el mo-
d) Calcule el coeficiente de determinación, r 2 , e interprete delo es adecuado?
su significado en este problema. g) Con base en los resultados obtenidos en los incisos e) y
e) Realice un análisis de residuos con sus resultados y eva- j), ¿qué concluye acerca de la validez del pronóstico rea-
lúe los supuestos de la regresión. lizado en el inciso e)?
f) Con un nivel de significancia de 0.05, ¿existe evidencia 12.80 El 28 de enero de 1986 la nave espacial Challenger
de una relación lineal entre el valor del avalúo y el área explotó y murieron siete astronautas. Antes del lanzamiento,
con calefacción? la temperatura atmosférica pronosticada indicaba un clima
12.78 El director de estudios de posgrado de una gran uni- de congelamiento en el lugar en el que se realizaría. Los in-
versidad de negocios tiene el objetivo de estimar el prome- genieros de Morton Thiokol (el fabricante del motor turbo)
dio de puntuación acumulado (PPA) de los estudiantes en un prepararon gráficas para demostrar que el lanzamiento no
programa de maestría en administración. El director co- debería llevarse a cabo en un clima tan frío . Estos argumen-
tos se pasaron por alto y se procedió al trágico lanzamiento.
mienza utilizando la puntuación en el examen Graduate Ma-
Gracias a investigaciones realizadas después de la tragedia,
nagement Admission Test (GMAT). Selecciona una muestra
los expertos coincidieron en que el desastre se debió a fugas
de 20 estudiantes que completaron dos años en el programa
en los anillos selladores, los cuales no cerraron adecuada-
y almacena los datos en el archivo (MMMU mente debido a la baja temperatura. Los datos que indican la
a) Construya un diagrama de dispersión y, suponiendo una
temperatura atmosférica registrada cuando se realizaron
relación lineal, utilice el método de mínimos cuadrados los 23 anteriores lanzamientos y el índice de daño de los
para calcular los coeficientes de regresión, b o y b l • anillos selladores están almacenados en el archivo r:JmJ.
b) Interprete el significado de la intersección con el eje Y,
Nota: Los datos del vuelo 4 se omitieron porque se desconocen las
bo' y de la pendiente, bl' en este problema. condiciones de los anillos selladores.
e) Utilice la línea de predicción creada en el inciso a) para
pronosticar el PPA de un estudiante con una calificación Fuentes: Datos extraídos de Report ofthe Presidential Commission on
the Space Shuttle Challenger Accident, Washington D.C., 1986, Vol.
de 600 en la prueba GMAT. 11 (HI-H3); Y Vol. IV (664), Y Post Challenger Evaluation ofSpace
d) Calcule el coeficiente de determinación, r 2 , e interprete Shuttle Risk Assessment and Man agement, Washington D.C. , 1988,
su significado en este problema. pp. 135-136.
Problemas de repaso del capítulo 477
a) Construya un diagrama de dispersión para los siete vue- j) Los 30 equipos constituyen una población. Para utilizar
los en los que hubo daño en los anillos selladores (índice la inferencia estadística, como se hizo en los incisos!)
de daño en los anillos selladores # O) . ¿Qué concluye a i) , se debe suponer que los datos representan una mues-
acerca de la relación entre la temperatura atmosférica y el tra aleatoria. ¿Acerca de qué "población" se estarían sa-
daño en los anillos selladores, si acaso hubiera alguna? cando conclusiones a partir de esta muestra?
b) Construya un diagrama de dispersión para los 23 vuelos. k) ¿Qué otras variables independientes podría considerar
e) Explique cualquier diferencia en la interpretación de la para incluir en el modelo?
relación entre la temperatura atmosférica y el daño en los
12.82 ¿Podría utilizar los ingresos anuales generados por
anillos selladores en los incisos a) y b) .
las franquicias de la National Basketball Association (NBA)
d) Con base en el diagrama de dispersión del inciso b) des-
para estimar los valores de franquicias? En la figura 2.15 de
criba las razones por las que no es posible hacer un pro-
la página 55 se observa un diagrama de dispersión de los
nóstico para una temperatura atmosférica de 31 °F, igual a
ingresos con el valor de la franquicia, mientras que en la fi-
la que había la mañana en que se lanzó el Challenger.
gura 3.10 de la página 125 se presenta el coeficiente de co-
e) Aun cuando existe la posibilidad de que el supuesto de
rrelación. Ahora usted quiere desarrollar un modelo de
una relación lineal no sea válido para el conjunto de 23
regresión lineal simple para estimar los valores de las fran-
vuelos, ajuste un modelo de regresión lineal simple para
quicias con base en los ingresos. (La información sobre los
estimar el daño de los anillos selladores con base en la
valores y los ingresos de la franquicia están almacenados en
temperatura atmosférica.
el archivo W:hl1!!t!f1).
f) Incluya la línea de predicción calculada en el inciso e) en
a) Suponiendo una relación lineal, utilice el método de mÍ-
el diagrama de dispersión creado en el inciso b).
nimos cuadrados para calcular los coeficientes de regre-
g) Con base en los resultados del inciso f), ¿cree que un modelo
sión, bo y b,.
lineal sería adecuado para esos datos? Explique su respuesta.
b) Interprete el significado de la intersección con el eje Y,
h) Realice un análisis de residuos. ¿Qué conclusiones plantea?
bo' y de la pendiente, bl' en este problema.
e) Realice un pronóstico del valor de una franquicia de la
12.81 Un analista de béisbol desea estudiar diversos datos
estadísticos de los equipos de la temporada 2010 de béisbol NBA para generar ingresos anuales de $150 millones.
d) Calcule el coeficiente de determinación, r 2 , e interprete
con la finalidad de determinar cuáles variables podrían ser
útiles para estimar el número de triunfos logrados por los su significado.
e) Realice un análisis de residuos con sus resultados y eva-
equipos durante la temporada. Comienza por utilizar el pro-
medio de carreras limpias (ERA, por las siglas de earned lúe los supuestos de la regresión.
f) Con un nivel de significancia de 0.05 , ¿existe evidencia
run average ), una medida del desempeño de picheo, para
pronosticar el número de triunfos. Después reúne los ERA y de una relación lineal entre los ingresos anuales genera-
los triunfos por equipo para cada uno de los 30 equipos de dos y el valor de una franquicia de la NBA?
g) Construya una estimación del intervalo de confianza de
béisbol de las Ligas Mayores y almacena esos datos en el
archivo i:!:fNt.l. (Sugerencia: Primero determine cuáles son 95% del valor medio de todas las franquicias de la NBA
las variables independiente y dependiente). para generar ganancias anuales de $150 millones.
h) Construya un intervalo de estimación de 95% del valor
a) Suponiendo una relación lineal, utilice el método de mÍ-
nimos cuadrados para calcular los coeficientes de regre- de una franquicia individual de la NBA para generar in-
sión, bo y b,. gresos anuales de $150 millones.
i) Compare los resultados de los incisos a) a h) con los de
b) Interprete el significado de la intersección con el eje Y,
las franquicias de béisbol de los problemas 12.8, 12.20,
bo' y de la pendiente, bl' en este problema.
e) Utilice la línea de predicción creada en el inciso a) con la
12.30, 12.46 Y 12.62, así como con los de los equipos de
finalidad de pronosticar el número de triunfos para un fútbol soccer europeos del problema 12.83.
equipo con un ERA de 4.50. 12.83 En el problema 12.82 se utilizaron los datos sobre
d) Calcule el coeficiente de determinación, r 2 , e interprete los ingresos anuales para desarrollar un modelo que permita
su significado en este problema. estimar el valor de la franquicia de los equipos de la Natio-
e) Realice un análisis de residuos con sus resultados y de- nal Basketball Association (NBA). ¿También podría utilizar
termine qué tan adecuado es el ajuste del modelo. los ingresos anuales generados por los equipos de fútbol
f) Con un nivel de significancia de 0.05, ¿existe evidencia de soccer europeos para pronosticar los valores de las franqui-
una relación lineal entre el número de triunfos y el ERA? cias? (La información sobre los valores y los ingresos de los
g) Construya una estimación del intervalo de confianza de equipos de fútbol soccer europeos están almacenados en el
95% del número medio de triunfos esperados para los archivo ).
equipos con un ERA de 4.50. a) Repita los incisos a) a h) del problema 12.82 para los
h) Construya un intervalo de estimación de 95% del nú- equipos de fútbol europeos.
mero de triunfos para un equipo individual que tiene un b) Compare los resultados del inciso a) con los de las fran-
ERA de 4.50. quicias de béisbol de los problemas 12.8, 12.20, 12.30,
i) Construya una estimación del intervalo de confianza de 12.46 y 12.62, así como con los de las franquicias de la
95% de la pendiente poblacional. NBA del problema 12.82.
478 CAPÍTULO 12 Regresión lineal simple
12.84 Durante la temporada de cosecha de otoño, en Esta- b) Suponiendo una relación lineal, utilice el método de mí-
dos Unidos, las calabazas se venden en grandes cantidades en nimos cuadrados para calcular los coeficientes de regre-
puestos ubicados en las granjas. Con frecuencia, en lugar de sión b o y hl'
pesar las calabazas antes de venderlas, el vendedor solo co- e) Interprete el significado de la intersección con el eje Y,
loca la calabaza en el hueco circular de corte sobre la caja re- bo' y de la pendiente, b¡, en este problema.
gistradora. Cuando se le preguntó a un granjero por qué hacía d) Calcule el coeficiente de determinación, r 2 , e interprete
esto, contestó: "Puedo conocer el peso de la calabaza a partir su significado.
de su circunferencia". Para determinar si esto es verdad, se e) Realice un análisis de residuos con sus resultados y de-
midió la circunferencia y se pesó una muestra de 23 calaba- termine qué tan adecuado es el ajuste del modelo.
zas, y los resultados se almacenaron en el archivo iQI!"IW. f) Con un nivel de significancia de 0.05 , ¿existe evidencia
a) Suponiendo una relación lineal, utilice el método de mí- de una relación lineal entre la variable independiente y la
nimos cuadrados para calcular los coeficientes de regre- variable dependiente?
sión, bo y b l . g) Construya una estimación del intervalo de confianza de
b) Interprete el significado de la pendiente, bl' en este pro- 95% de la pendiente poblacional e interprete su significado.
blema.
12.86 Para los datos del problema 12.85, repita del inciso
e) Realice un pronóstico del peso de una calabaza que tiene
a) al g) utilizando la edad como variable independiente.
una circunferencia de 60 centímetros.
d) ¿Cree que es buena idea que el granjero venda las calaba- 12.87 Para los datos del problema 12.85, repita los incisos
zas por su circunferencia y no por su peso? Explique su a) al g) utilizando Bach como variable independiente.
respuesta. 12.88 Para los datos del problema 12.85, repita los incisos
e) Calcule el coeficiente de determinación, r 2 , e interprete a) al g) utilizando Univ como variable independiente.
su significado.
f) Realice un análisis de residuos para estos datos y evalúe 12.89 Para los datos del problema 12.85, repita los incisos
los supuestos de la regresión.
a) al g) utilizando Crecimiento como variable indepen-
g) Con un nivel de significancia de 0.05 , ¿existe evidencia diente.
de una relación lineal entre la circunferencia y el peso de 12.90 El archivo CEO-Compensation incluye la remunera-
una calabaza? ción total (en $) de los directores generales de 161 empresas
h) Construya una estimación del intervalo de confianza de públicas grandes y su rentabilidad durante 2010.
95% de la pendiente poblacional , f3 1• Fuente: Datos extraídos de M. Krantz y B. Hansen, "CEO Pay Soars
While Workers' Pay Stalls", USA Today, l de abril de 2011 , pp. lB,
12.85 ¿La información demográfica es útil para estimar 2B Y money.usatoday.com.
las ventas en tiendas de productos deportivos? El ar-
chivo tl·f.I,@ contiene información sobre las ventas men- a) Calcule el coeficiente de correlación entre la remunera-
suales totales de una muestra aleatoria de 38 tiendas de una ción y la rentabilidad en 2010.
gran cadena nacional de tiendas de productos deportivos . b) Con un nivel de significancia de 0.05, ¿la correlación en-
Todas las tiendas de la franquicia y, por lo tanto, dentro de tre la remuneración y la rentabilidad en 2010 es estadísti-
la muestra, tienen aproximadamente el mismo tamaño y camente significativa?
venden la misma mercancía. El país o, en algunos casos, los e) Escriba un breve resumen de sus hallazgos en los incisos
países en los que la tienda obtiene la mayoría de sus clientes a) y b) . ¿Le sorprenden los resultados?
se denomina aquí base de clientes. Para cada una de las 38 12.91 Remítase al análisis sobre los valores beta y los mo-
tiendas se presenta información demográfica acerca de la delos de mercado en el problema 12.49 de la página 463. El
base de clientes. Los datos son reales, pero por solicitud de Índice S&P 500 hace un seguimiento del movimiento general
la empresa no se precisa el nombre de la franquicia. El con- del mercado de valores considerando los precios accionarios
junto de datos contiene las siguientes variables : de 500 grandes corporaciones. El archivo Bt't@btttfHi.¡
Ventas: Ventas totales (en dólares) del último mes contiene datos semanales de 20 l O para las acciones S&P 500
Edad: Edad mediana de la base de clientes (en años) y tres empresas. Se incluyen las siguientes variables:
Bach: Porcentaje de la base de clientes con certificado Semana: La semana que finaliza en la fecha dada
de bachillerato S&P: Valor de cierre semanal para el Índice S&P 500
Univ: Porcentaje de la base de clientes con título univer- GE: Precio de cierre semanal de las acciones de GE
sitario DISCA: Precio de cierre semanal de las acciones de Dis-
Crecimiento: Tasa de crecimiento poblacional anual de la covery Communications
base de cl ientes durante los últimos 10 años GOOG: Precio de cierre semanal de las acciones de Google
Ingreso: Ingreso mediano familiar de la base de clientes
Fuente: Datos extraídos de finance.yahoo.com , 20 de mayo de 2011 .
(en dólares)
a) Construya un diagrama de dispersión utilizando las ven- a) Estime el modelo de mercado para GE. (Sugerencia: Utilice
tas como variable dependiente y el ingreso mediano fa- el cambio de porcentaje en el Índice S&P 500 como varia-
miliar como variable independiente. Analice el diagrama ble independiente y el cambio de porcentaje en el precio
de dispersión. de las acciones de GE como variable dependiente).
Caso digital 479
ADMINISTRACiÓN DE ASHLAND
MULTICOMM SERVICES
Para asegurarse de que la mayor cantidad de suscripciones en WLlEJ) sobre el número de nuevas suscripciones y las
de prueba posibles al servicio 3-For-All se conviertan en horas dedicadas cada mes al telemarketing durante los últi-
suscripciones regulares, el departamento de marketing tra- mos dos años.
baja en coordinación con el departamento de apoyo al
cliente con la finalidad de lograr un proceso inicial sin difi- EJERCICIOS
cultades para los clientes con suscripción de prueba. Para 1. ¿Qué críticas podría hacer respecto al método de pronós-
ayudar en esta tarea, el departamento de marketing necesita tico que implica tomar los datos de nuevas suscripciones
pronosticar con precisión el total mensual de nuevas sus- de los tres meses anteriores como base para las proyec-
cripciones regulares. ciones futuras?
Se reunió un equipo de gerentes de los departamentos 2. ¿Qué factores, además del número de horas de telemar-
de marketing y de apoyo al cliente con la finalidad de desa- keting, podrían ser útiles para estimar el número de nue-
rrollar un mejor método para pronosticar nuevas suscripcio- vas suscripciones? Explique su respuesta.
nes. Anteriormente, después de examinar los datos de las 3. a) Con base en el número de horas dedicadas al telemar-
nuevas suscripciones durante los tres meses previos, un keting para las nuevas suscripciones, analice los datos
grupo de tres gerentes realizaba un pronóstico subjetivo del y desarrolle un modelo de regresión que permita esti-
número de nuevas suscripciones. Livia Salvador, quien fue mar el número de nuevas suscripciones para un mes.
contratada recientemente por la empresa para compartir su h) Si usted espera dedicar 1,200 horas al mes al telemar-
experiencia en métodos cuantitativos de pronóstico, sugirió keting, estime el número de nuevas suscripciones para
que el departamento debía buscar factores que pudieran el mes. Indique los supuestos en que se basa esta esti-
ayudar a estimar las nuevas suscripciones. mación. ¿Cree que esos supuestos son válidos? Expli-
Los miembros del equipo encontraron que los pronósti- que su respuesta.
cos del año anterior habían sido especialmente imprecisos e) ¿Cuál sería el peligro de pronosticar el número de
debido a que en ciertos meses se dedicó más tiempo al tele- nuevas suscripciones para un mes en el que se dedica-
marketing que en otros . Livia reunió datos (almacenados ron 2,000 horas al telemarketing?
CASO DIGITAL
Aplique sus conocimientos acerca de la regresión lineal Abra Triangle_ Sunflower.pdf y revise la propuesta de
simple en este Caso digital, que es una continuación de la los agentes de bienes raíces, así como los documentos de res-
sección de este capítulo sobre el Uso de la estadística en paldo. Después responda las siguientes preguntas:
Sunjlowers Apparel.
1. ¿Se deben utilizar los ingresos medios disponibles para
Agentes de bienes raíces de Triangle Mall Management pronosticar las ventas con base en la muestra de 14 tien-
Corporation sugirieron a Sunflowers que considere varios das Sunflowers?
locales en algunos centros comerciales de Triangle recién 2. ¿La administración de Sunflowers debe aceptar las afir-
renovados, dirigidos a compradores que disponen de ingre- maciones de los agentes de Triangle? Explique su res-
sos más altos que el promedio. Aunque los locales son puesta.
más pequeños que los que suele utilizar Sunflowers, los 3. ¿Es posible que el ingreso medio disponible del área
agentes de bienes raíces argumentan que los ingresos dispo- circunvecina no sea un factor tan importante para rentar
nibles más altos que el promedio en la comunidad circunve- nuevos locales? Explique su respuesta.
cina predicen mejor un alto nivel de ventas que el tamaño de 4. ¿Existen algunos otros factores que no mencionaron los
la tienda. Los agentes aseguran que los datos muestrales agentes de bienes raíces, pero que podrían ser relevan-
de 14 tiendas Sunflowers demuestran que esto es verdad. tes para la decisión de renta de la tienda?
480 CAPÍTULO 12 Regresión lineal simple
REFERENCIAS
l. Anscombe, F. J., "Graphs and Statistical Analysis", The 4 . Kutner, M. H., C. J. Nachtsheim, J. Neter y W. Li,
American Statistician, 27 (1973), 17-2l. Applied Linear Statistical Models, McGraw-Hill/Irwin,
2. Hoaglin, D. C. y R. Welsch, "The Hat Matrix in Regres- 5a ed., Nueva York, 2005.
sion and ANOVA", The American Statistician, 32 5. Microsoft Excel2010. Microsoft Corp., Redmond, WA,
(1978), 17-22. 2010.
3. Hocking, R. R., "Developments in Linear Regression 6. Minitab Release 16. Minitab lnc., State College, PA,
Methodology: 1959-1982", Technometrics. 25 (1983), 2010.
219-250.
Guía del capítulo 12 para Excel 481
GE12.4 SUPUESTOS
Excel no cuenta con instrucciones para esta sección.
Excel en profundidad Utilice la hoja de cálculo DUR- 6. Marque Confidence Int. Est. & Prediction Int. for
BIN_WATSON del libro Simple Linear Regression, que X = Y escriba 4 en el cuadro. Escriba 95 como el por-
es similar a la hoja de cálculo que se presenta en la figura centaje para Confidence level for intervals.
12.16 de la página 455, como plantilla para calcular el esta- 7. Escriba un título en Title y haga clic en OK.
dístico de Durbin-Watson. La hoja calcula el estadístico
La hoja de cálculo adicional creada se describe en las
para el modelo de regresión lineal simple de la entrega de
siguientes instrucciones de Excel en profundidad.
paquetes. En la celda B3 la hoja de cálculo utiliza la expre-
sión SUMXMY2(cell range ofthe second through last re- Excel en profundidad Utilice la hoja de cálculo CIEan-
sidual, cell range of the first through second-to-last dPI del libro Simple Linear Regression, que se presenta
residual) para calcular la suma de la diferencia al cuadrado en la figura 12.21 de la página 467, como plantilla para calcu-
de los residuos, el numerador en la ecuación (12.15) de la lar la estimación de intervalos de confianza e intervalos de
página 454, y la celda B4 utiliza SUMSQ(cell range ofthe estimación. La hoja de cálculo contiene los datos y las fórmu-
residuals) para calcular la suma de los residuos al cuadrado, las para los ejemplos de la sección 12.8 que utilizan los datos
el denominador en la ecuación (12.1 5). de Sunflowers Apparel de la tabla 12. 1. La hoja de cálculo
Para calcular el estadístico de Durbin-Watson en otros utiliza la expresión TINV(l -level of confidence, degrees
problemas, debe comenzar por crear el modelo de regresión offreedom) para calcular el valor crítico t en la celda B 1OY
lineal simple y la hoja de trabajo RESIDUALS para ellos la expresión TREND(Yvariable cell range, X variable cell
utilizando las instrucciones de las secciones GE 12.2 Y range, X value) para calcular el valor estimado de Y para el
GEl2.5. Luego abra la hoja de cálculo DURBIN_ WATSON valor X en la celda B 15. En la celda B 12 la expresión
y edite las fórmulas en las celdas B3 y B4 para señalar el DEVSQ(X variable cell range) calcule el valor SCx, que se
rango de celdas adecuado de los nuevos residuos. utiliza, a la vez, para obtener el estadístico h.
Para calcular una estimación del intervalo de confianza
y un intervalo de estimación para otros problemas:
GE12.7 INFERENCIAS SOBRE LA
PENDIENTE Y EL COEFICIENTE 1. Pegue los datos de regresión en la hoja de cálculo SL-
DE CORRELACiÓN RData. Utilice la columna A para los datos de la varia-
ble X y la columna B para los datos de la variable Y.
La prueba t para la pendiente y la prueba F para la pendiente 2. Abra la hoja de cálculo CIEandPI.
están incluidas en la hoja de cálculo creada para utilizar las
instrucciones de la sección GE 12.2. Los cálculos de la En la hoja de cálculo CIEandPI:
prueba t en las hojas de cálculo creadas por medio de las 3. Cambie los valores para X Value y Confidence Level
instrucciones de PHStat2 y Excel en profundidad se descri- según sea necesario.
ben en la sección GEI2 .2 . Los cálculos de la prueba F se 4. Edite los rangos de celdas utilizados en la fórmula de la
describen en la sección GEl2.3. celda B 15 que utiliza la función TREND para referirse
a los nuevos rangos de celdas para las variables Y y X
Minitab no cuenta con instrucciones para esta sección. En el cuadro de diálogo Regression-Results (que no se
muestra):
F~~;:~~~::~;l
j r" r:uoo·W"tson st.!\tisbC r C!6tb ~tlr!g l'
: r PRESS and Pf~ R-squM1! f
¡l .
Pr~tion 1I'\~1'¡a!~ W
.
l"!eW obseVlilJOl'!S:
!
J
1 1-,- - - - - - - - - - I
l----:~~-==_=~~~:~=~:-J
4. Haga clic en Regular (en Residuals for Plots) y en In-
dividual Plots (en Residual Plots).
5. Marque Histograms of residuals , Normal plot of resi-
duals, Residuals versus fits y Residuals versus order
y luego presione Tab. Para crear un diagrama de dispersión que contenga una
6. Haga doble clic en C2 Square Feet en la lista de varia- línea de predicción y una ecuación de regresión similares a
bles para agregar 'Square Feet' al cuadro Residuals las de la figura 12.5 , utilice las instrucciones para el dia-
versus the variables. grama de dispersión de la sección GM2.6 con los datos de
7. Haga clic en OK. Sunflowers Apparel de la tabla 12.1.
i -----.J
! - II
I1
GM12.4 SUPUESTOS
¡ _~..~ Cancel !I
L-..,-----,------.--,----=========:::::.::.======.:::0 Minitab no cuenta con instrucciones para esta sección.
Guía del capítulo 12 para Minitab 485
GM12.5 ANÁLISIS RESIDUAL Watson statistic (en el cuadro de diálogo Regression- .!I',