Está en la página 1de 77

Estadstica para Administracin

4a Edicin
Captulo 12
Regresin Lineal Simple

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-1

Objetivos de Aprendizaje
En este captulo, usted aprender:
Como usar el anlisis de regresin para predecir los
valores de una variable de respuesta con base en una
variable independiente (o explicativa)
El significado de los coeficientes de regresin b0 y b1
Como evaluar los supuestos de regresin y saber qu
hacer cuando alguno de los supuestos es violado
Probar hiptesis sobre la pendiente y el coeficiente de
correlacin
Estimar el valor medio de respuesta y predecir los
valores individuales de respuesta
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-2

Correlacin vs. Regresin


Un diagrama de dispersin se usa para mostrar
el tipo de relacin entre dos variables
El anlisis de Correlacin se usa para medir la
fuerza de asociacin (asociacin lineal) entre
dos variables
La correlacin crece o decrece a medida que la
fuerza de asociacin (lineal) de las dos variables
crece o decrece

Una alta correlacin no implica una relacin de


causa efecto entre las dos variables relacionadas
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-3

Introduccin al
Anlisis de Regresin
El anlisis de Regresin se usa para:
Predecir el valor de una variable dependiente o de
respuesta, basado en el valor de al menos una
variable independiente o explicativa
Explicar el impacto que tienen los cambios de una
variable explicativa o independiente sobre la variable
de respuesta o dependiente

Variable Dependiente o de respuesta: la variable


que se quiere explicar o predecir
Variable Independiente o explicativa: La variable
usada para explicar la variable dependiente
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-4

Modelo de Regresin Lineal


Simple
Tiene solo una variable independiente X
La relacin entre Y y X es descrita por
una funcin lineal
Se asume que los cambios en Y son
causados por los cambios en X

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-5

Tipos de relacin entre Y y X


Relacin lineal

Relacin curvilnea

X
Y

X
Y

X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

X
Chap 12-6

Tipos de relacin entre Y y X


(continuacin)
Relacin fuerte

Relacin dbil

X
Y

X
Y

X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

X
Chap 12-7

Tipos de relacin entre Y y X


(continuacin)
Sin relacin
Y

X
Y

X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-8

Modelo de Regresin Lineal


Simple

Variable de
Respuesta

Coeficiente
poblacional
de la
pendiente

Intercepto
poblacional
con Y

Variable
explicativa

Trmino
de error
aleatorio

Yi 0 1Xi i
Componentes lineales

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Componente de error
aleatorio

Chap 12-9

Modelo de Regresin Lineal


Simple
(continuacin)

Yi 0 1Xi i

Valor observado
de Y para Xi

i
Valor
pronosticado
de Y para Xi

Pendiente = 1
Error aleatorio para
este valor de Xi

Intercepto =
0

Xi
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

X
Chap 12-10

Ecuacin de Regresin Lineal


simple (Lnea de prediccin)
La ecuacin de regresin lineal simple provee una
estimacin de la lnea de regresin poblacional
Valor
estimado (o
pronosticado)
de Y para la
observacin i

Estimacin
del intercepto
de la
regresin

Estimacin de la
pendiente de
regresin

Yi b0 b1Xi

Valor de X
para la
observacin i

Los valores individuales de los trminos de error


aleatorios ei tienen promedio cero
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-11

Mtodo de Mnimos Cuadrados


b0 y b1 se obtienen encontrando los valores
de b0 y b1 que minimizan la suma de los
cuadrados de las diferencias entre Y y Y :
2
2

min (Yi Yi ) min (Yi (b0 b1Xi ))

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-12

Clculo de la ecuacin de
Mnimos Cuadrados
Los coeficientes b0 y b1 , y otros
resultados en este captulo, pueden ser
hallados usando Excel u otro software
estadstico
Las frmulas se presentan en el texto gua
para consulta de los interesados

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-13

Interpretacin de la Pendiente y del


Intercepto
b0 es la estimacin del valor promedio
de Y cuando el valor de X es cero
b1 es la estimacin de el cambio en el
valor promedio de Y como resultado
de el cambio de una unidad en el valor
de X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-14

Ejemplo de una Regresin


Lineal simple
Un corredor de bienes races desea examinar la
relacin entre el precio de venta de las casas y su
tamao (medido en ft)
Se selecciona una muestra aleatoria de 10 casas
Variable de Respuesta (Y) = precio de las
casas en US$1000s
Variable explicativa (X) = ft

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-15

Datos muestrales para el modelo del


precio de las casas
Precio de las casas en
US$1000s
(Y)

Tamao de las casas ft


(X)

245

1400

312

1600

279

1700

308

1875

199

1100

219

1550

405

2350

324

2450

319

1425

255

1700

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-16

Grfico de Dispersin

Precio casas ($1000s)

Modelo para el precio de las


casas: diagrama de dispersin
450
400
350
300
250
200
150
100
50
0
0

500

1000

1500

2000

2500

3000

ft

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-17

Herramientas para el modelo


mediante Excel
Herramientas / Analisis de Datos / Regresin

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-18

Salidas de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

La ecuacin de regresin es:


precio casa 98.24833 0.10977 (ft)

41.33032

Observations

10

ANOVA
df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients

Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-19

Grfico del modelo


Modelo del precio de las casas: diagrama
de dispersin y lnea de regresin
Precio casas ($1000s)

450

Intercepto
= 98.248

400
350
300

Pendiente
= 0.10977

250
200
150
100
50
0
0

500

1000

1500

2000

2500

3000

ft

precio casas 98.24833 0.10977 (ft)


Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-20

Interpretacin del intercepto, b0


precio casa 98.24833 0.10977 (ft)
b0 es el valor medio estimado de Y cuando X
vale cero (Si X = 0 est en el rango de valores
observados de X)
En este caso, no hay casas con un rea de cero ft,
entonces b0 = 98.24833 solo indica que, para casas
dentro del rango de tamao observado, $98,248.33
es la porcin del precio de las casas que no es
explicada por el tamao de las mismas en ft
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-21

Interpretacin de la pendiente, b1
precio casa 98.24833 0.10977 (ft)

b1 mide la estimacin del cambio en el


valor medio de Y como resultado del
cambio de una unidad en el valor de X
Aqu, b1 = .10977 nos dice que el valor medio de una
casa se incrementa por 0.10977($1000) = $109.77,
en promedio, por cada ft adicional de tamao de la
casa
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-22

Predicciones mediante la
ecuacin de regresin
El precio pronosticado para el valor de una
casa con un tamao de 2000 ft:

precio casa 98.25 0.1098 (ft)


98.25 0.1098(2000)
317.85
El precio pronosticado para una casa con
un rea de 2000 ft es 317.85($1,000s) =
$317,850
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-23

Interpolacin vs. Extrapolacin


Cuando se usa un modelo de regresin para pronosticar, los
pronsticos relevantes son solamente aquellos dentro del rango de
valores observados para los datos
Rango relevante
para interpolacin

Precio casa ($1000s)

450
400
350
300
250
200

No es aconsejable extrapolar
los resultados por fuera de los
valores observados de las Xs

150
100
50
0
0

500

1000

1500

2000

2500

3000

ft
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-24

Medidas de Variacin en el modelo de


Regresin
La variacin total se subdivide en 2 partes:

SST

SSR

Suma de
cuadrados totales

Suma de cuadrados
de la regresin

SST ( Yi Y)2

Y)2
SSR ( Y
i

SSE
Suma de cuadrados
del error

)2
SSE ( Yi Y
i

donde:

= Valor medio de la variable de respuesta

Yi = Valor observado de la variable de respuesta


Y i = Valor pronosticado de Y para un valor de Xi dado
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-25

Medidas de variacin en el modelo


de regresin
(continuacin)
SST = suma de cuadrados totales

Mide la variacin de los valores observados Yi


alrededor de su media Y
SSR = suma de cuadrados de la regresin
Variacin explicada o atribuida a la relacin entre
XyY
SSE = suma de cuadrados de los errores
Variacin atribuible a otros factores diferentes a la
relacin lineal entre X y Y

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-26

Medidas de Variacin
(continuacin)

Y
Yi

SSE = (Yi - Yi )2

SST = (Yi - Y)2


_
SSR = (Yi - Y)2

_
Y

Xi
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

_
Y

X
Chap 12-27

Coeficiente de Determinacin, r2
El coeficiente de determinacin es la porcin
del total de la variacin en la variable de
respuesta que es explicada por la variacin en
la variable independiente
Este coeficiente tambin es llamado:
r cuadrado y se denota por r2
SSR suma de cuadrados de la regresin
r

SST
suma de cuadrados totales
2

Note que:

0 r 1

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-28

Ejemplos de valores
aproximados de r2
Y
r2 = 1

r2 = 1

El 100% de la variacin en Y
es explicada por la variacin
en X

r2

=1

Relacin lineal perfecta entre


Y y X:

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-29

Ejemplos de valores
aproximados de r2
Y
0 < r2 < 1

Relacin lineal ms dbil


entre X y Y:
No toda la variacin de Y
es explicada por la
variacin de X

X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-30

Ejemplos de valores
aproximados de r2
r2 = 0

No existe relacin lineal


entre X y Y:

r2 = 0

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Los valores de Y no
dependen de X. (La
variacin de Y NO es
explicada por la variacin
de X)
Chap 12-31

Salidas de Excel
SSR 18934.9348
r

0.58082
SST 32600.5000
2

Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

58.08% de la variacin en los


precios de las casas es explicada
por la variacin en el tamao de
las casas medido en ft

41.33032

Observations

10

ANOVA
df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-32

Error estndar de la estimacin


La desviacin estndar de la variacin de las
observaciones alrededor de la lnea de
regresin es estimada por
n

S YX

SSE

n2

(
Y

Y
)
i i
i1

n2

Donde

SSE = suma de cuadrados del error


n = tamao de la muestra

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-33

Salida de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

SYX 41.33032

41.33032

Observations

10

ANOVA
df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-34

Interpretacin de los errores estndar


SYX es una medida de la variacin de los
valores observados de Y con respecto a la
lnea de regresin
Y
Y

sYX pequeo

sYX grande

La magnitud de SYX debe ser comparada con el rango de los


valores observados de Y en los datos de la muestra de forma
relativa a la lnea de regresin
Por ejemplo, SYX = $41.33K es moderadamente pequeo en
relacin a los precios de las casas en el rango de $200 - $300K
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-35

Supuestos de la regresin
Linealidad
La relacin fundamental entre X y Y debe ser lineal

Independencia de los Errores


Los valores de los Errores son estadsticamente independientes

Normalidad de los Errores


Los valores de los Errores () estan normalmente distribuidos
para cualquier valor dado de X

Igualdad de la Varianza (Homoscedasticidad)


La distribucin de probabilidad de los errores tiene varianza
constante

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-36

Anlisis de los Residuales

ei Yi Y
i

Los residuales para la observacin i, ei, es la


diferencia entre los valores observados y los
pronosticados
Chequee las suposiciones de la regresin examinando
los residuales (o errores del modelo)

Examine la suposicin de linealidad


Evalue la suposicin de independencia de los errores
Evalue la suposicin de distribucin normal de los errores
Examine La homogeneidad de la varianza para todos los
niveles de X (homoscedasticidad de los errores)

Anlisis grfico de los Residuales


Graficando los residuales vs. los valores observados de X
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-37

Anlisis de Linealidad de los


residuales
Y

No lineal
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

residuales

residuales

Lineal
Chap 12-38

Anlisis grfico de
Independencia de los errores

residuales
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Independencia

X
residuales

residuales

No hay independencia

Chap 12-39

Anlisis grfico de Normalidad de


los residuales
Un grfico de probabilidad Normal de los
residuales puede ser usado para chequear el
supuesto de normalidad:
% 100

0
-3

-2

-1

Residuales
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-40

Anlisis grfico de los residuales


para la homoscedasticidad
Y

x
No hay homogeneidad

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

residuales

residuales

Hay homogeneidad
Chap 12-41

Salidas de excel para los residuales


SALIDA DE RESIDUALES

Grafico de residuales para el modelo de


precio de las casas

Residuales

251.92316

-6.923162

80

273.87671

38.12329

60

284.85348

-5.853484

40

304.06284

3.937162

218.99284

-19.99284

268.38832

-49.38832

356.20251

48.79749

-40

367.17929

-43.17929

-60

254.6674

64.33264

10

284.85348

-29.85348

Residuales

Precio casa
pronosticado

20
0
-20 0

1000

2000

3000

ft

Los residuales parecen no violar alguno de


los supuestos de regresin
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-42

Medicin de la Autocorrelacin:
El estadstico Durbin-Watson
Se utiliza cuando los datos son
recolectados en el tiempo para detectar si
la autocorrelacin est presente
Hay Autocorrelacin si los residuales para
un perodo de tiempo estn relacionados
con los residuales de otro perodo

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-43

Autocorrelacin
La Autocorrelacin es la correlacin de los
errores (residuales) en el tiempo
Aqu, los residuales
muestran un patrn de
compartamiento cclico,
no aleatorio. Patrones
cclicos son signo de
una autocorrelacin
positiva

Residuales

Tiempo (t) Grfico de Residuales

15
10
5
0
-5 0
-10
-15

Tiempo (t)

Se violan los supuestos de regresin ya que los


residuales deben ser aleatorios e independientes
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-44

El estadstico de Durbin-Watson
El estadstico de Durbin-Watson se usa para probar si
existe autocorrelacin en los errores
H0: los errores no estan correlacionados
H1: Hay correlacin positiva en los errores
El rango posible de D es 0 D 4
n

2
(
e

e
)
i i1
i 2

2
e
i
i 1

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

D debe estar cerca de 2 si H0 es


cierta
Si D es menor que 2 puede haber un
signo de autocorrelacin positiva, si D
es mayor que 2 puede haber un signo
de autocorrelacin negativa.
Chap 12-45

Prueba para observar si hay


Autocorrelacin positiva
H0: No hay autocorrelacin positiva
H1: Hay autocorrelacin positiva
Calcule el estadstico de prueba Durbin-Watson = D
(El estadstico Durbin-Watson puede ser calculado usando excel o
Minitab)

Encuentre los valores dL y dU de la tabla de Durbin-Watson


(Para un tamao de muestra n y un nmero de k variables independientes)

Regla de Decisin: rechace H0 si D < dL


Rechace H0

Prueba inconclusa

dL

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

No rechace H0

dU

2
Chap 12-46

Prueba para observar si hay


Autocorrelacin positiva
(continuacin)

Supongase que se tienen los datos de la


siguiente serie de tiempo:

Hay autocorrelacin?
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-47

Prueba para observar si hay


Autocorrelacin positiva
(continuacin)

Ejemplo con n = 25:


Salida de Excel/PHStat:
Clculos de Durbin-Watson
Suma de cuadrados
Diferencia de Residuales

3296.18

Suma de cuadrados
Residuales

3279.98

Estadstico
Durbin-Watson

1.00494
n

(e e
i

i 2

ei

i1

)2

3296.18

1.00494
3279.98

i1

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-48

Prueba para observar si hay


Autocorrelacin positiva
(continuacin)

Aqu, n = 25 y hay k = 1 una variable independiente


En la tabla de Durbin-Watson, dL = 1.29 y dU = 1.45
D = 1.00494 < dL = 1.29, entonces se rechaza H0 y se
concluye que existe una autocorrelacin positiva en los
errores
Por lo tanto, el modelo lineal no es apropiado para
pronosticar las ventas
Decisin: rechace H0 porque
D = 1.00494 < dL
Rechazo H0

Inconclusa

dL=1.29

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

No rechazo H0

dU=1.45

2
Chap 12-49

Inferencias sobre la pendiente


El error estndar del coeficiente de la pendiente
de regresin (b1) es estimado por

S YX
Sb1

SSX

S YX
2
(X

X
)
i

donde:

Sb1

= Estimacin del error estndar de la pendiente por mnimos cuadrados

S YX

SSE
= Error estndar de la estimacin del modelo
n2

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-50

Salidas de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

Sb1 0.03297

41.33032

Observations

10

ANOVA
df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-51

Interpretacin del error


estndar de la pendiente
Sb1 es una medida de variacin de las pendientes de las

lneas de regresin en diferentes muestras posibles


Y

Sb1 pequo

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Sb1 grande

Chap 12-52

Inferencias sobre la pendiente:


Prueba t
Prueba t test para la pendiente poblacional
Hay una relacin lineal entre X y Y?

Hiptesis Nula y Alternativa


H0: 1 = 0 (No hay relacin lineal entre X y Y)
H1: 1 0 (Si hay relacin lineal entre X y Y)

Estadstico de Prueba

b1 1
t
Sb1
g.l. n 2
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

donde:
b1 = coeficiente de la pendiente
de regresin
1 = Valor hipottico de la
pendiente

Sb = error estndar de la
1
pendiente
Chap 12-53

Inferencias sobre la pendiente:


Prueba t
(continuacin)
Precio casas
en $1000s
(y)

ft
(x)

245

1400

312

1600

279

1700

308

1875

199

1100

219

1550

405

2350

324

2450

319

1425

255

1700

Ecuacin de regresin lineal simple:


precio casa 98.25 0.1098 (ft)

La pendiente de este modelo es


0.1098
Afecta el tamao en ft de la
casa su precio de venta?

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-54

Inferencias acerca de la pendiente:


Ejemplo de Prueba t
H0: 1 = 0
H1: 1 0

De las salidas de excel:


Coefficients
Intercept
Square Feet

b1

Standard Error

Sb1
t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

b1 1 0.10977 0
t

3.32938
t
Sb1
0.03297

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-55

Inferencias sobre la pendiente:


Ejemplo de prueba t
(continuacin)

Estadstico de prueba: t = 3.329


H0: 1 = 0
H1: 1 0

De las salidas de excel:


Coefficients
Intercept
Square Feet

b1

Standard Error

Sb1

t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

g.l. = 10-2 = 8
a/2=.025

Rechace H0

a/2=.025

No rechace H0

-t/2
-2.3060

Rechace H

0
t/2
2.3060 3.329

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Decisin:
Rechace H0
Conclusin:
Hay suficiente evidencia de
que el tamao de las casas
afecta su precio de venta
Chap 12-56

Inferencias sobre la pendiente:


Ejemplo de prueba t
(continuacin)

valor-p = 0.01039
H0: 1 = 0
H1: 1 0

Valor-p

Salidas de excel:
Coefficients
Intercept
Square Feet

Esta es una prueba de 2


colas por lo tanto el valorp es

P(t > 3.329)+P(t < -3.329)


= 0.01039
(para 8 g.l.)
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Standard Error

t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

Decisin: valor-p <


Rechace H0
Conclusin:
Hay suficiente evidencia de
que el tamao de las casas
afecta su precio de venta
Chap 12-57

Prueba F para la significancia del


modelo
Estadstico de prueba F: F MSR
MSE
donde

MSR

SSR
k

MSE

SSE
n k 1

Donde F sigue una distribucin F con k g.l. en el numerador y


(n k - 1) g.l. en el denominador
(k = es el nmero de variables independientes en el modelo)
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-58

Salida de excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

MSR 18934.9348
F

11.0848
MSE
1708.1957

41.33032

Observations

10

Con 1 y 8 grados de
libertad

Valor-p para
la prueba F

ANOVA
df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-59

Prueba F para la significancia del


modelo
(continuacin)

Estadstico de prueba:

H0: 1 = 0
H1: 1 0
a = .05
gl1= 1
gl2 = 8

MSR
F
11.08
MSE

Decisin:
Rechace H0 a un nivel
a = 0.05

Valor
crtico:
Fa = 5.32

Conclusin:

a = .05

No rechace H0

RechaceH0

F.05 = 5.32
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Hay evidencia suficiente de que


el tamao de las casas afecta
su precio de venta
Chap 12-60

Intervalo de confianza para la


estimacin de la pendiente
Intervalo de confianza para la estimacin de
la pendiente:

b1 t n2Sb1

g.l. = n - 2

Salida de Excel para los precios de las casas:


Intercept
Square Feet

Coefficients

Standard Error

t Stat

P-value

98.24833
0.10977

Lower 95%

Upper 95%

58.03348

1.69296

0.12892

-35.57720

232.07386

0.03297

3.32938

0.01039

0.03374

0.18580

A un 95% de confiabilidad, el intervalo de confianza para


la pendiente es (0.0337, 0.1858)
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-61

Estimacin del intervalo de


confianza para la pendiente
(continuacin)

Intercept
Square Feet

Coefficients

Standard Error

t Stat

P-value

98.24833
0.10977

Lower 95%

Upper 95%

58.03348

1.69296

0.12892

-35.57720

232.07386

0.03297

3.32938

0.01039

0.03374

0.18580

Puesto que las unidades de la variable precio de


las casas son en US$1000s, se tiene una
confiabilidad del 95% de que el impacto promedio
sobre el precio de venta se encuentra entre
$33.70 and $185.80 por cada ft de tamao de la
casa
Este intervalo del 95% de confianza no incluye el cero (0).
Conclusin: Hay una relacin estadsticamente significativa
entre el precio de las casas y su tamao en ft a un nivel
de significancia de 0.05
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-62

Prueba t para el coeficiente de


Correlacin
Hiptesis
H0: = 0
H1: 0

(No hay correlacin entre X and Y)


(Existe la correlacin)

Estadstico de prueba:

r -
1 r
n2

(con n 2 grados de libertad)

donde
r r 2 si b1 0
r r 2 si b1 0

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-63

Ejemplo: Precio de las casas


Hay evidencia de una relacin lineal entre
el tamao de las casas medido en ft y el
precio de las casas a un nivel de
significancia de 0.05?
H0: = 0
H1: 0

(No hay correlacin)


(Existe correlacin)

a =.05 , gl = 10 - 2 = 8

r
1 r 2
n2

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

.762 0
1 .7622
10 2

3.329

Chap 12-64

Ejemplo: solucin a la prueba


t

r
1 r 2
n2

.762 0
1 .7622
10 2

3.329

Conclusin:
Hay evidencia de
una asociacin
lineal a un nivel
de significancia
del 5%

g.l. = 10-2 = 8
a/2=.025

Rechace H0

-t/2
-2.3060

a/2=.025

No rechace H0

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Decisin:
Rechace H0

Rechace H0

t/2
2.3060

3.329
Chap 12-65

Estimacin del valor medio de Y y del


valor pronosticado para valores
individuales de Y
Intervalo de
confianza
para la
media de Y,
dado un Xi

Objetivo: construir intervalos alrededor de Y


para expresar la incertidumbre acerca del
valor de Y para un Xi dado

Y = b0+b1Xi

Intervalo de
prediccin para un
valor individual Y,
dado un Xi
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Xi

X
Chap 12-66

Intervalo de confianza para el


promedio de Y, Dado un X
La estimacin del intervalo de confianza para
la media de Y dado un valor particular de Xi

Intervalo de confianza para Y|X Xi :


Y t n 2SYX hi
El tamao del intervalo vara de
acuerdo con las distancias
alrededor de la media X

1 (Xi X)2 1
(Xi X)2
hi

n
SSX
n (Xi X)2
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-67

Intervalo de prediccin para un


valor individual de Y, Dado un X
Estimacin del intervalo de confianza para un
Valor individual de Y dado un Xi

Intervalo de confianza para YX Xi :


Y tn 2SYX 1 hi

Este trmino extra sumado al ancho del intervalo


refleja la adicin de incertidumbre para el caso de
un valor individual de Y

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-68

Estimacin de los valores


medios: Ejemplo
Estimacin del intervalo de confianza para Y|X=X

Encuentre el intervalo de confianza del 95% para la


media del precio de venta de las casas cuando
tienen un tamao de 2,000 ft

Precio pronosticado Yi = 317.85 ($1,000s)

t S
Y
n- 2 YX

1
(Xi X)2

317.85 37.12
2
n (Xi X)

El intervalo de confianza est entre 280.66 y 354.90, o lo


que es lo mismo, de $280,660 a $354,900
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-69

Estimacin de los valores


individuales de Y: Ejemplo
Estimacin de intervalo de prediccin para YX=X
i

Encuentre el intervalo de prediccin del 95% para un valor


individual de una casa que tiene un tamao de 2,000 ft

Precio pronosticado Yi = 317.85 ($1,000s)

t S
Y
n - 2 YX

1
(Xi X) 2
1
317.85 102.28
2
n (Xi X)

El intervalo de prediccin est entre 215.50 y 420.07, o


lo que es lo mismo de $215,500 a $420,070
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-70

Clculo de los intervalos de confianza y


de prediccin usando Excel
En Excel, use
PHStat | regression | simple linear regression

Active el comando de
intervalos de confianza y prediccin para X=
en la caja de dilogo correspondiente y entre el
valor de X y el nivel de confianza deseado

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-71

Clculo de los intervalos de


confianza y prediccin en Excel
(continuacin)

Valores de entrada

Y
Intervalo de confianza para Y|X=Xi
Intervalo de prediccin para YX=Xi
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-72

Dificultades en el anlisis de
regresin
Incumplimiento de alguno de los supuestos del modelo
de regresin
Desconocimiento de cmo evaluar los supuestos
Desconocimiento de las alternativas a los modelos de
regresin por mnimos cuadrados cuando alguno de los
supuestos es violado
Utilizar un modelo de regresin sin el conocimiento del
tema
Utilizar el modelo encontrado para pronosticar valores
por fuera del rango de los valores observados

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-73

Estrategias para evitar las


dificultades de la regresin
Comience con un diagrama de dispersin
de X vs. Y para observar posibles relaciones
Desarrolle el anlisis de los residuales para
verificar los supuestos del modelo
Grafique los residuales vs. X para verificar si se
viola alguno de los supuestos del modelo de
regresin como por ejemplo la
homoscedasticidad
Verifique el supuesto de normalidad de los
errores.

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-74

Estrategias para evitar las


dificultades de la regresin
(continuacin)

Si hay violacin de alguno de los supuestos,


utilice modelos de mtodos alternativos
Si no hay evidencia de violacin de alguno de
los supuestos, entonces aplique las pruebas de
significancia del modelo y de los coeficientes de
regresin y construya los intervalos de
confianza y de prediccin para la media y los
valores individuales de Y
Evite utilizar el modelo para hacer pronsticos
fuera del rango de los valores observados
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-75

Resumen del Captulo


Se introdujeron los tipos de modelos de regresin.
Se revisaron los supuestos de la regresin y correlacin
Se discuti la determinacin de la ecuacin de la
regresin lineal simple
Se describieron las medidas de variacin del modelo de
regresin
Se discuti el anlisis de los residuales
Se discuti una medicin de la autocorrelacin de los
errores.

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-76

Resumen del Captulo


(continuacin)

Se describi la inferencia sobre la pendiente


del modelo de regresin
Se present la correlacin como una medida de
la fuerza de asociacin
Se introdujeron las estimaciones por intervalo
de los valores de la media de Y y de los valores
individuales de Y
Se discutieron las posibles dificultades del
modelo de regresin y se recomendaron
estrategias para evitarlas
Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-77

También podría gustarte