Está en la página 1de 44

Regresin lineal y correlacin

Objetivos: Al terminar este captulo podr:

1.

Trazar un diagrama de dispersin.

2.

Entender e interpretar los trminos variable dependiente y variable


independiente.

3.

Calcular y explicar el coeficiente de correlacin, y el coeficiente de


determinacin, as como el error estndar de estimacin.

4.

Realizar una prueba de hiptesis para establecer si el coeficiente de


correlacin de la poblacin es cero.

Captulo 13 (Continuacin)
5.

Determinar la lnea (o recta) de regresin de mnimos cuadrados.

6.

Elaborar e interpretar intervalos de confianza e intervalos de prediccin


para la variable dependiente.

7.

Establecer e interpretar una tabla de ANOVA.

Introduccin
El

vicepresidente de una gran


compaa opina que las ganancias
anuales de la empresa dependen de
la cantidad gastada en investigacin
y desarrollo. El presidente de la
compaa no est de acuerdo y ha
solicitado pruebas.

Introduccin
Qu herramienta puede presentar el
vicepresidente que sustenten su teora?
Qu variables tendr que medir?
Qu ecuacin ayudar a predecir las
ganancias anuales en funcin de la
cantidad presupuestada en I y D ?
Ser esta ecuacin lineal o no lineal?
Qu precisin se puede esperar al usar
esta herramienta de toma de decisiones?

A continuacin se presentan datos de 11 aos


Ao

Gasto en I y D
(ciento de
miles )

Ganancia
anual
(millones)

1999

20

2000

25

2001

34

2002

30

2003

33

2004

34

2005

36

2006

35

2007

40

2008

37

2009

41

Una lnea recta podra ser lo


ms adecuado para relacionar
estas variables?

Anlisis de correlacin

El anlisis de correlacin es un grupo de tcnicas


estadsticas usadas para medir la fuerza de la
asociacin entre dos variables.
Un diagrama de dispersin es una grfica que
representa la relacin entre dos variables.
La variable dependiente es la variable que se predice o
calcula.
La variable independiente proporciona las bases para el
clculo. Es la variable de prediccin.

Diagrama de dispersin
Grfica que presenta la relacin entre dos variables de inters
Scatterplot of Y1 vs X1, Y vs X
6.0
Y1* X1
150
140
325

130
120

300
110
100

275

90
250

80
25.5

9.0
Y* X

350

24.0

7.5

27.0

28.5

10.5

12.0

El coeficiente de correlacin, r

El coeficiente de correlacin (r) es una medida de la


intensidad de la relacin lineal entre dos variables.
Requiere datos de nivel de razn.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlacin
perfecta y fuerte.
Los valores cerca de 0.0 indican la correlacin dbil.
Los valores negativos indican una relacin inversa y los
valores positivos indican una relacin directa.

Correlacin negativa perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
9

Correlacin positiva perfecta

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
10

Correlacin cero

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
11

Correlacin positiva fuerte

10
9
8
7
6
5
4
3
2
1
0
0

5
X

10
12

Frmula para r

Calculamos el coeficiente de correlacin de las


frmulas siguientes.

( X X )(Y Y )
r
( n 1) s x s y
r

n ( X

n(XY ) (X )(Y )
2

) ( X ) n Y Y
2

14

Ao

Gasto en I y D

Ganancia anual

x*y

x^2

y^2

1999

20

40

400

2000

25

100

16

625

2001

34

170

25

1156

2002

30

120

16

900

2003

33

198

36

1089

2004

34

170

25

1156

2005

36

180

25

1296

2006

35

245

49

1225

2007

40

320

64

1600

2008

37

259

49

1369

2009

41

328

64

1681

61

365

2130

373

12497

n(XY ) (X )(Y )

n(X ) (X ) nY Y
2

r=0.915185039

15

Coeficiente de determinacin

El coeficiente de determinacin (r2) es la proporcin de


la variacin total en la variable dependiente (y) que se
explica por la variacin en la variable independiente (x).
Es el cuadrado del coeficiente de correlacin.
Su rango es de 0 a 1.
No da ninguna informacin sobre la direccin de la
relacin entre las variables.

16

ANLISIS DE CORRELACIN
Qu es el anlisis
de correlacin
lineal ?
Es una herramienta estadstica que podemos
usar para describir el grado de relacin
lineal entre las variables.

r Coef .de det er min acin


Tiene el mismo signo que b1

r 0.838 0.915

Existe un una fuerte


correlacin lineal directa
entre gasto y ganancia.

Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin
entre Y y X.
2. El signo da la direccin de la relacin (directa o
inversamente proporcional)
r=1
r = -1
r=0

correlacin positiva perfecta.


correlacin negativa perfecta.
no hay relacin lineal entre Y y X.

20

Ejemplo 2

Juan Escobedo, presidente de la sociedad de alumnos


de una Universidad, se ocupa de estudiar el costo de los
libros de texto. l cree que hay una relacin entre el
nmero de pginas en el texto y el precio de venta del
libro. Para proporcionar una prueba, selecciona una
muestra de ocho libros de texto actualmente en venta en
la librera. Dibuje un diagrama de dispersin.
Compruebe el coeficiente de correlacin.

21

Ejemplo 1 (Continuacin)

Libro
Intr. a la Historia
lgebra
Intr.a la Psicologa
Intr. a la Sociologa
Mercadotecnia
Intr. a la Biologa
Fund. de Jazz
Intr.a la Enfermera

Pginas
500
700
800
600
400
500
600
800

Precio ($)
84
75
99
72
69
81
63
93

22

Ejemplo 1 (Continuacin)
Scatter Diagram of Number of Pages and Selling Price of Text
100

90
Price ($)
80

70

60
400

500

600

700

800

Page

23

Libro

Pginas
X

Precio ($)
Y

XY

Intr. a la Historia

500

84

42,000

lgebra

700

75

52,500

Intr. a la Psicologa

800

99

79,200

Intr. a la Sociologa

600

72

43,200

Mercadotecnia

400

69

27,600

Intr. a la Biologa

500

81

40,500

Fund. de Jazz

600

63

37,800

800
4,900

93
636

74,400
397,200

Intr. a la Enfermera
Total

X2

Y2

24

Ejemplo 1 (Continuacin)
Libro

Pginas
X

Precio ($)
Y

XY

X2

Y2

Intr. a la Historia

500

84

42,000

250,000

7,056

lgebra

700

75

52,500

490,000

5,625

Intr. a la Psicologa

800

99

79,200

640,000

9,801

Intr. a la Sociologa

600

72

43,200

360,000

5,184

Mercadotecnia

400

69

27,600

160,000

4,761

Intr. a la Biologa

500

81

40,500

250,000

6,561

Fund. de Jazz

600

63

37,800

360,000

3,969

800
4,900

93
636

74,400
640,000
397,200 3,150,000

8,649
51,606

Intr. a la Enfermera
Total

25

Ejemplo 1 (Continuacin)

n ( X

n(XY ) (X )(Y )
2

) ( X ) n Y Y
2

8(397,200) (4,900)(636)

8(3,150,000 (4,900) 8(51,606) (636)


2

0.614
26

Ejemplo 1 (Continuacin)
La correlacin entre el nmero de pginas y el precio
de venta del libro es 0.614. Esto indica una asociacin
moderada entre las variables. Pruebe la hiptesis de
que no hay correlacin en la poblacin. Utilice un nivel
de la significancia del .02.
Paso 1: H0: La correlacin en la poblacin es cero.

H1: La correlacin en la poblacin no es cero.


Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n2=82
= 6.
27

Ejemplo 1 (Continuacin)
Paso 3: Para encontrar el valor del estadstico de
prueba, utilizamos:
t

r n2
1 r

.614 8 2
1 (.614)

1.905

Paso 4: H0 no se rechaza. No podemos rechazar


la hiptesis de que no hay correlacin en la
poblacin. La cantidad de asociacin puede
ser debido al azar.

28

tcal

0.915 11 2

6.82
1 0.838

Se Rechaza Ho
Con un nivel de significancia
del 5% se puede afirmar que
el gasto en I y D est
correlacionado con la
ganancia.

EJERCICIOS
Utilice un diagrama de dispersin y el
coeficiente de correlacin lineal r para
determinar si existe una correlacin (de que
tipo) entre las dos variables:
X

15

5
30

Anlisis de regresin

En anlisis de regresin utilizamos la variable


independiente (X) para estimar la variable dependiente
(Y).
La relacin entre las variables es lineal.
Ambas variables deben ser por lo menos escala del
intervalo.
El criterio de mnimos cuadrados se utiliza para
determinar la ecuacin. Este es el trmino (Y Y')2

31

Anlisis de regresin
La ecuacin de regresin es: Y' = a + bX, donde:
Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
a es la ordenada de la interseccin con el eje Y cuando
X = 0. Es el valor estimado de Y cuando X=0
b es la pendiente de la recta, o el cambio promedio en Y'
para cada cambio de una unidad en X.
el principio de mnimos cuadrados se utiliza para
obtener a y b.

32

Anlisis de regresin

El principio de mnimos cuadrados se utiliza para


obtener a y b. Las ecuaciones para determinar a y b
son:

n( XY ) ( X )( Y )
b
n( X 2 ) ( X ) 2
Y
X
a
b
n
n

33

Ejemplo 2 (Continuacin)

Desarrolle una ecuacin de regresin para la


informacin dada en el Ejemplo 2 que se puede utilizar
para estimar el precio de venta basado en el nmero de
pginas.
b

8(397,200) (4,900)(636)
8(3,150,000) (4,900)

.05143

636
4,900
a
0.05143
48.0
8
8
34

Ejemplo 2 (Continuacin)
La ecuacin de regresin es:
Y' = 48.0 + .05143X
La ecuacin cruza al eje Y en $48. Un libro sin las
pginas costara $48.
La pendiente de la lnea es .05143. El costo de cada
pgina adicional es de cinco cntimos.
El signo del valor de b y el signo del valor de r sern
siempre iguales.

35

Ejemplo 2 (Continuacin)
Podemos utilizar la ecuacin de regresin para
estimar valores de Y.
El precio de venta estimado de un libro de 800 pginas
es $89.14, encontrado por

Y 48.0 0.05143 X
48.0 0.05143(800) 89.14

36

El error estndar de estimacin

El error estndar de estimacin mide la dispersin de


los valores observados alrededor de la lnea de
regresin.
Las frmulas que se utilizan para comprobar el error
estndar son:
(Y Y ) 2
s y. x
n2

Y 2 aY bXY
n2
37

Ejemplo 3
Encuentre el error estndar de estimacin para el
problema que implica el nmero de pginas en un libro
y el precio de venta.

s y. x

Y 2 aY bXY
n2

51,606 48(636) 0.05143(397,200)

82
10.408
38

Suposiciones subyacentes en el
anlisis de regresin lineal

Para cada valor de X, hay un grupo de valores de Y, y


estos valores de Y se distribuyen normalmente.
Las medias de estas distribuciones normales de valores
Y, caen todas en la recta de regresin.
Las desviaciones estndar de estas distribuciones
normales son iguales.
Los valores de Y son estadsticamente
independendientes. Esto significa que en la seleccin de
una muestra, los valores de Y elegidos para un valor
particular de X no dependen de los valores de Y de
ningn otro valor de X.

39

Intervalo de confianza

El intervalo de confianza para el valor medio de Y para


un valor dado de X est dado por:
Y ts y. x

( X X )2
2
(

X
)
X 2
n

1
89.14 2.447(10.408)

(800 612.5) 2
( 4900) 2
3,150,000
8

89.14 15.31
40

Intervalo de prediccin

El intervalo de prediccin para un valor individual de Y


para un valor dado de X se da por:

Y ts y. x

1
1
n

( X X )2
( X ) 2
X
n
2

1
89.14 2.447(10.408) 1
8

(800 612.5) 2
(4900) 2
3,150,000
8

89.14 29.72
41

Ejemplo 3 (Continuacin)
Resumir los resultados:
El precio de venta estimado para un libro con 800
pginas es $89.14.
El error estndar de estimacin es $10.41.
El intervalo de confianza de 95% para todos los libros con
800 pginas es $89.14+-$15.31. Esto significa que los
lmites estn entre $73.83 y $104.45.
El intervalo de prediccin de 95% para un libro particular
con 800 pginas es $89.14+-$29.72. Esto significa que
los lmites estn entre $59.42 y $118.86.

42

EJERCICIOS:

A continuacin se presentan los pesos en


libras y las cantidades de combustible
consumidas en carretera (mi/gal) de
automviles elegidos al azar. Calcule el
coeficiente de determinacin, la ecuacin
de la recta y el error.
PESO

3175

3450

3225

3985

2440

2500

2290

CONSUMO

27

29

277

24

37

34

37

43

En la siguiente tabla se muestran los


presupuestos (millones de dlares) y los
ingresos brutos (millones de dlares) de
pelculas seleccionadas al azar:
PRESUPUES 62
TO

90

50

35

200

100

90

65

64

48

57

60

146

47

INGRESO
BRUTO

Calcule el coeficiente de determinacin, la


ecuacin de la recta predictora y el error.
44