Está en la página 1de 16

ndice general

1. Correlacin y Regresin Lineal


1.1. Correlacin Lineal . . . . . . .
1.2. Anlisis de Regresin Simple .
1.2.1. Regresin Lineal Simple
1.3. Ejercicios propuestos . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

3
3
8
8
13

1 Correlacin y Regresin Lineal


1.1.

Correlacin Lineal

Definicin 1. Coeficiente de Correlacin (r)


El coeficiente de correlacin es un nmero abstracto que indica el grado de asociacin entre
las variables y esta definida por la siguiente frmula:
P
P
n(XY ) ( X)( Y )
r = rh
ih P
i
P
P
P
n ( X 2 ) ( X)2 n ( Y 2 ) ( Y )2
Se prueba que el coeficiente de correlacin es un nmero comprendido entre -1 y 1; esto es:
1 r 1
Los valores positivos indican que las dos variables aumentan o disminuyen al mismo tiempo;
valores negativos significan que cuando una variable aumenta, la otra disminuye o viceversa.
- Si r es exactamente igual a -1 o +1 quiere decir que hay una perfecta asociacin entre las
dos variables, en el sentido de que por cada unida que aumenta o disminuye una variable, la
otra siempre cambia igual nmero de unidades.
En dichas ocasiones los puntos en el grfico caeran todos sobre una linea recta.
- Si r=0 significa que no hay ninguna asociacin entre las dos variables, o de existir, no es una
relacin lineal.
As; la correlacin queda caracterizada por el coeficiente de correlacin que varia en el intervalo [1, 1], grficamente tenemos:
|
-1
Fuerte negativa

Dbil negativa

|
0
No existe correlacin

Dbil positiva

|
1
fuerte positiva

Definicin 2. Correlacin por Rangos(rs )


Utilizamos el Coeficiente o Rango de Spearman(rs )para medir la intensidad entre las dos
variables X e Y ordenadas por rango,y pueden tomar cualquier valor desde -1hasta +1
inclusive.
Una correlacin de rango positiva revela que la relacin es directa y significa que conforme X
aumenta, lo mismo sucede con Y. Una relacin de rango negativa revela que la relacin es
inversa y significa que conforme la variable independiente X aumenta, la variable dependiente
Y disminuye.
Para medir la intensidad de la relacin entre dos conjuntos por rangos utilizamos la siguiente
frmula:
P
6 d2
rs = 1
n (n2 1)

1. Correlacin y Regresin Lineal

donde:
d: diferencia entre rangos para cada par.
n: nmero de observaciones por pares.
Ejemplo 1. Se dispone de dos pruebas siendo una de ellas una prueba de habilidad mental
y la otra una prueba de ingreso a la universidad.Seleccionamos 8 estudiantes; los puntajes
obtenidos en estas dos pruebas se representan en la siguiente tabla:
Estudiantes
Susana
Juan
Lourdes
Jose
Carlos
Marcia
Julio
Natalia

Prueba de Habilidad Mental:X


49
46
45
42
39
37
20
15

Examen de Admisin:Y
55
50
53
35
48
46
29
32

Determinar e interpretar:
1.1 Diagrama de Dispersin
1.2 Coeficiente de Correlacin
1.3 Coeficiente de Rango de Sperman
Solucin
1.1 Diagrama de Dispersin
60
50
40
Series1

30

Lineal (Series1)

20
10
0
0

10

20

30

40

50

60

Figura 1.1.1: Diagrama de Dispersin


1.2 Coeficiente de Correlacin
X
49
46
45
42
39
37
20
15
P
X = 293

Y
55
50
53
35
48
46
29
32
P
Y = 348

XY
2695
2300
2385
1470
1872
1702
580
480
P
XY = 13484

X2
2401
2116
2025
1764
1521
1369
400
225
P 2
X = 11821

Universidad Nacional de San Agustn

Y2
3025
2500
2809
1225
2304
2116
841
1024
P 2
Y = 15844

1.1. Correlacin Lineal

Aplicando la frmula:
r=

r=

P
P
n(XY )( X)( Y )
P 2
P
P
P
[n( X )( X)2 ][n( Y 2 )( Y )2 ]

8(13484)(293)(348)
q

[8(11821)(293)2 ][8(15844)(348)2 ]
r=0.8419

La correlacin entre la prueba de habilidad mental(X) y la prueba de admisin (Y )es de


0.8419; por tanto presenta una correlacin positiva intensa.
1.3 Coeficiente de Rango de Sperman.
X
49
46
45
42
39
37
20
15

Y
55
50
53
35
48
46
29
32

Rango:X
8
7
6
5
4
3
2
1

Rango:Y
8
6
7
3
5
4
1
2

d
0
1
1
2
1
1
1
1

d2
0
1
1
4
1
1
1
1
10

Aplicando la frmula:
rs = 1

P
6 d2
n(n2 1)

rs = 1

10
8(641)

rs = 0,98016
El coeficiente de rango de Sperman es 0.98016; por lo tanto, es una correlacin positiva entre
rangos.
Ejemplo 2. Ocho profesores son calificados por los alumnos de V y VI ciclos de cierta facultad,
segn la claridad de su exposicin. Se obtuvieron los resultados siguientes:
Profesor
A
B
C
D
E
F
G
H

V ciclo:X
19
17
14
13
11
9
8
5

VI ciclo:Y
28
39
44
57
62
65
70
88

Facultad de Administracin

1. Correlacin y Regresin Lineal

Determinar e interpretar:
2.1 Diagrama de dispersin
2.2 Coeficiente de Correlacin
2.3 Coeficiente de Rango de Sperman
Solucin:
2.1 Diagrama de Dispersin
2.2 Coeficiente de Correlacin
X
19
17
14
13
11
9
8
5
P
X = 96

Y
28
39
44
57
62
65
70
8
P
Y = 453

XY
532
663
616
741
682
585
560
440
P
XY = 4819

X2
361
298
196
169
121
81
64
25
P 2
X = 1306

Y2
784
1521
1936
3249
3844
4225
4900
7744
P 2
Y = 28203

Aplicando la frmula:
r=

P
P
n(XY )( X)( Y )
P 2
P
P
P
[n( X )( X)2 ][n( Y 2 )( Y )2 ]

r=

8(4819)(96)(453)
q

[8(1306)(96)2 ][8(28203)(453)2 ]

r=-0.98
La correlacin entre las variables es -0.98; por tanto presenta una correlacin negativa intensa.
2.3 Coeficiente de rango de Sperman
rs = 1

P
6 d2
n(n2 1)

rs = 1

P
6 168
8(82 1)

rs = 1
El coeficiente de correlacin de rango de Sperman es -1; por tanto, es una correlacin negativa
perfecta entre los rangos.
Ejemplo 3. En una encuesta efectuada en una poblacin se obtuvo la siguiente informacin,
relativo al nmero de habitantes (X) y nmero de dormitorios (Y ).Los datos se dan en la
siguiente tabla:

Universidad Nacional de San Agustn

1.1. Correlacin Lineal

7
Habitantes:X
2
3
4
6
3
4
5
6
4
6
8
8

Dormitorios:Y
1
1
1
1
2
2
2
2
3
3
3
4

Determinar:
3.1 Diagrama de Dispersin
3.2 Coeficiente de Correlacin
3.3 Coeficiente de rango de Sperman
Solucin:
3.1 Diagrama de Dispersin
3.2 Coeficiente de Correlacin
X
2
3
4
6
3
4
5
6
4
6
8
8
P
X = 59

Y
1
1
1
1
2
2
2
2
3
3
3
4
P
Y = 25

XY
2
3
4
6
6
8
10
12
12
18
24
32
P
XY = 137

X2
4
9
16
36
9
16
25
36
16
36
64
64
P 2
X = 331

Aplicando la frmula:

r=

P
P
n(XY )( X)( Y )
P
P
P 2
P
[n( X )( X)2 ][n( Y 2 )( Y )2 ]

r=

12(137)(59)(25)
q

[12(331)(59)2 ][12(63)(25)2 ]

r=0.667

Facultad de Administracin

Y2
1
1
1
1
4
4
4
4
9
9
9
16
P 2
Y = 63

1. Correlacin y Regresin Lineal

3.3 Coeficiente de rango de Sperman


X
2
3
4
6
3
4
5
6
4
6
8
8

Y
1
1
1
1
2
2
2
2
3
3
3
4

Rango:X
1
2.5
5
9
2.5
5
7
9
5
9
11.5
11.5

Rango:Y
2.5
2.5
2.5
2.5
6.5
6.5
6.5
6.5
10
10
10
12

d
-1.5
0
2.5
6.5
-4
-1.5
0.5
2.5
-5
1
1.5
-0.5

d2
2.25
0
6.25
42.25
16
2.25
0.25
6.25
25
1
2.25
0.25
P 2
d = 104

Aplicando la frmula:
rs = 1

rs = 1

P
6 d2
n(n2 1)

6(104)
12(122 1)

rs = 0,6364

1.2.

Anlisis de Regresin Simple

Definicin 3. Regresin es un mtodo que se emplea para encontrar una funcin que se
ajusta a una nube de puntos o diagrama de dispersin, con la finalidad de poder obtener una
prediccin aproximada de una de las variables a partir de la otra. As, la regresin de la
variable Y en X es dado por:
y= f (x)
Naturalmente debemos elegir una funcin ptima de entre todas las funciones que se ajustan
a la nube de puntos, esto es, la que mejor encaje sobre los puntos del diagrama de dispersin,
para lo cual utilizaremos el mtodo de mnimos cuadrados.

1.2.1.

Regresin Lineal Simple

Definicin 4. Si la regresin de Y en X es una funcin lineal, entonces tenemos:


Y =f (X) = + (X)
donde:
Y

:es el valor promedio pronosticado de la variable Y para un valor seleccionado de X


:es la interseccin Y, o el valor estimado de Y cuando X=0

Universidad Nacional de San Agustn

1.2. Anlisis de Regresin Simple

:es la denominada pendiente de la recta, o sea, el cambio promedio en Y por unidad de


cambio en X
X

:es cualquier valor seleccionado de X

Las frmulas para determinar el valor de esta dada:


=
=

P
Y
X

n
n
P
P
P
n( XY )( X)( Y )
P
P
n( X 2 )( X)2

= Y X

donde:
X

Valor de la variable independiente

Valor de la variable dependiente

Nmero de elementos en la muestra


Media de la variable independiente

Media de la variable dependiente

Ejemplo 4. Se hace un estudio para determinar la relacin entre las edades de un gran grupo
de mquinas en una fbrica y las eficiencias de las mquinas. Los datos se dan en la siguiente
tabla.
Maquinas
1
2
3
4
5

Edad:X
4
7
3
6
10

Eficiencia:Y
5
12
4
8
11

Determinar e interpretar:
4.1 Diagrama de Dispersin
4.2 La Ecuacin de Regresin
4.3 Pronosticar el valor de Y para cada valor de X
4.4 Trazar la Linea de Regresin
Solucin.
4.1 Diagrama de Dispersin.
4.2 Ecuacin de Regresin
X
4
7
3
6
10
P
X = 30

Y
5
12
4
8
11
P
Y = 40

XY
20
84
12
48
110
P
XY = 274

X2
16
49
9
36
100
P 2
X = 210

Aplicando la frmula:
=

n(

P
P
XY ) ( X) ( Y )
P
P
n ( X 2 ) ( X)2

Facultad de Administracin

Y2
25
144
16
64
121
P 2
Y = 370

10

1. Correlacin y Regresin Lineal

5 (274) (30) (40)


5 (210) (30)2
= 1, 133
P

P
Y
X
=

n
n
40
30
=
1, 133
5
5
= 1, 202
Por lo tanto la ecuacin de regresin es:
Y = + (X)
Y = 1, 202 + 1, 133X
4.3 Pronosticar el valor de Y para cada valor de X.
Para X=3
Y =1,202+1,133(3)
Y = 4, 601
Para X=4
Y = 1, 202+1,133(4)
Y = 5, 734
Para X=6
Y = 1, 202+1,133(6)
Y = 8
Para X=7
Y = 1, 202+1,133(7)
Y = 9, 133
Para X=10
Y = 1, 202+1,133(10)
Y = 12, 532
Luego:
X
3
4
6
7
10

Y
5
12
4
8
11

Y
4,601
5,734
8
9,133
12,532

4.4 Trazar la linea de regresin


Ejemplo 5. He aqu los gastos de publicidad (como porcentaje de gastos totales)y los beneficios
de operacin netos (como porcentaje de ventas)en una muestra de 10 pequeas joyeras.

Universidad Nacional de San Agustn

1.2. Anlisis de Regresin Simple

11

Gastos de publicidad:X
1,2
0,7
1,5
1,8
0,5
3,4
1,0
3,0
2,8
2,5

Beneficios:Y
2,7
2,4
2,7
3,3
1,1
5,8
2,2
4,2
4,4
3,8

5.1 Representar los datos en un diagrama de Dispersin.


5.2 Calcular la Ecuacin de Regresin.
5.3 Pronosticar el valor deY para cada valor de X.
5.4 Trazar la Linea de Regresin.
Solucin:
5.1 grfica en excel
5.2 Calculamos la ecuacin de Regresin.
X
1,2
0,7
1,5
1,8
0,5
3,4
1
3
2,8
2,5
P
X = 18, 4

Y
2,7
2,4
2,7
3,3
1,1
5,8
2,2
4,2
4,4
3,8
P
Y = 32,6

XY
3,24
1,68
4,05
5,94
0,55
19,72
2,2
12,6
12,32
9,5
P
XY = 71, 8

X2
1,44
0,49
2,25
3,24
0,25
11,56
1
9
7,84
6,25
P 2
X = 43, 32

Aplicando la frmula:
=

P
P
P
n( XY )( X)( Y )
P 2
P
n( X )( X)2

10(71,8)(18,4)(32,6)
10(43,32)(18,4)2

= 1, 2485
=
=

Y
n
32,6
10

X
n

1, 2485 18,4
10

= 0, 96276
La ecuacin de Regresin es:
Y = + (X)
Y = 0, 96276 + 1, 2485X
5.3 Pronosticar el valor de Y para cada valor de X.

Facultad de Administracin

Y2
7,29
5,76
7,29
10,89
1,21
33,64
4,84
17,64
19,36
14,4
P 2
Y = 122, 32

12

1. Correlacin y Regresin Lineal


Para X=1,2
Y = 0, 96 + 1, 25 (1, 2)
Y = 2, 46
Para X=0,7
Y = 0, 96 + 1, 25 (0, 7)
Y = 1, 835
Para X=1,5
Y = 0, 96 + 1, 25 (1, 5)
Y = 2, 835
Para X=1,8
Y = 0, 96 + 1, 25 (1, 8)
Y = 3, 21
Para X=0,5
Y = 0, 96 + 1, 25 (0, 5)
Y = 1, 585
Para X=3,4
Y = 0, 96 + 1, 25 (3, 4)
Y = 5, 21
Para X=1
Y = 0, 96 + 1, 25 (1)
Y = 2, 21
Para X=3
tienenambaslamismamedia5, yelmismorango9.P ero, lasdosY = 0, 96 + 1, 25 (3)
Y = 4, 71
Para X=2,8
Y = 0, 96 + 1, 25 (2, 8)
Y = 4, 46
Para X=2,5
Y = 0, 96 + 1, 25 (2, 5)
Y = 4, 085

Luego:

Universidad Nacional de San Agustn

1.3. Ejercicios propuestos

13
X
1,2
0,7
1,5
1,8
0,5
3,4
1
3
2,8
2,5

Y
2,7
2,4
2,7
3,3
1,1
5,8
2,2
4,2
4,4
3,8

Y
2,46
1,835
2,835
3,21
1,585
5,21
2,21
4,71
4,46
4,085

Ejemplo 5. 5.4 Linea de Regresin

1.3.

Ejercicios propuestos

1. Se quiere determinar la relacin entre el ingreso y el consumo en dolares en un mes de


una muestra de familias a partir de la tabla siguiente:
Familia
A
B
C
D
E
F
G

Ingreso:X
2400
2000
2300
2200
1900
1600
2600

Consumo:Y
2200
1900
2000
2100
1700
1300
2300

Determinar e interpretar:
a) Diagrama de Dispersin.
b) Coeficiente de Correlacin.
c) Coeficiente de Rango de Sperman.
2. Las notas en el curso de Estadstica de un grupo de estudiantes en un Test(X)y el
examen final(Y ) se consideran en la siguiente tabla:
Estudiante
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Test:X
74
70
87
85
88
76
66
68
75
96
69
90
84
89
93

Examen final:Y
69
82
74
81
80
68
73
56
94
94
74
78
83
74
70

Facultad de Administracin

14

1. Correlacin y Regresin Lineal


Determinar e interpretar:
a) Diagrama de Dispersin.
b) Coeficiente de Correlacin
c) Coeficiente de Rango de Sperman.
3. La siguiente tabla muestra la evaluacin en la Prueba 1 y Prueba 2 de 10 alumnos en
el curso de MS Power Point, sobre el nmero de errores que efectu cada estudiante en
cada una de las pruebas.
Estudiante
1
2
3
4
5
6
7
8
9
10

Prueba 1:X
4
8
3
1
5
2
3
4
5
7

Prueba 2:Y
6
9
7
4
6
4
6
8
2
8

Determinar e interpretar:
a) Diagrama de Dispersin.
b) Coeficiente de Correlacin.
c) Coeficiente de Rango de Sperman.
4. En la siguiente tabla se presenta las horas trabajadas y unidades producidas en un taller.
Trabajador
1
2
3
4
5
6
7
8
9
10
11
12

Horas Trabajadas:X
62
80
88
80
83
81
84
80
62
85
82
78

Unidades Producidas:Y
243
310
300
302
316
320
330
302
250
340
300
300

Determinar e interpretar:
a) Diagrama de Dispersin.
b) Coeficiente de Correlacin.
c) Coeficiente de Rango de Sperman.
5. El nmero de horas que ha utilizado un corredor durante cada una de ocho semanas
y los tiempos correspondientes en los cules corri un Km. al final de la semana, se
presenta en la siguiente tabla:

Universidad Nacional de San Agustn

1.3. Ejercicios propuestos


Semana
1
2
3
4
5
6
7
8

15

Nmeros de horas que corre


23
20
16
25
17
21
14
18

Tiempo realizado en Km(minutos)


1,9
2,2
3,4
1,9
2,9
2,1
3,6
2,4

Determinar e interpretar.
a) Diagrama de Dispersin.
b) La Ecuacin de Regresin.
c) Pronosticar el valor de Y para cada valor de X.
d) Trazar la lnea de Regresin.
6. En la siguiente tabla se presenta el nmero de aos de estudio en un idioma extranjero y
la calificacin en una prueba de conocimientos en el sistema centesimal de una muestra
de Guas de Turismo.
Gua de turismo
1
2
3
4
5
6
7
8
9
10

Nmero de aos
3
4
4
2
5
3
4
5
3
2

Calificacin en la prueba
57
78
72
58
89
62
71
84
75
48

Determinar e interpretar:
a) Diagrama de Dispersin.
b) La ecuacin de Regresin.
c) Pronosticar el valor de Y para cada valor de X.
d) Trazar la lnea de regresin.
7. Las edades de padres de un grupo de estudiantes de la universidad se presentan en la
siguiente tabla:

Facultad de Administracin

16

1. Correlacin y Regresin Lineal

1
2
3
4
5
6
7
8
9
10
11
12
13

Padres
56
53
36
43
48
50
44
56
50
43
45
49
53

Madres
50
47
33
43
38
48
45
54
43
40
45
45
50

Determinar e interpretar:
a) Diagrama de Dispersin.
b) La Ecuacin de Regresin.
c) Pronosticar el valor deY para cada valor de X.
d) Trazar la lnea de Regresin.
8. A partir de los datos de la tabla, Temperatura T(C)y pulso P(pulsaciones por segundo)de
una muestra de pacientes en un hospital:
Paciente
1
2
3
4
5

Temperatura:X
37,8
36,7
38,9
38,3
37,2

Pulsaciones:Y
80
60
100
90
70

Se requiere determinar:
a) Diagrama de Dispersin.
b) La Ecuacin de Regresin.
c) Pronosticar en valor de Y para cada valor de X.
d) Trazar la linea de Regresin.

Universidad Nacional de San Agustn