Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A travs de esta muestra, se desea estudiar la relacin existente entre las dos variables X e Y.
Es posible representar estas observaciones mediante un grfico de dispersin, como el siguiente
Tambin se puede expresar el grado de asociacin mediante algunos indicadores, que se vern
a continuacin.
MEDIDAS DE ASOCIACION DE VARIABLES
Covarianza entre las variables X e Y. Es una medida de la variacin conjunta. Se define como
cov( X , Y ) =
1
1
( xi x)( yi y ) = S xy
n
n
Ejemplo 1
DATOS DEL CLUB DE SALUD
Datos correspondientes a 20 empleados del club de salud de una empresa
X
Y
X
67
52
56
66
65
80
77
65
68
66
70
59
58
52
64
72
57
59
70
63
64,3
Y
481
292
357
396
345
469
425
393
346
401
267
368
295
391
487
481
374
367
469
252
382,8
Y-382,8
98,2
-90,8
-25,8
13,2
-37,8
86,2
42,2
10,2
-36,8
18,2
-115,8
-14,8
-87,8
8,2
104,2
98,2
-8,8
-15,8
86,2
-130,8
prod
265,14
1116,84
214,14
22,44
-26,46
1353,34
535,94
7,14
-136,16
30,94
-660,06
78,44
553,14
-100,86
-31,26
756,14
64,24
83,74
491,34
170,04
239,41
239,41
corr ( X , Y ) =
cov( X , Y )
=
dsX * dsY
( x x)( y y )
( x x) ( y y )
i
S xy
S xx S yy
El valor de la correlacin entre cualquier par de variables es un nmero entre -1 y 1. n valor alto
de correlacin no indica que existe alguna relacin de causa-efecto entre las variables.
Ejemplo (continuacin)
Coeficiente de
Correlacin
Se deben calcular las desviaciones standard.
Para ello se deben elevar al cuadrado las observaciones centradas
y promediar, obtenindose las varianzas.
Las desviaciones standard son las races cuadradas de stas.
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Promedios :
(varianzas)
cuadrados de
X-64,3 Y-382,8
7,3
9643,2
151,3
8244,6
68,9
665,6
2,9
174,2
0,5
1428,8
246,5
7430,4
161,3
1780,8
0,5
104,0
13,7
1354,2
2,9
331,2
32,5
13409,6
28,1
219,0
39,7
7708,8
151,3
67,2
0,1
10857,6
59,3
9643,2
53,3
77,4
28,1
249,6
32,5
7430,4
1,7
17108,6
54,11 4896,46
69,97
0,465
Club de Salud
600
500
400
300
200
100
0
0
20
40
60
80
100
La interpretacin del coeficiente de correlacin puede ilustrarse mediante los siguientes grficos.
Yi = a + bX i + ei
para i = 1,2,..., n
en que a y b son dos cantidades fijas (parmetros del modelo) y los ei son cantidades aleatorias
que representan las diferencias entre lo que postula el modelo
a + bx
y lo que realmente se
observa, y.
Por esa razn a los e los llamaremos "errores" o "errores aleatorios". Se asume que tienen valor
esperado 0 y desviacin estndar comn
Ejemplo 2
Venta de automviles
Se piensa que si aumentan el porcentaje de comisin pagada
al vendedor de automviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X
Comisiones pagadas a vendedores de autos en un mes (%)
Y
Ganancias netas por ventas, en el mismo mes (Millones de $)
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1
Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68
Ganancias (MM$)
30.00
25.00
20.00
15.00
10.00
5.00
0.00
0.0
2.0
4.0
6.0
8.0
10.0
En la figura, son los cuadrados de los segmentos verticales cuya suma de cuadrados se debe
minimizar, para determinar a y b. Estos segmentos representan los errores e del modelo. b se
llama pendiente de la recta que representa los datos y a se llama intercepto sobre el eje vertical.
La solucin est dada por las siguientes frmulas:
b=
( x x)( y y) = S
S
( x x)
i
xy
xx
a = y bx
Ejemplo 2 (continuacin)
Calculamos los promedios de ambas variables y se las restamos a los valores.
Promedio de la X :
Promedio de la Y :
5.4
16.1
X-5.4
-1.8
-0.2
-0.1
1.9
-0.4
-0.2
-2.4
-2.3
-2.2
2.1
2.9
0.7
-0.5
0.4
1.7
0.0
Y-16.1
-4.9
-1.4
2.3
3.9
-3.7
-0.8
-6.6
-4.9
-8.1
11.8
8.5
2.7
-2.3
-4.0
7.5
0.0
cuadrados
3.1
23.7
0.0
2.0
0.0
5.3
3.7
14.9
0.1
13.8
0.0
0.6
5.6
42.9
5.2
23.8
4.7
65.6
4.5
138.5
8.6
71.8
0.5
7.0
0.2
5.2
0.2
16.3
3.0
56.8
39.6
488.3
Sxx
Syy
Entonces utilizando las frmulas de arriba,
b=
3.18
a=
prod.
8.6
0.2
-0.2
7.4
1.4
0.1
15.6
11.1
17.6
25.0
24.8
1.9
1.1
-1.7
13.0
126.1
Sxy
-0.96
Yi = 0.96 + 3,18 X i + ei
para i=1,2,.. 15
Representa una recta, cuyo intercepto con el eje vertical es -0.96, y su pendiente es 3.18, o sea,
si el porcentaje de comisin X aumenta en 1%, la ganancia neta Y aumenta en 3.18 Millones de
pesos.
Ganancias (MM$)
25.00
20.00
15.00
10.00
5.00
0.00
-5.00
0.0
2.0
4.0
6.0
8.0
10.0
Yi = a + bX i
en que a y b son los valores estimados por el procedimiento indicado anteriormente, y Xi toma
los valores de la muestra. Los puntos que representan estos valores en el grfico de dispersin,
yacen sobre la recta.
Ejemplo 2 (continuacin)
La tabla siguiente contiene los valores de Y ajustados , para cada valor de X, adems de los
valores de Y observados, a modo de comparacin. Los ajustados se obtienen por la frmula
Yi = 0.96 + 3.18 X i
obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
promedio
X
3.6
5.2
5.3
7.3
5.0
5.2
3.0
3.1
3.2
7.5
8.3
6.1
4.9
5.8
7.1
5.4
Y
11.28
14.74
18.46
20.01
12.43
15.37
9.59
11.26
8.05
27.91
24.62
18.80
13.87
12.11
23.68
16.1
Yajust.
10.50
15.59
15.91
22.28
14.96
15.59
8.59
8.91
9.23
22.92
25.46
18.46
14.64
17.50
21.64
16.1
dif
0.78
-0.85
2.54
-2.27
-2.52
-0.23
1.00
2.36
-1.18
5.00
-0.84
0.34
-0.77
-5.40
2.04
0.00
Se puede observar que el promedio de los valores ajustados es igual al promedio de los valores
observados, y que el promedio de las diferencias es cero.
La raz cuadrada del promedio de los cuadrados de las diferencias entre los valores observados y
ajustados, es una estimacin de la varianza del error,
diferencias al cuadrado es 19.8, luego la estimacin de la desviacin estndar del error es igual
a
1
19.8 = 1.32 = 1.15
15
Millones de pesos
R =
2
S xy2
S xx S yy
[ ( x
[ ( x
x)( y i y )
x) 2
][ ( y
y) 2
El rango de R2 es entre 0, cero ajuste, hasta 1, ajuste perfecto (cuando los puntos aparecen en
un lnea recta).
10
Ejemplo 2 (continuacin)
Ms arriba se calcularos las sumas de cuadrados y de productos, y dieron los siguientes valores:
Sxx = 39.6 ,
R2 =
(126.1) 2
= 0.82
39.6 * 488.3
Agrupaciones
Fabricac. de productos alimenticios
Industrias de bebidas
Industria del tabaco
Fabricac. de textiles
Fabricac. prendas de vestir, excepto calzado
Industria del cuero; produc. de cuero y sucedneos
Fabricac. de calzado, exc. de caucho o plstico
Industria de madera y sus productos exc. muebles
Fabricac. de muebles y accesorios, exc. metlicos
Fabricac. de papel y productos de papel
Imprentas, editoriales e industrias conexas
Fabricac. de sustancias qumicas industriales
Fabricac. de otros productos qumicos
Refineras de petrleo
Fabricac. prod. derivados de petrleo y carbn
Fabricac. de productos de caucho
Fabricac. de productos plsticos
Fabricac. de objetos de loza y porcelana
Fabricac. de vidrio y productos de vidrio
Fabricac. otros productos minerales no metlicos
Industrias bsicas de hierro y acero
Industrias bsicas de metales no ferrosos
Fabricac. prod. metlicos exc. maquinaria y equipo
Construccin de maquinaria, exc. la elctrica
Construccin mq., aparatos y acces. elctricos
Construccin de material de transporte
Fabricac. equipo profesional y artculos oftlmicos
Otras industrias manufactureras
Mayo 02
140.2
134.6
151.1
70.9
34.7
59.3
52.6
132.3
114.0
189.5
107.5
229.4
212.4
136.0
143.2
141.4
305.8
68.2
268.6
185.6
123.1
119.8
153.6
282.5
87.0
103.4
67.7
66.0
Mayo 03
133.5
133.7
140.5
70.3
30.5
56.7
45.3
141.6
132.4
205.3
108.0
231.4
209.6
165.2
156.2
177.4
399.7
61.1
266.4
186.5
167.1
108.7
153.5
289.7
83.0
73.4
64.1
67.5
11
600
400
200
0
0
100
200
300
400
n = 28
x = 136.6
y = 144.9
S xx = ( xi x) 2 = 134,913.6
S yy = ( y i y ) 2 = 187,813.7
S xy = ( xi x)( yi y ) = 154,350.8
Estimacin de los parmetros del modelo:
b=
S xy
S xx
154,350.8
= 1.14
134,913.6
a = y b x = 13.61
Bondad de ajuste:
R2 =
S xy2
S xx S yy
(154,350.8) 2
= 0.940
(134,913.6) * (187,350.8)
que indica un muy buen ajuste. El siguiente grfico muestra de recta de regresin estimada:
12
600
400
200
0
0
100
200
300
400
-200
Indice m ayo 2002
13
El grfico siguiente muestra las bandas de confianza de coeficiente 95%, para el ejemplo de la
produccin fsica manufacturera.
Mientras mayor es el coeficiente de determinacin R2, ms angostas son las bandas de
confianza; lo mismo mientras mayor es la desviacin estndar de las X, y lo mismo si el tamao
muestral aumenta. Y a medida que nos alejamos del promedio de las X, se ensanchan las
bandas.
14
PREGUNTAS
1.
coeficiente?
2.
universitarios:
X = Nmero de publicaciones.
Y = Nmero de veces que ha sido citado.
Utilizando regresin lineal, se estim, en base a una muestra, que estas variables estn
relacionadas mediante el siguiente modelo lineal:
Y = 0.3+ 2.6 X
Cmo se interpretan los dos parmetros de este modelo ?
3.
4.
Se tiene un conjunto de pares de datos (x,y), a los que se les estima una recta de
enseanza media:
X = promedio de notas de los cuatro aos de enseanza media.
Y = puntos PSU historia.
Utilizando regresin lineal, se estim, en base a una muestra, que estas variables estn
relacionadas mediante el siguiente modelo lineal:
Y = 60 + 100 X
Cmo se interpretan los dos parmetros de este modelo ?
6.
15
8.
Utilizando regresin lineal, se estim, en base a una muestra, que estas variables estn
relacionadas mediante el siguiente modelo lineal:
Y = 200+ 15 X
Cmo se interpretan los dos parmetros de este modelo ?
9.
10.
Una institucin ha encargado una serie de proyectos. Con los datos histricos, se quiso
relacionar los montos de los proyectos con los tiempos de ejecucin, obtenindose los siguientes
resultados:
Monto (M$) = 12620+ 476 x Tiempo (das) con un coeficiente de determinacin R2 = 0.86
Explique qu mide el coeficiente R2. Un valor de 0.62 sera mejor o peor, y por qu?
16