Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccioin A La Estadistica Descriptiva para Economistas
Introduccioin A La Estadistica Descriptiva para Economistas
INTRODUCCIÓN A LA ESTADÍSTICA
DESCRIPTIVA PARA ECONOMISTAS
Palma, 2002
ÍNDICE
231 BIBLIOGRAFÍA.
INTRODUCCIÓN: ¿Qué es...?
Los diseños de obtención de las muestras son a veces más complejos que
el muestreo aleatorio simple. Si sabemos que una población se distribuye
aproximadamente igual entre los dos sexos, podría interesarnos que ese
porcentaje se mantuviera en la muestra. Por azar, sería posible obtener una
muestra en la que la mayoría de los individuos perteneciera a uno de los dos
sexos. Un diseño muestral más rico podría dividir la población en dos (según su
sexo), realizando un m.a.s. en cada una de las partes, es decir, seleccionando al
azar la mitad de la muestra entre la población masculina y la otra mitad entre la
población femenina. El diseño ya no es puro azar, puesto que éste se sacrifica
parcialmente para garantizar la máxima representatividad. La complejidad
estadística del diseño muestral puede aumentar rápidamente, cuando se imponen
más criterios. Lo que resulta esencial es que bajo diseños más o menos
complejos, siempre aparece finalmente un procedimiento de selección basado en
el azar.
En este capítulo se exponen las técnicas más sencillas que se utilizan para
describir una variable cualitativa. Definiremos las variables cualitativas
nominales y ordinales, los conceptos asociados a la distribución de frecuencia y
los limitados estadísticos que pueden emplearse en la descripción. El capítulo se
cierra con algunos de los procedimientos gráficos empleados para representar las
distribuciones de estas variables.
⇒ Su profesión es:
• Profesional liberal.
• Directivo o empresario.
• Administrativo.
• Trabajador manual.
• Trabajador Autónomo.
• Funcionario.
• Jubilado.
• Estudiante
• Otras.
Supongamos que tenemos una variable A, que puede tomar las categorías
A1, A2,…, AI. El primer objetivo es conocer cuántos individuos tienen cada
característica.
∑n
j =1
j
Ni
Fi = = , i = 1,K,I
n n
Cuadro 1
Distribución de frecuencias
Frecuencias Frecuencias Frecuencias
Categorías
Absolutas Relativas Relativas acumuladas
A1 n1 n1 /n n1 /n
A2 n2 n2 /n (n1+n2) /n
… … … …
AI nI nI /n (n1+…+nI) /n
Cuadro 2
• Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y
2 reflejan las categorías de alquiler, vivienda con hipoteca vigente y vivienda
de propiedad (en la columna Value Label se muestran las “etiquetas” de la
variable).
∑n
j =1
j
Ni
Fi = =
n n
2000
1800
1600
1400
1200
Frecuencia
1000
800
0 1 2
Gráfica 2
120
100
80
60
40
Frecuencias
20
0
A1 A2 A3 A4 A5 A6 A7 A8
Variable Cualitativa
Gráfica 3
120
100
80
60
40
Frecuencias
20
0
A1 A2 A3 A4 A5 A6 A7 A8
Variable Cualitativa
Mediana. En el caso de variables cualitativas ordinales la moda no es el único
estadístico con significado. Puesto que en las variables ordinales existe un
sentido de orden en sus categorías, si éstas se ordenan de “menos” a “más”, la
distribución de frecuencias acumuladas tendrá una interpretación. La mediana es
aquella característica de la distribución que ocupa la posición central de la
misma. Ordenados los valores de la variable (de menor a mayor), la mediana
define aquel punto que deja por debajo de sí mismo el 50% de la distribución.
Cuadro 3
Valid Cum
Value Label Value Frequency Percent Percent Percent
Gráfica 4
Gráfica de barras
50
40
30
20
Porcentaje
10
0
Muy satisf actorio Bastante satisfact. Poco satisf actorio Nada satisf actorio
Frecuencias relativas
Gráfica 6
50
Porcentaje
40
100
30
20 50
Número de paradas
10 11 10 10
4
0 0
6,00 1,00 2,00 3,00 4,00 5,00
Causa de la parada
Gráfica 7
300
Porcentaje
200 100
50
Tiempo de parada
100
70
53
41
0 20 0
1,00 6,00 3,00 4,00 2,00 5,00
Causa de la parada
CAPÍTULO II. Distribución de frecuencias e histograma
Cuadro 1
Gráfica 1
600
562
500
400
300
307 301
Frecuencias absolutas
200
100
59
0
0 1 2 3 4 5
Cuadro 2
EDAD del sustentador principal
Valid Cum
Value Frequency Percent Percent Percent
16,00 1 ,1 ,1 ,1
17,00 4 ,3 ,3 ,3
18,00 13 ,9 ,9 1,2
19,00 9 ,6 ,6 1,8
20,00 20 1,4 1,4 3,2
21,00 18 1,2 1,2 4,5
22,00 33 2,3 2,3 6,7
23,00 34 2,3 2,3 9,0
24,00 37 2,5 2,5 11,6
25,00 36 2,5 2,5 14,0
26,00 42 2,9 2,9 16,9
27,00 33 2,3 2,3 19,2
28,00 31 2,1 2,1 21,3
29,00 33 2,3 2,3 23,6
30,00 32 2,2 2,2 25,8
31,00 27 1,8 1,8 27,6
32,00 34 2,3 2,3 29,9
33,00 45 3,1 3,1 33,0
34,00 31 2,1 2,1 35,1
35,00 32 2,2 2,2 37,3
36,00 31 2,1 2,1 39,5
37,00 26 1,8 1,8 41,2
38,00 31 2,1 2,1 43,4
39,00 31 2,1 2,1 45,5
40,00 25 1,7 1,7 47,2
(Continuación Cuadro 2)
Gráfica 2
50
40
30
Frecuencias absolutas
20
10
0
16 20 24 28 32 36 40 44 48 52 56 60 64 68 72 76 80 84 88
18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86
Cuadro 3
Valid Cum
EDAD Frequency Percent Percent Percent
200
100
0
16 - 24 24 - 32 32 - 40 40 - 48 48 - 56 56 - 64 64 - 72 72 - 80 80 - 88
donde la base es la amplitud del intervalo y, por tanto, la altura del rectángulo es
igual a:
ni 1
alturai =
n basei
500000
300000
400000
200000 300000
200000
100000
100000
0 0
200000 1000000 1800000 2600000 3400000 4200000 5000000 370000 1450000 2530000 3610000 4690000
600000 1400000 2200000 3000000 3800000 4600000 5400000 910000 1990000 3070000 4150000 5230000
Gráfica 6 Gráfica 7
300000 200000
200000
100000
100000
0 0
208000 1504000 2800000 4096000 5392000 154000 1234000 2314000 3394000 4474000
856000 2152000 3448000 4744000 694000 1774000 2854000 3934000 5014000
4 12 12 4. 4 3 4. 4 3
12 31 43 11. 44 15. 87
20 56 99 20. 66 36. 53
52 13 257 4. 8 0 94. 83
60 8 265 2. 9 5 97. 79
68 1 266 0. 3 7 98. 15
76 2 268 0. 7 4 98. 89
84 3 271 1. 1 1 100. 00
0 10 20 30
Fr e c u e n c i a s r e l a t i v a s
ECP F . I V t r i me s t r e 1 9 9 1
Gráfica 9
CUM. CUM.
Pr o p o r c i ó n g a s t o e n v e s t i d o y c a l z a d o
FREQ. FREQ. PCT. PCT.
0 62 62 22. 88 22. 88
20 14 239 5. 17 88. 19
25 12 251 4. 43 92. 62
30 14 265 5. 17 97. 79
35 1 266 0. 37 98. 15
40 4 270 1. 48 99. 63
45 1 271 0. 37 100. 00
0 10 20 30
Fr e c u e n c i a s r e l a t i v a s
ECP F . I V t r i me s t r e 1 9 9 1
Gráfica 18
.078947
Fraction
0
3000 A M 39990
salarios base 1983
Gráfica 19
.102424
Fraction
0
4000 A M 68992
salarios base 1986
Gráfica 20
.101049
Fraction
0
117000 A=M 176900
salarios base 1992
∑X
i =1
i
x=
n
X1 n1
X2 n2
X3 n3
M M
Xp np
∑n
i =1
i Xi
x=
n
Número visitas 1 2 3 4 5 6
Frecuencia absoluta 48 30 15 4 0 3
Frecuencia 48 78 93 97 97 100
acumulada
En nuestro ejemplo:
4609
− 1991
Mediana = 8 + 2 ⋅ 6 = 8,8
2422
Propiedades de la media
∑( X
i =1
i − x )=0
Es decir, la suma de las desviaciones de los valores con respecto a la
media es igual a cero.
∑(c+ Xi )
i =1
∑ c + ∑ Xi
i =1 i =1
nc + ∑ Xi
i =1
∑X
i =1
i
xc+ X = = = =c+ =c+ x
n n n n
∑c X
i =1
i c∑ Xi
i =1
x cX = = = cx .
n n
Media ponderada. Es frecuente trabajar también con la media ponderada, en la
que los valores promediados son ponderados mediante un peso determinado. Si
tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un
peso wi, la media ponderada se define como:
∑w X i i
xw = i =1
p
∑w i =1
i
Si, por ejemplo, las observaciones de una variable se ponderan por sus
frecuencias relativas: wi = ni n , es decir, por la importancia relativa de cada
valor en la distribución, se tendría (suponiendo p valores distintos):
p p p
ni
∑nX i ∑n X i i ∑n X i i
xw = i =1
p
= i =1
p
= i =1
ni n
∑
i =1 n
∑n i =1
i
0,60
(x1,rural + x2,rural + K + xn,rural ) + 0,40 (x1,urbana + x2,urbana + K + xn,urbana )
n nurbana
x w = rural =
0,60 0,40
n rural + nurbana
n rural nurbana
=
0,60
(x1,rural + x2,rural + K + xn,rural )+ 0,40 (x1,urbana + x2,urbana + K + xn,urbana ) =
n rural nurbana
∑w X i i
5 X 1 + 5 X 2 + 5 X 3 +... +5 X 20 X 1 + X 2 + X 3 +... + X 20
xw = i =1
= =
p
20 ⋅ 5 20
∑w i =1
i
Cuadro 1
Muestra: Clase 1 Clase 2
∑X i
110 + 120 + 130 K + 90 + 95
x= i =1
= = 114,5
n 10
∑w X i i
16,67 ⋅ (110 + 120 + K + 160) + 10 ⋅ (70 + 80 + K + 95)
xw = i =1
n
= = 120,36
∑w
140
i
i =1
__X1____X2__X3_____X4_ x ______X5___X6_________X7__________________
_
↑
__X1____X2__X3_____X4_________X5_ x X6_______________________X7____
_
↑
Gráfica 1
CUM. CUM.
FREQ. FREQ. PCT. PCT.
EEINMIDPOINT
-3.75 0 0 0.00 0.00
-1.25 0 0 0.00 0.00
1.25 13357 13357 63.41 63.41
3.75 5562 18919 26.40 89.81
6.25 1323 20242 6.28 96.09
8.75 449 20691 2.13 98.22
11.25 180 20871 0.85 99.07
13.75 90 20961 0.43 99.50
16.25 42 21003 0.20 99.70
18.75 18 21021 0.09 99.79
21.25 14 21035 0.07 99.85
23.75 8 21043 0.04 99.89
26.25 9 21052 0.04 99.93
28.75 7 21059 0.03 99.97
31.25 0 21059 0.00 99.97
33.75 2 21061 0.01 99.98
36.25 2 21063 0.01 99.99
38.75 0 21063 0.00 99.99
41.25 2 21065 0.01 100.00
43.75 1 21066 0.00 100.00
46.25 0 21066 0.00 100.00
FREQUENCY
Cuadro 2
Media 2.6010
Medias cortadas
Observaciones suprimidas
(en cada cola):
1 2.5992
2 2.5974
3 2.5957
10 2.5867
105 2.5219
Media Geométrica. La media geométrica de n observaciones se define como:
g = n X 1 X 2 ... X n
X t − X t −1
x[ t , t −1] =
X t −1
X t = ( 1 + x[ t , t −1] ) X t −1
Tenga en cuenta que este mismo valor puede obtenerse más fácilmente
cuando se dispone de los valores inicial y final de la serie, ya que a partir de la
relación:
X T = (1 + x[ TMV ] ) T X 0 ,
se tiene:
XT
x[ TMV ] = T −1
XO
Cuadro 3
Horas Factor de
Tasa de
Año Trabajada variación
variación
s unitaria
1987 43088 - -
1988 43387 0,0069 1,0069
1989 42222 -0,0268 0,9731
1990 40453 -0,0419 0,9581
1991 33936 -0,1611 0,8389
1992 32126 -0,0533 0,9467
Media Geométrica (factores de variación unitaria): -
0,057
Media Aritmética (tasas de variación): -0,055
Cuadro 4
Mes 1 2 3 4 5 6 7 8 9 10 11 12
Rentabilida
-0,13 0,00 0,29 0,06 0,19 -0,03 0,05 0,04 0,00 0,04 0,00 0,04
d
La característica acumulativa de los datos hace que de nuevo para
obtener un valor promedio, sea más adecuado el empleo de la media
geométrica:
rTMV = 12 ( 1 + r[12 , 11] ) ( 1 + r[11, 10] )...(1 + r[1, 0] ) − 1
Gráfica 2
FREQUENCY
200
190
180
170
160
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
Gráfica 3
FREQUENCY
3000
2000
1000
Gráfica 4
FREQUENCY
300
200
100
Cuadro 5
Distribución Media Mediana
A -4 -4,3
B 101 71
C -212 -62
Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con
la variable ordenada de menor a mayor) dejan por debajo de su posición el 25%,
50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles
dividen la variable en cuatro grupos con igual número de observaciones (el 25%
de valores más bajos, el 25% siguiente,…).
Con los siguientes siete datos (ya ordenados de menor a mayor): 9, 23,
25, 28, 32, 47 y 50, obtendremos los tres cuartiles. El primer cuartil es igual a 23
(el valor en el lugar 8 4 = 2 ); el segundo cuartil es 28 (ocupa la posición
16 4 = 4 ); y el tercer cuartil es 47 (posición 24 4 = 6 ).
Con los siguientes ocho datos (un número par de observaciones): 9, 23,
25, 28, 32, 47, 50 y 51 obtendremos de nuevo los cuartiles. El primer cuartil será
el promedio de las posiciones n 4 y (n 4 ) + 1 , en este caso el promedio de las
posiciones 2 y 3, que será el valor 24. El segundo cuartil será el promedio de las
posiciones 4 y 5, siendo igual a 30. El tercer cuartil promedia los lugares 6 y 7,
siendo igual a 48,5.
Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90
por ciento. El primer decil ocupará la posición n 10 ; el segundo decil ocupará la
posición 2 ⋅ n 10 ; ... y el noveno la posición 9 ⋅ n 10 .
Los percentiles amplían esta idea para definirse sobre porcentajes del 1,
2, 3, …, hasta el 99 por ciento. El primer percentil ocupará la posición n 10 0 ; el
segundo percentil la posición 2 ⋅ n 10 0 ; ... y el 99 percentil la posición
99 ⋅ n 10 0 .
Dadas las definiciones anteriores, en el cuadro 6 se ofrecen las obvias
equivalencias de definición entre cuartiles y percentiles.
Cuadro 6
Mediana = Segundo Cuartil = 50 Percentil
Primer Cuartil = 25 Percentil
Tercer Cuartil = 75 Percentil
Cuadro 7
Percentil Renta p.c.
disponible
Renta mínima 0
5 270903
10 345497
15 403034
20 454221
25 501457
30 542498
35 585791
40 631359
45 681373
50 732524
55 781361
60 839756
65 904918
70 974001
75 1061552
80 1173166
85 1322099
90 1544322
95 1992821
Renta máxima 168572662
Fuente: Pena et al. (1996)
Gráfica 5
percentiles
90
80
70
60
50
40
30
20
10
0 200000 400000 600000 800000 1000000 1200000 1400000 1600000 1800000 2000000
Renta p.c.
Puede comprobar que a medida que los ingresos crecen el cociente entre gasto e
ingresos, manteniéndose siempre inferior a la unidad, disminuye. El consumo representa
un 75,2% de los ingresos de las familias con menos ingresos, mientras que únicamente
supone el 55,3% de los ingresos de las familias situadas en la escala más alta de riqueza.
Gráfica 6
,2
,1
Variaciones salario hora maridos, 1969-1989
,0
-,1
-,2
-,3
10 20 30 40 50 60 70 80 90 100
Gráfica 7
,0
0,0
,0
Variaciones tasa empleo maridos, 1969-1989
,0
-,1
-,1
-,1
-,1
-,1
-,2
10 20 30 40 50 60 70 80 90 100
Gráfica 8
8
4
Tasa Empleo Mujeres
1
1969
0 1989
10 20 30 40 50 60 70 80 90 100
Gráfica 9
1200
1000
800
Ingresos Anuales ($ 1982)
600
400
1969
200 1989
10 20 30 40 50 60 70 80 90 100
∑(X
i =1
i − x)2
s x2 =
n
∑(X i =1
i − x)2
sx =
n
sx
CV =
x
Gráfica 10
.36
.36
0
-10.3137 10 -10.3137 10
• Propiedades de la varianza:
n n
∑ (c + X i − (c + x )) 2
i =1
∑(X
i =1
i − x)2
sc2+ x = = = s x2
n n
n n n
∑ (c X i − c x ) 2 ∑ c2 ( X i − x)2 c2 ∑ ( X i − x ) 2
i =1 i =1 i =1
sc2x = = = = c 2 s x2
n n n
sc x = c s x
(5) La varianza puede escribirse de manera equivalente como:
n
∑X
i =1
i
2
∑ ( X i − x ) 2 =∑ ( X i2 + x 2 −2 X i x ) = ∑ X i2 +n x 2 −2 x ∑ X i =
i =1 i =1 i =1 i =1
n n
= ∑ X i2 + n x 2 − 2 n x 2 = ∑ X i2 − n x 2
i =1 i =1
∑ ( X i −x)2 ∑ X i2 −n x 2 ∑X i
2
s x2 = i =1 = i =1 = i =1
−x 2
n n n
∑( X i −x) 2
∑( X i − k )2
i =1 i =1
<
n n
para cualquier otro valor de k ≠ x .
(7) Como en el caso de la media puede definirse una varianza ponderada, en
la que se de una mayor o menor importancia a las observaciones.
Ejemplo 11. Con los siguientes datos: {9, 23, 25, 28, 32, 47, 50}
calcularemos las diversas medidas de dispersión:
Rango= X MAX − X MIN = 50 − 9 = 41
Rango IQ =Q3 −Q1 = 47 − 23 = 24
∑X i
2
s x2 = i =1
−x 2
n
i Xi Xi2
1 9 81
2 23 529
3 25 625
4 28 784
5 32 1024
6 47 2209
7 50 2500
7 7
∑ X i = 214
i =1
∑X
i =1
i
2
= 7752
7 7
∑X i ∑X i
2
x= i =1
= 30,571 i =1
= 1107,43
7 n
n
∑X i
2
s x2 = i =1
− x 2 = 172,84
n
∑(X i − x)2
sx = i =1
= 172,84 = 13,147
n
Y el coeficiente de variación:
s x 13,147
CV = = = 0,43
x 30,571
Cuadro 9
i Xi Xi2
1 2,7 7,29
2 1,2 1,44
3 3,45 11,9025
4 4,03 16,2409
5 4,32 18,6624
6 5,4 29,16
7 3,5 12,25
7 7
∑X
i =1
i = 24,6 ∑X
i =1
i
2
= 96,9458
7 7
∑ Xi ∑X i
2
x= i =1
= 3,514 i =1
= 13,85
7 n
n
∑X i
2
s x2 = i =1
− x 2 = 1,50
n
Cuadro 10
X1 X2
2,7 270
1,2 120
3,45 345
4,03 403
4,32 432
5,4 540
3,5 350
Media
3,514286 351,4286
Desviación Estándar
1,322521 132,2521
Gráfica 11
5
1
1 2 3 4 5 6 7
Gráfica 12
500
400
300
200
100
1 2 3 4 5 6 7
Desviació Coeficiente
Media
n de
estándar variación %
Alemana 60 22 36,67
Británica 75 30 40
Española 60 31 51,67
Nórdicos 75 36 48
∑ (X i − x ) ∑ (X −x )
2
i
= i =1 = 10
10 i =1
=
n n
1 2
= 9 = 0,81
100
Cuadro 12
x sx CV ⋅100
Navarra 3 13 17
Asturias 6 16 16
Baleares 5 11 15
Cantabria 11 15 14
Canarias 14 14 13
Catalunya 2 6 12
Com. Valenciana 10 12 11
Castilla-León 8 10 10
Extremadura 17 17 9
Rioja 7 8 8
Aragón 9 9 7
País Vasco 4 5 6
Galicia 12 7 5
Murcia 13 4 4
Andalucía 15 3 3
Madrid 1 2 2
Castilla- La Mancha 16 1 1
En un análisis comparativo de la distribución de la renta puede
tener más sentido emplear el coeficiente de variación si se quiere
discutir, sobre niveles dados de renta, qué comunidad presenta mayor o
menor dispersión en esa variable. Observe que el orden de las
comunidades en función de la desviación estándar o del coeficiente de
variación no son totalmente coincidentes.
Cuadro 13
Pensionistas Asalariados Profesionales Empresarios
x 1375919,81 1872897,97 2221962,38 2067427,89
sx 393701,38 900167,565 1471118,41 1279698,30
s x2 1,550E+11 8,103E+11 2,164E+12 1,638E+12
CV ⋅100 28,6137 48,0628 66,2081 61,8981
Cuadro 14
Período Precio A Rentabilidad Precio B Rentabilidad
A B
0 10 12
1 10 0,00 12 0,00
2 12 20,00 14 16,67
3 13 8,33 12 -14,29
4 13 0,00 11 -8,33
5 14 7,69 11 0,00
6 14 0,00 12 9,09
7 12,5 -10,71 9,5 -20,83
8 12 -4,00 9 -5,26
9 14 16,67 14 55,56
10 12 -14,29 13 -7,14
11 13 8,33 14 7,69
12 14 7,69 17 21,43
Media Aritm. 3,31 4,55
Tasa Media 2,84 2,95
Desv. 10,17 20,23
Estándar
Gráfica 13
60,00
40,00
20,00
0,00
1 2 3 4 5 6 7 8 9 10 11 12
-20,00
-40,00
-60,00
Gráfica 14
60,00
40,00
20,00
0,00
1 2 3 4 5 6 7 8 9 10 11 12
-20,00
-40,00
-60,00
Ejemplo 20. Índice de Sharpe. Cuando se invierte se intenta valorar
cuál es el rendimiento esperado, resultando más atractiva aquella
inversión que proporciona unos ingresos futuros mayores. El riesgo de la
inversión es, sin embargo, un parámetro que también debe tenerse en
cuenta, ya que, normalmente, será preferible una cantidad segura a la
promesa de una cantidad aproximadamente igual, pero no garantizada
(en economía se habla de esta actitud como de “aversión al riesgo”).
Cuadro 15
Fondo de Inversión Índice de Clasificació E σ
Mobiliario Sharpe n
AB Fondo 0,07142 1 2,79 1,93
Fondonorte 0,03420 2 2,71 1,91
BSN Acciones 0.02936 3 2,93 9,50
Mutuafondo 0.02379 4 2,69 1,76
Baskinver 0.00604 5 2,66 1,80
BSN Renta Fija -0.00947 6 2,63 2,61
Fondpostal -0.00975 7 2,62 3,57
Segurfondo Divisas -0.01193 8 2,54 2,53
AB Ahorro -0.01309 9 2,63 1,87
BK Fondo -0.02220 10 2,61 1,89
Gráfica 15
coeficiente de variación Q50/Q10
Q90/Q50
2.7
2.56
2.5 2.43
2.35
.9819
1 .9027
.8281
.7818
.5
1983 1986 1989 1992
periodo
Cuadro 16
Año sx x Año sx x Año sx x
1950 1,0000 1963 0,7616 1976 0,5753
1951 0,9598 1964 0,7545 1977 0,5807
1952 0,9491 1965 0,7458 1978 0,5840
1953 0,9331 1966 0,7349 1979 0,5841
1954 0,9004 1967 0,7194 1980 0,5806
1955 0,8942 1968 0,7071 1981 0,5874
1956 0,8879 1969 0,6896 1982 0,5700
1957 0,8600 1970 0,6634 1983 0,5870
1958 0,8257 1971 0,6511 1984 0,6037
1959 0,8326 1972 0,6273 1985 0,6037
1960 0,8204 1973 0,6116 1986 0,6146
1961 0,7896 1974 0,5966 1987 0,6116
1962 0,7828 1975 0,5799 1988 0,6091
Gráfica 16
1,1
1,0
,9
,8
Sigma-convergencia
,7
,6
,5
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
88
Cuadro 18
Rendimientos Medios IBEX-35
Día Cierre- Apertura- Cierre-Cierre
Apertura Cierre
Lunes -0,1933 0,0015 -0,1908
Martes -0,0457 0,1578 0,1127
Miércoles -0,1670 0,0863 -0,0803
Jueves -0,0522 0,2733 0,2235
Viernes -0,0424 0,2617 0,2192
Gráfica 17
,3
,2
,1
,0
Rendimiento medio
-,1
-,2 cierre-apertura
apertura-cierre
-,3 cierre-cierre
lunes martes miércoles jueves viernes
,6
,5
,4
Desviación Estándar
,3
Lunes
,2 Martes
Miércoles
,1
Jueves
0,0 Viernes
11,00 11.30 12.00 12.30 13.00 13.30 14.00 14.30 15.00 15.30 16.00 16.30 17.00
HORA
Relación entre media y desviación estándar: Desigualdad de Chebychev. La
desigualdad de Chebychev afirma que, para cualquier variable, la proporción de
observaciones situadas en el intervalo: [ x − k s x , x + k s x ] es como mínimo:
1
1−
k2
∑X i
182
x= i =1
= = 26
n 7
Y su desviación estándar:
n
∑X i
2
4744
sx = i =1
−x2 = − 26 2 = 1,31
n 7
Cuadro 19
Pensionista Empresario
Asalariados
s s
x 9735 12236 13150
sx 2300 5400 5537
14335 23036
9735 ± 2 ⋅ 2300 = ; 12236 ± 2 ⋅ 5400 = ;
5135 1436
24224
13150 ± 2 ⋅ 5537 =
2076
Cuadro 20
% Cadena A Cadena B Cadena C Cadena D Cadena E
Lunes 160 158 170 160 149
Martes 159 157 150 158 150
Miércoles 158 150 159 157 152
Jueves 160 150 180 156 157
Viernes 159 157 150 158 158
Sábado 158 156 140 149 159
Domingo 160 158 170 160 160
∑X i
5502
x= i =1
= = 157,2
n 35
Y la desviación estándar:
n
∑X i
2
866546
sx = i =1
−x2 = − 157,2 2 = 6,828
n 35
Gráfica 19
Gráf ica de control: DEFECTOS
190
180
170
160
150
Límit e Sup.
Promedio
140
Límit e I nf .
130 DEFECTOS
A A A A A A A B B B B B B B C C C C C C C D D D D D D D E E E E E E E
Gráfica 20
20
19
10
18
-10
N= 25
DIAGRAMA DE CAJA
Gráfica 21
4
999
-2
465
998
792
-4
N= 1000
Gráfica 22
10
2427
2756
4930
8
947
178
4620
4888
6907
1136
4446
9634
8577
5871
3061
5475
9861
5755
699
7988
4678
6685
6 5646
8710
932
4499
218
7088
9292
7989
3980
5219
7792
6445
7619
7643
6870
5673
8334
2899
5562
1023
1891
259
3773
7343
8682
5413
927
6608
3314
236
5185
2441
688
313
4431
2977
275
2974
8979
2258
8443
7742
7698
4688
262
7650
7030
1160
5536
3350
1145
5803
1337
9308
466
4617
8655
5557
845
1728
6814
1077
6048
6059
2887
3844
929
1473
8725
9835
91
2
5
7330
3130
4246
411
8718
6259
6722
4105
6020
238
8813
1361
4408
6317
35
8185
1805
1040
2995
3950
3003
5806
7520
7182
9996
2011
2576
4916
5801
5087
8907
6236
4358
67
5279
3049
6030
6396
926
3473
7536
6963
6765
6990
5583
8048
8890
3527
3798
3999
2395
3486
8540
4081
4 6107
8832
3682
9622
5410
1960
9198
7736
7539
9004
4487
1611
9340
9521
9984
5954
9925
8490
4812
5770
6934
6700
9018
9714
9615
1552
7489
3547
5624
6734
1738
3894
6897
3638
9489
8435
999
8151
2163
4360
3240
5834
2333
7978
2935
5942
7100
5376
7042
5104
1420
9285
3294
6592
1448
4239
8800
2185
3302
8498
8881
5085
1398
1970
5049
9770
5592
5617
4041
5448
4595
1058
3371
7440
4118
5092
4521
5074
2948
4185
1445
1334
9680
243
18
5186
3675
1291
7931
8075
6196
9095
9927
5875
9483
8946
2106
7712
7380
7117
6953
1435
6485
9689
7355
9700
3136
420
2077
1749
6754
7661
1924
9300
5716
7141
3483
7071
6433
8336
414
471
6489
3976
7865
9554
7862
4285
7773
855
21
2002
8918
8960
9829
2070
9404
4107
8066
8326
804
6366
2472
6834
8627
6151
6820
6551
4661
6735
8683
763
8594
4870
7079
4749
6239
1839
9822
8686
1653
4582
6093
3984
945
4816
6621
707
1641
4722
7458
5788
9906
5900
5865
2693
4997
482
1109
7438
5275
1229
9226
5843
872
9609
7820
7522
1393
5155
89
2424
6397
4946
9805
3911
6017
5619
5899
1462
6193
8542
8300
4296
9209
7699
4078
5732
2602
8822
5502
4865
3282
8654
5861
4123
7455
3884
8643
4111
2101
7172
2318
1676
1428
7572
4949
2929
4438
83
1864
5645
7854
541
1698
2867
3100
578
9563
7715
7246
136
5128
7305
4300
9215
5982
6561
5195
9491
944
1356
7168
7540
5077
167
7447
76
8615
8706
9085
3769
1055
4440
8790
2153
2450
6757
5796
2835
4412
968
571
9237
108
6125
4019
9902
170
1261
6618
7492
5582
4312
8082
7868
3310
8503
1670
5210
4724
6859
7972
3043
2715
-2
N= 10000
X3
Gráfica 23
10
239
136
21
707
730
763
555
571
108
482
243
266
471
167
83
466
76
91
414
238
262
5
926
845
927
67
35
-10 259
929
313
236
218
275
688
178
932
699
947
-20
N= 1000
X5
Gráfica 24
60
50
40
30
20
10
0
N= 7
Cuadro 21
Pensionista Asalariado Profesionale Empresario
s s s s
x 8255 11236 13331 12404
Mediana 7739 9497 10628 12633
Rango
IQ 2608 6237 13282 6681
Gráfica 25
ingresos
45000
343
Pension. Asalaria. Profes. Empres.
Cuadro 22
PIB per capita PIB per capita
país 1960 1990
(USA=100) (USA=100)
Alemania 67,73 83,61
Australia 67,25 73,07
Austria 52,03 75,63
Bélgica 53,27 74,59
Canadá 66,59 86,86
Dinamarca 63,17 75,73
España 31,76 53,66
Finlandia 48,57 75,53
Francia 58,81 79,13
Grecia 18,97 33,83
Holanda 63,50 72,77
Irlanda 31,22 49,14
Islandia 50,05 76,22
Italia 47,23 73,20
Japón 29,91 80,63
Luxemburgo 75,18 91,16
N. Zelanda 75,13 61,86
Noruega 50,10 73,27
Portugal 20,77 38,24
Reino Unido 67,85 72,56
Suecia 67,26 77,16
Suiza 97,20 95,85
Turquía 17,43 23,36
EEUU 100 100
Gráfica 26
120
100 EEUU
80
60
40 Portugal
Grecia
Turquía
20
0
N= 24 24
PIB per capita, 1960 PIB per capita, 1990
Ejemplo 30. Empleando los catálogos del año 2000 publicados por
diversos tour operadores británicos se recogieron los precios de las
ofertas que realizan para una estancia de una semana en las Islas
Baleares (en la primera semana de agosto y saliendo del aeropuerto de
Gatwick). Para cada grupo de tour operadores (Airtours, Cosmos, First
Choice, Thomas Cook, Thomson y Virgin) se ha construido su diagrama
de caja con los precios de las ofertas de estancias a media pensión en
habitación doble en un hotel de tres estrellas, con el resultado que se
muestra en la gráfica 27. En esta gráfica, el tamaño de las cajas se ha
dibujado de manera que sea proporcional al número de ofertas que
realiza el tour operador. Así, First Choice y Thomson serían los grupos
con más ofertas.
Gráfica 27
precio ptas
198967
98281.8
airtours cosmos firtst ch thomas co thomson virgin
Gráfica 28
total def pc/día
42110.8
800.974
una vez dos veces tres vece 4 o más v
La imagen comparativa muestra la igualdad de las distribuciones,
tanto en su posición central, como en los cuartiles (y rango
intercuartílico), máximos y mínimos.
∑( X i − x)
i =1
n
en tanto que define un promedio de las desviaciones de la variable con respecto
al valor medio. En el caso de que se dieran muchas observaciones por encima de
la media se esperaría un valor positivo, mientras que una mayor proporción de
valores por debajo de la media proporcionaría un valor negativo. Es posible que
ya se haya dado cuenta de que esta propuesta, si no se modifica, es inservible,
∑( X − x)= 0 .
n
puesto que por definición siempre i
i =1
∑( X i − x)3
i =1
m3 =
n
∑ n (X
i =1
i i − x)3
m3 =
n
• m3 = 0 : Simetría.
• m3 > 0 : Asimetría positiva o por la derecha.
• m3 < 0 : Asimetría negativa o por la izquierda.
m3
g1 =
s x3
• g1 = 0 : Simetría.
• g1 > 0 : Asimetría positiva o por la derecha.
• g1 < 0 : Asimetría negativa o por la izquierda.
Medida de asimetría de Pearson. Recuerde que hemos planteado una relación
entre media, moda y mediana que permitía definir la simetría o asimetría de una
distribución. En una distribución simétrica los tres valores tienden a coincidir,
mientras que en una distribución asimétrica se presentan con un orden distinto.
Pearson propuso el siguiente estadístico:
x − Moda
AS =
sx
• AS = 0 , la distribución es simétrica.
• AS > 0 , la distribución es asimétrica por la derecha.
• AS < 0 , la distribución es asimétrica por la izquierda.
∑(X
i =1
i − x)4 / n
m4
Curtosis = 4 =
s x s x4
m4 = 3 s x4
Este tipo de distribución normal se estudia desde un punto de vista
matemático dentro de la estadística no descriptiva, en un marco en el que las
distribuciones de las variables se analizan desde su idealización matemática.
Gráfica 29
.089626
.089626
Histogramas Normal
Gráfica 30
.057
0
-.1 2.6
Gráfica 31
.08
0
-2.38555 5.84201
Gráfica 32
.1403
0
-16.758 16.5001
Gráfica 33
.1142
0
-7.59041 8.28189
Cuadro 23
Xi ni X i ni X i −x ( X i −x ) 2 ( X i − x )2 n i ( X i − x )3 ni
0 4 0 -1,36 1,84 7,37 -10
1 5 5 -0,36 0,13 0,64 -0,23
2 2 4 0,64 0,41 0,83 0,53
3 2 6 1,64 2,70 5,40 8,87
4 1 4 2,64 6,98 6,98 18,46
4
∑ X n =19
4
x =1,357
∑ (X − x ) ni
2
i
21,21
sx = i =1
= =1,231
n 14
Cuadro 24
Xi ni X i ni X i −x ( X i − x )2 n i ( X i − x )4 n i
0 4 0 -1,36 7,37 13,57
1 5 5 -0,36 0,64 0,08
2 2 4 0,64 0,83 0,34
3 2 6 1,64 5,40 14,57
4 1 4 2,64 6,98 48,79
4
∑ X n =19
4
x =1,357
∑ (X − x ) ni
2
i
21,21
sx = i =1
= =1,231
n 14
m4 77,35 14
g2 = −3= − 3 = − 0,59
4
sx (1,231)4
Cuadro 25
Variación n x sx Mínimo Máximo Asimetría Curtosis
índice de
índice de
ocupació 219 0,009 0,136 -0,381 0,452 0,351 0,60
n
Gráfica 34
40
30
Frequency
20
10
-40 -20 0 20 40
Variación índice de ocupación
Gráfica 35
nacionalidad española
70
60
50
40
30
20
Frecuencia
10
0
10,0 50,0 90,0 130,0 170,0 210,0
30,0 70,0 110,0 150,0 190,0
Gráfica 36
.174051
Fraction
0
-70 -50 -30 -10 10 30 50 70 90 110 130 150 170
ARGENTINA, rendimientos mensuales
Gráfica 37
.223881
Fraction
0
-30 -10 10 30 50
EEUU, rendimientos mensuales
Cuadro 26
Media Media
Desviación Asimetrí
País aritmética geométric Curtosis
estándar a
(%) a (%)
Argentina 56.8 27.2 87.9 3.32 20.22
Brasil 42.6 22.1 63.9 0.25 1.09
Chile 32.2 28.2 27.6 0.28 -0.07
Colombia 32.7 28.0 31.5 1.63 4.14
Grecia 21.6 14.0 41.2 1.76 6.33
India 11.7 6.3 33.8 0.72 1.11
Jordania 5.9 4.6 15.9 0.17 1.53
Malasia 17.3 13.9 25.2 -0.86 2.79
Méjico 29.2 17.2 45.4 -1.01 5.41
Nigeria 32.6 18.1 52.3 1.49 19.64
Paquistán 14.7 11.1 27.4 1.23 4.27
Filipinas 23.4 17.7 34.1 0.67 3.69
Portugal 15.7 9.0 39.2 2.35 12.91
Corea del Sur 6.6 2.8 28.0 0.59 0.42
Taiwan 30.4 17.2 52.4 0.59 1.45
Tailandia 20.5 15.0 32.7 -0.19 1.81
Turquía 41.9 19.7 70.5 0.97 1.04
Venezuela 23.9 12.9 46.9 0.25 2.23
Zimbaue 25.4 21.0 29.3 0.02 1.25
CAPÍTULO IV. Análisis BIVARIANTE de VARIABLES CUALITATIVAS
Cuadro 2
Distribución
B1 B2 … BJ marginal de
A
A1 n11 n12 … n1J n1.
A2 n21 n22 … n2J n2.
… … … … … …
AI nI1 nI2 … nIJ nI.
Distribución
marginal de n.1 n.2 … n.J n
B
(ii) Distribución de frecuencias relativas. Son las frecuencias relativas de cada
una de las celdas respecto al total de observaciones (cuadro 3).
Cuadro 3
Distribución
B1 B2 … BJ marginal de
A
n11 n12 n1J n1.
A1 K
n n n n
n21 n 22 n2 J n2.
A2 K
n n n n
… M M K M M
n I1 n I 2 n IJ nI .
AI K
n n n n
Cuadro 4
B1 B2 … BJ
n11 n12 n
A1 K 1J 1
n1. n1. n1.
n 21 n 22 n 21
A2 K 1
n 2. n 2. n 2.
… M M K M M
nI 2
nI1 n IJ
AI nI . K 1
nI . nI .
Distribución n.1 n.2 n
marginal de K .J 1
B n n n
(iv) Perfiles columna. Muestra las frecuencias relativas de cada una de las celdas
con respecto al total de las columnas (cuadro 5).
Cuadro 5
Distribución
B1 B2 … BJ marginal de
A
n11 n12 n n1.
A1 K 1J
n.1 n.2 n. J n
n21 n22 n n2.
A2 K 2J
n.1 n.2 n. J n
… M M K M M
nI1 nI 2 n nI .
AI K IJ
n.1 n.2 n. J n
1 1 … 1 1
Cuadro 6
20/99 100/499 más 500 Totale
s
Metal 50 73 90 213
Química 13 31 15 59
Alimentación 14 15 9 38
Confección 33 48 8 89
Madera 20 3 1 24
Papel 9 10 4 23
Minerales 11 9 5 25
Construcció 80 31 28 139
n
Totales 230 220 160 610
Cuadro 7
20/99 100/499 más 500 Totales
Metal 8,20 11,97 14,75 34,92
Química 2,13 5,08 2,46 9,67
Alimentación 2,30 2,46 1,48 6,23
Confección 5,41 7,87 1,31 14,59
Madera 3,28 0,49 0,16 3,93
Papel 1,48 1,64 0,66 3,77
Minerales 1,80 1,48 0,82 4,10
Construcción 13,11 5,08 4,59 22,79
Totales 37,70 36,07 26,23 100,00
Gráfica 1
15,00
10,00
5,00
más 500
0,00 100 a 499
1 2 3 20 a 99
4 5 6 7 8
Cuadro 8
20 a 99 100 a 499 más 500 Totales
Metal 23,47 34,27 42,25 100,00
Química 22,03 52,54 25,42 100,00
Alimentación 36,84 39,47 23,68 100,00
Confección 37,08 53,93 8,99 100,00
Madera 83,33 12,50 4,17 100,00
Papel 39,13 43,48 17,39 100,00
Minerales 44,00 36,00 20,00 100,00
Construcción 57,55 22,30 20,14 100,00
Totales 37,70 36,07 26,23 100,00
Cuadro 9
20/99 100/499 más 500 Totales
Metal 21,74 33,18 56,25 34,92
Química 5,65 14,09 9,38 9,67
Alimentación 6,09 6,82 5,63 6,23
Confección 14,35 21,82 5,00 14,59
Madera 8,70 1,36 0,63 3,93
Papel 3,91 4,55 2,50 3,77
Minerales 4,78 4,09 3,13 4,10
Construcción 34,78 14,09 17,50 22,79
Totales 100,00 100,00 100,00 100,00
Cuadro 10
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 88 524 36 97 395 593 358 200 520 2812
Sí, próx.años 25 143 8 37 100 182 120 94 148 856
Sí, jubilación 16 148 8 48 167 233 102 90 157 968
NS/NC 34 211 19 39 212 249 118 115 181 1178
Totales 163 1026 71 221 874 1257 698 498 1006 5814
Cuadro 11
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 3,13 18,63 1,28 3,45 14,05 21,09 12,73 7,11 18,49 100
Sí, próx.años 2,92 16,71 0,93 4,32 11,68 21,26 14,02 10,98 17,29 100
Sí, jubilación 1,65 15,29 0,83 4,96 17,25 24,07 10,54 9,30 16,22 100
NS/NC 2,89 17,91 1,61 3,31 18,00 21,14 10,02 9,76 15,37 100
Totales 2,80 17,65 1,22 3,80 15,03 21,62 12,01 8,57 17,30 100
Cuadro 12
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 53,99 51,07 50,70 43,89 45,19 47,18 51,29 40,16 51,69 48,37
Sí, próx.años 15,34 13,94 11,27 16,74 11,44 14,48 17,19 18,88 14,71 14,72
Sí, jubilación 9,82 14,42 11,27 21,72 19,11 18,54 14,61 18,07 15,61 16,65
NS/NC 20,86 20,57 26,76 17,65 24,26 19,81 16,91 23,09 17,99 20,26
Totales 100 100 100 100 100 100 100 100 100 100
Chi-Cuadrado y C de contingencia
La lectura de los porcentajes de una tabla de frecuencias permite
averiguar si existe algún tipo de asociación entre las diversas categorías de las
variables, verificando si el hecho de pertenecer a alguna de las categorías de una
de las variables permite asegurar una frecuencia mayor o menor de la esperada
respecto a las categorías de la otra variable. Retomemos el ejemplo anterior en el
que se analiza las respuestas de los turistas de Baleares a la pregunta “¿desearía
escoger Baleares como segunda residencia?”, teniendo en cuenta la zona en la
que han pasado sus vacaciones en las islas. El total de turistas que contestan
“No” a esta pregunta es aproximadamente del 48%. En el caso de que el lugar de
estancia no tuviese una especial influencia en esta opinión, el porcentaje de
“noes” esperado sería el mismo independientemente de la zona de vacaciones. Es
decir, tanto en la zona 1 como en la zona 2, etcétera, esperaríamos un porcentaje
de respuestas negativas muy cercano al 48%. Al observar una zona con un
porcentaje distinto (sea mayor o menor) que el calculado sobre toda la muestra es
cuando se detecta una asociación entre las dos variables cualitativas. Si la
distribución de frecuencias se modifica en función de la zona de estancia
podemos hablar de una asociación entre las dos variables.
Cuadro 13
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37 48,37
Sí, próx.años 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72 14,72
Sí, jubilación 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65 16,65
NS/NC 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26 20,26
Totales 100 100 100 100 100 100 100 100 100 100
Cuadro 14
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9 Totales
No 79 496 34 107 423 608 338 241 487 2812
Sí, próx.años 24 151 10 33 129 185 103 73 148 856
Sí, jubilación 27 171 12 37 145 209 116 83 167 968
NS/NC 33 208 14 45 177 255 141 101 204 1178
Totales 163 1026 71 221 874 1257 698 498 1006 5814
2812 2812
e11 = 163 = 79 ; e12 = 1026 = 496 ; ...
5814 5814
856 856
e21 = 163 = 24 ; e22 = 1026 = 151 ; ...
5814 5814
(n )
2
I J − eij
χ2 =∑∑
ij
i =1 j =1 eij
(n )
2
I J − eij
∑∑
ij
Inexistencia de asociación entre las variables ⇒ χ 2 = ≅0
i =1 j =1 eij
Cuadro 15
zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 zona 9
No 1,1 1,6 0,1 0,9 1,8 0,4 1,3 7 2,3
Sí, próx.años 0,0 0,4 0,6 0,6 6,4 0,1 2,9 5,7 0,0
Sí, jubilación 4,6 3,1 1,2 3,4 3,1 2,6 1,8 0,6 0,7
NS/NC 0,0 0,0 1,5 0,7 6,9 0,1 3,9 1,9 2,5
χ2
C=
n+χ2
Cuadro 16
Zona:
Unipersonal: Rural Urbana Totales
No 9070 9840 18910
Sí 1065 1091 2156
Totales 10135 10931 21066
Cuadro 17
Zona:
Unipersonal: Rural Urbana Totales
48% 52%
No 89,5% 90% 89,8%
43,1% 46,7%
49,4% 50,6%
Sí 10,5% 10% 10,2%
5,1% 5,2%
Totales 48,1% 51,9%
Cuadro 18
Zona:
Unipersonal: Rural Urbana Totales
18910 18910
No 10135 = 9097,73 10931= 9812,27 18910
21066 21066
2156 2156
Sí 10135 =1037,27 10931=1118,7 2156
21066 21066
Totales 10135 10931 21066
χ2 1,59
C= = = 0,0087
n+χ 2
21066 + 1,59
Lambda
Cuadro 19
Zona:
mayores de 60 años: Rural Urbana Totales
No 5318 6726 12044
Sí 4817 4205 9022
Totales 10135 10931 21066
Cuadro 20
Zona:
mayores de 60 años: Rural Urbana Totales
No 44,2% 55,8% 100%
Sí 53,4% 46,6% 100%
Totales 48,1% 51,9% 100%
donde:
⇒ error no condicionado, es el error de predicción cometido cuando las
predicciones para los atributos de la variable dependiente no están condicionadas
a otra variable.
⇒ error condicionado, es el error de predicción cometido cuando las
predicciones para los atributos de la variable dependiente se hacen condicionadas
a los atributos de una variable independiente.
Categoría socioeconómica:
Cuadro 21
Categoría socioeconómica del sustentador principal (SP):
Nivel de
estudios 1 2 3 4 5 6 7 8 9 Totales
del SP:
259 383 247 3 256 645 113 44 3500
4,8 7,0 4,5 0,1 4,7 11,8 2,1 0,8 64,2 5450
1
33,2 50,6 11,7 0,2 8,2 14,8 30,9 26,3 44,8 25,9
1,2 1,8 1,2 0,0 1,2 3,1 0,5 0,2 16,6
2 489 345 1434 228 1828 3252 235 98 3693 11602
4,2 3,0 12,4 2,0 15,8 28,0 2,0 0,8 31,8 55,1
62,7 45,6 67,9 14,4 58,5 74,6 64,2 58,7 47,3
2,3 1,6 6,8 1,1 8,7 15,4 1,1 0,5 17,5
22 22 253 276 751 402 13 16 297
1,1 1,1 12,3 13,5 36,6 19,6 0,6 0,8 14,5 2052
3
2,8 2,9 12,0 17,4 24,0 9,2 3,6 9,6 3,8 9,7
0,1 0,1 1,2 1,3 3,6 1,9 0,1 0,1 1,4
6 6 78 506 191 51 3 7 203
0,6 0,6 7,4 48,1 18,2 4,9 0,3 0,7 19,3 1051
4
0,8 0,8 3,7 31,9 6,1 1,2 0,8 4,2 2,6 5,0
0,0 0,0 0,4 2,4 0,9 0,2 0,0 0,0 1,0
4 1 99 573 99 12 2 2 119
0,4 0,1 10,9 62,9 10,9 1,3 0,2 0,2 13,1 911
5
0,5 0,1 4,7 36,1 3,2 0,3 0,5 1,2 1,5 4,3
0,0 0,0 0,5 2,7 0,5 0,1 0,0 0,0 0,6
780 757 2111 1586 3125 4362 366 167 7812
Totales 21066
3,7 3,6 10,0 7,5 14,8 20,7 1,7 0,8 37,1
Cuadro 22
variable dependiente:
variable independiente: 1 2 3 Totales
1 19 20 1 40
2 10 20 10 40
3 1 20 19 40
Totales 30 60 30 120
El valor del estadístico chi-cuadrado en esta tabla es igual a 32,4,
con una C de contingencia igual a 0,46, lo que sugiere algún grado de
asociación. Para calcular el estadístico lambda con respecto a la variable
dependiente observemos que la predicción no condicionada llevaría a un
error global igual a 30+30=60, al ser la categoría más frecuente la 2.
Para realizar la predicción condicionada debemos considerar para cada
uno de sus atributos cuál es la categoría más frecuente. En los tres
casos coincide que se trata de la 2. El error total que se cometería sería,
por tanto, la suma de las frecuencias en las categorías menos frecuentes
(19+1)+(10+10)+(1+19)=60. El estadístico lambda, por tanto, proporciona
un valor igual a cero. Con ello se señala que el conocimiento de la
variable independiente, bajo el criterio establecido de predicción, no
disminuiría el error.
Cuadro 23
individuo edad ingresos
1 4 4
2 2 3
3 3 2
4 5 5
5 1 2
6 6 10
7 9 9
8 8 4
9 7 1
Cuadro 24
individuo edad ingresos
5 1 2
2 2 3
3 3 2
1 4 4
4 5 5
6 6 10
9 7 1
8 8 4
7 9 9
Dos individuos definen un par discordante si los valores que toma uno
de los individuos en una de las variables son mayores que los del otro, pero esa
relación se invierte en la segunda variable. Así, el par formado por los casos 5 y 9
sería discordante, al tomar el individuo 9 un valor mayor en la variable edad,
pero un valor menor en los ingresos. Los individuos 2 y 3, por ejemplo, serían
también un par discordante al invertirse el orden de los valores en las dos
variables.
Cuadro 25
Y
X 1 2 3
1 A B C
2 D E F
3 G H I
Los individuos cuyos valores son (X=1, Y=1) mostrarían valores
inferiores a aquellos individuos con valores (X=2, Y=2), (X=2, Y=3), (X=3,
Y=2), (X=3, Y=3), según se indica en el cuadro 26. Para todos los pares de
individuos formados a partir de alguno perteneciente al conjunto con valores
(X=1, Y=1) ‘ ∗ ’ y otro con valores en el rango (X ≥ 2, Y ≥ 2) ‘ ∗∗ ’ nos
encontraremos pares concordantes.
Cuadro 26
Y
X 1 2 3
1 ∗
2 ∗∗ ∗∗
3 ∗∗ ∗∗
Cuadro 27
Y
X 1 2 3
1 ∗
2 ∗∗
3 ∗∗
Cuadro 28
Y
X 1 2 3
1
2 ∗
3 ∗∗ ∗∗
Cuadro 29
Y
X 1 2 3
1
2 ∗
3 ∗∗
Cuadro 30
Riesgo inferior Riesgo superior Total
Rendimiento inferior 66 68 134
Rendimiento
68 65 133
superior
Total 134 133 267
Cuadro 31
Tota
Riesgo inferior Riesgo superior
l
134 134
Rendimiento inferior 134 ⋅ = 67,2509 133 ⋅ = 66,749 134
267 267
Rendimiento 133 133
134 ⋅ = 66,749 133 ⋅ = 66,2509 133
superior 267 267
Total 134 133 267
(n )
2
I J − eij (66 − 67,2509) 2 (68 − 66,749) 2
χ =∑∑
ij
2
= + +
i =1 j =1 eij 67,2509 66,749
(68 − 66,749) 2 (65 − 66,2509) 2
+ + = 0,09378
66,749 66,2509
χ2 0,09378
C= = = 0,01874
n+ χ 2
267 + 0,09378
C − D 66⋅65−68⋅68
γ= = =− 0,03747
C + D 66⋅65+68⋅68
Cuadro 32
Chi-cuadrado C de contingencia gamma
0,09378 0,01874 -0,03747
Los resultados del cuadro 32 confirman la impresión de la tabla de
contingencia, no detectándose en la muestra ninguna asociación entre la
rentabilidad y el riesgo empresarial.
Cuadro 33
Nivel de Beneficios
Nivel de
Bajo Medio Alto Total
concentración
Bajo 120 114 46 280
Medio 64 74 88 226
Alto 68 44 137 249
Total 252 232 271 755
Dado que las dos variables son de tipo ordinal puede calcularse el
estadístico gamma, para ello deben obtenerse el número de pares
concordantes y de pares discordantes:
C = 120 ⋅ (74 + 88 + 44 + 137 ) + 114 ⋅ (88 + 137 ) + 64 ⋅ (44 + 137 ) + 74 ⋅137 = 88532
D = 46 ⋅ (64 + 74 + 68 + 44) + 114 ⋅ (64 + 68) + 88 ⋅ (68 + 44) + 74 ⋅ 68 = 41436
Y, por tanto:
C − D 88532 − 41436
γ = = = 0,3624
C + D 88532 + 41436
El valor de gamma es igual a 0.36, al tratarse de un valor positivo
se estaría detectando un grado de asociación positiva entre ambas
variables. El valor máximo se da cuando gamma es igual a 1, por lo que
puede aceptarse una asociación positiva moderada.
λ simétrico =
(484 − 410) + (475 − 384) = 0,172
484 + 475
Cuadro 34
Categoría Hotel
Nivel de
* ** *** **** Totales
Satisfacción
Bajo 43 36 48 63 190
Medio 12 25 57 67 161
Alto 8 23 22 40 93
Totales 63 84 127 170 444
Cuadro 35
Categoría Hotel
Nivel de Totale
* ** *** ****
Satisfacción s
93 93 93 93
Alto 63 =13,20 84 =17,59 127 = 26,60 170 = 35,61 93
444 444 444 444
χ 2
=
(43 − 26,96) (36 − 35,95)
2
+
2
+K+
(22 − 26,60) (40 − 35,61)
2
+
2
= 25,83
26,96 35,95 26,60 35,61
Y el estadístico C de contingencia:
χ2 25,83
C= = = 0,234
n+χ 2
444 + 25,83
C − D 26744 − 18763
γ= = = 0,1754
C + D 26744 + 18763
Cuadro 36
Las decisiones las toma:
Miembro de la
Hombre Ambos Mujer Total
pareja:
Hombre 179 356 22 557
Mujer 356 178 23 557
Total 535 534 45 1114
Cuadro 37
Las decisiones las toma:
Miembro de la
Hombre Ambos Mujer Total
pareja:
χ2 =
(179 − 267,5)2 + (356 − 267)2 + K + (178 − 267)2 + (23 − 22,5)2 = 117,91
267,5 267 267 22,5
Y el estadístico C de contingencia:
χ2 117,91
C= = = 0,31
n+χ 2
1114 + 117,91
Cuadro 38
Categoría Hotel
Tour
* ** *** **** Total
Operador
21 37 137 49
A 244
(17,84) (28,96) (126,29) (70,91)
32 52 179 113
B 376
(27,49) (44,63) (194,61) (109,26)
24 36 229 144
C 433
(31,66) (51,40) (224,11) (125,83)
Total 77 125 545 306 1053
χ 2
=
(21 − 17,84) (37 − 28,96)
2
+
2
+K+
(229 − 224,11) (144 −125,83)
2
+
2
= 22,997
17,84 28,96 224,11 125,83
Existe una segunda idea que destaca en el propio nombre del estadístico,
se trata de la palabra simple. Circunscrito al concepto de linealidad el calificativo
de simple se opone a la idea de asociación múltiple entre variables. Mediante este
coeficiente se analiza la relación entre dos variables X e Y, sin considerar la
existencia de otras variables que puedan estar relacionadas con ellas, ni la posible
incidencia de las mismas en esa relación. Por ejemplo, supongamos que tanto la
variable X como la variable Y varían cuando lo hace una tercera variable Z. El
coeficiente de correlación entre la variable X e Y revelaría una asociación entre
estas dos variables, pero nada dirá el coeficiente de la existencia de la tercera
variable, ni de su capacidad de explicar las variaciones de X e Y.
donde a y b son constantes que pueden tomar cualquier valor, excluyendo para b
el valor de 0.
Gráfica 1
3
-1
-2
Y -3
-3 -2 -1 0 1 2 3
X
Gráfica 2
3
-1
-2
Y -3
-3 -2 -1 0 1 2 3
Las dos gráficas anteriores muestran relaciones lineales exactas entre dos
variables, X e Y. Cuando se da una relación positiva la pendiente de la recta es
positiva, mientras que una relación negativa entre las dos variables se refleja en
una pendiente de la recta negativa. El signo del valor del parámetro b de la recta
reflejaría, por tanto, el sentido de la asociación (positiva o negativa) entre las dos
variables.
También pueden existir relaciones exactas entre dos variables que sean
de tipo no lineal, como por ejemplo las representadas en las gráficas 3 y 4. En
estas gráficas se muestran relaciones exactas de tipo cuadrático y cúbico,
respectivamente. La asociación entre las dos variables es exacta en ambas
gráficas. El coeficiente de correlación no tiene por qué detectar este tipo de
relación, puesto que está diseñado con la intención de medir asociaciones
lineales.
Gráfica 3
10
-10
-20
Y -30
-3 -2 -1 0 1 2 3
X
Gráfica 4
40
20
-20
-40
-60
-80
Y -100
-3 -2 -1 0 1 2 3
Gráfica 5
6000
5000
4000
3000
2000
1000
-1000
Y
-2000
-1000 0 1000 2000 3000 4000 5000 6000
X
Estadístico de covarianza
∑( X i − x )(Yi − y )
i =1
s XY =
n
(o dividiendo por n-1).
Gráfico 6.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Y
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
X
Gráfico 7.
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Y
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Gráfico 8.
4
-1
Y en desviaciones
-2
-3
-4
-3 -2 -1 0 1 2 3
X en desviaciones
Gráfico 9.
4
3 II I
-1
-2 III IV
-3
-4
-3 -2 -1 0 1 2 3
El signo (y valor) de la covarianza depende del número de observaciones
que aparezcan en cada uno de los cuadrantes. Un número de observaciones
relativamente elevado en los cuadrantes I y III proporcionará, en la suma global,
una covarianza positiva; mientras que una mayoría de las observaciones en los
cuadrantes II y IV conducirá a una covarianza negativa.
Gráfica 10
4
-1
Y en desviaciones
-2
-3
-4
-3 -2 -1 0 1 2 3
X en desviaciones
1,0
,5
0,0
-,5
Y
-1,0
-4 -3 -2 -1 0 1 2 3
Cuadro 1
i Xi Yi Xi − x Yi − y (X i − x )(Yi − y )
1 12 14,55 -1,7 -2,233 3,7961
2 10 12,85 -3,7 -3,933 14,5521
3 11 13,3 -2,7 -3,483 9,4041
4 13 13,53 -0,7 -3,253 2,2771
5 15 18,18 1,3 1,397 1,8161
6 14 18,94 0,3 2,157 0,6471
7 12 16,11 -1,7 -0,673 1,1441
8 11 13,82 -2,7 -2,963 8,0001
9 19 23,53 5,3 6,747 35,7591
10 20 23,02 6,3 6,237 39,2931
x y s XY
13,7 16,783 11,67
Gráfica 12
24
22
20
18
16
14
12
10
2
Y
0
0 2 4 6 8 10 12 14 16 18 20 22
X
Si multiplicamos las variables del cuadro 1 por una constante (dos, por
ejemplo) y calculamos la nueva covarianza, tal como aparece en el cuadro 2, la
cifra de la nueva covarianza se ha multiplicado por cuatro, siendo ahora igual a
46,68. ¿Implica esta cifra un mayor grado de asociación? La respuesta es
negativa. Observe la representación de las dos nuevas variables que se ofrece en
la gráfica 13. La forma de la nube de puntos es la misma que en la gráfica 12, no
presentando una asociación más fuerte entre las nuevas variables.
Cuadro 2
i X i* Yi * X i* − x * Yi * − y * (X i
*
− x * )(Yi * − y * )
1 24 29,1 -3,4 -4,466 15,1844
2 20 25,7 -7,4 -7,866 58,2084
3 22 26,6 -5,4 -6,966 37,6164
4 26 27,06 -1,4 -6,506 9,1084
5 30 36,36 2,6 2,794 7,2644
6 28 37,88 0,6 4,314 2,5884
7 24 32,22 -3,4 -1,346 4,5764
8 22 27,64 -5,4 -5,926 32,0004
9 38 47,06 10,6 13,494 143,0364
10 40 46,04 12,6 12,474 157,1724
x* y* s X *Y *
27,4 33,566 46,68
Gráfica 13
50
40
30
20
10
Y*
0
0 10 20 30 40 50
X*
La covarianza, como medida de asociación lineal tiene el inconveniente
de estar afectada por las unidades de medida de las variables.
Propiedades de la covarianza
∑( X − x )(Yi − y ) = ∑ X i Yi − n x y .
n n
i
i =1 i =1
∑( (X + b) − ( x + b ) ) ( (Y + c) − ( y + c) ) ∑ ( X − x )( Yi − y )
n n
i i i
i =1 i =1
s X +b , Y + c = = = s XY
n n
∑ ( bX − bx )( cYi − cy ) bc∑ ( X i − x )( Yi − y )
n n
i
i =1
sbX , cY = = i =1 = b c s XY
n n
∑( X i − x )( a − a )
i =1
sX a = =0
n
Coeficiente de correlación lineal
∑( X − x )( Yi − y )
n
i
s i =1
rXY = XY =
s X sY
∑(X − x) ∑ (Y − y )
n n
2 2
i i
i =1 i =1
El coeficiente de correlación lineal entre dos variables es, por tanto, igual
a su covarianza dividida por el producto de desviaciones estándar de las dos
variables.
Asociación lineal positiva entre las dos variables ⇔ s XY > 0 ⇔ rXY > 0 .
Asociación lineal negativa entre las dos variables ⇔ s XY < 0 ⇔ rXY < 0 .
Ausencia de asociación lineal entre las dos variables ⇔ s XY = 0 ⇔ rXY = 0 .
∑ ( bX − bx )( cYi − cy )
n
i
i =1
rbX , cY = =
∑ ( bX − bx ) ∑ ( cY − cy )
n n
2 2
i i
i =1 i =1
∑ b( X − x ) c ( Yi − y )
n
i
i =1
= =
∑b ( X −x ) ∑c (Y − y )
n n
2 2 2 2
i i
i =1 i =1
bc∑ ( X i − x )( Yi − y )
n
i =1 bc s XY
= = =r
b s X c sY XY
∑( X −x ) ∑( Y − y )
n n
2 2
b i c i
i =1 i =1
Yi = a + b X i i =1, ..., n .
s ∑( X
i =1
i − x )( Yi − y )
rXY = XY = =
s X sY n n
∑( X − x) ∑ (Y − y )
2 2
i i
i =1 i =1
∑( X (
− x ) a + b X i − (a + b x ) )
n
i
i =1
= =
∑(X − x) ∑ (a + b X − (a + b x ))
n n
2 2
i i
i =1 i =1
∑( X − x )b ( X i − x )
n
i
i =1
= =
∑(X − x) ∑b ( X − x)
n n
2 2 2
i i
i =1 i =1
n
b ∑( Xi − x )
2
i =1
= n n
=1
∑( X − x) ∑( X − x)
2 2
b i i
i =1 i =1
s ∑( X
i =1
i − x )( Yi − y )
rXY = XY = =
s X sY n n
∑( X − x) ∑ (Y − y )
2 2
i i
i =1 i =1
∑( X (
− x ) a − b X i − (a − b x ) )
n
i
i =1
= =
∑(X − x) ∑ (a − b X − (a − b x ))
n n
2 2
i i
i =1 i =1
∑( X − x )( − b)( X i − x )
n
i
i =1
= =
∑(X − x) ∑ ( − b) ( X − x)
n n
2 2 2
i i
i =1 i =1
n
( − b) ∑ ( X i − x ) 2
i =1
= n n
=−1
∑( X − x) ∑( X − x)
2 2
b i i
i =1 i =1
− 1 ≤ rXY ≤ + 1
rXY = + 1 ⇔ Asociación lineal exacta de tipo positivo.
rXY = − 1 ⇔ Asociación lineal exacta de tipo negativo.
rXY = 0 ⇔ Ausencia de asociación lineal.
∑X i Yi − n x y
i =1
rXY = n n
∑X i
2
−n x2 ∑Y i
2
−n y2
i =1 i =1
Matriz de correlaciones
Gráfica 14
30000
20000
10000
0
Y
-10000
0 10 20 30
Gráfica 15
140
120
100
80
60
40
Y
20
10 20 30 40 50 60 70
Piense que situaciones como la descrita pueden ser muy comunes. Por
ejemplo, suponga que estudia la relación entre superficie de la vivienda y su
precio. Para ello toma información de diversas viviendas, sin distinguir si éstas se
encuentran en una zona rural o urbana. Es posible que la posición de las
observaciones sea similar a la representada en la gráfica 15, siendo X la
superficie de la vivienda e Y el precio de la misma. El grupo del primer
cuadrante respondería a las viviendas de tipo urbano (con una baja superficie
media y alto precio), mientras que en el cuarto cuadrante aparecerían las
viviendas de tipo rural, con una mayor superficie y un menor precio medio. Sin
distinción de su ubicación, la asociación entre las dos variables sería negativa: a
mayor superficie, menor precio; sin embargo, con ello se ocultaría la relación
fundamental entre las dos variables: cuanto mayor es la superficie, mayor es el
precio de la vivienda, aunque deba tenerse en cuenta la situación geográfica para
entender que los niveles en los que se establece esa relación difieren según se
trate de zonas urbanas o rurales.
Gráfica 16
60
50
40
30
20
Y
10
10 20 30 40 50 60
Cuadro 5
Valores originales de las variables Rangos de las variables
Xi Yi X i Yi X i
2
Yi 2 Xi Yi X i Yi X i2 Yi 2
4 10 40 16 100 2 2 4 4 4
5 11 55 25 121 3 3 9 9 9
7 9 63 49 81 4 1 4 16 1
3 15 45 9 225 1 5 5 1 25
8 13 104 64 169 5 4 20 25 16
n n n n n n
x y ∑X
i =1
i Yi ∑ X ∑Y
i =1
i
2
i =1
i
2
x y ∑X
i =1
i Yi ∑X
i =1
i
2
∑Y
i =1
i
2
∑ X Y −nx y
i =1
i i
307 − 5⋅ 5,4 ⋅11,6
rPearson = n = = − 0,3104
163 − 5⋅ 5,4 2 696 − 5⋅11,6 2
∑X
i =1
i
2
−n x 2
Y el coeficiente de Spearman:
n
∑ X Y −n x y
i i
42 − 5⋅ 3⋅ 3
i =1
rSpearmn = n = = − 0,3
55 − 5⋅ 32 55 − 5⋅ 32
∑X
i =1
i
2
−nx 2
Cuadro 6
i X Y Rango de X Rango de Y
1 19 73 2 2
2 55 110 3 3
3 110 9 4 1
4 3 230 1 5
5 220 150 5 4
Cuadro 7
Tasa de Cuña
País
desempleo impositiva
Alemania 2,6 0,8
Austria 5,6 0,35
Bélgica 7,3 0,87
Canadá 7,9 0,53
Dinamarca 6,4 1
EEUU 6,6 0,4
España 10,6 0,47
Francia 6,4 0,85
Grecia 5,5 0,63
Holanda 5,2 0,89
Irlanda 10,4 0,61
Italia 8,4 0,62
Japón 2,4 0,31
Noruega 2,7 1,03
Nueva Zelanda 3,3 0,46
Portugal 5,8 0,45
Suecia 2,4 1,1
Suiza 0,8 0,39
UK 6 0,52
Gráfica 17
12
España
Irlanda
10
Italia
tasa de desempleo
8 Canadá
Bélgica
EEUU
Francia Dinamarc
UK
6 Austria
Portugal
Grecia
Holanda
4
Nueva Ze
Alemania Noruega
Japón Suecia
2
Suiza
0
.2 .4 .6 .8 1 1.2
cuña impositiva
Cuadro 8
Xi Yi X i2 Yi 2 X i Yi
2,6 0,8 6,76 0,64 2,08
5,6 0,35 31,36 0,1225 1,96
7,3 0,87 53,29 0,7569 6,351
7,9 0,53 62,41 0,2809 4,187
6,4 1 40,96 1 6,4
6,6 0,4 43,56 0,16 2,64
10,6 0,47 112,36 0,2209 4,982
6,4 0,85 40,96 0,7225 5,44
5,5 0,63 30,25 0,3969 3,465
5,2 0,89 27,04 0,7921 4,628
10,4 0,61 108,16 0,3721 6,344
8,4 0,62 70,56 0,3844 5,208
2,4 0,31 5,76 0,0961 0,744
2,7 1,03 7,29 1,0609 2,781
3,3 0,46 10,89 0,2116 1,518
5,8 0,45 33,64 0,2025 2,61
2,4 1,1 5,76 1,21 2,64
0,8 0,39 0,64 0,1521 0,312
6 0,52 36 0,2704 3,12
n n n n n
∑ Xi
i =1
∑ Yi
i =1
∑ X i2 ∑ Yi 2 ∑X i Yi
i =1 i =1 i =1
106,3 12,28 727,65 9,0528 67,41
x y
5,5947 0,64632
∑X i =1
i Yi − n x y
rXY = n n
=
∑X
i =1
i
2
−n x 2
∑Y
i =1
i
2
−n y 2
Entre las dos variables, por tanto, no parece existir ningún tipo de
asociación, pudiéndose incluso hablar de una pequeña asociación negativa,
cuando se utiliza la información promedio del período 1965-1992.
Cuadro 9
Costes de despido
Despidos Despidos
procedentes improcedentes
Austria 14 20
Belgica 9 12,5
Dinamarca 5,2 9
Finlandia 5,2 6
Francia 4,2 15
Alemania 3,4 18
Irlanda 5,4 24
Italia 19,6 32,5
Holanda 4 5,3
Portugal 16,1 20
España 8,3 30
Suecia 5 16
UK 6,7 11
UE 8,1 16,8
Fuente: Layard et al. (1996)
Gráfica 18
Italia
19.6
Portugal
Austria
despidos procedentes
Belgica
UE España
UK
Holanda Francia
Alemania
3.4
5.3 32.5
despidos improcedentes
Cuadro 10
Xi Yi X i2 Yi 2 X i Yi
14 20 196 400 280
9 12,5 81 156,25 112,5
5,2 9 27,04 81 46,8
5,2 6 27,04 36 31,2
4,2 15 17,64 225 63
3,4 18 11,56 324 61,2
5,4 24 29,16 576 129,6
19,6 32,5 384,16 1056,25 637
4 5,3 16 28,09 21,2
16,1 20 259,21 400 322
8,3 30 68,89 900 249
5 16 25 256 80
6,7 11 44,89 121 73,7
n n n n n
∑X
i =1
i ∑Y
i =1
i ∑X i
2
∑Y i
2
∑X i Yi
i =1 i =1 i =1
106,1 219,3 1187,59 4559,59 2107,2
x y
16,8692
8,1615
3
Para calcular el coeficiente de correlación entre las dos variables
aplicaremos explícitamente la expresión:
n
∑X i Yi − n x y
i =1
rXY = n n
∑X i
2
−n x2 ∑Y i
2
−n y2
i =1 i =1
∑X i Yi − n x y
i =1
rXY = n n
=
∑X i
2
−n x2 ∑Y i
2
−n y2
i =1 i =1
Cuadro 11
Xi Yi X i Yi X i2 Yi 2
Ventas Beneficios
1239 31,3 38781 1535121 980
13212 18,1 239137 174556944 328
6867 9 61803 47155689 81
9023 379,4 3423326 81414529 143944
6286 503 3161858 39513796 253009
10258 14,8 151818 105226564 219
9854 55,4 545912 97101316 3069
4200 71 298200 17640000 5041
10199 115,1 1173905 104019601 13248
7736 42,3 327233 59845696 1789
5272 96,1 506639 27793984 9235
5485 912,1 5002869 30085225 831926
1799 103,8 186736 3236401 10774
4603 567,5 2612203 21187609 322056
3826 212,8 814173 14638276 45284
12242 128,9 1577994 149866564 16615
6442 171,5 1104803 41499364 29412
n n n
x y ∑ X i Yi
i =1
∑ X i2
i =1
∑Y
i =1
i
2
2122738 101631667
6973 202 9 9 1687012
∑ X Y −n x y i i
rXY = i =1
=
n n
∑X
i =1
i
2
−n x 2 ∑Y
i =1
i
2
−n y 2
Cuadro 12
Xi Yi
País Consumo % población X i Yi X i2 Yi 2
per capita que hace
(euros) vacaciones
España 6172 53,4 329585 38093584 2852
UK 8440 61 514840 71233600 3721
Holanda 8646 69,9 604355 74753316 4886
Italia 9199 57,2 526183 84621601 3272
Bélgica 9872 56 552832 97456384 3136
Francia 9977 59,1 589641 99540529 3493
Alemani
10141 68,2 691616 102839881 4651
a
n n n
x y ∑ X i Yi
i =1
∑ X i2
i =1
∑Y
i =1
i
2
3809051,9 26010,4
8921 60,69 568538895
0 6
∑ X Y −n x y
i i
rXY = i =1
=
n n
∑X
i =1
i
2
−n x 2
∑Y
i =1
i
2
−n y 2
Cuadro 13
Alimentación Vestido No duraderos Duraderos Gasto Ingresos
Aliment. 1 0,22 0,25 0,09 0,50 0,26
Vestido 0,22 1 0,43 0,13 0,60 0,34
No durad. 0,25 0,43 1 0,14 0,86 0,61
Durad. 0,09 0,13 0,14 1 0,51 0,16
Gasto 0,50 0,60 0,86 0,51 1 0,59
Ingresos 0,26 0,34 0,61 0,16 0,59 1
Gráfica 19
Gasto familiar total
3000000
2000000
1000000
0
0 1000000 2000000 3000000
Ingresos familiares
Gráfica 20
Gasto en bienes duraderos
1300000
1200000
1100000
1000000
900000
800000
700000
600000
500000
400000
300000
200000
100000
0
0 1000000 2000000 3000000
Ingresos familiares
Ejemplo 7. ¿Por qué son más pobres los pensionistas más viejos?
En Johnson y Stears (1998) se estudia la relación que existe entre los
ingresos de los pensionistas y su edad. En muchas economías los
pensionistas aparecen entre los grupos más pobres, pero también entre
ellos parecen existir fuertes diferencias. Uno de los fenómenos más
curiosos es la relación negativa que existe entre la edad y los ingresos de
los pensionistas. Se ha comprobado que cuanto mayor es la edad del
pensionista, menores son sus ingresos. Una primera explicación ha
justificado esta relación por el hecho de que entre los pensionistas de
mayor edad el porcentaje de mujeres es mayor (al tener una mayor
esperanza de vida). Para comprobar la validez de esta explicación, los
autores han analizado los ingresos de los pensionistas de sexo
masculino, con relación a su edad. Los autores emplean información de
una encuesta anual de gastos familiares en el Reino Unido (Family
Expenditure Surveys, FES), que recoge información sobre ingresos y
gastos de unas 7000 familias. En el cuadro 14 se recogen los ingresos
totales medios de los pensionistas varones entre 65 y 85 años, en
1992/1993. Se trata de ingresos semanales, medidos en libras constantes
de enero de 1995.
Cuadro 14
Edad 65 66 67 68 69 70 71 72 73 74 75
Renta 197 193 184 172 166 177 172,5 164 150 152 156
Edad 76 77 78 79 80 81 82 83 84 85
Renta 153 149 144 143 138 139 130 130,5 125 124
∑X i Yi − n x y
i =1
rXY = n n
=
∑X i
2
−n x 2
∑Y i
2
−n y 2
i =1 i =1
Gráfica 21
200
180
160
140
renta media
120
65 70 75 80 85
Cuadro 15
Correlaciones Orden de la
con el mercado de correlación
Mercado EEUU (de mayor a menor)
1976- 1959- 1959-
1976-1995
1995 1973 1973
Australia 0,40 0,23 7 9
Austria 0,12 0,12 15 13
Bélgica 0,40 0,46 8 4
Canadá 0,68 0,80 1 1
Dinamarca 0,32 0,04 11 14
Francia 0,42 0,25 6 8
Alemania 0,33 0,38 10 5
Italia 0,20 0,21 14 10
Japón 0,23 0,13 13 12
Holanda 0,58 0,61 2 2
Noruega 0,47 0,17 4 11
España 0,29 0,04 12 14
Suecia 0,39 0,33 9 6
Suiza 0,46 0,49 5 3
UK 0,50 0,29 3 7
Del análisis de los coeficientes de correlación se extraen las siguientes
conclusiones:
• DAX 30 (Alemania).
• CAC 40 (Francia).
• FT SE 100 (Inglaterra).
• S&P 500 (EEUU).
• NIKKEI 225 (Japón).
Cuadro 16
Correlaciones con el IBEX
Período 85-87 87-90 90-92 92-96
DAX 30 -0,1 0,3 0,4 0,5
CAC 40 -0,1 0,3 0,4 0,6
FT SE 100 0,0 0,1 0,3 0,5
S&P 500 0,0 0,0 0,3 0,2
NIKKEI 225 0,0 0,2 0,2 0,2
Cuando se trabaja con una única acción, una medida del riesgo la
constituye la varianza de su rentabilidad. Se trata ahora de generalizar el
concepto de riesgo de un activo al de una cartera de activos. Para ello,
definiremos en primer lugar la rentabilidad de una cartera. Una cartera es
una combinación de títulos, en la que cada uno de ellos participa con un
porcentaje determinado. La rentabilidad de la cartera se define como una
media ponderada de las rentabilidades individuales, en la que la
ponderación viene dada por el porcentaje que representa en el valor total
de la cartera. Así, si definimos por wi el porcentaje que representa un
activo i en el valor total de la cartera, la rentabilidad de la cartera será
(teniendo en cuenta que la suma de las ponderaciones es la unidad):
∑w r i it
Rct = i
=∑w r
∑w i
i i
i it
var( Rct ) =
ct
t =1
T
donde Rc indica la media de la rentabilidad de la cartera en el período:
T T T T
T T T i T i
( )
T T
∑(R − Rc ) = ∑ w1 r1t + w2 r2 t − ( w1 r1 + w2 r2 ) =
2
ct
t =1 t =1
( )
T
= ∑ w1 (r1t − r1 ) + w2 ( r2 t − r2 ) =
2
t =1
( ( ))
T
= ∑ w12 ( r1t − r1 ) + w22 ( r2 t − r2 ) + 2 w1 w2 ( r1t − r1 )(r2 t − r2 ) =
2 2
t =1
( )
T T T
= ∑ w ( r1t − r1 ) + ∑ w (r2 t − r2 ) + 2 ∑ w1 w2 (r1t − r1 )(r2 t − r2 ) =
2 2 2 2
1 2
t =1 t =1 t =1
(( r )
T T T
= w12 ∑ ( r1t − r1 ) + w22 ∑ ( r2 t − r2 ) + 2 w1 w2 ∑ − r1 )( r2 t − r2 )
2 2
1t
t =1 t =1 t =1
∑ (R − Rc )
T
2
var( Rct ) =
ct
t =1
=
T
∑ ((r )
T T T
∑ (r1t − r1 ) ∑ (r2 t − r2 ) − r1 )( r2 t − r2 )
2 2
1t
2 t =1 2 t =1 t =1
=w 1 +w 2 + 2 w1 w2 =
T T T
= w1 var (r1 ) + w2 var (r2 ) + 2 w1 w2 covar(r1 r2 )
2 2
Denotando var(a) la varianza de a y covar(a,b) la covarianza entre
a y b. La expresión anterior puede generalizarse a carteras de más de
dos activos. Para k activos:
( )
k −1 k
var ( Rc ) = ∑ wi2 var (ri ) + 2 ∑ ∑ wi w j covar ri r j
k
i =1 i =1 j = 2
i< j
( ) ( )
k k −1 k
var ( Rc ) = ∑ wi2 var ( ri ) + 2 ∑ ∑ wi w j var ( ri ) var r j correl ri r j
i =1 i =1 j = 2
i< j
1
Teniendo en cuenta que el coeficiente de correlación entre dos variables X e Y se define
como:
s XY
rXY = s X sY
var( Rc ) = w12 var (r1 ) + w22 var (r2 ) − 2 w1 w2 var (r1 ) var (r2 ) correl (r1 r2 )
Sin embargo, la correlación de tipo positivo entre los activos será
el valor más frecuente, al incidir el riesgo de mercado sobre todas ellas.
Respecto a una correlación positiva exacta, una correlación positiva e
inferior a la unidad, disminuirá comparativamente el riesgo global de la
cartera.
Cuadro 17
p At − p A t −1 p Bt − p B t −1
t p At p Bt rAt = rBt =
p A t −1 p B t −1
0 11 12 - -
1 12 10 0,091 -0,167
2 13 9,5 0,083 -0,05
3 12,5 10 -0,038 0,053
4 13 9 0,04 -0,1
5 13,5 10 0,038 0,111
6 14 12 0,037 0,2
7 14,7 13 0,05 0,083
8 15 15 0,021 0,154
9 16 16 0,067 0,067
10 16,3 17 0,019 0,063
11 16,4 16,5 0,006 -0,029
rA rB var(rA ) var (rB )
0,0375 0,0349 0,0348 0,1052
covar(rA rB ) correl(rA rB )
-0,001395 -0,38
Rc = w A rA + w B rB
Cuadro 18
Orden Orden
Rendimiento Rendimiento
w1 1 − w1 medio de la Riesgo Riesgo
(más a global (menos a
cartera menos) más)
0,75 0,25 0,0369 4 0,00084 3
1 0 0,0376 1 0,00121 5
0 1 0,0349 12 0,01107 12
0,9 0,1 0,0373 2 0,00084 2
0,8 0,2 0,0370 3 0,00077 1
0,7 0,3 0,0368 5 0,00100 4
0,6 0,4 0,0365 6 0,00153 6
0,5 0,5 0,0362 7 0,00237 7
0,4 0,6 0,0359 8 0,00351 8
0,3 0,7 0,0357 9 0,00495 9
0,2 0,8 0,0354 10 0,00669 10
0,1 0,9 0,0352 11 0,00873 11
Cuadro 19
% rango %
rango
activida participación primeros participació
repetidore
d primeros visitante n visitantes
s
visitantes s repetidores
A 58,8 1 34,7 1
B 58,6 2 27,3 3
C 51,7 3 31,7 2
D 47 4 18,9 7
E 42,1 5 17 8
F 39,6 6 21,4 6
G 37,3 7 13,8 10
H 34,1 8 25,2 4
I 31,2 9 16,4 9
J 28,1 10 12,5 11,5
K 26,1 11 11,4 13
L 24,9 12 12,5 11,5
M 24,1 13 22,6 5
N 13,2 14 10,3 14
Ñ 12,9 15 6,9 15
Cuadro 20
Bélg. BEN. Euro. Fran. Alem. Italia Japón Holanda España
Bélgica 1,00
BENETTON 0,04 1,00
Europa 0,65 0,06 1,00
Francia 0,53 0,10 0,82 1,00
Alemania 0,58 0,03 0,80 0,60 1,00
Italia 0,11 0,03 0,07 0,06 0,03 1,00
-
Japón 0,17 0,28 0,14 0,33 0,02 1,00
0,19
Holanda 0,61 0,02 0,86 0,70 0,71 0,02
0,32 1,00
España 0,40 0,00 0,69 0,67 0,45 0,10
0,15 0,56 1,00
Suecia 0,45 0,03 0,67 0,53 0,47 0,08
0,15 0,56 0,54
- - - -
Suiza 0,06 0,01 0,22 0,00 0,01
0,09 0,02 0,000,02
UK 0,40 0,12 0,81 0,65 0,45 0,08
0,15 0,63 0,56
- -
EEUU 0,07 0,15 0,15 0,00 0,03 0,11 0,29
0,03 0,06
-
Mundo 0,35 0,66 0,49 0,54 0,05 0,73 0,62 0,52
0,05
Cuadro 20 (continuación)
Suecia Suiza UK EEUU Mundo
Bélgica
BENETTON
Europa
Francia
Alemania
Italia
Japón
Holanda
España
Suecia 1,00
Suiza 0,03 1,00
-
UK 0,48 1,00
0,03
-
EEUU 0,11 0,29 1,00
0,07
-
Mundo 0,42 0,55 0,49 1,00
0,07
CAPÍTULO VI. AJUSTE DE UNA RECTA
Yi = a + b X i →Y
X→
Yi = a + bX i + ei
∂ Yi
=b .
∂ Xi
Gráfica 1
100
90
80
70
60
b
50
40
30
20
10
a
Y 0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Consumoi = a + b Rentai
CV = f ( producción )
CV =CVMe⋅ producción ,
siendo CVMe un parámetro constante, que definiría los costes variables medios
(los costes variables por unidad de producto, que serían constantes fuese cuál
fuese la cantidad producida). Bajo esta hipótesis, podría calcularse la siguiente
regresión:
costes = a + b ⋅ producción
en donde a serían los costes fijos y b estimaría los costes variables medios. Esta
información le facilitará (siempre que realmente los costes variables medios sean
constantes) el impacto que futuros aumentos en la producción ocasionarán en los
costes variables asociados a cada uno de los inputs.
Cuadro 1
X 17 20 23 24 24 25 25 26 28 30
Y 59 71 72 79 77 81 79 89 95 93
Gráfica 3
100
90
80
70
60
Y 50
16 18 20 22 24 26 28 30 32
Gráfica 4
100
90
3
80 1
70
2
60
Y 50
16 18 20 22 24 26 28 30 32
ei
90
80
ei
70
60
Y 50
16 18 20 22 24 26 28 30 32
∑ ei2 = ∑ (Yi − a − b X i )
n n
2
i =1 i =1
n n
mínimo ∑ ei2 = ∑ (Yi −a−b X i )
2
i =1 i =1
a, b
n n
mínimo ∑ ei2 = ∑ (Yi −a−b X i )
2
a,b i =1 i =1
∑ e = ∑ (Y − a − bX )
2
2
i i i =
i =1 i =1
n
= ∑ ( Yi 2 + a 2 + b 2 X i2 − 2aYi − 2bX i Yi + 2abX i ) =
i =1
n n n n n
= ∑ Yi + na + b
2 2 2
∑X i
2
− 2a ∑ Yi − 2b ∑ X i Yi + 2ab ∑ X i
i =1 i =1 i =1 i =1 i =1
Las condiciones de primer orden para un mínimo serán:
n n
∂ ∑ ei2 ∂ ∑ ei2
i =1
=0 i =1
=0
∂a ∂b
n
∂ ∑ ei2 n n
i =1
= 2 n a − 2 ∑ Yi + 2 b ∑ X i = 0
∂a i =1 i =1
n
∂ ∑ ei2
i =1 n n n
∂ b = 2 b ∑ X i − 2 ∑ X i Yi + 2a ∑ X i = 0
2
i =1 i =1 i =1
∑Y i ∑X i
i =1 i =1
a− +b =0
n n
a − y +b x =0
a = y −b x
i =1 i =1 i =1
Dividiendo por dos:
n n n
b ∑ X i2 − ∑ X i Yi + a ∑ X i = 0
i =1 i =1 i =1
Sustituyendo el valor de a = y − b x :
n n n
b ∑ X − ∑ X i Yi + ( y − bx ) ∑ X i = 0
i
2
i =1 i =1 i =1
n
nn n
b ∑ X i2 − x ∑ X i − ∑ X i Yi + y ∑ X i = 0
i =1 i =1 i =1 i =1
n n
n n
b ∑ X i2 − x ∑ X i = ∑ X i Yi − y ∑ X i
i =1 i =1 i =1 i =1
n
Y teniendo en cuenta que ∑Xi =1
i =n x :
n 2 2
n
b ∑ X i − n x = ∑ X i Yi − n y x
i =1 i =1
Se obtiene:
∑ X Y −n y x
i =1
i i
b= n
∑X
i =1
i
2
−n x2
∑ X Y −n y x
i =1
i i
a = y −b x ; b= n
∑X =
i
2
−n x2
i
i =1
b=
∑(X − x)
n
2
i
i =1
∑ ( X i − x )(Yi − y ) = ∑ X i Yi − n x y
n n
i =1 i =1
∑( X − x ) = ∑ X i2 − nx 2
n n
2
i
i =1 i =1
∑( X − x )(Yi − y ) n
n
i =1
i
covar ( X , Y ) s xy
b= = =
var ( X )
∑(X − x)
n
2 s x2
i n
i =1
Cuadro 2
Xi Yi X i Yi X i2
17 59 1003 289
20 71 1420 400
23 72 1656 529
24 79 1896 576
24 77 1848 576
25 81 2025 625
25 79 1975 625
26 89 2314 676
28 95 2660 784
30 93 2790 900
n n n n
∑ X ∑Y ∑ X Y ∑ X
i =1
i
i =1
i
i =1
i i
i =1
i
2
s xy ∑ X Y −n x y
i =1
i i
19587 − 10 ⋅ 24,2 ⋅ 79,5
b= = = = 2,815534
2 n
5980 − 10 ⋅ 24,2 2
∑X
s x
i
2
−nx2
i =1
a = y − b x = 79,5 − 2,815534 ⋅ 24,2 = 11,36408
90
80
70
60
50
40
30
20
10
0 10 20 30 40 50 60 70 80 90 100
Gráfica 7
-16
-18
-20
-22
-24
-26
-28
-30
y -32
16 18 20 22 24 26 28 30 32
x
Cuadro 4
Xi Yi X i Yi X i2
17 -21 -357 289
20 -20 -400 400
23 -23 -529 529
24 -24 -576 576
24 -30 -720 576
25 -31 -775 625
25 -25 -625 625
26 -18 -468 676
28 -27 -756 784
30 -29 -870 900
n n n n
∑ Xi
i =1
∑ Yi
i =1
∑ X i Yi
i =1
∑X
i =1
i
2
s xy ∑ X Y −nx y
i =1
i i
− 6076 − 10 ⋅ 24,2 ⋅ ( − 24,8)
b= = = = − 0,60194
2 n
5980 − 10 ⋅ 24,2 2
∑X
s x
i
2
−n x2
i =1
Gráfica 8
0
- 10
Y - 20
- 30
- 40
0 10 20 30 40
Cuadro 5
X 17 20 23 24 24 25 25 26 28 30
Y 2 6 6 2 7 5 3 4 6 6
Gráfica 9
8
y 1
16 18 20 22 24 26 28 30 32
x
La nube de puntos hace poco apropiado el ajuste lineal. Las estimaciones
del modelo se obtienen a partir del cuadro 6:
s xy ∑ X Y −n x y
i =1
i i
1160 − 10 ⋅ 24,2 ⋅ 4,7
b= = = = 0,182848
2 n
5980 − 10 ⋅ 24,2 2
∑X
s x
i
2
−n x2
i =1
Cuadro 6
Xi Yi X i Yi X i2
17 2 34 289
20 6 120 400
23 6 138 529
24 2 48 576
24 7 168 576
25 5 125 625
25 3 75 625
26 4 104 676
28 6 168 784
30 6 180 900
n n n n
∑ X ∑Y ∑ X Y ∑ X
i =1
i
i =1
i
i =1
i i
i =1
i
2
30
25
20
Y
15
10
0 5 10 15 20 25 30 35
• Yi = e a + b ⋅ X i → log ( Yi ) = a + b ⋅ X i
→
a + b⋅
log ( Yi ) = a + b ⋅
1
• Yi = e Xi
Xi
X1 X2 … Xk
X1 X2 … Xk
ei = Yi − a − bX i .
∑e i =1
i
e= =0.
n
(2) El error del ajuste tiene covarianza nula con la variable exógena:
∑(X − x )(ei − e )
n
i
i =1
s xe = =0.
n
∑ (Y − y )
n
2
La variación total ( VT ) se define como i , y es la variación
i =1
total de la variable dependiente. Esta cantidad se puede descomponer en dos
partes: (1) la variación explicada ( VE ), que es la parte de la variación total que
el modelo de regresión es capaz de explicar; (2) la variación no explicada ( VE ),
que es aquella parte de la variación total que la relación causal no es capaz de
explicar:
VT = VE + VE
Yi = a + bX i + ei
→ Yi − y = b ( X i − x ) + ei
y = a + bx
Gráfica 11
100
90
Yi − y
80
y
70
Xi − x
60
x
y 50
16 18 20 22 24 26 28 30 32
Gráfica 12
100
ei
90
b( X i − x )
80
70
60
y 50
16 18 20 22 24 26 28 30 32
x
El coeficiente de determinación se define como la proporción entre la
variación explicada y la variación total:
VE
R2 =
VT
n n n
∑ (Y − y ) = b 2 ∑ ( X i − x ) + ∑ ei2
2 2
i
i =1 i =1 i =1
∑( X − x) VE = ∑ ei2
2
VE = b 2
i
i =1 i =1
b2 ∑ ( Xi − x)
n
2
VE i =1
R2 = =
∑ (Y − y )
n
VT 2
i
i =1
VE VT − V E VE
R2 = = =1 −
VT VT VT
0 ≤ R 2 ≤1
R 2 = 0 ⇔ El modelo NO es EXPLICATIVO
R 2 =1 ⇔ El modelo EXPLICA toda la variación de Y
∑ (Y − y ) ∑(X − x)
n n
2 2
i =b 2
i
i =1 i =1
{ VE = 0 ↔ VT = V E } ⇒ R2 =0
{ V E = 0 ↔ VT =VE } ⇒ R 2 =1
Gráfica 13 Gráfica 14
26 26
24 24
22 22
20 20
18 18
16 16
14
y 14
y
16 18 20 22 24 26 28 30 32 16 18 20 22 24 26 28 30 32
x x
Yi = a + b X i , b≠0
siendo los errores de ajuste igual a cero, para todas las observaciones. Ya hemos
indicado que esta circunstancia de correlación exacta es difícil encontrarla con
variables económicas reales, aunque no es extraño encontrarse con variables que
mantienen una relación casi perfecta.
Gráfica 15 Gráfica 16
6 8
6
4
4
2
2
0
0
Errores del ajuste
-2
-2
-4
-4
-6 -6
16 18 20 22 24 26 28 30 32 16 18 20 22 24 26 28 30 32
x x
Gráfica 17 Gráfica 18
60 4
2
40
0
20
-2
0
Errores del ajuste
-4
Errores del ajuste
-20
-6
-40
-8
16 18 20 22 24 26 28 30 32
16 18 20 22 24 26 28 30 32
x x
¿Existe alguna relación entre el coeficiente de correlación y el coeficiente de
determinación? El coeficiente de determinación mide la bondad del ajuste de
una recta a una nube de puntos. El coeficiente de correlación lineal mide el grado
de asociación lineal entre dos variables. Un coeficiente de correlación lineal igual
a 1 o –1 indica que los puntos están situados sobre una recta (con pendiente
positiva o negativa, respectivamente) y esta situación se reflejaría en el
coeficiente de determinación con un valor igual a 1 (ajuste perfecto de la recta).
Si el coeficiente de correlación lineal o el coeficiente de determinación son
iguales a 0, no existirá una relación lineal entre las dos variables.
R 2 = rxy2 ⇔ R 2 = rxy
• En el cuadro 7 aparecen los datos sobre los que queremos ajustar la recta de
regresión.
Cuadro 7
X 17 20 23 24 24 25 25 26 28 30
Y 48 60 68 71 66 70 74 83 83 89
Gráfica 19
90
80
70
60
50
y 40
16 18 20 22 24 26 28 30 32
Cuadro 8
Xi Yi X i2 Yi 2 X i Yi
17 48 289 2304 816
20 60 400 3600 1200
23 68 529 4624 1564
24 71 576 5041 1704
24 66 576 4356 1584
25 70 625 4900 1750
25 74 625 5476 1850
26 83 676 6889 2158
28 83 784 6889 2324
30 89 900 7921 2670
n n n n n
∑ X ∑Y ∑ X
i =1
i
i =1
i
i =1
i
2
∑Y
i =1
i
2
∑X Y
i =1
i i
x y
24,2 71,2
El cálculo de los parámetros de la recta será:
∑( X − x )(Yi − y )
n n
i =1
i ∑ X Y −n x y
i =1
i i
17620 − 10 ⋅ 24,2 ⋅ 71,2 389,6
b= = = = = 3,1521
5980 − 10 ⋅ 24,2 2
∑( X − x)
n n
123,6
∑X
2
i i
2
−n x2
i =1 i =1
i =1 i =1
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =52000−10⋅71,2 2 =1305,6
2
i =1 i =1
1228,06
R2 = = 0,9406
1305,6
El R 2 indica que la variación explicada en el ajuste representa una
proporción del 94,06% de la variación total, por lo que debe concluirse que la
recta describe bien el comportamiento de la variable endógena. La pendiente de la
recta es positiva y mayor que uno: un aumento en una unidad en la variable
exógena ocasionará un incremento en algo más de tres unidades en la endógena.
Gráfica 20
8
0
Errores del ajuste
-2
-4
-6
16 18 20 22 24 26 28 30 32
x
• Realizaremos un nuevo cálculo numérico con los datos del cuadro 9. La
representación de las variables (en la gráfica 21) ilustra una relación negativa.
Dada la dispersión de los datos, el ajuste no deberá ser especialmente correcto,
puesto que los puntos se alejan de la imagen ideal de la recta. En el cuadro 9 se
muestran también los valores precisos para realizar los cálculos del modelo.
Cuadro 9
Xi Yi X i2 Yi 2 X i Yi
17 35 289 1225 595
20 34 400 1156 680
23 32 529 1024 736
24 30 576 900 720
24 31 576 961 744
25 33 625 1089 825
25 35 625 1225 875
26 33 676 1089 858
28 31 784 961 868
30 28 900 784 840
n n n n n
∑ X ∑Y ∑ X
i =1
i
i =1
i
i =1
i
2
∑Y
i =1
i
2
∑X Y
i =1
i i
Gráfica 21
36
34
32
30
28
y 26
16 18 20 22 24 26 28 30 32
i =1
∑ X Y −nx y
i =1
i i
7741 − 10 ⋅ 24,2 ⋅ 32,2 − 51,4
b= = = = = − 0,41586
5980 − 10 ⋅ 24,2 2
∑( X − x)
n n
123,6
∑X
2
i i
2
−n x2
i =1 i =1
i =1 i =1
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10414−10⋅32,2 2 =45,6
2
i =1 i =1
Gráfica 22
4
0
Errores del ajuste
-1
-2
-3
16 18 20 22 24 26 28 30 32
x
Ejemplo 1. En la gráfica 23 se muestra la serie de turistas
alemanes que han visitado una determinada zona turística durante los
últimos once años. En la gráfica además de la serie histórica se muestra
el ajuste de una recta por mco. La serie muestra una clara tendencia
lineal, que aunque no pueda extrapolarse hacia un futuro lejano, permite
realizar una predicción para el año siguiente. Para ello deben, en primer
lugar, calcularse los valores a y b de la recta de regresión. En el cuadro
10 aparece la información necesaria.
Gráfica 23
5000
Número de turistas alemanes (en miles)
4000
3000
2000
1000
1 2 3 4 5 6 7 8 9 10 11
año
Cuadro 10
Xi Yi X i Yi X i2 Yi 2
1 1897,6 1897,6 1 3600885,76
2 2054,3 4108,6 4 4220148,49
3 2063,2 6189,6 9 4256794,24
4 2231,2 8924,8 16 4978253,44
5 2682,2 13411 25 7194196,84
6 2868,3 17209,8 36 8227144,89
7 3130,7 21914,9 49 9801282,49
8 3339,4 26715,2 64 11151592,4
9 3635,5 32719,5 81 13216860,3
10 4008 40080 100 16064064
11 3934,2 43276,2 121 15477929,6
n n n
x y ∑X
i =1
i Yi ∑X
i =1
i
2
∑Y i =1
i
2
6 2894,96 216447,2 506 98189152,4
n n
i =1 i =1
(
=(230,726) ⋅ 506 −11 ⋅ 6 = 5855793,6
2 2
)
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =98189152,4−11 ⋅2894,96 2 = 6000424,983
2
i =1 i =1
VE 5855793,6
R2 = = = 0,976
VT 6000424,983
Gráfica 24
1200000
1100000
1000000
Número Turistas
900000
800000
90 100 110 120 130
Cuadro 11
Xi Yi X i Yi X i2 Yi 2
100 1176 117600,00 10000,00 1382976
95,12 1117 106249,04 9047,81 1247689
92,68 1137 105377,16 8589,58 1292769
97,56 1058 103218,48 9517,95 1119364
109,76 1019 111845,44 12047,26 1038361
124,39 1039 129241,21 15472,87 1079521
129,27 901 116472,27 16710,73 811801
126,83 862 109327,46 16085,85 743044
114,63 862 98811,06 13140,04 743044
109,76 823 90332,48 12047,26 677329
n n n n n
∑ X ∑Y
i =1
i
i =1
i ∑X Y
i =1
i i ∑Xi =1
i
2
∑Y
i =1
i
2
n n
∑ (X i − x )(Yi − y ) ∑ X Y −n x y
i i
b= i =1
n
= i =1
n
=
∑ (X −x ) ∑X −n x
2 2 2
i i
i =1 i =1
1088474,6 −10 ⋅110 ⋅ 999,4 − 10865,4
= = = − 6,54796
122659,356 − 10 ⋅110 2 1659,356
n
n
VE =b 2 ∑ ( X i − x )2 =b 2 ∑ X i2 −n ⋅ x 2 =
i =1 i =1
=(− 6 ,54796) ⋅(122659 ,356 −10 ⋅110 ) = 71146 ,183
2 2
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =10135898−10 ⋅999,4 2 = 147894,4
2
i =1 i =1
VE 71146,183
R2 = = = 0,48
VT 147894,4
Cuadro 12
Xi Yi X i Yi X i2 Yi 2
3 9 27 9 81
2 7 14 4 49
3 8 24 9 64
3 7 21 9 49
1 7 7 1 49
1 5 5 1 25
1 5 5 1 25
1 7 7 1 49
2 5 10 4 25
n n n n n
∑ X ∑Y ∑ X Y ∑ X
i =1
i
i =1
i
i =1
i i
i =1
i
2
∑Y
i =1
i
2
17 60 120 39 416
x y
1,889 6,667
n
( )
n
VE =b 2 ∑ ( X i − x ) =b 2 ∑ X i2 −n ⋅ x 2 =(0,967 ) ⋅ 39−9 ⋅1,889 2 =6,438
2 2
i =1 i =1
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =416−9 ⋅6,667 2 =15,96
2
i =1 i =1
6,438
R2 = =0,403
15,96
Cuadro 13
Tasa de
Coeficiente de Mercado
País Crecimiento
Asimetría Capitales
PIB
Argentina 3,30 0,30 1,214
Brasil 0,20 3,70 6,555
Chile 0,30 3,40 2,219
Colombia 1,60 4,10 0,677
Grecia 1,80 1,90 0,824
India 0,70 4,50 5,373
Jordania 0,20 6,90 1,240
Malaisia -0,90 5,50 11,969
México -1,00 3,70 5,611
Nigeria 1,50 -0,60 0,576
Paquistán 1,20 6,50 0,643
Filipinas 0,70 1,80 1,495
Portugal 2,40 2,80 1,591
Corea sur 0,60 7,70 6,490
Taiwan 0,60 8,60 7,267
Tailandia -0,20 6,40 2,004
Turquía 1,00 4,10 0,487
Venezuela 0,20 0,70 1,298
Zimbabwe 0,00 3,00 0,200
Para describir las relaciones se utiliza el modelo de regresión
simple. En las gráficas 25 y 26 se muestran las nubes de puntos y la línea
ajustada por mco.
Gráfica 25
4
argentina
3
portugal
2 grecia
nigeria colombia
paquistán
turquia
1
filipinas india corea sur taiwan
venezuela chile
brasil jordania
zimbabwe
0 tailandia
méxico malaysia
asimetría
-1
-2
-2 0 2 4 6 8 10
crecimiento pib
Gráfica 26
4
argentina
3
portugal
2 grecia
colombia
nigeria
paquistán
turquia
1
f ilipinas india corea surtaiwan
jordania chile
venezuela brasil
babwe
0 tailandia
méxico malasia
asimetría
-1
-2
0 2 4 6 8 10 12 14
mercado de capitales
Cuadro 14
Coeficiente Mercado
∆ PIB
asimetría Capitales
Yi
Xi
Zi
X i Yi X i2 Z i Yi Zi2 Yi 2
3,3 0,3 1,214 0,99 0,09 4,006 1,474 10,89
0,2 3,7 6,555 0,74 13,69 1,311 42,968 0,04
0,3 3,4 2,219 1,02 11,56 0,666 4,924 0,09
1,6 4,1 0,677 6,56 16,81 1,083 0,458 2,56
1,8 1,9 0,824 3,42 3,61 1,483 0,679 3,24
0,7 4,5 5,373 3,15 20,25 3,761 28,869 0,49
0,2 6,9 1,240 1,38 47,61 0,248 1,538 0,04
-0,9 5,5 11,969 -4,95 30,25 -10,772 143,257 0,81
-1 3,7 5,611 -3,7 13,69 -5,611 31,483 1
1,5 -0,6 0,576 -0,9 0,36 0,864 0,332 2,25
1,2 6,5 0,643 7,8 42,25 0,772 0,413 1,44
0,7 1,8 1,495 1,26 3,24 1,046 2,235 0,49
2,4 2,8 1,591 6,72 7,84 3,818 2,531 5,76
0,6 7,7 6,490 4,62 59,29 3,894 42,120 0,36
0,6 8,6 7,267 5,16 73,96 4,360 52,809 0,36
-0,2 6,4 2,004 -1,28 40,96 -0,401 4,016 0,04
1 4,1 0,487 4,1 16,81 0,487 0,237 1
0,2 0,7 1,298 0,14 0,49 0,260 1,685 0,04
0 3 0,2 0 9 0 0,04 0
n n n n n
y x z ∑X
i =1
i Yi ∑X
i =1
i
2
∑Z Y ∑Zi i i
2
∑Y i
2
i =1 i =1 i =1
0,74737 3,94737 3,0386 36,23 411,76 11,275 362,068 30,9
∑ X Y −nx y i i
36,23 − 10 ⋅ 3,94737 ⋅ 0,74737
i =1
bx = = = − 0,1713
n
411,76 − 19 ⋅ 3,94737 2
∑X
i =1
i
2
−n x2
n
∑Z Y −nz y i i
11,275 − 10 ⋅ 3,0386 ⋅ 0,74737
i =1
bz = = = − 0,17077
n
362,068 − 19 ⋅ 3,0386 2
∑Z
i =1
i
2
−nz2
n
b 2 ∑ X i2 −n x 2
= (− 0,1713) (411,76−19⋅3,94737 )= 3,396 =0,16739
2
R x2 = = ni =1
2
VE
30,9−19⋅0,74737 2
∑ Yi 2 −n y 2
VT 20,287
i =1
n
b 2 ∑ Z i2 − n z 2
VE i =1 (− 0,17077) 2 ( 362,068 − 19 ⋅ 3,0386 2 ) 5,4428
R =
2
= = = = 0,2683
z
VT n
30,9 − 19 ⋅ 0,74737 2 20,287
∑Y i
2
−n y2
i =1
Gráfica 27
30
España
20
Italia Irlanda
Francia
Grecia Bélgica
Holanda
tasa paro femenino
10 Dinamarca
Alemania
Portugal Reino Unido
0
0 10 20 30 40 50 60 70
Cuadro 15
Crecimiento PIB CCAA
CCAA f (Crecimiento PIB español ) f (Crecimiento PIB europeo )
Pendiente Correlación Pendiente Correlación
Andalucía 0,92 0,92 1.36 0,79
Aragón 0,96 0,89 1,43 0,77
Asturias 0,83 0,91 1,18 0,75
Baleares 1,24 0,74 2,34 0,82
Canarias 0,98 0,66 2,11 0,84
Cantabria 0,70 0,79 1,13 0,75
Castilla-La Mancha 0,99 0,90 1,45 0,77
Castilla-León 0,81 0,79 1,03 0,58
Catalunya 1,21 0,98 1,72 0,81
C. Valenciana 0,82 0,81 1,41 0,83
Extremadura 0,55 0,49 0,91 0,48
Galicia 0,74 0,92 1,13 0,82
Madrid 1,23 0,92 1,66 0,73
Murcia 0,95 0,86 1,56 0,82
Navarra 1,04 0,90 1,46 0,74
País Vasco 1,18 0,88 1,44 0,62
La Rioja 0,67 0,73 1,16 0,74
En el cuadro 16 se recoge un índice del PIB per cápita del año 1960 y las
tasas de crecimiento de esta variable entre 1960 y 1990. El índice del PIB per
capita toma como referencia a EEUU, siendo el resultado de dividir el PIB per
capita de cada país por el correspondiente a EEUU (ambos en dólares).
Cuadro 16
Tasa
PIB per capita
crecimiento
1960
país PIB per capita
(USA=100)
1960-1990
Alemania 67,73 2,65
Australia 67,25 2,22
Austria 52,03 3,21
Bélgica 53,27 3,08
Canadá 66,59 2,84
Dinamarca 63,17 2,56
España 31,76 3,75
Finlandia 48,57 3,45
Francia 58,81 2,94
Grecia 18,97 3,96
Holanda 63,50 2,40
Irlanda 31,22 3,49
Islandia 50,05 3,44
Italia 47,23 3,44
Japón 29,91 5,39
Luxemburgo 75,18 2,62
N. Zelanda 75,13 1,31
Noruega 50,10 3,23
Portugal 20,77 4,08
Reino Unido 67,85 2,16
Suecia 67,26 2,40
Suiza 97,20 1,89
Turquía 17,43 2,96
EEUU 100 1,94
Cuadro 17
n n n
x y ∑ X i2
i =1
∑ Yi 2 ∑X
i =1
i Yi
i =1
55,041 2,975 84019,975 229,493 3581,841
∑ (X i − x ) (Yi − y ) ∑ X Y −n x y i i
3581,841− 24⋅ 55,041 ⋅ 2,975 − 348,086
b = i =1 = i =1n = = = − 0,0307
n
84019,975 − 24 ⋅ 55,0412 11311,695
∑ (X −x) ∑X −n x 2
2 2
i i
i =1 i =1
Y el coeficiente de determinación:
n
VE =b 2 ∑ ( X i − x ) =b 2 ∑ X i2 −n ⋅ x 2 =(− 0,0307 ) ⋅(84019,975−24 ⋅55,0412 )=10,661
n
2 2
i =1 i =1
n n
VT =∑ (Yi − y ) =∑ Yi 2 −n y 2 =229,493−24 ⋅2,975 2 =17,078
2
i =1 i =1
10,661
R2 = =0,624
17,078
Gráfica 28
6
4
tasa crecimiento PIB per capita
1
0 20 40 60 80 100 120
( )
2
1 n
s = ∑ log( yit ) − log( y t )
2
t
n i =1
( )=
∑ a + (b + 1) log( yit −1 ) − a − (b + 1) log( yt −1 )
1 n 2
=
n i =1
= ∑ (a + ( b + 1) log( y ) − a − ( b + 1) log( y ) ) =
n 2
1
it −1 t −1
n i =1
n i =1
= (b + 1) st2−1
2
Cuadro 18
Salario
industrial
medio 1978 Tasa de
CCAA (media variación
nacional 1978-1990
igual a 100)
Asturias 127,97 2,827
País Vasco 123,31 2,966
Madrid 111,74 3,119
Cantabria 106,11 2,869
Catalunya 103,86 2,979
Navarra 103,22 2,858
Aragón 96,46 3,104
Castilla-León 94,05 3,136
Andalucía 89,87 2,870
Canarias 88,91 2,732
Galicia 88,59 2,824
Valencia 85,37 2,693
La Rioja 82,32 2,688
Murcia 76,05 2,590
Baleares 74,28 2,962
Castilla –La Mancha 73,15 2,740
Extremadura 62,70 2,873
Fuente: Pérez Domínguez (1995), empleando la
Encuesta Industrial del INE.
Cuadro 19
n n n
∑X
i =1
i Yi ∑X i =1
i
2
∑Y
i =1
i
2
x y
4578,949 153395,785 140,657 93,409 2,872
∑X i Yi − n x y
4578,949 − 17 ⋅ 93,409 ⋅ 2,872
i =1
b= = = 0,0036
n
153395,785 − 17 ⋅ 93,409 2
∑X
i =1
i
2
−nx2
n
b 2 ∑ X i2 − n x 2
VE i =1 0,0036 2 (153395,785 − 17 ⋅ 93,409 2 )
R =
2
= = = 0,15
n
140,657 − 17 ⋅ 2,872 2
∑Y
VT
i
2
−n y 2
i =1
Gráfica 29
3,2
Cast.-León
Madrid
Aragón
3,1
2,8
Cast.-Mancha Canarias
Valencia
La Rioja
2,7
2,6 Murcia
2,5
50 60 70 80 90 100 110 120 130 140
Cuadro 21
n n n
x y ∑X
i =1
i
2
∑Y
i =1
i
2
∑X
i =1
i Yi
9,1875 75,975 2355,21 138564,7 16799,23
∑ X Y −n x y
i i
16799,23 −24 ⋅ 9,1875 ⋅ 75,975 46,7425
b= i =1n = = = 0,142
2355,21−24 ⋅ 9,1875 2
∑X
329,366
i
2
−n x 2
i =1
a = y −b x =75,975 − 0,142 ⋅ 9,1875 = 74,67
Y el coeficiente de determinación:
n
b 2 ∑ X i2 −n x 2
2 VE
R = = i =1 =
(
0,142 2 2355,21 − 24 ⋅ 9,1875 2
= 0,21
)
n
138564,7 − 24 ⋅ 75,975 2
∑ Yi −n y
VT 2 2
i =1
Gráfica 30
79
Japón
78
Suiza
Suecia Islandia
Francia Holanda
77 Canadá
Australia
España
Grecia Noruega
Italia
76 UK Alemania
Austria
Esperanza de vida
Turquía
EEUUDinamarca
75 Finlandia
Bélgica
N. Zelanda Luxemburgo
Irlanda
Portugal
74
1 3 5 7 9 11 13 15 17
Bekaert, G., C.B. Erb, C.R. Harvey y T.E. Viskanta, 1998, “Distributional
Characteristics of Emerging Market Returns and Asset Allocation”, The Journal
of Portfolio Management, vol. 24 nº. 2, Winter, págs. 102-116.
Friedman, M., 1992, “Do old fallacies ever die?”, Journal of Economic
Literature, vol. 30, págs. 2129-2132.
Juhn, C. y K.M. Murphy, 1996, “Wage inequality and family labor supply”,
Working Paper 5450, NBER Working Paper Series, Cambridge, MA.
Layard, R., S. Nickell y R. Jackman, 1996, “Combating unemployment: is
flexible enough?”, CEP Working Paper, 293, London School of Economics.
Michaud, R.O., G.L. Bergstrom, R.D. Frashure y B.K. Wolahan, 1996, “Twenty
years of International Equity Investing”, The Journal of Portfolio Management,
vol. 23, n. 1, págs. 9-22.
Moltó, M.L. y E. Uriel, 1997, “El problema del paro en la Unión Europea por
sexos”, Papeles de Economía Española, nº. 72, págs. 122 a 136.
Norusis, M.J., 1991, The SPSS Guide to Data Analysis for SPSS/PC+, 2nd
Edition, SPSS Inc., Chicago.