Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Poblacin del
marco de
muestreo
No localizable
No incluida
en el marco
de muestreo
Rehusa responder
POBLACIN
MUESTREADA
No es elegible
para la
encuesta
Otras causas
= estimador de la caracterstica
= Error de estimacin
P B = 1 ,
0< <1
1 = Nivel de confianza
4
P B = P B B =
B
= P
= Z
=1
Z N(0,1)
=z
B=z
1 = 0, 95 B = z0,975 = 1, 96 2
P 2 = 0,95
( )
1
Desigualdad de Tchebychev: P E k 1 2 ,
k 1
k =2
1
3
P 2 1 2 = = 0,75
2
4
P B = P B B = P B + B = 1
( B ,
+ B
)
7
Sesgo de medicin. Ocurre cuando por diversos motivos los datos que
obtenemos no son exactos o verdaderos.
Cuestionarios autoaplicados.
Ventaja: Son ms baratos (son enviados por correo y no requieren
entrevistadores).
Inconveniente: Tasa de respuesta baja.
Observacin directa.
Usada en encuestas que no requieren mediciones en personas.
10
12
Rapidez.
Los datos se pueden reunir ms rpido, de modo que las estimaciones se
pueden publicar de una manera programada
Economa y precisin.
El muestreo puede proporcionar informacin fiable con costes mucho
menores que los de un censo.
13
1107 1032 2596 4562 7598 1546 2596 5412 8569 2563 4587 2596 5641 5866 5844
2687 1596 3589 6578 1452 2365 7899 4122 1477 8836 3696 2587 6985 5632 5896
.....................................................................................................................................
Ordenar o numerar la poblacin.
Rutas aleatorias (guas telefnicas)
IMPORTANTE: EL NMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA
TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIN ALEATORIA
14
1 n
y = yi
n i =1
()
E y =
()
Vy=
S =S
2
2
n1
1 n
=
yi y
n 1 i=1
E( S2 ) =2
S2
V ( y) =
n
Cuando las variables Y, Y1,..., Yn son dicotmicas
1n
p = yi , yi = 0,1
n i=1
()
E p =p
()
V p=
=p, 2=pq
2 pq
n
2
1 n
n
S =
y
y
=
pq
i
n 1 i=1
n 1
2
pq
V ( p) =
n 1
E( S2 ) = pq
15
2 conocida
N (0,1)
n
Y N ( , 2 )
2 desconocida
Y cualquier ley (n )
y
tn 1 N (0,1)
S
n
y
Y B (1, p ) = p
y= p
p p
pq
n
y
N (0,1)
S
n
p p
n pq
n 1 n
p p
N (0,1)
pq
n 1
16
P 2
y 2
=
0,95
P
y
= 0,95
n
n
n
y
P Z
Z = 1
2
2
y
P 1,96
1,96 = 0,95
1,96 2
Py 2
y+2
= 0,95
n
n
2
,
y
+
2
n
n
17
P y 2
= 0,95
n
Desigualdad de Tchebychev
E(X ) =
( )
V (X ) =2
( )
E y = V y =
2
n
k=2
P X k 1
1
k2
P y 2
1 4 = 0, 75
n
18
ESTIMACIN PUNTUAL
INTERVALO DE CONFIANZA
1 n
y = yi
n i =1
2 V ( y) = 2
S
n
S
S
, y+2
y2
n
n
S
S
se acepta H 0 : = 0 si 0 y 2
,y+2
n
n
CONTRASTE DE HIPTESIS
se rechaza H 0
S
S
si 0 y 2
,y+2
n
n
19
2 V ( y) = 2
2
n
=B
2
n
=B n=
2
=S
2
pq
2 V ( p) = 2
=B
n
2
2
B
4
pq pq
n= 2 =
B
D
4
p= p
2
D
B2
, D=
4
R2
16
2
B2
, D=
4
1
p=q=
2
20
VARIANZA DEL
ESTIMADOR
1 n
p = yi ,
n i =1
1 n
y = yi
n i =1
ESTIMADOR
CUASIVARIANZA
MUESTRAL
PROPORCIN
1 n
S =
yi y
n 1 i =1
2
V ( y) =
2
n
yi = 0, 1
1 n
S =
yi y
n 1 i =1
2
S2
pq
V ( p) =
V ( y) =
n
n
n pq
=
n 1
pq
V ( p) =
n 1
21
PROPORCIN
S
2 V ( y) = 2
n
pq
2 V ( p) = 2
n 1
S
S
, y+2
y2
n
n
pq
pq
p2
, p+2
n 1
n 1
INTERVALO DE
CONFIANZA
TAMAO MUESTRAL
n=
2
2
B
4
2
D
B2
, D=
4
pq pq
n= 2 =
B
D
4
B2
, D=
4
22
( )
E y =
1
= y = yi
n i =1
( )
V y =
2 N n
E (S2 ) =
n N 1
N
2
N 1
N 1 2
E
S =2
N
S2 N n
V y =
n N
( )
N n
N
= N y =
n
y
i =1
1
N n
0,95
N = 5% N
20
N
2
2
S
N
n
S
V ( ) = V ( N y ) = N V ( y ) = N
= N ( N n)
n N
n
2
23
1 n
p = yi ,
n i =1
= N p
yi = 0, 1
n pq
S =
n 1
2
S2 N n
pq N n
V ( p) =
=
n N
n 1 N
pq
2
V ( ) = V ( N p ) = N V ( p ) = N ( N n)
n 1
24
N 2
=B n=
( N 1) D + 2
n N 1
2 N n
=S
2
Npq
n=
( N 1) D + pq
p= p
B2
D=
(media )
4
B2
D=
4
p=q=
( proporcion)
B2
D=
4N 2
(total )
R2
16
2
B2
D=
4N 2
(total )
1
2
25
ESTIMADOR
VARIANZA DEL
ESTIMADOR
1 n
y = yi = N y
n i =1
S2 N n
V ( y) =
n N
PROPORCIN
TOTAL
1 n
p = yi
n i =1
pq N n
V ( ) = N 2 V ( y ) V ( p) =
n 1 N
2 V ( ) = N 2 V ( y ) 2 V ( p)
= N p
V ( ) = N 2 V ( p )
2 V ( ) = N 2 V ( p )
26
(y 2
V ( y) , y + 2 V ( y)
) (p 2
V ( p) , p + 2 V ( p)
( 2
V ( ) , + 2 V ( )
) ( 2
V ( ) , + 2 V ( )
N 2
n=
( N 1) D + 2
TAMAO MUESTRAL
PROPORCIN
TOTAL
B2
D=
4
B2
D=
4N 2
(media )
(total )
n=
Npq
( N 1) D + pq
B2
D=
4
( proporcion)
B2
D=
4N 2
(total )
27
n = tamao de la muestra
N = Ni
n = ni
i =1
i=
i =1
i=
N i y i = i
= i
i =1
st = N i y i
i =1
2
S
N n
V ( st ) = N i2 V ( y i ) = N i2 i i i
ni N i
i =1
i =1
L
st
1
y st =
=
N N
N y
i =1
1
V ( y st ) = 2
N
y st y
1
N V ( yi ) = 2
N
i =1
2
i
Si2 N i ni
N
ni N i
i =1
st = N y
2
i
29
1
y st =
N
PROPORCIN
TOTAL
N y
i
i =1
1
p st =
N
N
i =1
pi
ESTIMADOR
L
st = N i y i
i =1
VARIANZA DEL
ESTIMADOR
1
V ( y st ) = 2
N
st = N i p i
i =1
Si2 N i ni
1 L 2 p i q i N i ni
V ( p st ) = 2 N i
N
N i =1
ni 1 N i
ni Ni
i =1
L
2
i
2
S
N n
V ( st ) = Ni2 i i i
ni Ni
i=1
L
V ( st ) =
p i q i N i ni
N
ni 1 N i
i =1
L
2
i
30
2 V ( y st ) = B
n=
i =1
N
2
i
N D + N i
= pi qi
i =1
i =1
2
i
i2 N i ni
ni N i 1
2
i
B2
D=
4
B2
D=
4N 2
N pi qi
N 2 D + N i pi qi
(media)
B2
D=
4N 2
2
i
i =1
ni = ni
B2
D=
4
i =1
n=
2
i
2
i
(total )
( proporcin)
(total )
31
j =
p jq j
Nj
cj
j =
Ni i
ci
i =1
L
cj
Ni
i =1
pi qi
ci
Minimiza el coste de obtencin de la muestra para un lmite del error de estimacin fijado.
L
Ni i ci
n=
i =1
i =1
Ni i
ci
Ni
n=
N D + N i
2
i =1
i =1
Ni
pi qi ci
i =1
pi qi
ci
N D + N i pi qi
2
2
i
i =1
Minimiza el lmite del error de estimacin para un coste de obtencin de la muestra fijo.
L
C
n=
i =1
N i i
ci
N
i =1
ci
C Ni
n=
i =1
pi qi
ci
c1n1 + c2 n2 + c3 n3 = C
c11n + c22 n + c33n = C
N
i =1
pi qi ci
n=
C
c11 + c22 + c33
32
Caso numrico:
( N )
j =
N j j
L
Ni i
n=
i =1
N D + N i i2
2
i =1
i =1
Caso dicotmico:
( N
j =
N j pjqj
L
N
i =1
pi qi
n=
i =1
pi qi
N D + N i pi qi
2
i =1
33
Si c1 = c2 = ... = ci = ... = cL
Caso numrico:
j =
Nj
N
n=
Caso dicotmico:
N
i
i =1
2
i
1
ND +
N
2
N
i i
i =1
j =
Nj
N
n=
N pq
i =1
1
ND +
N
i i
N pq
i =1
i i
Ventajas:
y st = y
p st = p
st =
Asignacin ptima/Neyman
1 estimacin: n = 100
1 = 0,10 n1 = 10
2 = 0,90 n2 = 90
2 estimacin: n = 40
1 = 0,50 n1 = 20
2 = 0,50 n2 = 20
Asignacin proporcional
1 estimacin: n = 100
1 = 0,30 n1 = 30
2 = 0, 70 n2 = 70
2 estimacin: n = 40
1 = 0,30 n1 = 12
2 = 0, 70 n2 = 28
35
Ejemplo 3.6 (Ejercicio 17, relacin tema 3) En una ciudad se sabe que el 30% de los
hogares tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de
energa (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica
60
5730
200
No electrica
40
2080
90
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D
un lmite para el error de estimacin.
36
5730
= 95,5
60
i =1
i =1
Ni y i =
1
V ( y st ) = 2
N
2
=
i =1
y2 =
2080
= 52
40
Ni
y i = (0,30 95,5) + (0, 70 52) = 65, 05
N
2
Si2 N i ni
N i2 Si2 N i ni
N
= 2
=
n
N
N
n
N
i =1
i =1
i
i
i
i
2
2
i
2
2
N i Si2
N S
2 200
2 90
=
= 0,30
+ 0, 70
= 159, 225
N ni
N
n
60
40
i =1
i
2
i
2
2
i
2 V ( y st ) =25,24
y=
37
rxy >
2
( y = bx )
Estimadores de regresin
( y = a + bx )
Estimadores de diferencia
( y = a + x)
38
y
R=
x
Y
R=
X
y = N y
x = N x
Entonces si se conocen los valores de la media y del total de X slo hay que
estimar el valor de R (r):
y = r x
y = r x
n
y
=
ESTIMADOR DE LA RAZN: r =
x
yi
xi
i =1
n
i =1
1 S r2 N n
VARIANZA ESTIMADA DE r: V (r ) = 2
x n N
1 n
2
Sr =
( yi rxi )
n 1 i =1
2
39
ESTIMADOR DE LA MEDIA:
y = r x
2
S
V ( y ) = V (r ) = r
n
2
x
N n
y = r x
S
N
n
S
2 r N n
V (y ) = x2V (r ) = x2 r
=
N
x n N
n N
40
N r2
n= 2
r + ND
B 2 x2
4 para estimar la razn
2
B para estimar la media
D= 4
2
B
4 N 2 para estimar el total
x2 = x 2
41
a = y bx
y = a + bx
Mtodo de mnimos
cuadrados
b =
s xy
s x2
+ bx
= y + b ( x x )
y = y bx
S x2
(y
i =1
y )( xi x )
2
(
)
x
x
i
i =1
1 n
2
S =
x
x
(
)
i
n 1 i =1
1 n
2
s = ( xi x )
n i =1
1 n
S xy =
( xi x )( yi y )
n 1 i =1
1 n
sxy = ( xi x )( yi y )
n i =1
2
x
donde
S xy
2
x
42
yL = a + b x = y + b( x x )
2
S
L
VARIANZA ESTIMADA DEL ESTIMADOR: V ( yL ) =
n
( (
1 n
S =
yi y + b ( xi x )
n 2 i =1
2
L
n 1 2 S xy
=
S y 2
n2
Sx
2
))
N n
n
1 n
2
2
2
=
y
b
x
x
( i )
( i )
n 2 i =1
i =1
n 1 2
n 2
2
S y (1 rxy ) =
s y (1 rxy2 )
=
n2
n2
yL = N yL
V ( yL ) = N 2V ( yL )
43
N L2
n= 2
L + ND
B2
4 para estimar la media
D=
B2
44
2
D
S D2 N n
V ( yD ) =
n N
2
2
1 n
1 n
(
(
)
)
(
)
=
y
x
+
d
=
d
d
y
i i
i
n 1 i =1
n 1 i =1
d i = y i xi
S D2 = cuasivarianza de los d i
ESTIMADOR DEL TOTAL:
yD = N yD
V ( yD ) = N 2V ( yD )
45
N D2
n= 2
D + ND
B2
4 para estimar la media
D=
B2
D2 = S D2
46
5. Muestreo sistemtico
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas
Muestra Sistemtica de 1 en k:
1. Ordenar los elementos de la poblacin
2. Seleccionar aleatoriamente un elemento i (llamado punto de inicio) de los
primeros k elementos de la poblacin.
3. Despus seleccionar cada k-esimo elemento hasta conseguir una muestra
de tamao n .
N
k se toma como el nmero entero menor o igual que
n
5. Muestreo sistemtico
5.2 Estimacin de la media, proporcin y el total poblacionales
ESTIMADOR DE LA MEDIA POBLACIONAL: = y sy =
1 n
yi + ( j 1) k
n j =1
2
S
N n
VARIANZA ESTIMADA DEL ESTIMADOR: V ( y sy ) =
n N
2 N n
2
V (y) =
[
V y sy =
1 + (n 1) ]
n N 1
n
( )
= Ny sy
2
S
VARIANZA ESTIMADA DEL ESTIMADOR: V ( ) = N V ( y sy ) = N
n
2
N n
1 n
y i + ( j 1) k
n j =1
p sy q sy N n
n 1 N
48
5. Muestreo sistemtico
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones
ordenadas, aleatorias y peridicas
V (y) =
2 N n
n N 1
V ( y sy ) =
2
n
[1 + (n 1) ]
V ( y sy ) V ( y )
V ( y sy ) V ( y )
V ( y sy ) > V ( y )
49
5. Muestreo sistemtico
5.4 Determinacin del tamao muestral
Tamao muestral necesario para estimar la media y el total poblacionales con
un lmite B para el error de estimacin
B2
4 para estimar la media
N 2
D=
n=
2
( N 1) D +
2
B para estimar el total
4N
4N 2
Tamao muestral necesario para estimar la proporcin poblacional con
un lmite B para el error de estimacin
n=
Npq
( N 1) D + pq
B2
4 para estimar la proporcin
D=
2
B
para estimar el total
4N 2
50
n = conglomerados en la muestra.
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N
M = mi = elementos en la poblacin
i =1
m = mi = elementos en la muestra
M=
1
N
i =1
m
i =1
=y=
y
i =1
n
m
i =1
1 N n Sc2
V ( y) = 2
N n
M
= M y
V ( ) = M 2 V ( y )
t = N y t
2
S
V ( t ) = N 2 V ( y t ) = N ( N n) t
n
1 n
y t = yi
n i =1
N n St2
V ( yt ) =
N n
Si m1 = m2 = ... = mN
1 n
S =
yi ymi
n 1 i =1
2
c
1 n
S =
yi y t
n 1 i =1
2
t
M y = N yt
52
= M y
=y=
y
i =1
n
m
i =1
N c2
n=
ND + c2
1 n
=S =
yi ymi
n 1 i =1
t = N y t
1 n
y t = yi
n i =1
N t2
n=
ND + t2
2
c
2
c
B M
D=
4
B2
D=
4N 2
(media)
(total )
1 n
=S =
yi y t
n 1 i =1
2
t
2
t
B2
D=
.
2
4N
53
t
=
N
p =
s
n
t
N=
p
t
t
nt
=
ESTIMADOR DE N: N = =
p s / n s
( )
2
t
n( n s )
VARIANZA ESTIMADA DEL ESTIMADOR: V N =
s3
54
ESTIMADOR DE N:
t
t
nt
N = =
=
p s / n s
( )
2
t
n( n s )
V N = 2
s (s + 1)
55
m = mi
i =1
n elementos en la poblacin M
=
rea de la poblacin
A
M = A
56
=
na
m
1
=
na
a 2n2
2
A
m
V ( M ) = A V ( ) = 2 2
a n
2
Dado que
1 n y
V ( ) = 2
a ny
1
a
y
n
= ln
M = A
A y
M = A = ln
a n
2
A
n y
V ( M ) = 2
a ny
58
8. Anlisis Cluster
8.1 Introduccin
Anlisis cluster: serie de tcnicas que tienen por objeto la bsqueda de grupos
similares de individuos o variables. Es una tcnica completamente numrica en la que
no se realizan hiptesis previas.
Pasos en un anlisis cluster:
2. Crear los grupos de forma que cada uno de ellos contenga aquellas observaciones
que ms se parezcan.
3. Describir los grupos obtenidos y compararlos.
59
8. Anlisis Cluster
8.2 Medidas de similaridad
Ejemplo 8.1
30,00
Nombre
Empresa
Inversin
publicidad
Ventas
E8
E4
16
10
E2
12
14
E3
10
22
E4
12
25
E5
45
10
E6
50
15
E7
45
25
E8
50
27
E3
Ventas
E1
E7
25,00
20,00
E6
15,00
E2
E1
E5
10,00
10
20
30
Inversion
40
50
60
8. Anlisis Cluster
8.2 Medidas de similaridad
8.2.1 Medidas de similaridad para variables mtricas
k
p =1
( x ip x jp )
D12 =
(16 12 ) + (10 14 )
2
= 5, 66
1:E1
2:E2
5:E5
6:E6
7:E7
8:E8
,00
5,66
13,42
15,52
29,00
34,37
32,65
38,01
2:E2
5,66
,00
8,25
11,00
33,24
38,01
34,79
40,16
3:E3
13,42
8,25
,00
3,61
37,00
40,61
35,13
40,31
4:E4
15,52
11,00
3,61
,00
36,25
39,29
33,00
38,05
5:E5
29,00
33,24
37,00
36,25
,00
7,07
15,00
17,72
6:E6
34,37
38,01
40,61
39,29
7,07
,00
11,18
12,00
7:E7
32,65
34,79
35,13
33,00
15,00
11,18
,00
5,39
8:E8
38,01
40,16
40,31
38,05
17,72
12,00
5,39
,00
(x
k
p =1
4:E4
1:E1
3:E3
ip
x jp )
1
n
61
8. Anlisis Cluster
8.2 Medidas de similaridad
8.2.2 Medidas de similaridad para datos binarios
Ejemplo 8.3
Observaciones
E1
Variables
X1
X2
X3
X4
E2
E3
E4
E5
E2
E1
1 0
1 0
1 1 2
0 1 0
E2
1 a b
0 c d
Dij = b + c
b+c
Dij =
E1
Ejemplo 8.4
(b c )
(a + b + c + d )
D12 =
( 2 1)
(1 + 2 + 1 + 0 )
= 0, 063 62
8. Anlisis Cluster
8.3 Estandarizacin de los datos
Ejemplo 8.5
En el siguiente cuadro se recoge el tamao de los activos y el nmero de trabajadores
de 8 empresas:
Empresa
Activos
Trabajadores
E1
10.000.000.000
100
E2
10.050.000.000
90
E3
10.000.000.000
200
E4
10.050.000.000
190
E5
20.000.000.000
200
E6
20.050.000.000
190
E7
20.000.000.000
100
E8
20.050.000.000
90
63
8. Anlisis Cluster
8.3 Estandarizacin de los datos
Matriz de distancias
1:E1
,000
5,0E+07
100,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
2:E2
5,0E+07
,000
5,0E+07
100,000
1,0E+10
1,0E+10
1,0E+10
1,0E+10
3:E3
100,000
5,0E+07
,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
distancia eucldea
4:E4
5:E5
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
1,0E+10
,000
1,0E+10
1,0E+10
,000
1,0E+10
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
6:E6
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
,000
5,0E+07
100,000
7:E7
1,0E+10
1,0E+10
1,0E+10
1,0E+10
100,000
5,0E+07
,000
5,0E+07
8:E8
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
100,000
5,0E+07
,000
64
8. Anlisis Cluster
8.3 Estandarizacin de los datos
Ejemplo 8.6
Matriz de distancias
Distancia eucldea
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
,186
1,862
1,675
2,639
2,518
1,871
1,889
2:E2
,186
,000
2,048
1,862
2,767
2,639
1,871
1,871
3:E3
1,862
2,048
,000
,186
1,871
1,889
2,639
2,780
4:E4
1,675
1,862
,186
,000
1,871
1,871
2,504
2,639
5:E5
2,639
2,767
1,871
1,871
,000
,186
1,862
2,048
6:E6
2,518
2,639
1,889
1,871
,186
,000
1,675
1,862
7:E7
1,871
1,871
2,639
2,504
1,862
1,675
,000
,186
8:E8
1,889
1,871
2,780
2,639
2,048
1,862
,186
,000
GRUPO 1: E1 y E2
GRUPO 2: E3 y E4
GRUPO 3: E5 y E6
GRUPO 4: E7 y E8
65
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(A) Mtodo de agrupacin de centroides
distancia eucldea al cuadrado
Ejemplo 8.7
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
32
180
241
841
1181
1066
1445
2:E2
32
68
121
1105
1445
1210
1613
3:E3
180
68
13
1369
1649
1234
1625
4:E4
241
121
13
1314
1544
1089
1448
5:E5
841
1105
1369
1314
50
225
314
6:E6
1181
1445
1649
1544
50
125
144
7:E7
1066
1210
1234
1089
225
125
29
8:E8
1445
1613
1625
1448
314
144
29
Grupo E3-4
10 + 12
= 11
2
22+25
Ventas de E3-4=
= 23,5
2
66
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
Datos actualizados:
Nombre
Empresa
Inversin en
publicidad
Ventas
E1
16
10
E2
12
14
E3-4
11
23,5
E5
45
10
E6
50
15
E7
45
25
E8
50
27
67
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
Caso
1:E1
2:E2
3:E3-4
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,0
32,0
207,3
241,0
841,0
1181,0
1066,0
1445,0
2:E2
32,0
,0
91,3
121,0
1105,0
1445,0
1210,0
1613,0
3:E3-4
207,3
91,3
,0
3,3
1338,3
1593,3
1158,3
1533,3
4:E4
241,0
121,0
3,3
,0
1314,0
1544,0
1089,0
1448,0
5:E5
841,0
1105,0
1338,3
1314,0
,0
50,0
225,0
314,0
6:E6
1181,0
1445,0
1593,3
1544,0
50,0
,0
125,0
144,0
7:E7
1066,0
1210,0
1158,3
1089,0
225,0
125,0
,0
29,0
8:E8
1445,0
1613,0
1533,3
1448,0
314,0
144,0
29,0
,0
68
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
Historial de conglomeracin
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
141,250
182,250
1227,250
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
E3
E4
E1
E2
E7
E8
E5
E6
70
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(B) Mtodo del vecino ms cercano (vinculacin simple)
Ejemplo 8.8
Historial de conglomeracin
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
68,000
125,000
841,000
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
71
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.8 (Continuacin)
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
E6
15,00
E2
3
E1
E5
10,00
10
20
30
Inversion
40
50
72
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(C) Mtodo del vecino ms lejano (vinculacin completa)
Ejemplo 8.9
Historial de conglomeracin
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
241,000
314,000
1649,000
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
73
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.9 (Continuacin)
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
7
E6
15,00
E2
3
E1
E5
10,00
10
20
30
Inversion
40
50
74
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(D) Mtodo de la vinculacin promedio (vinculacin intergrupos)
Ejemplo 8.10
Historial de conglomeracin
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
152,500
202,000
1323,625
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Etapa 5:
Prxima
etapa
5
6
5
6
7
7
0
Observ.
Distancia
E1, E3
180
E1, E4
241
E2, E3
68
E2, E4
121
Media
152,5
75
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Seleccin del nmero de conglomerados de la solucin
Dendograma
Tasas de variacin entre los coeficientes de conglomeracin obtenidos
en etapas sucesivas
Etapa
Observaciones
que se fusionan
Grupos
Resultantes
N
grupos
Coeficiente
Tasa de
Variacin
[E3,E4]
[E3,E4],E1,E2,E5,E6,E7,E8
6,5
2,23
[E7,E8]
[E3,E4][E7,E8],E1,E2,E5,E6
21
0,76
[E1,E2]
[E1,E2][E3,E4][E7,E8],E5,E6
37
0,67
[E5,E6]
[E1,E2][E3,E4][E5,E6][E7,E8]
62
2,27
[E1,E2][E3,E4]
[E1,E2,E3,E4][E5,E6][E7,E8]
203,3
0,89
[E5,E6][E7,E8]
[E1,E2,E3,E4][E5,E6,E7,E8]
385,5
6,32
[E1,E2,E3,E4][E5,E6,E7,E8]
[E1,E2,E3,E4,E5,E6,E7,E8]
2824
21 6,5
T1 =
= 2, 23
6,5
76
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
A. Seleccin de los centroides iniciales
Aspectos a tener en cuenta en la eleccin de los centroides iniciales:
1. El investigador propone los centroides iniciales.
2. Si ste no est seguro, un posible camino es realizar un anlisis jerrquico y
observar el dendograma.
3. Si no se tiene ninguna idea previa, el SPSS (u otros paquetes estadsticos)
los selecciona.
B. Asignacin de observaciones a grupos (cluster)
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
1. Calcular la distancia de cada observacin a los centroides iniciales calculados en
la fase anterior. Cada observacin se asigna al conglomerado al que est ms
cercano (utilizando distancias euclideas).
Inversin
Ventas
Distancias
Centroide 1
Distancias Conglomerado
Centroide 2
asignado
E1
16
10
34,37
15,52
E2
12
14
38,01
11
E3
10
22
40,61
3,61
E4
12
25
39,29
E5
45
10
7,07
36,25
E6
50
15
39,29
E7
45
25
11,18
33
E8
50
27
12
38,05
78
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
2. Una vez efectuada la asignacin de observaciones a conglomerados, se
recalculan los centroides
Centroides iniciales
Centroides finales
Conglomerado
Publicidad
50
15
47,5
19,25
12
25
12,5
17,75
45 + 50 + 45 + 50
= 47,5
4
16 + 12 + 10 + 12
= 12,5
4
Ventas Publicidad
Ventas
10 + 15 + 25 + 27
= 19, 25
4
10 + 14 + 22 + 25
= 17, 75
4
79
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
3. Se repite el paso 1 clasificando cada observacin en el conglomerado del que
dista menos. El proceso se detiene cuando no se produce ninguna reasignacin
de observaciones a conglomerados o hasta que se alcance un determinado
nmero de iteraciones que se puede establecer como opcin al ejecutar el
anlisis.
Inversin
Ventas
Distancias
Distancias
Conglomerado
Centroide 1 Centroide 2
asignado
E1
16
10
32,83
8,50
E2
12
14
35,89
3,78
E3
10
22
37,60
4,93
E4
12
25
35,96
7,27
E5
45
10
9,58
33,41
E6
50
15
4,93
37,60
E7
45
25
6,27
33,30
E8
50
27
8,14
38,62
80
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
Centros iniciales de los conglomerados
Historial de iteraciones(a)
Cambio en los centros de
los conglomerados
Conglomerado
1
Inversin
50
12
Iteracin
Ventas
15
25
4,931
7,267
,000
,000
81
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
Pertenencia a los conglomerados
N de
caso
Conglomerado
Distancia
E1
8,504
E2
3,783
E3
4,931
E4
7,267
E5
9,582
E6
4,931
E7
6,270
E8
8,143
Inversin
47,50
12,50
Ventas
19,25
17,75
82
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
ANOVA
Conglomerado
Media
cuadrtica
Inversin
Ventas
Error
Media
cuadrtica
gl
gl
Sig.
2450,000
7,333
334,091
,000
4,500
56,917
,079
,788
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no
pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
83
9. Componentes principales
9.1 Introduccin
La utilidad de la tcnica de componentes principales es doble:
84
9. Componentes principales
9.2 Componentes principales
que
( 1 , 1 ) , ( 2 , 2 ) ,..., ( p , p )
tiene
pares
de
valores
vectores
propios
donde
1 2 p 0. La i-sima componente
Yi = i' X = i1 X 1 + i 2 X 2 + + ip X p , i = 1, 2,..., p
con esta eleccin
Var (Yi ) = i' Si = i , i = 1, 2,..., p
Cov(Yi , Yk ) = Sk = 0, i k
'
i
85
9. Componentes principales
9.2 Componentes principales
Sean Y1 = 1' X , Y2 = 2' X ,..., Yp = p' X las componentes principales. Entonces
p
i =1
i =1
1 + + p
, k = 1,2,..., p
ik i
skk
, i, k = 1, 2,..., p
86
9. Componentes principales
9.2 Componentes principales
Ejemplo9.1
3.50
1.9 1.1
x =
; S =
3.50
1.1 1.1
S I = 0
1.9
1.1
1.9 1.1
1 0
=0
=0
1.1
1.1
1.1 1.1
0 1
2 3 + 0.88 = 0
( S 1I ) 1 = 0.
0.7711 + 1.1012 = 0
1.1011 1.5712 = 0
1 = 2.67 y 2 = 0.33
1.9 1.1
1 0 11
0.77 1.1 11
2.67
= 0
= 0
1.1
1.1
0
1
1.1
1.57
12
12
11 = 1.4312 .
112 + 122 = 1
0.82
1 =
0.57
87
9. Componentes principales
9.2 Componentes principales
X
X
Y1 = '1 1 = ( 0.82 0.57 ) 1 = 0.82 X 1 + 0.57 X 2
X2
X2
X
Y2 = ( 0.57 0.82 ) 1 = 0.57 X 1 + 0.82 X 2
X2
88
9. Componentes principales
9.2 Componentes principales
0
1.9 1.1
2.67
S =
;
S
=
Y
0.33
1.1 1.1
0
rx1x2 =
s12 ( X )
1.1
=
= 0.76
s11 ( X ) s22 ( X )
1.9 1.1
i =1
2
Var (Y ) =tr (S
i
i =1
rY1 , X1 =
11 1
s11
1 + 2
Y ) = i = 2.67 + 0.33 = 3
2.67
= 0.89
3
i =1
0.82 2.67
= 0.97
1.9
rY1 , X 2 =
12 1
s22
0.57 2.67
= 0.89
1.1
89
9. Componentes principales
9.2 Componentes principales
Estadsticos descriptivos
VAR00001
Media
3,5000
Desviacin
tpica
1,37840
N del anlisis
6
VAR00002
3,5000
1,04881
Bruta
Autovalores iniciales(a)
Total
2,670
% de la
varianza
89,016
% acumulado
89,016
,330
10,984
100,000
Reescalada
Componente
Componente
VAR00001
1,338
,971
VAR00002
,938
,894
11 =
1,338
= 0,82
2, 67
12 =
0,938
= 0,57
2, 67
90
9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas
Zi
X i i )
(
=
sii
E [Z ] = 0
i =1
i =1
Cov( Z ) = R
rYi , Zk = ik i , i, k = 1,..., p
k
p
91
9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas
1 4
S =
4
100
1 0.4
R=
.
0.4 1
'
1 = 100.16 1 = ( 0.040, 0.999 )
S :
= 0.84 ' = ( 0.999, 0.040 )
2
2
Y1 = 0.040 X 1 + 0.999 X 2
S :
Y2 = 0.999 X 1 0.040 X 2
1 + 2
rY1 , X1 =
rY1 , X 2 =
11 1
s11
12 1
s22
100.16
= 0.992
101
= 0.4
=
0.999 100.16
= 0.999
100
92
9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas
'
1 = 1.4 1 = ( 0.707, 0.707 )
R:
= 0.6 ' = ( 0.707, 0.707 )
2
2
X 1 1
X 2 2
=
0.707
+
0.707
=
0.707
+
0.707
Y
Z
Z
1
1
2
1
10
= 0.707 ( X 1 1 ) + 0.0707 ( X 2 2 )
R:
Y = 0.707 Z 0.707 Z = 0.707 X 1 1 0.707 X 2 2
1
2
2
1
10
= 0.707 ( X 1 1 ) 0.0707 ( X 2 2 )
1
p
1.4
= 0.7
2
93