Está en la página 1de 93

1.

Elementos del problema de Muestreo


1.1 Definiciones bsicas
Elemento o unidad de muestreo: objeto en el que se toman las mediciones
Poblacin objetivo: conjunto de elementos que deseamos estudiar
Muestra: subconjunto de la poblacin

Poblacin muestreada: coleccin de todos los elementos posibles que podran


seleccionarse para la muestra

Unidad de muestreo: son conjuntos (no solapados) de elementos de la poblacin


que cubren la poblacin completa

Marco de muestreo: es la lista de las unidades de muestreo


1

1. Elementos del problema de Muestreo


1.1 Definiciones bsicas
Poblacin Objetivo

Poblacin del
marco de
muestreo

No localizable

No incluida
en el marco
de muestreo

Rehusa responder

POBLACIN
MUESTREADA

No es elegible
para la
encuesta

Otras causas

1. Elementos del problema de Muestreo


1.2 Seleccin de la muestra
Muestreo aleatorio simple: Todas las muestras de un determinado tamao tienen
la misma probabilidad de ser seleccionadas.
Muestreo aleatorio estratificado: Se divide a la poblacin en grupos, denominados
estratos, y se seleccionar una muestra aleatoria simple de cada estrato.
Muestreo por conglomerados: Se divide a la poblacin en grupos, denominados
conglomerados, y seleccionar una muestra aleatoria simple de
conglomerados.
Muestreo sistemtico: Consiste en seleccionar un elemento al comienzo de una
lista de la poblacin y luego se selecciona cada un nmero fijo de posiciones
el resto de elementos.

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.1 Errores de muestreo
= caracterstica desconocida de la poblacin

= estimador de la caracterstica

= Error de estimacin

P B = 1 ,

0< <1

Lmite de Error de Estimacin (LEE)


B= Cota para el error de estimacin
Error de estimacin mximo

1 = Nivel de confianza
4

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.1 Errores de muestreo
1. El estimador es insesgado y tiene distribucin Normal. N( , )

P B = P B B =

B
= P

= Z
=1

Z N(0,1)

=z

B=z

1 = 0, 95 B = z0,975 = 1, 96 2

P 2 = 0,95

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.1 Errores de muestreo
2. El estimador es insesgado con desviacin tpica

( )

1
Desigualdad de Tchebychev: P E k 1 2 ,

k 1

k =2

1
3

P 2 1 2 = = 0,75

2
4

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.1 Errores de muestreo

P B = P B B = P B + B = 1

Intervalo de confianza para el verdadero valor del parmetro con una


confianza de 1

( B ,

+ B

)
7

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.2 Errores de no muestreo
Sesgo de seleccin. Ocurre cuando alguna parte de la poblacin objetivo no
est en la poblacin muestreada.

Sesgo de medicin. Ocurre cuando por diversos motivos los datos que
obtenemos no son exactos o verdaderos.

No respuesta. La no respuesta de individuos seleccionados para la muestra


puede causar sesgo en los datos muestrales.

1. Elementos del problema de Muestreo


1.3 Fuentes de error
1.3.2 Errores de no muestreo
FORMAS DE MINIMIZAR LOS ERRORES DE NO MUESTREO
1. Reentrevistas
2. Recompensas e incentivos
3. Entrevistadores adiestrados
4. Verificacin de datos

1. Elementos del problema de Muestreo


1.4 Mtodos de recoleccin de datos
Entrevista personal.
Ventaja: La gente usualmente responde cuando es confrontada en persona.
El entrevistador puede eliminar malos entendidos acerca de las
preguntas.
Inconveniente: La actitud del entrevistador puede afectar a la respuesta
obtenida

Entrevista por telefono.


Ventaja: Son mas baratas que las personales.
El investigador puede escuchar la entrevista.
Inconveniente: Establecer un marco para la poblacin
Realizacin en un periodo de tiempo ms corto.

Cuestionarios autoaplicados.
Ventaja: Son ms baratos (son enviados por correo y no requieren
entrevistadores).
Inconveniente: Tasa de respuesta baja.

Observacin directa.
Usada en encuestas que no requieren mediciones en personas.

10

1. Elementos del problema de Muestreo


1.5 Diseo del cuestionario
- Decidir lo que se quiere descubrir
- Verificar las preguntas antes de realizar la encuesta
- Elaborar las preguntas de manera sencilla y clara
- Prestar atencin al orden de las preguntas
- Decida si desea utilizar preguntas abiertos o cerradas
- Evitar preguntas que induzcan al entrevistado a decir lo que se quiere escuchar

- Utilizar preguntas de opcin forzosa


11

1. Elementos del problema de Muestreo


1.6 Planificacin de la encuesta
1. Establecer objetivos
2. Poblacin objetivo
3. El marco
4. Diseo del muestreo
5. Recoleccin de datos
6. Instrumentos de recoleccin de datos
7. Seleccin y preparacin de investigadores de campo
8. Prueba piloto
9. Organizacin del trabajo de campo
10. Organizacin del manejo de datos
11. Anlisis de los datos

12

1. Elementos del problema de Muestreo


1.7 Razones para el uso del muestreo
Evitar la destruccin de la poblacin.
En algunos casos, una unidad de observacin debe ser destruida para ser
observada. En ese caso, un censo destruira toda la poblacin.

Rapidez.
Los datos se pueden reunir ms rpido, de modo que las estimaciones se
pueden publicar de una manera programada

Economa y precisin.
El muestreo puede proporcionar informacin fiable con costes mucho
menores que los de un censo.

13

2. Muestreo Aleatorio Simple


2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios.
Rutas aleatorias.
Cada muestra posible de tamao n tiene la misma probabilidad de ser seleccionada.
En la prctica, la anterior condicin se traduce en que cada elemento tenga la misma
probabilidad de pertenecer a la muestra.
La seleccin de cada elemento de la muestra se hace sobre la base de un sorteo
completamente aleatorio.
Opciones: tablas de nmeros aleatorios o generacin de nmeros aleatorios con
programas de ordenador.

1107 1032 2596 4562 7598 1546 2596 5412 8569 2563 4587 2596 5641 5866 5844
2687 1596 3589 6578 1452 2365 7899 4122 1477 8836 3696 2587 6985 5632 5896
.....................................................................................................................................
Ordenar o numerar la poblacin.
Rutas aleatorias (guas telefnicas)
IMPORTANTE: EL NMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA
TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIN ALEATORIA

14

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.1. Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.
Poblacin Y (,2).

1 n
y = yi
n i =1

Muestra aleatoria simple Y1,..., Yn (i.i.d.)

()

E y =

()

Vy=

S =S
2

2
n1

1 n
=
yi y
n 1 i=1

E( S2 ) =2

S2
V ( y) =
n
Cuando las variables Y, Y1,..., Yn son dicotmicas

1n
p = yi , yi = 0,1
n i=1

()

E p =p

()

V p=

=p, 2=pq

2 pq
n

2
1 n
n
S =
y

y
=
pq
i
n 1 i=1
n 1
2

pq
V ( p) =
n 1

E( S2 ) = pq

15

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.1. Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.
Y N ( , 2 )

2 conocida

N (0,1)

n
Y N ( , 2 )

2 desconocida

Y cualquier ley (n )

y
tn 1 N (0,1)
S
n
y

Y B (1, p ) = p

y= p

p p

pq
n

( para n > 30)

y
N (0,1)
S
n

p p
n pq
n 1 n

( para n > 30)

p p
N (0,1)
pq
n 1

16

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.1. Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.

P 2
y 2
=
0,95

P
y

= 0,95
n
n
n

y
P Z
Z = 1

2
2

y
P 1,96
1,96 = 0,95

1,96 2

Py 2
y+2
= 0,95
n
n

2
,
y
+
2

n
n

17

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.1. Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.

P y 2
= 0,95
n

Desigualdad de Tchebychev

E(X ) =

( )

V (X ) =2

( )

E y = V y =

2
n

k=2

P X k 1

1
k2

P y 2
1 4 = 0, 75
n

18

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.

ESTIMACIN PUNTUAL

INTERVALO DE CONFIANZA

1 n
y = yi
n i =1

2 V ( y) = 2

S
n

S
S

, y+2
y2

n
n

S
S

se acepta H 0 : = 0 si 0 y 2
,y+2

n
n

CONTRASTE DE HIPTESIS

se rechaza H 0

S
S

si 0 y 2
,y+2

n
n

19

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.3 Determinacin del tamao muestral.

2 V ( y) = 2

2
n

=B

2
n

=B n=
2

=S
2

pq
2 V ( p) = 2
=B
n

2
2

B
4

pq pq
n= 2 =
B
D
4
p= p

2
D

B2
, D=
4

R2

16
2

B2
, D=
4
1
p=q=
2

20

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
MEDIA

VARIANZA DEL
ESTIMADOR

1 n
p = yi ,
n i =1

1 n
y = yi
n i =1

ESTIMADOR

CUASIVARIANZA
MUESTRAL

PROPORCIN

1 n
S =
yi y

n 1 i =1
2

V ( y) =

2
n

yi = 0, 1

1 n
S =
yi y
n 1 i =1
2

S2
pq
V ( p) =
V ( y) =
n
n

n pq
=
n 1

pq
V ( p) =
n 1
21

2. Muestreo Aleatorio Simple


2.2 Muestreo aleatorio simple en poblaciones infinitas
MEDIA

PROPORCIN

S
2 V ( y) = 2
n

pq
2 V ( p) = 2
n 1

S
S

, y+2
y2

n
n

pq
pq
p2

, p+2

n 1
n 1

LIMITE DEL ERROR DE


ESTIMACIN=B

INTERVALO DE
CONFIANZA

TAMAO MUESTRAL

n=

2
2

B
4

2
D

B2
, D=
4

pq pq
n= 2 =
B
D
4

B2
, D=
4
22

2. Muestreo Aleatorio Simple


2.3 Muestreo aleatorio simple en poblaciones finitas
2.3.1 Estimacin de la media, proporcin y total poblacionales.

( )

E y =

1
= y = yi
n i =1

( )

V y =

2 N n

E (S2 ) =

n N 1

N
2
N 1

N 1 2
E
S =2
N

S2 N n
V y =

n N

( )

N n

N
= N y =
n

y
i =1

1
N n

0,95

N = 5% N

20
N

2
2
S
N

n
S
V ( ) = V ( N y ) = N V ( y ) = N
= N ( N n)
n N
n
2

23

2. Muestreo Aleatorio Simple


2.3 Muestreo aleatorio simple en poblaciones finitas
2.3.1 Estimacin de la media, proporcin y total poblacionales.

1 n
p = yi ,
n i =1

= N p

yi = 0, 1

n pq
S =
n 1
2

S2 N n
pq N n
V ( p) =
=
n N
n 1 N

pq
2

V ( ) = V ( N p ) = N V ( p ) = N ( N n)
n 1

24

2. Muestreo Aleatorio Simple


2.3 Muestreo aleatorio simple en poblaciones finitas
2.3.2. Determinacin del tamao muestral.

N 2
=B n=
( N 1) D + 2
n N 1

2 N n

=S
2

Npq
n=
( N 1) D + pq

p= p

B2
D=
(media )
4

B2
D=
4

p=q=

( proporcion)

B2
D=
4N 2

(total )

R2

16
2

B2
D=
4N 2

(total )

1
2
25

2. Muestreo Aleatorio Simple


2.3 Muestreo aleatorio simple en poblaciones finitas
MEDIA
TOTAL

ESTIMADOR

VARIANZA DEL
ESTIMADOR

1 n
y = yi = N y
n i =1

S2 N n
V ( y) =
n N

LIMITE DEL ERROR DE


2 V ( y)
ESTIMACIN=B

PROPORCIN
TOTAL

1 n
p = yi
n i =1

pq N n
V ( ) = N 2 V ( y ) V ( p) =
n 1 N

2 V ( ) = N 2 V ( y ) 2 V ( p)

= N p

V ( ) = N 2 V ( p )

2 V ( ) = N 2 V ( p )
26

2. Muestreo Aleatorio Simple


2.3 Muestreo aleatorio simple en poblaciones finitas
MEDIA
TOTAL
INTERVALO DE
CONFIANZA

(y 2

V ( y) , y + 2 V ( y)

) (p 2

V ( p) , p + 2 V ( p)

( 2

V ( ) , + 2 V ( )

) ( 2

V ( ) , + 2 V ( )

N 2
n=
( N 1) D + 2
TAMAO MUESTRAL

PROPORCIN
TOTAL

B2
D=
4
B2
D=
4N 2

(media )

(total )

n=

Npq
( N 1) D + pq

B2
D=
4

( proporcion)

B2
D=
4N 2

(total )

27

3. Muestreo Aleatorio Estratificado


3.1 Seleccin de una muestra aleatoria estratificada. Notacin.
L = nmero de estratos
N = tamao de la poblacin

N i = tamao del estrato

n = tamao de la muestra

ni = tamao de la muestra del estrato i


L

N = Ni

n = ni

i = media poblacional del estrato i

y i = media muestral del estrato i

i =1
i=

i =1
i=

i = total poblacional del estrato i


i2 = varianza poblacional del estrato i
pi = proporcin poblacional del estrato i

Si2 = varianza muestral del estrato i


p i = proporcin muestral del estrato i

ci = coste de una observacin del estrato i


28

3. Muestreo Aleatorio Estratificado


3.2 Estimacin de la media, proporcin y total poblacionales.
L

N i y i = i

= i
i =1

st = N i y i
i =1

2
S
N n
V ( st ) = N i2 V ( y i ) = N i2 i i i
ni N i
i =1
i =1
L

st

1
y st =
=
N N

N y
i =1

1
V ( y st ) = 2
N

y st y

1
N V ( yi ) = 2

N
i =1
2
i

Si2 N i ni
N

ni N i
i =1

st = N y

2
i

29

3. Muestreo Aleatorio Estratificado


3.2 Estimacin de la media, proporcin y total poblacionales.
MEDIA
TOTAL

1
y st =
N

PROPORCIN
TOTAL

N y
i

i =1

1
p st =
N

N
i =1

pi

ESTIMADOR
L

st = N i y i
i =1

VARIANZA DEL
ESTIMADOR

1
V ( y st ) = 2
N

st = N i p i
i =1

Si2 N i ni
1 L 2 p i q i N i ni
V ( p st ) = 2 N i
N

N i =1
ni 1 N i
ni Ni
i =1
L

2
i

2
S
N n
V ( st ) = Ni2 i i i
ni Ni
i=1
L

V ( st ) =

p i q i N i ni
N

ni 1 N i
i =1
L

2
i

30

3. Muestreo Aleatorio Estratificado


3.3 Determinacin del tamao muestral.
1
V ( y st ) = 2
N

2 V ( y st ) = B

n=

i =1

N
2
i

N D + N i

= pi qi

i =1

i =1

2
i

i2 N i ni
ni N i 1

2
i

B2
D=
4

B2
D=
4N 2

N pi qi

N 2 D + N i pi qi

(media)

B2
D=
4N 2

2
i

i =1

ni = ni

B2
D=
4

i =1

n=

2
i

2
i

(total )

( proporcin)

(total )
31

3. Muestreo Aleatorio Estratificado


3.4.1 Asignacin ptima.
N j j

j =

p jq j

Nj

cj

j =

Ni i

ci
i =1
L

cj

Ni
i =1

pi qi
ci

Minimiza el coste de obtencin de la muestra para un lmite del error de estimacin fijado.
L

Ni i ci
n=

i =1

i =1

Ni i
ci

Ni
n=

N D + N i
2

i =1

i =1

Ni

pi qi ci

i =1

pi qi
ci

N D + N i pi qi
2

2
i

i =1

Minimiza el lmite del error de estimacin para un coste de obtencin de la muestra fijo.
L

C
n=

i =1

N i i
ci

N
i =1

ci

C Ni
n=

i =1

pi qi
ci

c1n1 + c2 n2 + c3 n3 = C
c11n + c22 n + c33n = C

N
i =1

pi qi ci

n=

C
c11 + c22 + c33

32

3. Muestreo Aleatorio Estratificado


3.4.2 Asignacin de Neyman.
Si c1 = c2 = ... = ci = ... = cL

Caso numrico:

( N )

j =

N j j
L

Ni i

n=

i =1

N D + N i i2
2

i =1

i =1

Caso dicotmico:

( N

j =

N j pjqj
L

N
i =1

pi qi

n=

i =1

pi qi

N D + N i pi qi
2

i =1

33

3. Muestreo Aleatorio Estratificado


3.4.3 Asignacin proporcional.
12 = 22 = ... = i2 = ... = L2

Si c1 = c2 = ... = ci = ... = cL

Caso numrico:

j =

Nj
N

n=

Caso dicotmico:

N
i

i =1

2
i

1
ND +
N

2
N

i i
i =1

j =

Nj
N

n=

N pq
i =1

1
ND +
N

i i

N pq
i =1

i i

Ventajas:
y st = y

p st = p

st =

Resuelve complicaciones en la asignacin para varias mediciones muestrales


34

3. Muestreo Aleatorio Estratificado


3.4 Asignacin de la muestra.
Determinacin del tamao muestral y asignacin para varias estimaciones

Asignacin ptima/Neyman
1 estimacin: n = 100

1 = 0,10 n1 = 10

2 = 0,90 n2 = 90

2 estimacin: n = 40

1 = 0,50 n1 = 20

2 = 0,50 n2 = 20

Asignacin proporcional
1 estimacin: n = 100

1 = 0,30 n1 = 30

2 = 0, 70 n2 = 70

2 estimacin: n = 40

1 = 0,30 n1 = 12

2 = 0, 70 n2 = 28

35

3. Muestreo Aleatorio Estratificado


3.5 Estratificacin despus de seleccionar la muestra.

Ejemplo 3.6 (Ejercicio 17, relacin tema 3) En una ciudad se sabe que el 30% de los
hogares tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de
energa (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica
60
5730
200
No electrica
40
2080
90
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D
un lmite para el error de estimacin.

36

3. Muestreo Aleatorio Estratificado


3.5 Estratificacin despus de seleccionar la muestra.
Solucin:
y1 =
1
y st =
N

5730
= 95,5
60

i =1

i =1

Ni y i =

1
V ( y st ) = 2
N
2

=
i =1

y2 =

2080
= 52
40

Ni
y i = (0,30 95,5) + (0, 70 52) = 65, 05
N

2
Si2 N i ni
N i2 Si2 N i ni
N
= 2
=

n
N
N
n
N
i =1
i =1
i
i
i
i
2

2
i

2
2
N i Si2
N S
2 200
2 90
=
= 0,30

+ 0, 70
= 159, 225
N ni
N
n
60
40
i =1

i
2
i
2

2
i

2 V ( y st ) =25,24

y=

5730 + 2080 7810


=
= 78,10
60 + 40
100

37

4. Muestreo con informacin auxiliar


4.1 Introduccin
Y

Variable bajo estudio

Variable que proporciona la informacin auxiliar

Muestra constituida por n pares:

(x1 , y1 ),..., (xn , yn )

Bajo una fuerte relacin lineal positiva

rxy >
2

y dependiendo de la relacin entre ambas variables utilizaremos:


Estimadores de razn

( y = bx )

Estimadores de regresin

( y = a + bx )

Estimadores de diferencia

( y = a + x)

38

4. Muestreo con informacin auxiliar


4.2 Estimacin de razn
Se define la razn como el cociente:

y
R=
x

Y
R=
X

y = N y
x = N x

Entonces si se conocen los valores de la media y del total de X slo hay que
estimar el valor de R (r):

y = r x

y = r x
n

y
=
ESTIMADOR DE LA RAZN: r =
x

yi

xi

i =1
n
i =1

1 S r2 N n

VARIANZA ESTIMADA DE r: V (r ) = 2
x n N

1 n
2
Sr =
( yi rxi )

n 1 i =1
2

39

4. Muestreo con informacin auxiliar


4.2 Estimacin de razn
4.2.1 Estimacin de la media y el total poblacionales
Entre X e Y existe una alta correlacin lineal positiva y que el modelo lineal pasa
por el origen.

ESTIMADOR DE LA MEDIA:

y = r x

VARIANZA ESTIMADA DEL ESTIMADOR:

ESTIMADOR DEL TOTAL:

2
S
V ( y ) = V (r ) = r
n
2
x

N n

y = r x

VARIANZA ESTIMADA DEL ESTIMADOR:


2
2
2

S
N

n
S

2 r N n
V (y ) = x2V (r ) = x2 r
=
N

x n N
n N

40

4. Muestreo con informacin auxiliar


4.2 Estimacin de razn
4.2.2 Determinacin del tamao muestral
Tamao muestral mnimo para que la estimacin de la razn, la media y el total
no supere una cota de error de magnitud B

N r2
n= 2
r + ND

B 2 x2
4 para estimar la razn

2
B para estimar la media
D= 4

2
B
4 N 2 para estimar el total

N debe ser conocido o estimado

r2 se estima utilizando una muestra previa (tamao n): r2 = S r2

x2 = x 2

41

4. Muestreo con informacin auxiliar


4.3 Estimacin de regresin
Entre X e Y existe una alta correlacin lineal positiva y el modelo lineal no pasa
por el origen.

a = y bx

Modelo lineal simple

y = a + bx

Mtodo de mnimos
cuadrados

b =

s xy
s x2

+ bx
= y + b ( x x )
y = y bx

S x2

(y
i =1

y )( xi x )

2
(
)
x

x
i
i =1

1 n
2
S =
x

x
(
)
i
n 1 i =1

1 n
2
s = ( xi x )
n i =1

1 n
S xy =
( xi x )( yi y )

n 1 i =1

1 n
sxy = ( xi x )( yi y )
n i =1

2
x

donde

S xy

2
x

42

4. Muestreo con informacin auxiliar


4.3 Estimacin de regresin
4.3.1 Estimacin de la media y el total poblacionales
ESTIMADOR DE LA MEDIA:

yL = a + b x = y + b( x x )

2
S
L
VARIANZA ESTIMADA DEL ESTIMADOR: V ( yL ) =
n

( (

1 n
S =
yi y + b ( xi x )

n 2 i =1
2
L

n 1 2 S xy
=
S y 2
n2
Sx
2

))

N n

n
1 n
2
2
2

=
y

b
x

x
( i )
( i )
n 2 i =1
i =1

n 1 2
n 2
2
S y (1 rxy ) =
s y (1 rxy2 )
=
n2
n2

ESTIMADOR DEL TOTAL:

yL = N yL

VARIANZA ESTIMADA DEL ESTIMADOR:

V ( yL ) = N 2V ( yL )

43

4. Muestreo con informacin auxiliar


4.3 Estimacin de regresin
4.3.2 Determinacin del tamao muestral
Tamao muestral mnimo para que la estimacin de la media y el total no
supere una cota de error de magnitud B

N L2
n= 2
L + ND

B2
4 para estimar la media

D=
B2

para estimar el total


4 N 2

L2 se estima utilizando una muestra previa (tamao n): L2 = S L2

44

4. Muestreo con informacin auxiliar


4.4 Estimacin de diferencia
Entre X e Y existe una alta correlacin lineal positiva y la pendiente del modelo es uno.

4.4.1 Estimacin de la media y el total poblacionales


ESTIMADOR DE LA MEDIA: yD = y + ( x x ) = x + d
donde d = y x
VARIANZA ESTIMADA DEL ESTIMADOR:
donde S

2
D

S D2 N n

V ( yD ) =

n N

2
2
1 n
1 n
(
(
)
)
(
)
=
y

x
+
d
=
d

d
y
i i
i
n 1 i =1
n 1 i =1

d i = y i xi

S D2 = cuasivarianza de los d i
ESTIMADOR DEL TOTAL:

yD = N yD

VARIANZA ESTIMADA DEL ESTIMADOR:

V ( yD ) = N 2V ( yD )

45

4. Muestreo con informacin auxiliar


4.4 Estimacin de diferencia
4.4.2 Determinacin del tamao muestral
Tamao muestral mnimo para que la estimacin de la media y el total no
supere una cota de error de magnitud B

N D2
n= 2
D + ND

B2
4 para estimar la media

D=
B2

para estimar el total


4 N 2

D se estima utilizando una muestra previa (tamao n):


2

D2 = S D2

46

5. Muestreo sistemtico
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas
Muestra Sistemtica de 1 en k:
1. Ordenar los elementos de la poblacin
2. Seleccionar aleatoriamente un elemento i (llamado punto de inicio) de los
primeros k elementos de la poblacin.
3. Despus seleccionar cada k-esimo elemento hasta conseguir una muestra
de tamao n .
N
k se toma como el nmero entero menor o igual que
n

Ventajas del muestreo sistemtico frente al muestreo aleatorio simple:


En la prctica, el muestreo sistemtico es ms fcil de llevar a cabo y est
expuesto a menos errores del encuestador.
Frecuentemente, con igual tamao de muestra el muestreo sistemtico
proporciona ms informacin que el muestreo aleatorio simple.
47

5. Muestreo sistemtico
5.2 Estimacin de la media, proporcin y el total poblacionales
ESTIMADOR DE LA MEDIA POBLACIONAL: = y sy =

1 n
yi + ( j 1) k
n j =1

2
S
N n
VARIANZA ESTIMADA DEL ESTIMADOR: V ( y sy ) =

n N
2 N n
2
V (y) =
[
V y sy =
1 + (n 1) ]
n N 1
n

( )

= coef. Correlacin entre los elementos de la muestra sistemtica

ESTIMADOR DEL TOTAL POBLACIONAL:

= Ny sy

2
S
VARIANZA ESTIMADA DEL ESTIMADOR: V ( ) = N V ( y sy ) = N
n
2

ESTIMADOR DE LA PROPORCIN POBLACIONAL: p sy =


VARIANZA ESTIMADA DEL ESTIMADOR: V ( p sy ) =

N n

1 n
y i + ( j 1) k
n j =1

p sy q sy N n

n 1 N

48

5. Muestreo sistemtico
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones
ordenadas, aleatorias y peridicas
V (y) =

2 N n
n N 1

V ( y sy ) =

2
n

[1 + (n 1) ]

1. Poblacin ordenada: cuando los elementos que la constituyen estn ordenados


de acuerdo con los valores, crecientes o decrecientes, de una determinada
caracterstica.

V ( y sy ) V ( y )

m.s. es preferible al m.a.s.

2. Poblacin aleatoria: cuando los elementos estn ordenados al azar.

V ( y sy ) V ( y )

Es indiferente usar m.s. m.a.s.

3. Poblacin peridica: cuando los elementos tienen una variacin cclica.

V ( y sy ) > V ( y )

m.a.s. es preferible al m.s.

49

5. Muestreo sistemtico
5.4 Determinacin del tamao muestral
Tamao muestral necesario para estimar la media y el total poblacionales con
un lmite B para el error de estimacin
B2
4 para estimar la media

N 2
D=
n=
2
( N 1) D +
2
B para estimar el total
4N
4N 2
Tamao muestral necesario para estimar la proporcin poblacional con
un lmite B para el error de estimacin

n=

Npq
( N 1) D + pq

B2
4 para estimar la proporcin

D=
2
B
para estimar el total
4N 2
50

6. Muestreo por Conglomerados


6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formacin de los conglomerados. Conglomerados y estratos. Notacin
N = conglomerados en la poblacin.

n = conglomerados en la muestra.
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N

M = mi = elementos en la poblacin
i =1

m = mi = elementos en la muestra
M=

1
N

i =1

m
i =1

= tamao medio de los conglomerados de la poblacin.


1 n
m = mi = tamao medio de los conglomerados de la muestra.
n i =1
51

6. Muestreo por Conglomerados


6.3 Estimacin de la media, proporcin y total poblacionales.
n

=y=

y
i =1
n

m
i =1

1 N n Sc2
V ( y) = 2
N n
M

= M y

V ( ) = M 2 V ( y )

t = N y t

2
S
V ( t ) = N 2 V ( y t ) = N ( N n) t
n

1 n
y t = yi
n i =1

N n St2
V ( yt ) =
N n

Si m1 = m2 = ... = mN

1 n
S =
yi ymi

n 1 i =1
2
c

1 n
S =
yi y t

n 1 i =1
2
t

M y = N yt

52

6. Muestreo por Conglomerados


6.4 Determinacin del tamao muestral.
n

= M y

=y=

y
i =1
n

m
i =1

N c2
n=
ND + c2

1 n
=S =
yi ymi

n 1 i =1

t = N y t

1 n
y t = yi
n i =1

N t2
n=
ND + t2

2
c

2
c

B M
D=
4
B2
D=
4N 2

(media)
(total )

m.a.s. sobre los totales de los conglomerados

1 n
=S =
yi y t

n 1 i =1
2
t

2
t

B2
D=
.
2
4N

53

7. Estimacin del tamao de la poblacin


7.1 Muestreo directo
1. Se selecciona una muestra aleatoria de tamao t, se marcan y
devuelven a la poblacin.
2. Se selecciona una muestra de tamao n (fijado de antemano) de
la misma poblacin y se observa cuntos de ellos estn marcados.
(s= n elementos marcados en esta muestra)
Proporcin de elementos marcados en la 2 muestra:

p = proporcin de elementos marcados en la poblacin

t
=
N

p =

s
n

t
N=
p

t
t
nt

=
ESTIMADOR DE N: N = =
p s / n s

( )

2
t
n( n s )
VARIANZA ESTIMADA DEL ESTIMADOR: V N =
s3

54

7. Estimacin del tamao de la poblacin


7.2 Muestreo inverso

1. Se selecciona una muestra aleatoria de tamao t de la poblacin,


se marcan y se devuelven a la poblacin.
2. Se selecciona una muestra de tamao n hasta que se obtienen
s elementos marcados.

ESTIMADOR DE N:

t
t
nt
N = =
=
p s / n s

VARIANZA ESTIMADA DEL ESTIMADOR:

( )

2
t
n( n s )

V N = 2
s (s + 1)

55

7. Estimacin del tamao de la poblacin


7.3.1 Estimacin de la densidad y del tamao de la poblacin
A= rea donde est contenida la poblacin
1. Se divide a la poblacin en N cuadros de igual rea
mi =n elementos en el cuadro i-esimo

2. Se toma una muestra de n cuadros de los N existentes. Se observa el


nmero de elementos que contiene la muestra:
n

m = mi
i =1

3. Se calcula la densidad de elementos en la muestra:


n elementos en la muestra m
=
=
rea de la muestra
na
4. Dado que la densidad poblacional es

n elementos en la poblacin M
=
rea de la poblacin
A

M = A
56

7. Estimacin del tamao de la poblacin


7.3.1 Estimacin de la densidad y del tamao de la poblacin
ESTIMADOR DE LA DENSIDAD:

=
na

VARIANZA ESTIMADA DEL ESTIMADOR: V ( ) =

m
1
=

na
a 2n2

ESTIMADOR DEL TAMAO POBLACIONAL: M = A = A


na
VARIANZA ESTIMADA DEL ESTIMADOR:

2
A
m

V ( M ) = A V ( ) = 2 2
a n
2

7.3.2 Muestreo por cuadros en el espacio temporal


En determinadas ocasiones, podemos tomar los cuadros como intervalos temporales
57

7. Estimacin del tamao de la poblacin


7.3.3 Cuadros cargados
Cuadro cargado=cuadro que contiene al menos un elemento objeto de estudio
1. Se divide a la poblacin en N cuadros de igual rea a
2. Se toma una muestra de n cuadros de los N existentes.
y = nmero de cuadros no cargados
3. La densidad poblacional se estima como
y su varianza como

Dado que

1 n y
V ( ) = 2
a ny

1
a

y
n

= ln

M = A

ESTIMADOR DEL TAMAO DE LA POBLACIN

VARIANZA ESTIMADA DEL ESTIMADOR

A y
M = A = ln
a n

2
A
n y
V ( M ) = 2
a ny

58

8. Anlisis Cluster
8.1 Introduccin
Anlisis cluster: serie de tcnicas que tienen por objeto la bsqueda de grupos
similares de individuos o variables. Es una tcnica completamente numrica en la que
no se realizan hiptesis previas.
Pasos en un anlisis cluster:

Establecer un indicador (distancia o similaridad) que nos diga en qu medida


cada par de observaciones se parece entre s.

2. Crear los grupos de forma que cada uno de ellos contenga aquellas observaciones
que ms se parezcan.
3. Describir los grupos obtenidos y compararlos.

Tipos de tcnicas para realizar este anlisis:


Tcnicas jerrquicas
Tcnicas no jerrquicas

59

8. Anlisis Cluster
8.2 Medidas de similaridad
Ejemplo 8.1
30,00

Nombre
Empresa

Inversin
publicidad

Ventas

E8

E4

16

10

E2

12

14

E3

10

22

E4

12

25

E5

45

10

E6

50

15

E7

45

25

E8

50

27

E3

Ventas

E1

E7

25,00

20,00

E6

15,00
E2

E1

E5

10,00

10

20

30

Inversion

40

50

60

8. Anlisis Cluster
8.2 Medidas de similaridad
8.2.1 Medidas de similaridad para variables mtricas
k

(A) Distancia Eucldea: D ij =


Ejemplo 8.2

p =1

( x ip x jp )

D12 =

(16 12 ) + (10 14 )
2

= 5, 66

Matriz de distancias euclideas


distancia eucldea
Caso

1:E1

2:E2

5:E5

6:E6

7:E7

8:E8

,00

5,66

13,42

15,52

29,00

34,37

32,65

38,01

2:E2

5,66

,00

8,25

11,00

33,24

38,01

34,79

40,16

3:E3

13,42

8,25

,00

3,61

37,00

40,61

35,13

40,31

4:E4

15,52

11,00

3,61

,00

36,25

39,29

33,00

38,05

5:E5

29,00

33,24

37,00

36,25

,00

7,07

15,00

17,72

6:E6

34,37

38,01

40,61

39,29

7,07

,00

11,18

12,00

7:E7

32,65

34,79

35,13

33,00

15,00

11,18

,00

5,39

8:E8

38,01

40,16

40,31

38,05

17,72

12,00

5,39

,00

(x
k

p =1

4:E4

1:E1

(B) Distancia Eucldea al cuadrado:


D ij =

3:E3

ip

x jp )

(C) Distancia de Minskowski:


k
n
D ij = x ip x jp
p =1

1
n

61

8. Anlisis Cluster
8.2 Medidas de similaridad
8.2.2 Medidas de similaridad para datos binarios
Ejemplo 8.3
Observaciones
E1

Variables
X1

X2

X3

X4

E2

E3

E4

E5

(A) Distancia eucldea al cuadrado


(B) Distancia eucldea Dij =
(C) Diferencia de tamao

E2

E1

1 0

1 0

1 1 2
0 1 0

E2

1 a b
0 c d

Dij = b + c

b+c

Dij =

E1

Ejemplo 8.4

(b c )

(a + b + c + d )

D12 =

( 2 1)

(1 + 2 + 1 + 0 )

= 0, 063 62

8. Anlisis Cluster
8.3 Estandarizacin de los datos
Ejemplo 8.5
En el siguiente cuadro se recoge el tamao de los activos y el nmero de trabajadores
de 8 empresas:
Empresa

Activos

Trabajadores

E1

10.000.000.000

100

E2

10.050.000.000

90

E3

10.000.000.000

200

E4

10.050.000.000

190

E5

20.000.000.000

200

E6

20.050.000.000

190

E7

20.000.000.000

100

E8

20.050.000.000

90

63

8. Anlisis Cluster
8.3 Estandarizacin de los datos
Matriz de distancias

Ejemplo 8.5 (Continuacin)


Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8

1:E1
,000
5,0E+07
100,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10

2:E2
5,0E+07
,000
5,0E+07
100,000
1,0E+10
1,0E+10
1,0E+10
1,0E+10

3:E3
100,000
5,0E+07
,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10

distancia eucldea
4:E4
5:E5
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
1,0E+10
,000
1,0E+10
1,0E+10
,000
1,0E+10
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07

6:E6
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
,000
5,0E+07
100,000

7:E7
1,0E+10
1,0E+10
1,0E+10
1,0E+10
100,000
5,0E+07
,000
5,0E+07

8:E8
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
100,000
5,0E+07
,000

Esta es una matriz de disimilaridades

GRUPO 1: [E1,E2,E3,E4] Activos en torno de los 10.000 millones


GRUPO 2: [E5,E6,E7,E8] Activos en torno de los 20.000 millones
Procesos de estandarizacin:
Puntuaciones Z.
Rango 1.
Rango 0 a 1.

64

8. Anlisis Cluster
8.3 Estandarizacin de los datos
Ejemplo 8.6

Matriz de distancias
Distancia eucldea

Caso

1:E1

2:E2

3:E3

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

,000

,186

1,862

1,675

2,639

2,518

1,871

1,889

2:E2

,186

,000

2,048

1,862

2,767

2,639

1,871

1,871

3:E3

1,862

2,048

,000

,186

1,871

1,889

2,639

2,780

4:E4

1,675

1,862

,186

,000

1,871

1,871

2,504

2,639

5:E5

2,639

2,767

1,871

1,871

,000

,186

1,862

2,048

6:E6

2,518

2,639

1,889

1,871

,186

,000

1,675

1,862

7:E7

1,871

1,871

2,639

2,504

1,862

1,675

,000

,186

8:E8

1,889

1,871

2,780

2,639

2,048

1,862

,186

,000

GRUPO 1: E1 y E2

GRUPO 2: E3 y E4

GRUPO 3: E5 y E6

GRUPO 4: E7 y E8
65

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(A) Mtodo de agrupacin de centroides
distancia eucldea al cuadrado

Ejemplo 8.7
Caso

1:E1

2:E2

3:E3

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

32

180

241

841

1181

1066

1445

2:E2

32

68

121

1105

1445

1210

1613

3:E3

180

68

13

1369

1649

1234

1625

4:E4

241

121

13

1314

1544

1089

1448

5:E5

841

1105

1369

1314

50

225

314

6:E6

1181

1445

1649

1544

50

125

144

7:E7

1066

1210

1234

1089

225

125

29

8:E8

1445

1613

1625

1448

314

144

29

Observaciones ms cercana: E3 y E4 (distancia=13)

Grupo E3-4

10 + 12
= 11
2
22+25
Ventas de E3-4=
= 23,5
2

Calculo del centroide de E3-4: Publicidad de E3-4 =

66

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)

Datos actualizados:
Nombre
Empresa

Inversin en
publicidad

Ventas

E1

16

10

E2

12

14

E3-4

11

23,5

E5

45

10

E6

50

15

E7

45

25

E8

50

27

67

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)

Matriz de distancias actualizadas


distancia eucldea al cuadrado

Caso

1:E1

2:E2

3:E3-4

4:E4

5:E5

6:E6

7:E7

8:E8

1:E1

,0

32,0

207,3

241,0

841,0

1181,0

1066,0

1445,0

2:E2

32,0

,0

91,3

121,0

1105,0

1445,0

1210,0

1613,0

3:E3-4

207,3

91,3

,0

3,3

1338,3

1593,3

1158,3

1533,3

4:E4

241,0

121,0

3,3

,0

1314,0

1544,0

1089,0

1448,0

5:E5

841,0

1105,0

1338,3

1314,0

,0

50,0

225,0

314,0

6:E6

1181,0

1445,0

1593,3

1544,0

50,0

,0

125,0

144,0

7:E7

1066,0

1210,0

1158,3

1089,0

225,0

125,0

,0

29,0

8:E8

1445,0

1613,0

1533,3

1448,0

314,0

144,0

29,0

,0

DE1, E 3 4 = (16 11) + (10 23,5 ) = 207,3


2

Prxima unin E7-E8

68

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5

Coeficientes
13,000
29,000
32,000
50,000
141,250
182,250
1227,250

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6

Prxima
etapa
5
6
5
6
7
7
0

En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se


fusionan dos grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre
de uno solo de sus integrantes (E1-2 se representa por 1, E3-4 se representa por 3).
La columna de coeficientes refleja las distancias a las que estaban los grupos que se
69
van fusionando en cada etapa.

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.7 (Continuacin)
* * * H I E R A R C H I C A L

C L U S T E R

A N A L Y S I S * * *

Dendrogram using Centroid Method


Rescaled Distance Cluster Combine
C A S E
Label Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

E3

E4

E1

E2

E7

E8

E5

E6

70

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(B) Mtodo del vecino ms cercano (vinculacin simple)

Ejemplo 8.8
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5

Coeficientes
13,000
29,000
32,000
50,000
68,000
125,000
841,000

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6

Prxima
etapa
5
6
5
6
7
7
0

71

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.8 (Continuacin)
30,00

E8

1
E4

25,00

E7

Ventas

E3

20,00

6
5
E6

15,00

E2

3
E1

E5

10,00

10

20

30

Inversion

40

50

72

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(C) Mtodo del vecino ms lejano (vinculacin completa)

Ejemplo 8.9
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5

Coeficientes
13,000
29,000
32,000
50,000
241,000
314,000
1649,000

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6

Prxima
etapa
5
6
5
6
7
7
0

73

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Ejemplo 8.9 (Continuacin)
30,00

E8

1
E4

25,00

E7

Ventas

E3

20,00

6
5
7
E6

15,00

E2

3
E1

E5

10,00

10

20

30

Inversion

40

50

74

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(D) Mtodo de la vinculacin promedio (vinculacin intergrupos)

Ejemplo 8.10
Historial de conglomeracin

Etapa
1
2
3
4
5
6
7

Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5

Coeficientes
13,000
29,000
32,000
50,000
152,500
202,000
1323,625

Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6

Etapa 5:

Prxima
etapa
5
6
5
6
7
7
0

Observ.

Distancia

E1, E3

180

E1, E4

241

E2, E3

68

E2, E4

121

Media

152,5

75

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
Seleccin del nmero de conglomerados de la solucin
Dendograma
Tasas de variacin entre los coeficientes de conglomeracin obtenidos
en etapas sucesivas
Etapa

Observaciones
que se fusionan

Grupos
Resultantes

N
grupos

Coeficiente

Tasa de
Variacin

[E3,E4]

[E3,E4],E1,E2,E5,E6,E7,E8

6,5

2,23

[E7,E8]

[E3,E4][E7,E8],E1,E2,E5,E6

21

0,76

[E1,E2]

[E1,E2][E3,E4][E7,E8],E5,E6

37

0,67

[E5,E6]

[E1,E2][E3,E4][E5,E6][E7,E8]

62

2,27

[E1,E2][E3,E4]

[E1,E2,E3,E4][E5,E6][E7,E8]

203,3

0,89

[E5,E6][E7,E8]

[E1,E2,E3,E4][E5,E6,E7,E8]

385,5

6,32

[E1,E2,E3,E4][E5,E6,E7,E8]

[E1,E2,E3,E4,E5,E6,E7,E8]

2824

21 6,5
T1 =
= 2, 23
6,5

76

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
A. Seleccin de los centroides iniciales
Aspectos a tener en cuenta en la eleccin de los centroides iniciales:
1. El investigador propone los centroides iniciales.
2. Si ste no est seguro, un posible camino es realizar un anlisis jerrquico y
observar el dendograma.
3. Si no se tiene ninguna idea previa, el SPSS (u otros paquetes estadsticos)
los selecciona.
B. Asignacin de observaciones a grupos (cluster)

C. Se recalculan los centroides

D. Se aplica criterio de convergencia


77

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
1. Calcular la distancia de cada observacin a los centroides iniciales calculados en
la fase anterior. Cada observacin se asigna al conglomerado al que est ms
cercano (utilizando distancias euclideas).
Inversin

Ventas

Distancias
Centroide 1

Distancias Conglomerado
Centroide 2
asignado

E1

16

10

34,37

15,52

E2

12

14

38,01

11

E3

10

22

40,61

3,61

E4

12

25

39,29

E5

45

10

7,07

36,25

E6

50

15

39,29

E7

45

25

11,18

33

E8

50

27

12

38,05

78

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
2. Una vez efectuada la asignacin de observaciones a conglomerados, se
recalculan los centroides
Centroides iniciales

Centroides finales

Conglomerado

Publicidad

50

15

47,5

19,25

12

25

12,5

17,75

45 + 50 + 45 + 50
= 47,5
4
16 + 12 + 10 + 12
= 12,5
4

Ventas Publicidad

Ventas

10 + 15 + 25 + 27
= 19, 25
4
10 + 14 + 22 + 25
= 17, 75
4
79

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
3. Se repite el paso 1 clasificando cada observacin en el conglomerado del que
dista menos. El proceso se detiene cuando no se produce ninguna reasignacin
de observaciones a conglomerados o hasta que se alcance un determinado
nmero de iteraciones que se puede establecer como opcin al ejecutar el
anlisis.
Inversin
Ventas
Distancias
Distancias
Conglomerado
Centroide 1 Centroide 2
asignado
E1

16

10

32,83

8,50

E2

12

14

35,89

3,78

E3

10

22

37,60

4,93

E4

12

25

35,96

7,27

E5

45

10

9,58

33,41

E6

50

15

4,93

37,60

E7

45

25

6,27

33,30

E8

50

27

8,14

38,62

80

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
Centros iniciales de los conglomerados

Historial de iteraciones(a)
Cambio en los centros de
los conglomerados

Conglomerado
1

Inversin

50

12

Iteracin

Ventas

15

25

4,931

7,267

,000

,000

d = (47,5 50) 2 + (19, 25 15) 2 = 4,931

d = (50 12) 2 + (15 25) 2 = 39, 29

a Se ha logrado la convergencia debido a que los


centros de los conglomerados no presentan ningn
cambio o ste es pequeo. El cambio mximo de
coordenadas absolutas para cualquier centro es de
,000. La iteracin actual es 2. La distancia mnima
entre los centros iniciales es de 39,294.

81

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
Pertenencia a los conglomerados
N de
caso

Centros de los conglomerados finales


Conglomerado

Conglomerado

Distancia

E1

8,504

E2

3,783

E3

4,931

E4

7,267

E5

9,582

E6

4,931

E7

6,270

E8

8,143

Inversin

47,50

12,50

Ventas

19,25

17,75

82

8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.2 Clusters no jerrquicos
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
SALIDAS DEL SPSS:
ANOVA
Conglomerado
Media
cuadrtica
Inversin
Ventas

Error
Media
cuadrtica

gl

gl

Sig.

2450,000

7,333

334,091

,000

4,500

56,917

,079

,788

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no
pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
83

9. Componentes principales
9.1 Introduccin
La utilidad de la tcnica de componentes principales es doble:

1. Por un lado, el anlisis de componentes principales permite resumir de forma


ptima la informacin proporcionada por las variables originales mediante las
componentes.

2. Permite transformar las variables originales, en general correladas (solapamiento en


la informacin), en nuevas variables incorreladas, facilitando la interpretacin de
los datos.

84

9. Componentes principales
9.2 Componentes principales

Sea S la matriz de covarianza asociada con el vector aleatorio X ' = X 1 , X 2 ,..., X p .


Supongamos

que

( 1 , 1 ) , ( 2 , 2 ) ,..., ( p , p )

tiene

pares

de

valores

vectores

propios

donde

1 2 p 0. La i-sima componente

principal est dada por

Yi = i' X = i1 X 1 + i 2 X 2 + + ip X p , i = 1, 2,..., p
con esta eleccin
Var (Yi ) = i' Si = i , i = 1, 2,..., p
Cov(Yi , Yk ) = Sk = 0, i k
'
i

85

9. Componentes principales
9.2 Componentes principales
Sean Y1 = 1' X , Y2 = 2' X ,..., Yp = p' X las componentes principales. Entonces
p

i =1

i =1

s11 + s22 + + s pp = Var ( X i ) = 1 + 2 + + p = Var (Yi ) .

La proporcin de la varianza total explicada por la k -esima componente principal es

1 + + p

, k = 1,2,..., p

el coeficiente de correlacin entre la componente Yi y la variable X k es:


rYi , X k =

ik i
skk

, i, k = 1, 2,..., p

86

9. Componentes principales
9.2 Componentes principales
Ejemplo9.1

3.50
1.9 1.1
x =
; S =

3.50
1.1 1.1

S I = 0

1.9
1.1
1.9 1.1
1 0
=0

=0
1.1
1.1
1.1 1.1
0 1

2 3 + 0.88 = 0

( S 1I ) 1 = 0.
0.7711 + 1.1012 = 0
1.1011 1.5712 = 0

1 = 2.67 y 2 = 0.33

1.9 1.1
1 0 11
0.77 1.1 11

2.67
= 0
= 0
1.1
1.1
0
1
1.1

1.57

12

12

11 = 1.4312 .

112 + 122 = 1

0.82
1 =

0.57

87

9. Componentes principales
9.2 Componentes principales

X
X
Y1 = '1 1 = ( 0.82 0.57 ) 1 = 0.82 X 1 + 0.57 X 2
X2
X2
X
Y2 = ( 0.57 0.82 ) 1 = 0.57 X 1 + 0.82 X 2
X2

88

9. Componentes principales
9.2 Componentes principales
0
1.9 1.1
2.67
S =
;
S
=
Y

0.33
1.1 1.1
0

rx1x2 =

s12 ( X )
1.1
=
= 0.76
s11 ( X ) s22 ( X )
1.9 1.1

Var ( X ) =tr ( S ) = 1.9 + 1.1 = 3


i

i =1
2

Var (Y ) =tr (S
i

i =1

rY1 , X1 =

11 1
s11

1 + 2

Y ) = i = 2.67 + 0.33 = 3

2.67
= 0.89
3

i =1

0.82 2.67
= 0.97
1.9

rY1 , X 2 =

12 1
s22

0.57 2.67
= 0.89
1.1

89

9. Componentes principales
9.2 Componentes principales
Estadsticos descriptivos

VAR00001

Media
3,5000

Desviacin
tpica
1,37840

N del anlisis
6

VAR00002

3,5000

1,04881

Varianza total explicada


Componente

Bruta

Autovalores iniciales(a)

Total
2,670

% de la
varianza
89,016

% acumulado
89,016

,330

10,984

100,000

Mtodo de extraccin: Anlisis de Componentes principales.


Matriz de componentes(a)
Bruta

Reescalada

Componente

Componente

VAR00001

1,338

,971

VAR00002

,938

,894

11 =

1,338
= 0,82
2, 67

12 =

0,938
= 0,57
2, 67

90

9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas

Zi

X i i )
(
=
sii

E [Z ] = 0

i =1

i =1

Cov( Z ) = R

Var (Yi ) = Var ( Z i ) = p

rYi , Zk = ik i , i, k = 1,..., p
k
p

91

9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas
1 4
S =

4
100

1 0.4
R=
.
0.4 1

'
1 = 100.16 1 = ( 0.040, 0.999 )

S :
= 0.84 ' = ( 0.999, 0.040 )
2
2

Y1 = 0.040 X 1 + 0.999 X 2
S :
Y2 = 0.999 X 1 0.040 X 2

1 + 2
rY1 , X1 =
rY1 , X 2 =

11 1
s11

12 1
s22

100.16
= 0.992
101

= 0.4
=

0.999 100.16
= 0.999
100

92

9. Componentes principales
9.2.1 Componentes principales a partir de variables estandarizadas
'
1 = 1.4 1 = ( 0.707, 0.707 )

R:
= 0.6 ' = ( 0.707, 0.707 )
2
2

X 1 1
X 2 2
=
0.707
+
0.707
=
0.707
+
0.707
Y
Z
Z
1
1
2

1
10

= 0.707 ( X 1 1 ) + 0.0707 ( X 2 2 )
R:
Y = 0.707 Z 0.707 Z = 0.707 X 1 1 0.707 X 2 2
1
2

2
1
10

= 0.707 ( X 1 1 ) 0.0707 ( X 2 2 )

rY1 , Z1 = 11 1 = 0.707 1.4 = 0.837


rY1 , Z 2 = 12 1 = 0.707 1.4 = 0.837

1
p

1.4
= 0.7
2

93

También podría gustarte