Parihuana PDF

1.
Elementos del problema de Muestreo

1.1 Definiciones bsicas
Elemento o unidad de muestreo: objeto en el que se toman las mediciones
Poblacin objetivo: conjunto de elementos que deseamos estudiar
Muestra: subconjunto de la poblacin
Poblacin muestreada: coleccin de todos los elementos posibles que podran

seleccionarse para la muestra
Unidad de muestreo: son conjuntos (no solapados) de elementos de la poblacin

que cubren la poblacin completa
Marco de muestreo: es la lista de las unidades de muestreo

1
1. Elementos del problema de Muestreo

1.1 Definiciones bsicas
Poblacin Objetivo
Poblacin del
marco de
muestreo
No localizable
No incluida
en el marco
de muestreo
Rehusa responder
POBLACIN
MUESTREADA
No es elegible
para la
encuesta
Otras causas

1.2 Seleccin de la muestra
Muestreo aleatorio simple: Todas las muestras de un determinado tamao tienen
la misma probabilidad de ser seleccionadas.
Muestreo aleatorio estratificado: Se divide a la poblacin en grupos, denominados
estratos, y se seleccionar una muestra aleatoria simple de cada estrato.
Muestreo por conglomerados: Se divide a la poblacin en grupos, denominados
conglomerados, y seleccionar una muestra aleatoria simple de
conglomerados.
Muestreo sistemtico: Consiste en seleccionar un elemento al comienzo de una
lista de la poblacin y luego se selecciona cada un nmero fijo de posiciones
el resto de elementos.

1.3 Fuentes de error
1.3.1 Errores de muestreo
= caracterstica desconocida de la poblacin
= estimador de la caracterstica
= Error de estimacin
P B = 1 ,
0< <1
Lmite de Error de Estimacin (LEE)

B= Cota para el error de estimacin
Error de estimacin mximo
1 = Nivel de confianza
4

1. El estimador es insesgado y tiene distribucin Normal. N( , )
P B = P B B =
B
= P
= Z
=1
Z N(0,1)
=z
B=z
1 = 0, 95 B = z0,975 = 1, 96 2
P 2 = 0,95

2. El estimador es insesgado con desviacin tpica
( )
1
Desigualdad de Tchebychev: P E k 1 2 ,
k 1
k =2
1
3
P 2 1 2 = = 0,75
2
4

P B = P B B = P B + B = 1
Intervalo de confianza para el verdadero valor del parmetro con una

confianza de 1
( B ,
+ B
)
7

1.3.2 Errores de no muestreo
Sesgo de seleccin. Ocurre cuando alguna parte de la poblacin objetivo no
est en la poblacin muestreada.
Sesgo de medicin. Ocurre cuando por diversos motivos los datos que
obtenemos no son exactos o verdaderos.
No respuesta. La no respuesta de individuos seleccionados para la muestra

puede causar sesgo en los datos muestrales.

1.3.2 Errores de no muestreo
FORMAS DE MINIMIZAR LOS ERRORES DE NO MUESTREO
1. Reentrevistas
2. Recompensas e incentivos
3. Entrevistadores adiestrados
4. Verificacin de datos

1.4 Mtodos de recoleccin de datos
Entrevista personal.
Ventaja: La gente usualmente responde cuando es confrontada en persona.
El entrevistador puede eliminar malos entendidos acerca de las
preguntas.
Inconveniente: La actitud del entrevistador puede afectar a la respuesta
obtenida
Entrevista por telefono.

Ventaja: Son mas baratas que las personales.
El investigador puede escuchar la entrevista.
Inconveniente: Establecer un marco para la poblacin
Realizacin en un periodo de tiempo ms corto.
Cuestionarios autoaplicados.
Ventaja: Son ms baratos (son enviados por correo y no requieren
entrevistadores).
Inconveniente: Tasa de respuesta baja.
Observacin directa.
Usada en encuestas que no requieren mediciones en personas.
10

1.5 Diseo del cuestionario
- Decidir lo que se quiere descubrir
- Verificar las preguntas antes de realizar la encuesta
- Elaborar las preguntas de manera sencilla y clara
- Prestar atencin al orden de las preguntas
- Decida si desea utilizar preguntas abiertos o cerradas
- Evitar preguntas que induzcan al entrevistado a decir lo que se quiere escuchar
- Utilizar preguntas de opcin forzosa

11

1.6 Planificacin de la encuesta
1. Establecer objetivos
2. Poblacin objetivo
3. El marco
4. Diseo del muestreo
5. Recoleccin de datos
6. Instrumentos de recoleccin de datos
7. Seleccin y preparacin de investigadores de campo
8. Prueba piloto
9. Organizacin del trabajo de campo
10. Organizacin del manejo de datos
11. Anlisis de los datos
12

1.7 Razones para el uso del muestreo
Evitar la destruccin de la poblacin.
En algunos casos, una unidad de observacin debe ser destruida para ser
observada. En ese caso, un censo destruira toda la poblacin.
Rapidez.
Los datos se pueden reunir ms rpido, de modo que las estimaciones se
pueden publicar de una manera programada
Economa y precisin.
El muestreo puede proporcionar informacin fiable con costes mucho
menores que los de un censo.
13
2. Muestreo Aleatorio Simple

2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios.
Rutas aleatorias.
Cada muestra posible de tamao n tiene la misma probabilidad de ser seleccionada.
En la prctica, la anterior condicin se traduce en que cada elemento tenga la misma
probabilidad de pertenecer a la muestra.
La seleccin de cada elemento de la muestra se hace sobre la base de un sorteo
completamente aleatorio.
Opciones: tablas de nmeros aleatorios o generacin de nmeros aleatorios con
programas de ordenador.
1107 1032 2596 4562 7598 1546 2596 5412 8569 2563 4587 2596 5641 5866 5844
2687 1596 3589 6578 1452 2365 7899 4122 1477 8836 3696 2587 6985 5632 5896
.....................................................................................................................................
Ordenar o numerar la poblacin.
Rutas aleatorias (guas telefnicas)
IMPORTANTE: EL NMERO TOTAL DE ELEMENTOS QUE FORMAN UNA MUESTRA
TIENE MENOS IMPORTANCIA QUE EL PRINCIPIO DE SELECCIN ALEATORIA
14

2.2 Muestreo aleatorio simple en poblaciones infinitas
2.2.1. Media, varianza y proporcin muestrales: Propiedades. Error de estimacin.
Poblacin Y (,2).
1 n
y = yi
n i =1
Muestra aleatoria simple Y1,..., Yn (i.i.d.)
()
E y =
()
Vy=
S =S
2
2
n1
1 n
=
yi y
n 1 i=1
E( S2 ) =2
S2
V ( y) =
n
Cuando las variables Y, Y1,..., Yn son dicotmicas
1n
p = yi , yi = 0,1
n i=1
()
E p =p
()
V p=
=p, 2=pq
2 pq
n
2
1 n
n
S =
y
y
=
pq
i
n 1 i=1
n 1
2
pq
V ( p) =
n 1
E( S2 ) = pq
15

Y N ( , 2 )
2 conocida
N (0,1)
n
Y N ( , 2 )
2 desconocida
Y cualquier ley (n )
y
tn 1 N (0,1)
S
n
y
Y B (1, p ) = p
y= p
p p
pq
n
( para n > 30)
y
N (0,1)
S
n
p p
n pq
n 1 n
( para n > 30)
p p
N (0,1)
pq
n 1
16

P 2
y 2
=
0,95
P
y
= 0,95
n
n
n
y
P Z
Z = 1
2
2
y
P 1,96
1,96 = 0,95
1,96 2
Py 2
y+2
= 0,95
n
n
2
,
y
+
2
n
n
17

P y 2
= 0,95
n
Desigualdad de Tchebychev
E(X ) =
( )
V (X ) =2
( )
E y = V y =
2
n
k=2
P X k 1
1
k2
P y 2
1 4 = 0, 75
n
18

2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
ESTIMACIN PUNTUAL
INTERVALO DE CONFIANZA
1 n
y = yi
n i =1
2 V ( y) = 2
S
n
S
S
, y+2
y2
n
n
S
S
se acepta H 0 : = 0 si 0 y 2
,y+2
n
n
CONTRASTE DE HIPTESIS
se rechaza H 0
S
S
si 0 y 2
,y+2
n
n
19

2.2.3 Determinacin del tamao muestral.
2 V ( y) = 2
2
n
=B
2
n
=B n=
2
=S
2
pq
2 V ( p) = 2
=B
n
2
2
B
4
pq pq
n= 2 =
B
D
4
p= p
2
D
B2
, D=
4
R2

16
2
B2
, D=
4
1
p=q=
2
20

MEDIA
VARIANZA DEL
ESTIMADOR
1 n
p = yi ,
n i =1
1 n
y = yi
n i =1
ESTIMADOR
CUASIVARIANZA
MUESTRAL
PROPORCIN
1 n
S =
yi y
n 1 i =1
2
V ( y) =
2
n
yi = 0, 1
1 n
S =
yi y
n 1 i =1
2
S2
pq
V ( p) =
V ( y) =
n
n
n pq
=
n 1
pq
V ( p) =
n 1
21

MEDIA
PROPORCIN
S
2 V ( y) = 2
n
pq
2 V ( p) = 2
n 1
S
S
, y+2
y2
n
n
pq
pq
p2
, p+2
n 1
n 1
LIMITE DEL ERROR DE

ESTIMACIN=B
INTERVALO DE
CONFIANZA
TAMAO MUESTRAL
n=
2
2
B
4
2
D
B2
, D=
4
pq pq
n= 2 =
B
D
4
B2
, D=
4
22

2.3 Muestreo aleatorio simple en poblaciones finitas
2.3.1 Estimacin de la media, proporcin y total poblacionales.
( )
E y =
1
= y = yi
n i =1
( )
V y =
2 N n
E (S2 ) =
n N 1
N
2
N 1
N 1 2
E
S =2
N
S2 N n
V y =
n N
( )
N n
N
= N y =
n
y
i =1
1
N n
0,95
N = 5% N
20
N
2
2
S
N
n
S
V ( ) = V ( N y ) = N V ( y ) = N
= N ( N n)
n N
n
2
23

2.3.1 Estimacin de la media, proporcin y total poblacionales.
1 n
p = yi ,
n i =1
= N p
yi = 0, 1
n pq
S =
n 1
2
S2 N n
pq N n
V ( p) =
=
n N
n 1 N
pq
2
V ( ) = V ( N p ) = N V ( p ) = N ( N n)
n 1
24

2.3.2. Determinacin del tamao muestral.
N 2
=B n=
( N 1) D + 2
n N 1
2 N n
=S
2
Npq
n=
( N 1) D + pq
p= p
B2
D=
(media )
4
B2
D=
4
p=q=
( proporcion)
B2
D=
4N 2
(total )
R2

16
2
B2
D=
4N 2
(total )
1
2
25

MEDIA
TOTAL
ESTIMADOR
VARIANZA DEL
ESTIMADOR
1 n
y = yi = N y
n i =1
S2 N n
V ( y) =
n N
LIMITE DEL ERROR DE

2 V ( y)
ESTIMACIN=B
PROPORCIN
TOTAL
1 n
p = yi
n i =1
pq N n
V ( ) = N 2 V ( y ) V ( p) =
n 1 N
2 V ( ) = N 2 V ( y ) 2 V ( p)
= N p
V ( ) = N 2 V ( p )
2 V ( ) = N 2 V ( p )
26

MEDIA
TOTAL
INTERVALO DE
CONFIANZA
(y 2
V ( y) , y + 2 V ( y)
) (p 2
V ( p) , p + 2 V ( p)
( 2
V ( ) , + 2 V ( )
) ( 2
V ( ) , + 2 V ( )
N 2
n=
( N 1) D + 2
TAMAO MUESTRAL
PROPORCIN
TOTAL
B2
D=
4
B2
D=
4N 2
(media )
(total )
n=
Npq
( N 1) D + pq
B2
D=
4
( proporcion)
B2
D=
4N 2
(total )
27
3. Muestreo Aleatorio Estratificado

3.1 Seleccin de una muestra aleatoria estratificada. Notacin.
L = nmero de estratos
N = tamao de la poblacin
N i = tamao del estrato
n = tamao de la muestra
ni = tamao de la muestra del estrato i

L
N = Ni
n = ni
i = media poblacional del estrato i
y i = media muestral del estrato i
i =1
i=
i =1
i=
i = total poblacional del estrato i

i2 = varianza poblacional del estrato i
pi = proporcin poblacional del estrato i
Si2 = varianza muestral del estrato i

p i = proporcin muestral del estrato i
ci = coste de una observacin del estrato i

28

3.2 Estimacin de la media, proporcin y total poblacionales.
L
N i y i = i
= i
i =1
st = N i y i
i =1
2
S
N n
V ( st ) = N i2 V ( y i ) = N i2 i i i
ni N i
i =1
i =1
L
st
1
y st =
=
N N
N y
i =1
1
V ( y st ) = 2
N
y st y
1
N V ( yi ) = 2
N
i =1
2
i
Si2 N i ni
N
ni N i
i =1
st = N y
2
i
29

MEDIA
TOTAL
1
y st =
N
PROPORCIN
TOTAL
N y
i
i =1
1
p st =
N
N
i =1
pi
ESTIMADOR
L
st = N i y i
i =1
VARIANZA DEL
ESTIMADOR
1
V ( y st ) = 2
N
st = N i p i
i =1
Si2 N i ni
1 L 2 p i q i N i ni
V ( p st ) = 2 N i
N
N i =1
ni 1 N i
ni Ni
i =1
L
2
i
2
S
N n
V ( st ) = Ni2 i i i
ni Ni
i=1
L
V ( st ) =
p i q i N i ni
N
ni 1 N i
i =1
L
2
i
30

3.3 Determinacin del tamao muestral.
1
V ( y st ) = 2
N
2 V ( y st ) = B
n=
i =1
N
2
i
N D + N i
= pi qi
i =1
i =1
2
i
i2 N i ni
ni N i 1
2
i
B2
D=
4
B2
D=
4N 2
N pi qi
N 2 D + N i pi qi
(media)
B2
D=
4N 2
2
i
i =1
ni = ni
B2
D=
4
i =1
n=
2
i
2
i
(total )
( proporcin)
(total )
31

3.4.1 Asignacin ptima.
N j j
j =
p jq j
Nj
cj
j =
Ni i
ci
i =1
L
cj
Ni
i =1
pi qi
ci
Minimiza el coste de obtencin de la muestra para un lmite del error de estimacin fijado.
L
Ni i ci
n=
i =1
i =1
Ni i
ci
Ni
n=
N D + N i
2
i =1
i =1
Ni
pi qi ci
i =1
pi qi
ci
N D + N i pi qi
2
2
i
i =1
Minimiza el lmite del error de estimacin para un coste de obtencin de la muestra fijo.
L
C
n=
i =1
N i i
ci
N
i =1
ci
C Ni
n=
i =1
pi qi
ci
c1n1 + c2 n2 + c3 n3 = C
c11n + c22 n + c33n = C
N
i =1
pi qi ci
n=
C
c11 + c22 + c33
32

3.4.2 Asignacin de Neyman.
Si c1 = c2 = ... = ci = ... = cL
Caso numrico:
( N )
j =
N j j
L
Ni i
n=
i =1
N D + N i i2
2
i =1
i =1
Caso dicotmico:
( N
j =
N j pjqj
L
N
i =1
pi qi
n=
i =1
pi qi
N D + N i pi qi
2
i =1
33

3.4.3 Asignacin proporcional.
12 = 22 = ... = i2 = ... = L2
Si c1 = c2 = ... = ci = ... = cL
Caso numrico:
j =
Nj
N
n=
Caso dicotmico:
N
i
i =1
2
i
1
ND +
N
2
N
i i
i =1
j =
Nj
N
n=
N pq
i =1
1
ND +
N
i i
N pq
i =1
i i
Ventajas:
y st = y
p st = p
st =
Resuelve complicaciones en la asignacin para varias mediciones muestrales

34

3.4 Asignacin de la muestra.
Determinacin del tamao muestral y asignacin para varias estimaciones
Asignacin ptima/Neyman
1 estimacin: n = 100
1 = 0,10 n1 = 10
2 = 0,90 n2 = 90
2 estimacin: n = 40
1 = 0,50 n1 = 20
2 = 0,50 n2 = 20
Asignacin proporcional
1 estimacin: n = 100
1 = 0,30 n1 = 30
2 = 0, 70 n2 = 70
2 estimacin: n = 40
1 = 0,30 n1 = 12
2 = 0, 70 n2 = 28
35

3.5 Estratificacin despus de seleccionar la muestra.
Ejemplo 3.6 (Ejercicio 17, relacin tema 3) En una ciudad se sabe que el 30% de los
hogares tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de
energa (valor en euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica
60
5730
200
No electrica
40
2080
90
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D
un lmite para el error de estimacin.
36

3.5 Estratificacin despus de seleccionar la muestra.
Solucin:
y1 =
1
y st =
N
5730
= 95,5
60
i =1
i =1
Ni y i =
1
V ( y st ) = 2
N
2
=
i =1
y2 =
2080
= 52
40
Ni
y i = (0,30 95,5) + (0, 70 52) = 65, 05
N
2
Si2 N i ni
N i2 Si2 N i ni
N
= 2
=
n
N
N
n
N
i =1
i =1
i
i
i
i
2
2
i
2
2
N i Si2
N S
2 200
2 90
=
= 0,30
+ 0, 70
= 159, 225
N ni
N
n
60
40
i =1

i
2
i
2
2
i
2 V ( y st ) =25,24
y=
5730 + 2080 7810

=
= 78,10
60 + 40
100
37
4. Muestreo con informacin auxiliar

4.1 Introduccin
Y
Variable bajo estudio
Variable que proporciona la informacin auxiliar
Muestra constituida por n pares:
(x1 , y1 ),..., (xn , yn )
Bajo una fuerte relacin lineal positiva
rxy >
2
y dependiendo de la relacin entre ambas variables utilizaremos:

Estimadores de razn
( y = bx )
Estimadores de regresin
( y = a + bx )
Estimadores de diferencia
( y = a + x)
38

4.2 Estimacin de razn
Se define la razn como el cociente:
y
R=
x
Y
R=
X
y = N y
x = N x
Entonces si se conocen los valores de la media y del total de X slo hay que
estimar el valor de R (r):
y = r x
y = r x
n
y
=
ESTIMADOR DE LA RAZN: r =
x
yi
xi
i =1
n
i =1
1 S r2 N n
VARIANZA ESTIMADA DE r: V (r ) = 2
x n N
1 n
2
Sr =
( yi rxi )
n 1 i =1
2
39

4.2.1 Estimacin de la media y el total poblacionales
Entre X e Y existe una alta correlacin lineal positiva y que el modelo lineal pasa
por el origen.
ESTIMADOR DE LA MEDIA:
y = r x
VARIANZA ESTIMADA DEL ESTIMADOR:
ESTIMADOR DEL TOTAL:
2
S
V ( y ) = V (r ) = r
n
2
x
N n
y = r x

2
2
2
S
N
n
S
2 r N n
V (y ) = x2V (r ) = x2 r
=
N
x n N
n N
40

4.2.2 Determinacin del tamao muestral
Tamao muestral mnimo para que la estimacin de la razn, la media y el total
no supere una cota de error de magnitud B
N r2
n= 2
r + ND
B 2 x2
4 para estimar la razn
2
B para estimar la media
D= 4
2
B
4 N 2 para estimar el total
N debe ser conocido o estimado
r2 se estima utilizando una muestra previa (tamao n): r2 = S r2
x2 = x 2
41

4.3 Estimacin de regresin
Entre X e Y existe una alta correlacin lineal positiva y el modelo lineal no pasa
por el origen.
a = y bx
Modelo lineal simple
y = a + bx
Mtodo de mnimos
cuadrados
b =
s xy
s x2
+ bx
= y + b ( x x )
y = y bx
S x2
(y
i =1
y )( xi x )
2
(
)
x
x
i
i =1
1 n
2
S =
x
x
(
)
i
n 1 i =1
1 n
2
s = ( xi x )
n i =1
1 n
S xy =
( xi x )( yi y )
n 1 i =1
1 n
sxy = ( xi x )( yi y )
n i =1
2
x
donde
S xy
2
x
42

ESTIMADOR DE LA MEDIA:
yL = a + b x = y + b( x x )
2
S
L
VARIANZA ESTIMADA DEL ESTIMADOR: V ( yL ) =
n
( (
1 n
S =
yi y + b ( xi x )
n 2 i =1
2
L
n 1 2 S xy
=
S y 2
n2
Sx
2
))
N n
n
1 n
2
2
2
=
y
b
x
x
( i )
( i )
n 2 i =1
i =1
n 1 2
n 2
2
S y (1 rxy ) =
s y (1 rxy2 )
=
n2
n2
yL = N yL
V ( yL ) = N 2V ( yL )
43

Tamao muestral mnimo para que la estimacin de la media y el total no
supere una cota de error de magnitud B
N L2
n= 2
L + ND
B2
4 para estimar la media
D=
B2
para estimar el total

4 N 2
L2 se estima utilizando una muestra previa (tamao n): L2 = S L2
44

4.4 Estimacin de diferencia
Entre X e Y existe una alta correlacin lineal positiva y la pendiente del modelo es uno.

ESTIMADOR DE LA MEDIA: yD = y + ( x x ) = x + d
donde d = y x
donde S
2
D
S D2 N n
V ( yD ) =
n N
2
2
1 n
1 n
(
(
)
)
(
)
=
y
x
+
d
=
d
d
y
i i
i
n 1 i =1
n 1 i =1
d i = y i xi
S D2 = cuasivarianza de los d i
yD = N yD
V ( yD ) = N 2V ( yD )
45

4.4 Estimacin de diferencia
Tamao muestral mnimo para que la estimacin de la media y el total no
supere una cota de error de magnitud B
N D2
n= 2
D + ND
B2
D=
B2

4 N 2
D se estima utilizando una muestra previa (tamao n):

2
D2 = S D2
46
5. Muestreo sistemtico
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas
Muestra Sistemtica de 1 en k:
1. Ordenar los elementos de la poblacin
2. Seleccionar aleatoriamente un elemento i (llamado punto de inicio) de los
primeros k elementos de la poblacin.
3. Despus seleccionar cada k-esimo elemento hasta conseguir una muestra
de tamao n .
N
k se toma como el nmero entero menor o igual que
n
Ventajas del muestreo sistemtico frente al muestreo aleatorio simple:

En la prctica, el muestreo sistemtico es ms fcil de llevar a cabo y est
expuesto a menos errores del encuestador.
Frecuentemente, con igual tamao de muestra el muestreo sistemtico
proporciona ms informacin que el muestreo aleatorio simple.
47
5.2 Estimacin de la media, proporcin y el total poblacionales
ESTIMADOR DE LA MEDIA POBLACIONAL: = y sy =
1 n
yi + ( j 1) k
n j =1
2
S
N n
VARIANZA ESTIMADA DEL ESTIMADOR: V ( y sy ) =
n N
2 N n
2
V (y) =
[
V y sy =
1 + (n 1) ]
n N 1
n
( )
= coef. Correlacin entre los elementos de la muestra sistemtica
ESTIMADOR DEL TOTAL POBLACIONAL:
= Ny sy
2
S
VARIANZA ESTIMADA DEL ESTIMADOR: V ( ) = N V ( y sy ) = N
n
2
ESTIMADOR DE LA PROPORCIN POBLACIONAL: p sy =

VARIANZA ESTIMADA DEL ESTIMADOR: V ( p sy ) =
N n
1 n
y i + ( j 1) k
n j =1
p sy q sy N n
n 1 N
48
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones
ordenadas, aleatorias y peridicas
V (y) =
2 N n
n N 1
V ( y sy ) =
2
n
[1 + (n 1) ]
1. Poblacin ordenada: cuando los elementos que la constituyen estn ordenados

de acuerdo con los valores, crecientes o decrecientes, de una determinada
caracterstica.
V ( y sy ) V ( y )
m.s. es preferible al m.a.s.
2. Poblacin aleatoria: cuando los elementos estn ordenados al azar.
V ( y sy ) V ( y )
Es indiferente usar m.s. m.a.s.
3. Poblacin peridica: cuando los elementos tienen una variacin cclica.
V ( y sy ) > V ( y )
m.a.s. es preferible al m.s.
49
5.4 Determinacin del tamao muestral
Tamao muestral necesario para estimar la media y el total poblacionales con
un lmite B para el error de estimacin
B2
N 2
D=
n=
2
( N 1) D +
2
B para estimar el total
4N
4N 2
Tamao muestral necesario para estimar la proporcin poblacional con
un lmite B para el error de estimacin
n=
Npq
( N 1) D + pq
B2
4 para estimar la proporcin
D=
2
B
4N 2
50
6. Muestreo por Conglomerados

6.1 Necesidad y ventajas del muestreo por conglomerados.
6.2 Formacin de los conglomerados. Conglomerados y estratos. Notacin
N = conglomerados en la poblacin.
n = conglomerados en la muestra.
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N
M = mi = elementos en la poblacin
i =1
m = mi = elementos en la muestra
M=
1
N
i =1
m
i =1
= tamao medio de los conglomerados de la poblacin.

1 n
m = mi = tamao medio de los conglomerados de la muestra.
n i =1
51

n
=y=
y
i =1
n
m
i =1
1 N n Sc2
V ( y) = 2
N n
M
= M y
V ( ) = M 2 V ( y )
t = N y t
2
S
V ( t ) = N 2 V ( y t ) = N ( N n) t
n
1 n
y t = yi
n i =1
N n St2
V ( yt ) =
N n
Si m1 = m2 = ... = mN
1 n
S =
yi ymi
n 1 i =1
2
c
1 n
S =
yi y t
n 1 i =1
2
t
M y = N yt
52

6.4 Determinacin del tamao muestral.
n
= M y
=y=
y
i =1
n
m
i =1
N c2
n=
ND + c2
1 n
=S =
yi ymi
n 1 i =1
t = N y t
1 n
y t = yi
n i =1
N t2
n=
ND + t2
2
c
2
c
B M
D=
4
B2
D=
4N 2
(media)
(total )
m.a.s. sobre los totales de los conglomerados
1 n
=S =
yi y t
n 1 i =1
2
t
2
t
B2
D=
.
2
4N
53
7. Estimacin del tamao de la poblacin

7.1 Muestreo directo
1. Se selecciona una muestra aleatoria de tamao t, se marcan y
devuelven a la poblacin.
2. Se selecciona una muestra de tamao n (fijado de antemano) de
la misma poblacin y se observa cuntos de ellos estn marcados.
(s= n elementos marcados en esta muestra)
Proporcin de elementos marcados en la 2 muestra:
p = proporcin de elementos marcados en la poblacin
t
=
N
p =
s
n
t
N=
p
t
t
nt
=
ESTIMADOR DE N: N = =
p s / n s
( )
2
t
n( n s )
VARIANZA ESTIMADA DEL ESTIMADOR: V N =
s3
54

7.2 Muestreo inverso
1. Se selecciona una muestra aleatoria de tamao t de la poblacin,

se marcan y se devuelven a la poblacin.
2. Se selecciona una muestra de tamao n hasta que se obtienen
s elementos marcados.
ESTIMADOR DE N:
t
t
nt
N = =
=
p s / n s
( )
2
t
n( n s )
V N = 2
s (s + 1)
55

7.3.1 Estimacin de la densidad y del tamao de la poblacin
A= rea donde est contenida la poblacin
1. Se divide a la poblacin en N cuadros de igual rea
mi =n elementos en el cuadro i-esimo
2. Se toma una muestra de n cuadros de los N existentes. Se observa el

nmero de elementos que contiene la muestra:
n
m = mi
i =1
3. Se calcula la densidad de elementos en la muestra:

n elementos en la muestra m
=
=
rea de la muestra
na
4. Dado que la densidad poblacional es
n elementos en la poblacin M
=
rea de la poblacin
A
M = A
56

7.3.1 Estimacin de la densidad y del tamao de la poblacin
ESTIMADOR DE LA DENSIDAD:
=
na
VARIANZA ESTIMADA DEL ESTIMADOR: V ( ) =
m
1
=
na
a 2n2
ESTIMADOR DEL TAMAO POBLACIONAL: M = A = A

na
2
A
m
V ( M ) = A V ( ) = 2 2
a n
2
7.3.2 Muestreo por cuadros en el espacio temporal

En determinadas ocasiones, podemos tomar los cuadros como intervalos temporales
57

7.3.3 Cuadros cargados
Cuadro cargado=cuadro que contiene al menos un elemento objeto de estudio
1. Se divide a la poblacin en N cuadros de igual rea a
2. Se toma una muestra de n cuadros de los N existentes.
y = nmero de cuadros no cargados
3. La densidad poblacional se estima como
y su varianza como
Dado que
1 n y
V ( ) = 2
a ny
1
a
y
n
= ln
M = A
ESTIMADOR DEL TAMAO DE LA POBLACIN
VARIANZA ESTIMADA DEL ESTIMADOR
A y
M = A = ln
a n
2
A
n y
V ( M ) = 2
a ny
58
8. Anlisis Cluster
8.1 Introduccin
Anlisis cluster: serie de tcnicas que tienen por objeto la bsqueda de grupos
similares de individuos o variables. Es una tcnica completamente numrica en la que
no se realizan hiptesis previas.
Pasos en un anlisis cluster:
Establecer un indicador (distancia o similaridad) que nos diga en qu medida

cada par de observaciones se parece entre s.
2. Crear los grupos de forma que cada uno de ellos contenga aquellas observaciones
que ms se parezcan.
3. Describir los grupos obtenidos y compararlos.
Tipos de tcnicas para realizar este anlisis:

Tcnicas jerrquicas
Tcnicas no jerrquicas
59
8. Anlisis Cluster
8.2 Medidas de similaridad
Ejemplo 8.1
30,00
Nombre
Empresa
Inversin
publicidad
Ventas
E8
E4
16
10
E2
12
14
E3
10
22
E4
12
25
E5
45
10
E6
50
15
E7
45
25
E8
50
27
E3
Ventas
E1
E7
25,00
20,00
E6
15,00
E2
E1
E5
10,00
10
20
30
Inversion
40
50
60
8. Anlisis Cluster
8.2.1 Medidas de similaridad para variables mtricas
k
(A) Distancia Eucldea: D ij =

Ejemplo 8.2
p =1
( x ip x jp )
D12 =
(16 12 ) + (10 14 )
2
= 5, 66
Matriz de distancias euclideas

distancia eucldea
Caso
1:E1
2:E2
5:E5
6:E6
7:E7
8:E8
,00
5,66
13,42
15,52
29,00
34,37
32,65
38,01
2:E2
5,66
,00
8,25
11,00
33,24
38,01
34,79
40,16
3:E3
13,42
8,25
,00
3,61
37,00
40,61
35,13
40,31
4:E4
15,52
11,00
3,61
,00
36,25
39,29
33,00
38,05
5:E5
29,00
33,24
37,00
36,25
,00
7,07
15,00
17,72
6:E6
34,37
38,01
40,61
39,29
7,07
,00
11,18
12,00
7:E7
32,65
34,79
35,13
33,00
15,00
11,18
,00
5,39
8:E8
38,01
40,16
40,31
38,05
17,72
12,00
5,39
,00
(x
k
p =1
4:E4
1:E1
(B) Distancia Eucldea al cuadrado:

D ij =
3:E3
ip
x jp )
(C) Distancia de Minskowski:

k
n
D ij = x ip x jp
p =1
1
n
61
8. Anlisis Cluster
8.2.2 Medidas de similaridad para datos binarios
Ejemplo 8.3
Observaciones
E1
Variables
X1
X2
X3
X4
E2
E3
E4
E5
(A) Distancia eucldea al cuadrado

(B) Distancia eucldea Dij =
(C) Diferencia de tamao
E2
E1
1 0
1 0
1 1 2
0 1 0
E2
1 a b
0 c d
Dij = b + c
b+c
Dij =
E1
Ejemplo 8.4
(b c )
(a + b + c + d )
D12 =
( 2 1)
(1 + 2 + 1 + 0 )
= 0, 063 62
8. Anlisis Cluster
8.3 Estandarizacin de los datos
Ejemplo 8.5
En el siguiente cuadro se recoge el tamao de los activos y el nmero de trabajadores
de 8 empresas:
Empresa
Activos
Trabajadores
E1
10.000.000.000
100
E2
10.050.000.000
90
E3
10.000.000.000
200
E4
10.050.000.000
190
E5
20.000.000.000
200
E6
20.050.000.000
190
E7
20.000.000.000
100
E8
20.050.000.000
90
63
8. Anlisis Cluster
Matriz de distancias
Ejemplo 8.5 (Continuacin)

Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
5,0E+07
100,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
2:E2
5,0E+07
,000
5,0E+07
100,000
1,0E+10
1,0E+10
1,0E+10
1,0E+10
3:E3
100,000
5,0E+07
,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
distancia eucldea
4:E4
5:E5
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
1,0E+10
,000
1,0E+10
1,0E+10
,000
1,0E+10
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
6:E6
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
,000
5,0E+07
100,000
7:E7
1,0E+10
1,0E+10
1,0E+10
1,0E+10
100,000
5,0E+07
,000
5,0E+07
8:E8
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
100,000
5,0E+07
,000
Esta es una matriz de disimilaridades
GRUPO 1: [E1,E2,E3,E4] Activos en torno de los 10.000 millones

GRUPO 2: [E5,E6,E7,E8] Activos en torno de los 20.000 millones
Procesos de estandarizacin:
Puntuaciones Z.
Rango 1.
Rango 0 a 1.
64
8. Anlisis Cluster
Ejemplo 8.6
Matriz de distancias
Distancia eucldea
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
,186
1,862
1,675
2,639
2,518
1,871
1,889
2:E2
,186
,000
2,048
1,862
2,767
2,639
1,871
1,871
3:E3
1,862
2,048
,000
,186
1,871
1,889
2,639
2,780
4:E4
1,675
1,862
,186
,000
1,871
1,871
2,504
2,639
5:E5
2,639
2,767
1,871
1,871
,000
,186
1,862
2,048
6:E6
2,518
2,639
1,889
1,871
,186
,000
1,675
1,862
7:E7
1,871
1,871
2,639
2,504
1,862
1,675
,000
,186
8:E8
1,889
1,871
2,780
2,639
2,048
1,862
,186
,000
GRUPO 1: E1 y E2
GRUPO 2: E3 y E4
GRUPO 3: E5 y E6
GRUPO 4: E7 y E8
65
8. Anlisis Cluster
8.4 Formacin de los grupos: Clusters jerrquicos y no jerrquicos
8.4.1 Clusters jerrquicos
(A) Mtodo de agrupacin de centroides
distancia eucldea al cuadrado
Ejemplo 8.7
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
32
180
241
841
1181
1066
1445
2:E2
32
68
121
1105
1445
1210
1613
3:E3
180
68
13
1369
1649
1234
1625
4:E4
241
121
13
1314
1544
1089
1448
5:E5
841
1105
1369
1314
50
225
314
6:E6
1181
1445
1649
1544
50
125
144
7:E7
1066
1210
1234
1089
225
125
29
8:E8
1445
1613
1625
1448
314
144
29
Observaciones ms cercana: E3 y E4 (distancia=13)
Grupo E3-4
10 + 12
= 11
2
22+25
Ventas de E3-4=
= 23,5
2
Calculo del centroide de E3-4: Publicidad de E3-4 =
66
8. Anlisis Cluster
Datos actualizados:
Nombre
Empresa
Inversin en
publicidad
Ventas
E1
16
10
E2
12
14
E3-4
11
23,5
E5
45
10
E6
50
15
E7
45
25
E8
50
27
67
8. Anlisis Cluster
Matriz de distancias actualizadas

distancia eucldea al cuadrado
Caso
1:E1
2:E2
3:E3-4
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,0
32,0
207,3
241,0
841,0
1181,0
1066,0
1445,0
2:E2
32,0
,0
91,3
121,0
1105,0
1445,0
1210,0
1613,0
3:E3-4
207,3
91,3
,0
3,3
1338,3
1593,3
1158,3
1533,3
4:E4
241,0
121,0
3,3
,0
1314,0
1544,0
1089,0
1448,0
5:E5
841,0
1105,0
1338,3
1314,0
,0
50,0
225,0
314,0
6:E6
1181,0
1445,0
1593,3
1544,0
50,0
,0
125,0
144,0
7:E7
1066,0
1210,0
1158,3
1089,0
225,0
125,0
,0
29,0
8:E8
1445,0
1613,0
1533,3
1448,0
314,0
144,0
29,0
,0
DE1, E 3 4 = (16 11) + (10 23,5 ) = 207,3

2
Prxima unin E7-E8
68
8. Anlisis Cluster
Historial de conglomeracin
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
141,250
182,250
1227,250
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se

fusionan dos grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre
de uno solo de sus integrantes (E1-2 se representa por 1, E3-4 se representa por 3).
La columna de coeficientes refleja las distancias a las que estaban los grupos que se
69
van fusionando en cada etapa.
8. Anlisis Cluster
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
Dendrogram using Centroid Method

Rescaled Distance Cluster Combine
C A S E
Label Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
E3
E4
E1
E2
E7
E8
E5
E6
70
8. Anlisis Cluster
(B) Mtodo del vecino ms cercano (vinculacin simple)
Ejemplo 8.8
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
68,000
125,000
841,000
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
71
8. Anlisis Cluster
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
E6
15,00
E2
3
E1
E5
10,00
10
20
30
Inversion
40
50
72
8. Anlisis Cluster
(C) Mtodo del vecino ms lejano (vinculacin completa)
Ejemplo 8.9
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
241,000
314,000
1649,000
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Prxima
etapa
5
6
5
6
7
7
0
73
8. Anlisis Cluster
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
7
E6
15,00
E2
3
E1
E5
10,00
10
20
30
Inversion
40
50
74
8. Anlisis Cluster
(D) Mtodo de la vinculacin promedio (vinculacin intergrupos)
Ejemplo 8.10
Etapa
1
2
3
4
5
6
7
Conglomerado que se
combina
Conglom
Conglom
erado 1
erado 2
3
4
7
8
1
2
5
6
1
3
5
7
1
5
Coeficientes
13,000
29,000
32,000
50,000
152,500
202,000
1323,625
Etapa en la que el
conglomerado
aparece por primera
vez
Conglom
Conglom
erado 1
erado 2
0
0
0
0
0
0
0
0
3
1
4
2
5
6
Etapa 5:
Prxima
etapa
5
6
5
6
7
7
0
Observ.
Distancia
E1, E3
180
E1, E4
241
E2, E3
68
E2, E4
121
Media
152,5
75
8. Anlisis Cluster
Seleccin del nmero de conglomerados de la solucin
Dendograma
Tasas de variacin entre los coeficientes de conglomeracin obtenidos
en etapas sucesivas
Etapa
Observaciones
que se fusionan
Grupos
Resultantes
N
grupos
Coeficiente
Tasa de
Variacin
[E3,E4]
[E3,E4],E1,E2,E5,E6,E7,E8
6,5
2,23
[E7,E8]
[E3,E4][E7,E8],E1,E2,E5,E6
21
0,76
[E1,E2]
[E1,E2][E3,E4][E7,E8],E5,E6
37
0,67
[E5,E6]
[E1,E2][E3,E4][E5,E6][E7,E8]
62
2,27
[E1,E2][E3,E4]
[E1,E2,E3,E4][E5,E6][E7,E8]
203,3
0,89
[E5,E6][E7,E8]
[E1,E2,E3,E4][E5,E6,E7,E8]
385,5
6,32
[E1,E2,E3,E4][E5,E6,E7,E8]
[E1,E2,E3,E4,E5,E6,E7,E8]
2824
21 6,5
T1 =
= 2, 23
6,5
76
8. Anlisis Cluster
8.4.2 Clusters no jerrquicos
A. Seleccin de los centroides iniciales
Aspectos a tener en cuenta en la eleccin de los centroides iniciales:
1. El investigador propone los centroides iniciales.
2. Si ste no est seguro, un posible camino es realizar un anlisis jerrquico y
observar el dendograma.
3. Si no se tiene ninguna idea previa, el SPSS (u otros paquetes estadsticos)
los selecciona.
B. Asignacin de observaciones a grupos (cluster)
C. Se recalculan los centroides
D. Se aplica criterio de convergencia

77
8. Anlisis Cluster
Formacin de los grupos (MTODO DE LAS K-MEDIAS)
1. Calcular la distancia de cada observacin a los centroides iniciales calculados en
la fase anterior. Cada observacin se asigna al conglomerado al que est ms
cercano (utilizando distancias euclideas).
Inversin
Ventas
Distancias
Centroide 1
Distancias Conglomerado
Centroide 2
asignado
E1
16
10
34,37
15,52
E2
12
14
38,01
11
E3
10
22
40,61
3,61
E4
12
25
39,29
E5
45
10
7,07
36,25
E6
50
15
39,29
E7
45
25
11,18
33
E8
50
27
12
38,05
78
8. Anlisis Cluster
2. Una vez efectuada la asignacin de observaciones a conglomerados, se
recalculan los centroides
Centroides iniciales
Centroides finales
Conglomerado
Publicidad
50
15
47,5
19,25
12
25
12,5
17,75
45 + 50 + 45 + 50
= 47,5
4
16 + 12 + 10 + 12
= 12,5
4
Ventas Publicidad
Ventas
10 + 15 + 25 + 27
= 19, 25
4
10 + 14 + 22 + 25
= 17, 75
4
79
8. Anlisis Cluster
3. Se repite el paso 1 clasificando cada observacin en el conglomerado del que
dista menos. El proceso se detiene cuando no se produce ninguna reasignacin
de observaciones a conglomerados o hasta que se alcance un determinado
nmero de iteraciones que se puede establecer como opcin al ejecutar el
anlisis.
Inversin
Ventas
Distancias
Distancias
Conglomerado
Centroide 1 Centroide 2
asignado
E1
16
10
32,83
8,50
E2
12
14
35,89
3,78
E3
10
22
37,60
4,93
E4
12
25
35,96
7,27
E5
45
10
9,58
33,41
E6
50
15
4,93
37,60
E7
45
25
6,27
33,30
E8
50
27
8,14
38,62
80
8. Anlisis Cluster
SALIDAS DEL SPSS:
Centros iniciales de los conglomerados
Historial de iteraciones(a)
Cambio en los centros de
los conglomerados
Conglomerado
1
Inversin
50
12
Iteracin
Ventas
15
25
4,931
7,267
,000
,000
d = (47,5 50) 2 + (19, 25 15) 2 = 4,931
d = (50 12) 2 + (15 25) 2 = 39, 29
a Se ha logrado la convergencia debido a que los

centros de los conglomerados no presentan ningn
cambio o ste es pequeo. El cambio mximo de
coordenadas absolutas para cualquier centro es de
,000. La iteracin actual es 2. La distancia mnima
entre los centros iniciales es de 39,294.
81
8. Anlisis Cluster
SALIDAS DEL SPSS:
Pertenencia a los conglomerados
N de
caso
Centros de los conglomerados finales

Conglomerado
Conglomerado
Distancia
E1
8,504
E2
3,783
E3
4,931
E4
7,267
E5
9,582
E6
4,931
E7
6,270
E8
8,143
Inversin
47,50
12,50
Ventas
19,25
17,75
82
8. Anlisis Cluster
SALIDAS DEL SPSS:
ANOVA
Conglomerado
Media
cuadrtica
Inversin
Ventas
Error
Media
cuadrtica
gl
gl
Sig.
2450,000
7,333
334,091
,000
4,500
56,917
,079
,788
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los
conglomerados han sido elegidos para maximizar las diferencias entre los casos en
diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no
pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
83
9. Componentes principales
9.1 Introduccin
La utilidad de la tcnica de componentes principales es doble:
1. Por un lado, el anlisis de componentes principales permite resumir de forma

ptima la informacin proporcionada por las variables originales mediante las
componentes.
2. Permite transformar las variables originales, en general correladas (solapamiento en

la informacin), en nuevas variables incorreladas, facilitando la interpretacin de
los datos.
84
9.2 Componentes principales
Sea S la matriz de covarianza asociada con el vector aleatorio X ' = X 1 , X 2 ,..., X p .

Supongamos
que
( 1 , 1 ) , ( 2 , 2 ) ,..., ( p , p )
tiene
pares
de
valores
vectores
propios
donde
1 2 p 0. La i-sima componente
principal est dada por
Yi = i' X = i1 X 1 + i 2 X 2 + + ip X p , i = 1, 2,..., p
con esta eleccin
Var (Yi ) = i' Si = i , i = 1, 2,..., p
Cov(Yi , Yk ) = Sk = 0, i k
'
i
85
Sean Y1 = 1' X , Y2 = 2' X ,..., Yp = p' X las componentes principales. Entonces
p
i =1
i =1
s11 + s22 + + s pp = Var ( X i ) = 1 + 2 + + p = Var (Yi ) .
La proporcin de la varianza total explicada por la k -esima componente principal es
1 + + p
, k = 1,2,..., p
el coeficiente de correlacin entre la componente Yi y la variable X k es:

rYi , X k =
ik i
skk
, i, k = 1, 2,..., p
86
Ejemplo9.1
3.50
1.9 1.1
x =
; S =
3.50
1.1 1.1
S I = 0
1.9
1.1
1.9 1.1
1 0
=0
=0
1.1
1.1
1.1 1.1
0 1
2 3 + 0.88 = 0
( S 1I ) 1 = 0.
0.7711 + 1.1012 = 0
1.1011 1.5712 = 0
1 = 2.67 y 2 = 0.33
1.9 1.1
1 0 11
0.77 1.1 11
2.67
= 0
= 0
1.1
1.1
0
1
1.1
1.57
12
12
11 = 1.4312 .
112 + 122 = 1
0.82
1 =
0.57
87
X
X
Y1 = '1 1 = ( 0.82 0.57 ) 1 = 0.82 X 1 + 0.57 X 2
X2
X2
X
Y2 = ( 0.57 0.82 ) 1 = 0.57 X 1 + 0.82 X 2
X2
88
0
1.9 1.1
2.67
S =
;
S
=
Y
0.33
1.1 1.1
0
rx1x2 =
s12 ( X )
1.1
=
= 0.76
s11 ( X ) s22 ( X )
1.9 1.1
Var ( X ) =tr ( S ) = 1.9 + 1.1 = 3

i
i =1
2
Var (Y ) =tr (S
i
i =1
rY1 , X1 =
11 1
s11
1 + 2
Y ) = i = 2.67 + 0.33 = 3
2.67
= 0.89
3
i =1
0.82 2.67
= 0.97
1.9
rY1 , X 2 =
12 1
s22
0.57 2.67
= 0.89
1.1
89
Estadsticos descriptivos
VAR00001
Media
3,5000
Desviacin
tpica
1,37840
N del anlisis
6
VAR00002
3,5000
1,04881
Varianza total explicada

Componente
Bruta
Autovalores iniciales(a)
Total
2,670
% de la
varianza
89,016
% acumulado
89,016
,330
10,984
100,000
Mtodo de extraccin: Anlisis de Componentes principales.

Matriz de componentes(a)
Bruta
Reescalada
Componente
Componente
VAR00001
1,338
,971
VAR00002
,938
,894
11 =
1,338
= 0,82
2, 67
12 =
0,938
= 0,57
2, 67
90
9.2.1 Componentes principales a partir de variables estandarizadas
Zi
X i i )
(
=
sii
E [Z ] = 0
i =1
i =1
Cov( Z ) = R
Var (Yi ) = Var ( Z i ) = p
rYi , Zk = ik i , i, k = 1,..., p
k
p
91
1 4
S =
4
100
1 0.4
R=
.
0.4 1
'
1 = 100.16 1 = ( 0.040, 0.999 )
S :
= 0.84 ' = ( 0.999, 0.040 )
2
2
Y1 = 0.040 X 1 + 0.999 X 2
S :
Y2 = 0.999 X 1 0.040 X 2
1 + 2
rY1 , X1 =
rY1 , X 2 =
11 1
s11
12 1
s22
100.16
= 0.992
101
= 0.4
=
0.999 100.16
= 0.999
100
92
'
1 = 1.4 1 = ( 0.707, 0.707 )
R:
= 0.6 ' = ( 0.707, 0.707 )
2
2
X 1 1
X 2 2
=
0.707
+
0.707
=
0.707
+
0.707
Y
Z
Z
1
1
2
1
10
= 0.707 ( X 1 1 ) + 0.0707 ( X 2 2 )
R:
Y = 0.707 Z 0.707 Z = 0.707 X 1 1 0.707 X 2 2
1
2
2
1
10
= 0.707 ( X 1 1 ) 0.0707 ( X 2 2 )
rY1 , Z1 = 11 1 = 0.707 1.4 = 0.837

rY1 , Z 2 = 12 1 = 0.707 1.4 = 0.837
1
p
1.4
= 0.7
2
93

Parihuana PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Parihuana PDF

Cargado por

Copyright:

Formatos disponibles

1.

Elementos del problema de Muestreo

Poblacin muestreada: coleccin de todos los elementos posibles que podran

Unidad de muestreo: son conjuntos (no solapados) de elementos de la poblacin

Marco de muestreo: es la lista de las unidades de muestreo

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

Lmite de Error de Estimacin (LEE)

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

Intervalo de confianza para el verdadero valor del parmetro con una

1. Elementos del problema de Muestreo

No respuesta. La no respuesta de individuos seleccionados para la muestra

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

Entrevista por telefono.

1. Elementos del problema de Muestreo

- Utilizar preguntas de opcin forzosa

1. Elementos del problema de Muestreo

1. Elementos del problema de Muestreo

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

Muestra aleatoria simple Y1,..., Yn (i.i.d.)

2. Muestreo Aleatorio Simple

( para n > 30)

( para n > 30)

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

LIMITE DEL ERROR DE

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

2. Muestreo Aleatorio Simple

LIMITE DEL ERROR DE

2. Muestreo Aleatorio Simple

3. Muestreo Aleatorio Estratificado

N i = tamao del estrato

ni = tamao de la muestra del estrato i

i = media poblacional del estrato i

y i = media muestral del estrato i

i = total poblacional del estrato i

Si2 = varianza muestral del estrato i

ci = coste de una observacin del estrato i

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

Resuelve complicaciones en la asignacin para varias mediciones muestrales

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

3. Muestreo Aleatorio Estratificado

5730 + 2080 7810

4. Muestreo con informacin auxiliar

Variable bajo estudio

Variable que proporciona la informacin auxiliar