Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TCNICAS
PARA EL ANLISIS DEL MERCADO
TEORA, EJERCICIOS Y PRCTICAS
APUNTES:
1. Elementos del problema de muestreo. . . . . . . . . . . . . . . . . . . . . . . .
1.1 Definiciones bsicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Seleccin de la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Errores de muestreo. . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2 Errores de no muestreo. . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Mtodos de recoleccin de datos. . . . . . . . . . . . . . . . . . . . . . . .
1.5 Diseo del cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Planificacin de la encuesta. . . . . . . . . . . . . . . . . . . . . . . . . .
1.7 Razones para el uso del muestreo. . . . . . . . . . . . . . . . . . . . . . .
11
11
12
13
13
15
16
16
16
17
18
23
23
24
25
27
30
38
38
39
42
43
43
44
44
50
52
63
63
64
65
68
69
70
71
72
72
74
18
19
19
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
5. Muestreo sistemtico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas. . . . . . . . . . . . .
5.2 Estimacin de la media, proporcin y total poblacionales. . . . . . . . . . .
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas,
aleatorias y peridicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
82
84
86
88
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
92
92
92
92
97
98
108
108
109
8. Anlisis cluster. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1 Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Medidas de similaridad. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2.1 Medidas de similaridad para variables mtricas. . . . . . . . . . . .
8.2.2 Medidas de similaridad para datos binarios. . . . . . . . . . . . . .
8.3 Estandarizacin de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Formacin de grupos: Clusters jerrquicos y clusters no jerrquicos. . . . .
8.4.1 Clusters jerrquicos. . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.2 Clusters no jerrquicos. . . . . . . . . . . . . . . . . . . . . . . . .
8.5 Eleccin entre los distintos tipos de anlisis cluster. . . . . . . . . . . . . .
117
117
118
120
121
122
125
125
132
136
9. Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.1 Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1. Componentes principales a partir de variables estandarizadas . . . .
137
137
138
145
110
112
112
114
EJERCICIOS:
Ejercicios del captulo 2.
Ejercicios del captulo 3.
Ejercicios del captulo 4.
Ejercicios del captulo 5.
Ejercicios del captulo 6.
Ejercicios del captulo 7.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
156
162
173
183
186
196
200
202
PRCTICAS:
Introduccin al SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
204
Prctica 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Prctica 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
FORMULARIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
239
INFORMACIN GENERAL
Licenciatura: Administracin y Direccin de Empresas
Carcter: Optativo
Crditos: 6
Periodo lectivo: Segundo cuatrimestre
Departamento: Mtodos Cuantitativos para la Economa y la Empresa
Objetivos de la Asignatura:
o Completar los conocimientos previos de estadstica con el estudio de nuevas tcnicas
de muestreo en poblaciones finitas y anlisis multivariante, dotando al alumno de las
herramientas estadsticas e informticas necesarias para poder abordar la resolucin de
supuestos prcticos.
o La asignatura es de tipo terico-prctico. Se considera fundamental la comprensin de
los conceptos, la capacidad de eleccin del mtodo en la resolucin de los problemas
prcticos que se planteen, la solucin de dichos problemas mediante la hoja de clculo
Excel y el paquete estadstico SPSS as como la interpretacin de los resultados.
o Una hora de clase a la semana ser en el aula de informtica donde se utilizarn los
programas Excel y SPSS.
Sistema de Evaluacin:
En cualquiera de las convocatorias de examen de esta asignatura se realizarn dos
pruebas, una escrita (valorada en al menos el 70% de la calificacin) y otra con
ordenador (valorada como mximo en el 30% de la calificacin). Siendo necesario un
mnimo del 35% de la calificacin en cada una de estas dos partes, para realizar la
media ponderada entre ambas calificaciones y as obtener la calificacin global. En
ambas pruebas los alumnos podrn utilizar el formulario (con todas las expresiones
utilizadas en la asignatura), dicha informacin se facilitar por internet y/o en la
fotocopiadora del centro. Tambin se permite el uso de calculadora no programable en
la prueba escrita.
Los alumnos que renan determinados requisitos de seguimiento de la asignatura, que
oportunamente se expondrn en clase, sern evaluados mediante exmenes previos a la
convocatoria oficial de Junio. La superacin en estos exmenes de la prueba escrita y/o
con ordenador eximir de la realizacin del examen final (escrito y ordenador) o de
alguna de las pruebas en la convocatoria de Junio (no se guardar el aprobado en la
parte escrita o con ordenador para posteriores convocatorias: Septiembre, )
TEMARIO
1. Elementos del problema de muestreo.
1.1 Definiciones bsicas.
1.2 Seleccin de la muestra.
1.3 Fuentes de error.
1.3.1 Errores de muestreo.
1.3.2 Errores de no muestreo.
1.4 Mtodos de recoleccin de datos.
1.5 Diseo del cuestionario.
1.6 Planificacin de la encuesta.
1.7 Razones para el uso del muestreo.
2. Muestreo aleatorio simple.
2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas aleatorias.
2.2 Muestreo aleatorio simple en poblaciones infinitas.
2.2.1 Media, varianza y proporcin muestrales: Propiedades. Error de
estimacin.
2.2.2 Estimacin puntual. Intervalos de confianza. Contrastes de hiptesis.
2.2.3 Determinacin del tamao muestral.
2.3 Muestreo aleatorio simple en poblaciones finitas.
2.3.1 Estimacin de la media, proporcin y total poblacionales.
2.3.2 Determinacin del tamao muestral.
3. Muestreo aleatorio estratificado.
3.1 Seleccin de una muestra aleatoria estratificada.
3.2 Estimacin de la media, proporcin y total poblacionales.
3.3 Determinacin del tamao muestral.
3.4 Asignacin de la muestra.
3.4.1 Asignacin ptima.
3.4.2 Asignacin de Neyman.
3.4.3 Asignacin proporcional.
3.5 Estratificacin despus de seleccionar la muestra.
4. Muestreo con informacin auxiliar.
4.1 Introduccin.
4.2 Estimacin de razn.
4.2.1 Estimacin de la media y total poblacionales.
4.2.2 Determinacin del tamao muestral.
4.3 Estimacin de regresin.
4.3.1 Estimacin de la media y total poblacionales.
4.3.2 Determinacin del tamao muestral.
4.4 Estimacin de diferencia.
4.4.1 Estimacin de la media y total poblacionales.
4.4.2 Determinacin del tamao muestral.
5. Muestreo sistemtico.
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas.
5.2 Estimacin de la media, proporcin y total poblacionales.
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y peridicas.
7
Bibliografa:
Scheaffer, Mendehall y Ott (2006). Elementos de muestreo. International Thomson Editores.
Palacios, F. Callejn, J. (2004). Tcnicas Cuantitativas para el Anlisis Regional. Editorial
Universidad de Granada. Manuales Ciencias Econmicas y Empresariales.
Fernndez Garca, Mayor Gallego (1995). Ejercicios y prcticas de muestreo en
poblaciones finitas. EUB.
Lohr, S.L. (1999). Muestreo: Diseo y Anlisis. International Thomson Editores
Luque, T. (2000). Tcnicas de Anlisis de Datos en Investigacin de Mercados. Pirmide.
Hair, J. F. (2001). Anlisis Multivariante. Prentice-Hall.
Pea, D. (2002). Anlisis de Datos Multivariantes. McGraw-Hill.
Uriel, E. Alds, J. (2005). Anlisis Multivariante Aplicado. International Thomson Editores.
Informacin en la WEB:
En la pgina web de la Universidad (www.ugr.es/local/jhermoso) se facilitar informacin a
los alumnos sobre:
Profesores que imparten la asignatura, despacho, correo electrnico, horario de
tutoras...
Programa de la asignatura
Bibliografa
Apuntes de clase
Relaciones de ejercicios
Prcticas de ordenador
Sistema de evaluacin
Fechas de exmenes
Calificaciones
Revisin de exmenes
Cualquier otra informacin que se considere importante.
10
El objetivo fundamental de la estadstica es hacer inferencia acerca de una poblacin con base
en la informacin contenida en una muestra representativa.
La informacin obtenida de las encuestas por muestreo afecta a casi todos los aspectos de
nuestra vida: IPC, audiencia de televisin, intencin de voto,... Un rea particular de actividad
comercial que depende de las tcnicas de muestreo es el anlisis de mercados. Decisiones
sobre qu producto comercializar, cundo, dnde, cmo anunciarlo son frecuentemente
tomadas sobre la base de la informacin de encuestas por muestreo.
P B = 1
,0 < <1
donde
13
A continuacin veremos que forma tiene B bajo distintas hiptesis sobre el estimador:
B
B
= P
Z
= 1
donde Z =
B
N (0,1) . Por tanto,
= z (podemos obtenerlo en una tabla de
1
2
. Como
se puede observar, el lmite del error de estimacin depender del nivel de confianza y
de la desviacin tpica del estimador (esto ltimo depender de la variabilidad de la
muestra y del tipo de muestreo).
Tomando una confianza del 95% el lmite del error de estimacin ser:
B = z 0,975 = 1,96 2 . Entonces
P 2 = 0,95
Es decir, con una confianza del 95%, el lmite del error de estimacin es dos veces la
desviacin tpica del estimador. (En muchos textos se denomina error tpico a la
desviacin tpica del estimador)
()
1
P E k 1 2
, k 1
2
Luego, con una confianza mayor del 75%, el lmite del error de estimacin es dos
veces la desviacin tpica del estimador.
Resumiendo, el lmite del error de estimacin es dos veces la desviacin tpica del estimador
con una confianza del 95% si el estimador tiene distribucin Normal y con una confianza
14
mayor del 75% si no tiene esa distribucin. Adems, si el tamao muestral es mayor que 30,
los estimadores que usaremos tendrn una distribucin aproximadamente Normal, en virtud
del Teorema central del lmite.
P B = P B B = P B + B = 1
el verdadero valor del parmetro se encuentra entre los extremos del intervalo B, + B
Un entrevistador puede leer mal las preguntas o anotar las respuestas de manera
equivocada.
La formulacin y el orden de las preguntas tiene un gran efecto sobre las respuestas
obtenidas.
15
2. Recompensas e incentivos.
3. Entrevistadores adiestrados.
4. Verificacin de datos.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
Evitar preguntas que induzcan al entrevistado a decir lo que usted quiere escuchar.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
3. El marco.
4. Diseo del muestreo.
5. Mtodo de recoleccin de datos.
6. Instrumentos de recoleccin de datos.
7. Seleccin y preparacin de investigadores de campo.
8. Prueba piloto.
9. Organizacin del trabajo de campo.
10. Organizacin de la administracin de datos.
11. Anlisis de los datos.
(Vase los anteriores puntos desarrollados con mayor detalle en Scheaffer, Mendehall y Ott
(2006). Elementos de muestreo. International Thomson Editores.)
17
2.1 Seleccin de una muestra aleatoria simple. Nmeros aleatorios. Rutas aleatorias.
Si cada muestra posible de tamao n tiene la misma probabilidad de ser seleccionada, el
procedimiento de muestreo se denomina muestreo aleatorio simple y a la muestra as
seleccionada se le llama muestra aleatoria simple.
En el muestreo aleatorio con reemplazamiento el comportamiento de cada observacin da
lugar a variables aleatorias independientes e idnticamente distribuidas.
El muestreo aleatorio sin reemplazamiento da lugar a variables aleatorias donde sus
distribuciones marginales (no as las condicionadas) son idnticamente distribuidas pero falla
la hiptesis de independencia.
Si el nmero de elementos de la poblacin es muy grande (poblaciones infinitas) la anterior
distincin es irrelevante.
En poblaciones finitas, muestrear un mismo elemento dos veces no proporciona ms
informacin. Por ello, en general, en poblaciones finitas se prefiere el muestreo sin
reemplazamiento.
En la prctica, la condicin de que cada muestra tenga la misma probabilidad de ser
seleccionada se traduce en que cada elemento tenga la misma probabilidad de pertenecer a la
muestra. Para ello la seleccin de cada elemento de la muestra se hace sobre la base de un
sorteo completamente aleatorio. Para facilitar la obtencin de los resultados de ese sorteo
aleatorio existen lo que se conoce como tablas de nmeros aleatorios y que, junto con otras
tablas, suelen aparecer en un apndice al final de muchos libros de estadstica. Cada vez ms,
estas tablas de nmeros aleatorios son sustituidas por la generacin de nmeros aleatorios
mediante programas de ordenador (Excel, SPSS,...). Para asociar el valor de esos nmeros
aleatorios con los elementos de la poblacin necesitamos que sta est numerada, en caso
contrario deberamos formar una lista y numerarla. Esto ltimo, en muchos casos, no es tan
sencillo. Una alternativa a la formacin de una lista numerada para la seleccin mediante
nmeros aleatorios de los elementos de la muestra es el mtodo de las rutas aleatorias. Segn
18
este mtodo cada nmero aleatorio o grupo de nmeros aleatorios describe el camino hasta el
elemento de la muestra. Veamos cmo se aplicara este mtodo con un sencillo ejemplo:
Se ha seleccionado el nmero aleatorio 11071032, las dos primeras cifras (11) indican el
distrito de la ciudad, las dos siguientes (07) la calle del distrito, las dos siguientes (10) el
nmero de la calle, la siguiente (3) la planta del edificio y la ltima (2) la letra B de dicha
planta.
En muchos casos para llevar a cabo este procedimiento se recurre a la gua telefnica,
sobretodo si la entrevista es por telfono, as el nmero aleatorio 7836 podra interpretarse
como que se selecciona la pgina 78 de la gua y dentro de sta al abonado del telfono que
aparece en el lugar 36 de dicha pgina.
19
y=
1 n
yi
n i =1
Un valor aislado y del estimador revela poco acerca de la media poblacional, deberamos
evaluar tambin su bondad.
Este estimador tiene propiedades deseables como ser insesgado y tener mnima varianza
( )
( )
E y =
V y =
2
n
1 n
yi y
n 1 i =1
S2
n
Cuando las variables Y, Y1, ..., Yn son dicotmicas, slo toman dos valores (0 y 1), su media
representa una proporcin y se nota como p y el estimador de la misma, la proporcin
muestral, por p
p=
1 n
yi ,
n i =1
yi = 0, 1
Este estimador, como media muestral que es, tiene las mismas propiedades mencionadas
antes.
La varianza de la poblacin es en este caso 2 = pq , donde q=1-p. Como antes, el estimador
insesgado de la varianza es la cuasivarianza muestral que para este tipo de variables es igual a
S2 =
n
pq
n 1
20
2 conocida
N (0,1)
si Y N ( , 2 )
2 desconocida
y
tn 1 N (0,1)
S
n
y
N (0,1)
S
n
p p
pq
n
p p
n pq
n 1 n
p p
N (0,1)
pq
y= p
n 1
Todo lo anterior puede resumirse diciendo que la media muestral (de variables numricas, y ,
o dicotmicas, p ) sigue o se puede aproximar, si el tamao de la muestra es suficientemente
grande, por una distribucin normal. De forma que podemos conocer la probabilidad de que
dicha variable tome determinados valores, por ejemplo (tomando una de las anteriores
expresiones de la media muestral tipificada, siendo vlido lo que sigue tambin para las otras)
y
P 1, 96
1, 96 = 0,95
n
o en un caso ms general
y
P Z
Z = 1
2
2
n
=nivel de significacin
1-=nivel de confianza
Para un nivel de confianza del 95% (el ms habitual) se suele redondear el anterior valor
1,962
P 2
y 2
= 0, 95 P y 2
= 0, 95
n
n
n
21
puede estar cometiendo, con una confianza del 95%. En la prctica se estima por 2
S
.
n
La segunda lectura:
Py 2
y+2
= 0, 95
n
n
expresa la confianza que tenemos de que el verdadero valor del parmetro se encuentre
P X k 1
1
k2
P y 2
1 4 = 0, 75
n
P y 2
= 0, 95
n
salvo que en este caso lo ms que podemos asegurar es que la probabilidad de que
y 2
22
es mayor de 0,75.
,y+2
y2
n
n
En ocasiones se quiere contrastar con los valores observados en una muestra la posibilidad de
que el verdadero valor de un parmetro de la poblacin sea un determinado valor, por
ejemplo, se quiere contrastar la hiptesis nula H 0 : = 0 con un nivel de significacin del
5%. Lo anterior equivale a comprobar si
0 y 2
S
S
,y+2
n
n
2
n
= B2 n =
2
B2
4
2
D
, D=
B2
4
pq
,
D
D=
B2
4
Ejemplo 2.1. (ejercicio 13, relacin tema 2) Un hipermercado desea estimar la proporcin de
compras que los clientes pagan con su Tarjeta de Compras. Durante una semana observaron
al azar 200 compras de las cuales 35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas con dicha tarjeta.
23
b) Cuantas compras deberan observarse para estimar, con un error inferior al 3%, la
proporcin de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Si no se tuviera ninguna informacin acerca de los clientes que utilizan la tarjeta, cuntas
compras deberamos observar para asegurar que la anterior estimacin se realiza con un
error inferior al 3%.
d) Este mismo hipermercado desea estimar tambin el valor medio de las compras
realizadas con su Tarjeta de Compras. Basndose en los anteriores datos se observa que
el valor total de las compras hechas con la tarjeta fue de 5.600 (siendo la cuasivarianza
de los datos 625). Estime el valor medio de las compras pagadas con la tarjeta y el error
de estimacin asociado.
Solucin:
a)
p=
1 n
35
= 0,175
yi =
200
n i =1
q = 1 0,175 = 0,825
n = 200
V ( p) =
pq
= 0, 000726
n 1
p (12,11% , 22,89% )
B = 2 V ( p) = 0,0539
b)
B = 0, 03
B2
D=
= 0, 000225
4
n=
pq
= 641, 6 642
D
c)
B = 0, 03
D=
B2
= 0, 000225
4
p = q = 0,5
n=
pq
= 1111,1 1112
D
d)
n = 35
S 2 = 625
V ( y) =
S 2 625
=
= 17,8571
n
35
y=
1 n
5600
yi =
= 160
35
n i =1
B = 2 V ( y ) = 8, 45
24
=y=
( )
E y =
( )
V y =
2 N n
n N 1
N
2
N 1
N 1 2
E
S =2
N
N
n N 1 n N
( )
S2
expresin igual a la del caso de poblaciones infinitas, V ( y ) =
, salvo el coeficiente
n
N n
1
N = 5% N . En muchos casos N no est claramente definido o se desconoce, pero si
20
N n
N se supone suficientemente grande el c.p.f. se omite,
1.
N
Para calcular el lmite para el error de estimacin , con un 95% de confianza, se halla
25
= N y =
N
n
= N utilizaremos el estimador
y
i =1
( X e Y incorreladas )
Varianza estimada de
S2 N n
S2
V ( ) = V ( N y ) = N 2 V ( y ) = N 2
= N ( N n)
n N
n
Como en el caso de la media, el lmite para el error de estimacin con una confianza del 95%
est dado por 2 V ( ) . Valiendo comentarios anlogos a los hechos anteriormente.
En lo sucesivo se dar el valor de la varianza del estimador para los distintos tipos de
muestreo, omitindose, para no repetirnos ms, la referencia al lmite para el error de
estimacin.
Ejemplo 2.2. (ejercicio 1, relacin tema 2) Un auditor examina las cuentas abiertas con
diferentes clientes de una empresa. Suponga que existen 1.000 cuentas de las cuales se
examinan 300. La media muestral de las cuentas fue y = 1.040 y la varianza muestral
Solucin:
V ( y) =
2 V ( y ) = 2 105 = 20, 49
26
1 n
yi ,
n i =1
p=
yi = 0, 1
n pq
, es igual a
n 1
S2 N n
pq N n
=
n N
n 1 N
= N p
2 V ( ) = N 2 V ( p)
Ejemplo 2.3. (ejercicio 2, relacin tema 2) Se toma una muestra aleatoria simple de 100
estudiantes de un centro con 900 estudiantes para estimar
Sean yi , zi
yi = 70
Segn la muestra
i =1
100
z
i =1
= 25
Solucin:
100
p1 =
V ( p1 ) =
y
i =1
100
100
= 0, 70 (70%)
p1 q 1 N n
= 0,0018855
n 1 N
2 = N p 2 = 900 0, 25 = 225
p2 =
z
i =1
100
V ( p2 ) =
= 0, 25 (25%)
p 2 q 2 N n
= 0, 0016835
n 1 N
27
( )
B2
2 V ( y) = B V y =
=D
4
V ( y) =
2 N n
n N 1
=D n=
N 2
( N 1) D + 2
Para estimar el total poblacional con un lmite para el error de estimacin B, dado que
B2
2 V ( ) = N 2 V ( y ) = B , se llega a la misma expresin de n pero con D =
4N 2
En la prctica la varianza poblacional 2 es desconocida. Si disponemos de S 2 de un estudio
anterior podemos obtener el valor de n sustituyendo en la anterior expresin 2 por S 2 ,
N 1 2
2
S .
aunque la estimacin insesgada de es
N
Si no se dispone de informacin previa para estimar la varianza podemos usar que en variables
normales el rango de la muestra es aproximadamente cuatro veces su desviacin tpica
R
4
R2
16
Npq
( N 1) D + pq
D=
B2
4
( proporcion)
D=
B2
4N 2
(total )
1
se obtiene un tamao muestral conservador (mayor que el
2
Ejemplo 2.4. (ejercicio 3, relacin tema 2) Encuentre el tamao de muestra necesario para
estimar el valor total de 1.000 cuentas por cobrar con un lmite para el error de estimacin de
10.000. Aunque no se cuenta con datos anteriores para estimar la varianza poblacional pero
se sabe que la mayora de las cuentas caen dentro del intervalo (600, 1.400).
28
Solucin:
B2
10.0002
D=
=
= 25
4 N 2 4 1.0002
N 2
n=
= 615, 62 616
( N 1) D + 2
Si se realizan dos preguntas (o ms) a cada elemento de la muestra, se calcularn los tamaos
muestrales que satisfacen los lmites para el error de estimacin fijados para cada estimacin y
finalmente el mayor de los dos ser el tamao de la muestra que satisface ambos lmites.
Ejemplo 2.5. (ejercicio 4, relacin tema 2) Los alumnos de TAM de una facultad con 3.000
estudiantes desean realizar una encuesta para determinar la proporcin de estudiantes que
estn a favor de hacer los exmenes en sbado con un lmite para el error de estimacin del
10%. La informacin previa disponible indica que el 60% preferan los exmenes en sbado.
Tambin se quiere estimar la proporcin de estudiantes que apoyan al equipo decanal con un
error de estimacin del 5%. Determnese el tamao muestral que se requiere para estimar
ambas proporciones con los lmites de error especificados.
Solucin:
B12 (0,10)2
=
= 0, 0025
4
4
3.000 0, 60 0, 40
Np1q1
=
= 93, 05 94
( N 1) D1 + p1q1 (2.999 0, 0025) + (0, 60 0, 40)
Np2 q2
3.000 0,50 0, 50
=
= 353, 04 354
( N 1) D2 + p2 q2 (2.999 0, 000625) + (0,50 0, 50)
para cumplir con ambos objetivos habra que tomar n=354 con lo que el lmite para el error de
la estimacin de p1 disminuira (con un 95% de confianza) hasta:
2 V ( p1 ) = 2
p1 q 1 N n
0, 60 0, 40 3.000 354
=2
= 0, 0489 ( 4,9%)
n 1 N
353
3.000
o bien la cota del error de estimacin del 10% se tiene con un nivel de confianza mucho
mayor
29
buscando en la tabla de la normal (o con ayuda de la hoja de clculo Excel, ...) la probabilidad
comprendida entre (-4,09 , 4,09) se obtiene 0,99995684, es decir, prcticamente del 100%.
EJERCICIOS RESUELTOS
1. (Ejercicio 19, relacin tema 2) Se selecciona una m.a.s. de 9 compras de clientes de un
centro comercial para estimar el valor medio de las compras por cliente.
VALOR en
33,5 32
52
43
40
41
45
42,5
39
SOLUCIN:
a) = y =
S2 =
33, 5 + ... + 39
= 40,89
9
1
2
2
( 33,5 40,89 ) + ... + ( 39 40,89 ) = 35, 67
9 1
( )
V y =
S2
= 3,963
n
( )
B = 2 V y = 3, 98
S 2 35, 67
c) n = 2 2 =
= 35, 67 36 compras
B
B
1
4
4
2. (Ejercicio 17, relacin tema 2) Se han entrevistado 1.000 vecinos, elegidos aleatoriamente
entre los ms de cien mil habitantes de una ciudad para conocer su opinin sobre los
nuevos impuestos municipales. 655 manifestaron su opinin desfavorable. Estime la
proporcin de vecinos que estn en contra de los nuevos impuestos y establezca el lmite
para el error de estimacin. Se puede afirmar que la mayora de los habitantes estn en
contra?
30
SOLUCIN:
p=
V ( p) =
655
= 0, 655
1.000
p = 65,5%
pq 0, 655 (1 0, 655)
=
= 0, 0002262012
n 1
999
2 V ( p) = 0, 0301 3, 01%
(65,5% 3, 01% , 65, 5% + 3, 01%) = (62, 49% , 68, 51%)
p (62, 49% , 68,51%)
habitantes estn en contra
3. (Ejercicio 18, relacin tema 2) El Centro de Estadstica desea estimar el salario medio de
los trabajadores de los invernaderos de una regin. Se decide clasificarlos en dos estratos,
los que poseen contrato fijo y los que tienen un contrato temporal. El salario de los
contratos fijos est comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los
contratos temporales est comprendido entre 500 y 1.700 euros mensuales. Cul debe ser
el tamao muestral total y su asignacin para que se estime el salario medio de los
contratos fijos con un error inferior a 100 y el salario medio de los contratos temporales
con un error inferior a 120?`
SOLUCIN:
Ri
2.200-1.200=1000
1.700-500=1.200
n1 =
n2 =
12
D1
22
D2
12
2
1
B
4
22
2
2
B
4
Ri
i
4
250
300
i2
62.500
90.000
62.500 62.500
=
= 25
10.000
100 2
4
4
90.000 90.000
=
= 25
14.400
120 2
4
4
n = n1 + n2 = 50
4. (Ejercicio 14, relacin tema 2) Entre todas las oficinas bancarias de una pequea ciudad se
tienen concedidos 2000 prstamos hipotecarios. Existen razones para pensar que el
prstamo hipotecario de menor cuanta es de algo ms de 1200 euros, siendo de casi 11000
31
euros el de mayor cuanta. cul es el tamao muestral necesario para estimar estos dos
parmetros:
-
SOLUCIN:
N = 2.000
D=
n=
R
= 2450 2 6.002.500
4
B 2 4002
=
= 40.000
4
4
N 2
= 139, 65 140
( N 1) D + 2
B 2 0.052
=
= 0, 000625
4
4
Npq
n=
= 333, 47 334
( N 1) D + pq
D=
p = q = 0,5
Para conseguir estimar los dos parmetros con los niveles de error especificados
necesitamos un tamao muestral igual al mximo de 140 y 334. n = 334 .
5. (Ejercicio 15, relacin tema 2) Se desea estimar el salario medio de los empleados de una
empresa y la proporcin de empleados que apoyan a la actual directiva. La empresa tiene
110 empleados y se sabe que el salario est comprendido entre los 1500 y 1800 euros
mensuales. Cul debe ser el tamao muestral para que al estimar el salario medio la cota
de error se site en 10 euros y al estimar la proporcin de los que apoyan a la actual
directiva el error mximo cometido sea del 2%?
SOLUCIN:
N = 110 R = 1.800 1.500 = 300
D=
R
= 75 2 5625
4
B 2 102
=
= 25
4
4
N 2
n=
= 74,1 75
( N 1) D + 2
D=
32
B 2 0.022
=
= 0, 0001
4
4
p = q = 0,5
n=
Npq
= 105, 4 106
( N 1) D + pq
6. (Ejercicio 16, relacin tema 2) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 5 de las 25 inscritas en el registro mercantil. El nmero de bajas en el ltimo
ao, el nmero de empleados y la respuesta de cada empresa sobre si utilizara los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. Calcule el
lmite para el error de estimacin.
b) Estime el nmero de empresas que usaran los servicios ofertados. Calcule el lmite
para el error de estimacin.
SOLUCIN:
a) N = 25
n=5
14
= 2,8 = N y = 70
y=
5
S2
12, 7
= 25 20
= 1270
V ( ) = N ( N n)
n
5
B = 2 V ( ) = 71, 2741
Nota: este apartado podr resolverse de otra forma cuando estudiemos el muestreo por
conglomerados. Vase ejercicio 10 de la relacin del captulo 6)
b)
2
= 0, 4 = N p = 10
5
pq
0, 24
V ( ) = N ( N n)
= 25 20
= 30
n 1
4
B = 2 V ( ) = 10,9545
p=
7. (Ejercicio 21, relacin tema 2) El consumo medio de combustible de los taxis de una
ciudad es 5.6 litros cada 100 Km. Puesto que se considera que el consumo es demasiado
elevado, en 600 taxis se monta un dispositivo para disminuirlo. Pasado cierto tiempo se
33
toma una muestra aleatoria de 20 taxis, elegidos entre los 600 que colocaron el dispositivo.
El consumo en litros de combustible por cada 100 Km. se recoge en la siguiente tabla
Taxi n Consumo Taxi n Consumo Taxi n Consumo Taxi n Consumo
1
5.4
6
6.3
11
3.6
16
5.4
2
5.5
7
5.4
12
6.7
17
4.8
3
6.9
8
5
13
5.2
18
4.7
4
3.9
9
4.5
14
5.1
19
5.8
5
4.5
10
4.4
15
5.4
20
6.2
a) Estmese mediante un intervalo de confianza la proporcin de taxis con un consumo
inferior a 5.6 litros/100 Km.
b) Cuantos taxis deben observarse para estimar la anterior proporcin con un error
menor o igual que un 10%?
SOLUCIN:
a) 15 de los 20 taxis no superan el consumo de 56 litros/100 Km, por tanto
p=
15
= 0 '75
20
V ( p) =
2 V ( p) = 0 '1953
D=
( 0 '10 )
n=
( 55'47% , 94 '53% )
= 0 '0025
Npq
600 0 '75 0 '25
=
= 66 '77 67
( N 1) D + pq ( 599 0 '0025 ) + ( 0 '75 0 '25)
34
SOLUCIN:
yi2
1260,25
1024,00
1849,00
1681,00
1936,00
1806,25
yi
35,50
32,00
43,00
41,00
44,00
42,50
n
y
i =1
= 238,00
i =1
= N y =
2
i
N
n
= 9556,50
y
i =1
100
238=3966,6
6
2
S2 =
1 n
yi y
n 1 i =1
yi
n
yi2 i =1
1
2382
n
= i =1
= 9556,50
= 23,1667
n 1
5
6
2
S
23,1667
2 V ( ) = 2 N ( N n)
= 2 100(100 6)
= 381, 02
n
6
Los anteriores clculos que se han realizado a mano o con ayuda de una calculadora bsica
se simplifican notablemente si utilizamos una calculadora cientfica de uso comn. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadsticas
n = sx
n = sx = desviacin tpica
n 1 = Sx
de forma inmediata.
n 1 = S x = cuasidesviacin tpica
35
51
pq N n
= 0,17 q = 1 p = 0,83 V ( p ) =
= 0, 00044359197 2 V ( p ) = 0, 0421
300
n 1 N
25% (17% 4, 21% ) = (12, 79%, 21, 21% )
luego se rechaza la hiptesis de que en el 25% de los hogares de esa ciudad habita al
menos una persona mayor de 65 aos.
y=
1 n
yi = 5, 26
n i =1
S2 =
1 n
yi y
n 1 i =1
= 2, 563
S2 N n
= 0, 4556
2 V ( y ) = 1,35
INTERV . CONF .: ( 3, 91 min ., 6, 61 min .)
n N
Valores mayores e igual a 6 minutos pertenecen al intervalo de confianza, por tanto no
V ( y) =
11. (Ejercicio 11, relacin tema 2) Con objetivos benficos, una asociacin filantrpica ha
solicitado firmas para una peticin en 700 hojas. Cada hoja tiene espacio suficiente para
40 firmas pero en muchas de las hojas se ha obtenido un nmero menor. Contando el
nmero de firmas por hoja en una muestra aleatoria de 50 hojas se han observado los
siguientes resultados:
50
50
Y = 1.450; Y
i =1
i =1
= 54.496
y=
36
1 n
1450
yi =
= 29
50
n i =1
yi
n
yi2 i =1
n
S 2 = i =1
= 254
n 1
= N y = 20.300
S
V ( ) = N ( N n)
= 2.311.400
n
B = 2 V ( ) = 3.040, 66
37
n = tamao de la muestra
N = Ni
n = ni
i =1
38
i =1
i =1
st = N i y i y la media poblacional =
mediante y st =
1
N
N
i =1
yi
NOTA:
Varianza estimada de y st
1 L 2
1 L 2 Si2 N i ni
N
V
(
y
)
=
Ni
i i N2
N 2 i =1
ni N i
i =1
(se obtiene aplicando las propiedades de la varianza mencionadas en el captulo 2)
V ( y st ) =
Varianza estimada de st
2
L
2
2 S i N i ni
V ( st ) = N V ( y st ) = N i
ni N i
i =1
1
N
N
i =1
pi
Varianza estimada de p st
1 L 2
1 L 2 pi q i N i ni
V ( p st ) = 2 N i V ( pi ) = 2 N i
N i =1
N i =1
ni 1 N i
Estimador del total poblacional
L
st = N p st = N i pi
i =1
39
Varianza estimada de st
L
p q N n
V ( st ) = N 2 V ( p st ) = N i2 i i i i
ni 1 N i
i =1
BARRIO B
20
25
30
14
41
39
BARRIO C
14
22
15
17
21
11
20
14
24
Solucin: en primer lugar se calculan las medias y varianzas muestrales en cada estrato
y1 = 34, 67 horas / semana
y 2 = 28,17 h / s
y = 28, 23
S 2 = 92, 74
A partir de estos valores calculamos las varianzas de los estimadores de la media en cada
estrato y los lmites para los errores de dichas estimaciones
S12 N1 n1
V ( y1 ) =
= 1, 44
n1 N1
S 22 N 2 n2
V ( y2 ) =
= 17, 42
n2 N 2
S32 N 3 n3
V ( y3 ) =
= 1, 99
n3 N 3
2 V ( y1 ) = 2, 40 h / s
2 V ( y 2 ) = 8,35 h / s
2 V ( y 3 ) = 2,82 h / s
Para el conjunto de todos los hogares el estimador de la media es
1 3
Ni y i = 28, 23 h / s
N i =1
y la varianza de este estimador la podemos calcular basndonos en las varianzas de los
y st =
1
N2
N
i =1
2
i
V ( y i ) = 1, 24
o, si se prefiere, utilizando
1 3 2 Si2 N i ni
Ni n N
N 2 i =1
i
i
el error para la estimacin de la media para todos los hogares est dado por
V ( y st ) =
2 V ( y st ) = 2, 22 h / s
7
= 0, 4667
15
p2 =
5
= 0,8333
6
p3 =
6
= 0, 6667
9
1 3 2 pi q i N i ni
Ni n 1 N = 0, 00748
N 2 i =1
i
i
y el intervalo de confianza expresado en porcentajes es
V ( p st ) =
2 V ( p st ) = 0,173
41
1
dado por 2 V ( y st ) = B donde V ( y st ) = 2
N
N
i =1
2
i
i2 N i ni
ni N i 1
No podemos despejar el valor de todos los ni de una sola ecuacin a menos que conozcamos
la relacin entre los ni y n . Hay diversas formas de asignar el tamao muestral n en los
diferentes estratos ni = ni (problema de la asignacin de la muestra que estudiaremos ms
adelante) , sustituyendo lo anterior en V ( y st ) se puede despejar n en funcin de los i
obteniendo el tamao muestral aproximado que se requiere para estimar con un lmite para
el error de estimacin B (aproximado porque se hacen algunas modificaciones como
N i 1 N i , ... para resolver la anterior ecuacin).
L
n=
i =1
N i2 i2
N 2 D + N i i2
i =1
B
D=
4
B2
y la misma expresin vale para el total tomando D =
.
4N 2
Al igual que en el M.A.S. para poder usar la anterior ecuacin necesitamos conocer las
varianzas poblacionales de los estratos o valores aproximados de ellas, para lo cual se pueden
usar las varianzas muestrales de un estudio previo o conocer la amplitud de variacin de las
observaciones dentro de cada estrato.
En el caso de variables dicotmicas se obtiene una expresin similar, teniendo en cuenta que
en este caso particular i2 = pi qi
L
n=
i =1
N i2 pi qi
N 2 D + N i pi qi
i =1
D=
42
B2
B2
(para estimar p) y la misma expresin vale para el total tomando D =
.
4
4N 2
N j j
cj
j =
i =1
N i i
ci
sustituyendo los j en la expresin que obtenamos antes para n se tiene el tamao total de la
muestra segn la asignacin ptima
L
Ni i ci
i =1
n=
i =1
Ni i
ci
N 2 D + N i i2
i =1
Nj
j =
N
i =1
N
n=
i =1
pi qi
ci
L
pi qi ci
i =1
pi qi
ci
N 2 D + N i pi qi
i =1
43
N i i
ci
C
n=
i =1
N
i
i =1
ci
pi qi .
j =
N
i
i =1
( N )
L
n=
i =1
N D + N i i2
2
i =1
Caso dicotmico
j =
N j pjqj
L
N
i =1
( N
pi qi
2
n=
i =1
pi qi
N 2 D + N i pi qi
i =1
A este tipo de asignacin se le denomina de Neyman, que como acabamos de decir coincide
con la asignacin ptima cuando los costes de observacin son iguales en todos los estratos.
Las expresiones de esta asignacin son ms simples que las de la ptima y se utiliza an
cuando los costes de observacin no son idnticos, a veces, sencillamente porque no se
conocen.
44
Caso numrico
Nj
j =
n=
N
i
i =1
ND +
1
N
2
i
N
i
i =1
2
i
Caso dicotmico
Nj
j =
n=
N pq
i
i =1
ND +
1
N
i i
N pq
i =1
i i
45
Nj
N
las variables al no depender de sus varianzas, as si en dos estimaciones para los niveles de
error requeridos tenemos lo siguiente
1 estimacin: n = 100 1 = 0,30 n1 = 30 2 = 0, 70 n2 = 70
2 estimacin: n = 40 1 = 0,30 n1 = 12 2 = 0, 70 n2 = 28
tomando como n el mximo de los dos (o de los k si hay k variables que se observan), se
tiene garantizado que se cumple con los lmites para el error fijados para todas las
estimaciones.
ni N i
=
n N
6
84
=
= 0, 2
30 420
9 126
=
= 0, 3
30 420
1 = S12 = 23, 24
46
2 = S22 = 112,56
3 = S32 = 19, 28
D=
Ni
ci
N i i ci
210
84
126
420
4,8208
10,6094
4,3909
1
3
2
1012,368
2673,5688
1106,5068
4792,4436
N i i
ci
1012,368
297,0632
276,6267
1586,0579
N i i2
4880,4
9455,04
2429,28
16764,72
B2 1
= = 0, 25
4 4
3
N
n=
i =1
Ni i
ci
ci
i =1
N 2 D + N i i2
i =1
N1 1
c
1 = 3 1 = 0, 6383
N i i
ci
i =1
n1 = n1 = 79, 71 80
2 = 0,1873
n2 = n2 = 23,39 24
3 = 0,1744
n3 = n3 = 21, 78 22
n = 80 + 24 + 22 = 126
c) En el supuesto de que se disponga slo de 600 para realizar el estudio
N i i
ci
600
n=
i =1
N
i =1
ci
y los tamaos de la muestra en cada estrato estn dados por la asignacin ptima
n1 = 0, 6383n = 126, 75 126
n2 = 0,1873n = 37,19 37
n = 126 + 37 + 34 = 197
n3 = 0,1744n = 34, 63 34
n=
600
600
=
= 198,57
c11 + c22 + c33 3, 0216
47
pi
qi
N i pi qi
N i pi qi
210
84
126
420
0,4667
0,8333
0,6667
0,5333
0,1667
0,3333
52,2671
11,6685
27,9986
91,9342
104,7669
31,3075
59,3955
195,4699
B 2 0, 052
D=
=
= 0, 000625
4
4
( N
n=
i =1
pi qi
N 2 D + N i pi qi
195, 46992
= 188,98
( 4202 0, 000625) + 91,9342
i =1
n1 = n1 = n
N1 p1q1
= 188,98
N
i =1
anlogamente n2 = 30, 27 31
pi qi
104, 7669
= 101, 29 102
195, 4699
n3 = 57, 42 58
n = 102 + 31 + 58 = 191
b)
Ni
210
84
126
420
pi
0,5
0,5
0,5
qi
0,5
0,5
0,5
N i pi qi
52,5
21
31,5
105
n=
n1 = 204,878
N pq
i =1
1
ND +
N
i i
N pq
i =1
i i
105
105
( 420 0, 000625 ) +
420
210
= 102, 439 103 anlogamente n2 = 40,98 41
420
n = 103 + 41 + 62 = 206
48
= 204,878
n3 = 61, 46 62
Estrato 1
470
510
500
550
Estrato 2
490
500
470
520
550
500
y 2 = 505 S22 = 750
Estrato 3
540
480
500
470
470
Estrato 4
450
560
460
440
580
Estime el consumo anual medio por hogar y fije un lmite para el error de estimacin.
Solucin:
y st =
1
N
N1
= 0, 20
N
i =1
i =1
Ni y i =
N2
= 0,30
N
N3
= 0, 25
N
N4
= 0, 25
N
Ni
y i = ( 0, 20 507, 5 ) + ( 0,30 505 ) + ( 0, 25 492 ) + ( 0, 25 498 ) = 500,5
N
1 20
10010
yi =
= 500,5
n i =1
20
49
4
2
N i Si2
Si2 N i ni
N i2 Si2
N
=
=
=
2
ni N i
ni
i =1
i =1 N
i =1 N ni
4
2
i
1091, 67
2 750
2 870
2 4420
= 0, 202
+ 0, 30
+ 0, 25
+ 0, 25
= 88, 29
4
6
5
5
2 V ( y st ) = 18, 79
Supongamos que el distribuidor hubiera decidido tomar una muestra aleatoria simple de 20
hogares, los mismos 20 de la tabla anterior, entonces el estimador de la media es
y=
1 20
yi = 500, 5
n i =1
que coincide con el estimador del muestreo estratificado por las razones mencionadas
anteriormente, pero la varianza estimada y error de estimacin asociados toman los valores
(se omite el c.p.f.):
S n21 = 1520, 79
V ( y) =
S n21 N n 1520, 79
=
= 76, 04
n
N
20
2 V ( y ) = 17, 44
Se observa que el error de estimacin es menor en el caso del muestreo aleatorio simple, esto
es debido a que el distribuidor no tuvo en cuenta que el consumo vara mucho dentro del
cuarto municipio. Pudo haber obtenido un error menor si hubiera estratificado en base al
tamao de las familias u hogares, esto es, colocando los hogares pequeos en un estrato, los
medianos en otro, ...
Ni
sea conocido para todo i.
N
Obsrvese que en esta situacin los ni son aleatorios, ya que varan de una muestra a otra
aunque n sea fijo. Luego esto no es una muestra aleatoria estratificada en su pleno sentido,
50
pero si
Ni
es conocido y ni 20 i , entonces este mtodo de estratificar despus de la
N
seleccin es casi tan exacto como el muestreo aleatorio estratificado con asignacin
proporcional. Si
Ni
se desconoce o no se puede tener una buena aproximacin de su valor,
N
Ejemplo 3.6 (Ejercicio 17, relacin tema 3) En una ciudad se sabe que el 30% de los hogares
tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de energa (valor en
euros de la factura bimensual) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica
60
5730
200
No elctrica
40
2080
90
Obtenga una estimacin del valor medio de la factura de electricidad en la ciudad. D un
lmite para el error de estimacin.
Solucin: Ya que la proporcin observada de facturas de hogares con calefaccin elctrica
(0,60=60/100) est muy alejada de la proporcin verdadera (0,30), es conveniente la
estratificacin despus de que se ha seleccionado la muestra aleatoria simple. Adems el
procedimiento se justifica pues tanto n1 como n2 superan 20.
y1 =
y st =
1
N
5730
= 95,5
60
i =1
i =1
Ni y i =
V ( y st ) =
1
N2
y2 =
2080
= 52
40
Ni
y i = (0, 30 95,5) + (0, 70 52) = 65, 05
N
2
Ni2
i =1
2
Si2 N i ni
N2 S2 N n
= i2 i i i
ni N i
ni N i
i =1 N
V ( y st ) =
i =1
2
2
2
N i Si2
N i2 Si2
2 200
2 90
=
= 0,30
+ 0, 70
= 159, 225
60
40
N 2 ni
ni
i =1 N
2 V ( y st ) =25,24
A veces este mtodo de estimacin se utiliza para ajustar por no respuesta. Por ejemplo, si
muchos de quienes no respondieron a una muestra aleatoria simple son varones, entonces la
proporcin de varones en la muestra va a ser pequea, y se podra conseguir un estimador
ajustado mediante la estratificacin despus del muestreo.
51
As, en este ejemplo la baja representacin en la muestra de facturas sin calefaccin elctrica y
la alta de facturas con calefaccin elctrica conducen a una sobreestimacin del valor medio
de las facturas si se utiliza m.a.s. y no se ajusta la estimacin de la media con la estraficacin
despus de seleccionar la muestra:
y=
EJERCICIOS RESUELTOS
1. (Ejercicio 10, relacin tema 3) De una ciudad con 350 casas, se sabe que 164 de ellas
tienen calefaccin elctrica. Al realizar una encuesta sobre el consumo de energa (en
kilovatios-hora) se obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Media muestral Cuasivarianza muestral
Elctrica
24
972
202,396
No elctrica
36
463
96,721
a. Obtenga una estimacin del nmero medio de kilovatios-hora utilizado en la
ciudad. D un lmite para el error de estimacin.
b. Obtenga una estimacin del nmero medio de kilovatios-hora utilizado por las
casas que no tienen calefaccin elctrica. D un lmite para el error de
estimacin.
SOLUCIN:
a.
Ni
164
186
350
ni
24
36
Si2
yi
972
463
202,396
96,721
y st =
V ( y st ) =
Ni y i
1
N2
1
N
L
N y
i
i =1
Ni2
i =1
159.408
86.118
245.526
0,854
0,806
245.526
= 701, 50
350
Si2 N i ni 268.624, 45
=
= 2,19
ni N i
3502
2 2,19 = 2,96
52
N i ni
Ni
Si2 N i ni
N
ni N i
193.699,13
74.925,32
268.624,45
2
i
b.
y 2 = 463
V ( y2 ) =
SOLUCIN:
L
C
n=
i =1
N i i
ci
N
i =1
Ni
9.000
1.000
10.000
ci
C
=
i =1
N i
ci
C
=
N
i =1
ci
10
30
ci
i =1
Ni
ci
N i ci
i =1
Ni
ci
C
=
i =1
N
i =1
ci
Ni
ci
N i ci
2.846,05
182,574
28.460,5 2.846,05/3.028,624=0,9397
5.477,226 182,574/3.028,624=0,0603
3.028,624
33.937,726
1,0000
c1n1 + c2 n2 = 20.000
c11n + c22 n = 20.000
9, 397 n + 1,809n = 11, 206n = 20.000
20.000
= 1.784,8 = n
11, 206
Y a partir de n se obtienen n1 y n2 como antes.
53
3. (Ejercicio 12, relacin tema 3) Se desea conocer el nmero de fines de semana que las
familias de una gran ciudad salen fuera de ella. Se sabe que el 425% de las familias tienen
de 0 a 2 hijos, el 30% tienen de 3 a 5 hijos y el 275% tienen ms de 5 hijos. Se realiz un
muestreo segn el nmero de hijos y se pregunt a las familias sobre los fines de semana
que pasan fuera, obtenindose los siguientes datos:
Nmero de hijos ni
yi
S i2
i =1
0-2
25 239 6076
3-5
19 174 6301
Mas de 5
16 78
7824
Estimar el nmero medio de fines de semana que las familias pasan fuera de la ciudad y
dar el lmite de error de estimacin. Omitir el corrector por poblacin finita.
SOLUCIN:
y1 =
y st =
Si
1
N
239
= 9,56
25
i =1
i =1
Ni y i =
y2 =
174
= 9,16
19
y3 =
78
= 4,87
16
Ni
y i = ( 0, 425 9, 56 ) + ( 0, 30 9,16 ) + ( 0, 275 4,87 ) = 8,15
N
N i ni
1
= 1 V ( y st ) = 2
Ni
N
Ni2
i =1
Si2 N i ni
1
= 2
ni N i
N
Ni2
i =1
L
L
Si2
N 2 S2
= i2 i =
ni i =1 N ni i =1
2
N i Si
=
N ni
60, 77
2 63, 01
2 78, 24
= 0, 4252
+ 0,30
+ 0, 275
= 1,107
25
19
16
2 1,107 = 2,1
4. (Ejercicio 6, relacin tema 3) Una compaa de autobuses est planeando una nueva ruta
para dar servicio a cuatro barrios. Se tomaron muestras aleatorias de hogares en cada
barrio y se solicit a los miembros de la muestra que valorasen en una escala de 1
(totalmente opuesto) a 5 (totalmente a favor) su opinin sobre el servicio propuesto. Los
resultados se resumen en la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinin media de los hogares que dispondrn del
nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuntos
perteneceran al barrio 3. (Suponga iguales los costes de observacin)
54
SOLUCIN:
a)
L
N = N i = 1000
y st =
i =1
1
N
Ni y i =3, 725
i =1
B = 2 V ( y st ) = 0,1973
b)
n3 = n3 = 100
N 3 3
= 100
N
i =1
V ( y st ) =
1
N2
Ni2
i =1
Si2 N i ni
= 0, 00973
ni N i
( 3,5277 , 3,9223)
350 1, 2
=
(240 0,8) + (190 0,9) + (350 1, 2) + (220 0, 7)
SOLUCIN:
La asignacin que minimiza la cota del error de estimacin para un coste fijo es la
asignacin ptima.
Usamos que R4 y por tanto estimamos que
Ni
ci
100 16
500 9
700 4
600 = 16n1 + 9n2 + 4n3
ci
4
3
2
( ni = in )
Ri
R
.
4
N i i
ci
600-400 50
360-240 30
130-70 15
1250 01087
5000 04348
5250 04565
11500
1
600 = 17392n + 39132n + 1826n = 74784n
55
n = 600/74784 = 80231
n1 = 1n = 872 8
n2 = 2n = 3488 34 n3 = 3n = 3663 36
pero
6. (Ejercicio 13, relacin tema 3) En una poblacin compuesta por aproximadamente igual
nmero de hombres que de mujeres se desea estimar el gasto medio mensual por habitante
en ocio. Se lleva a cabo la encuesta por telfono mediante una muestra aleatoria simple de
500 nmeros de telfono del citado municipio. Despus de obtenidos los datos se observa
que slo 100 de los encuestados fueron hombres y el resto mujeres. Por ello se decide
llevar a cabo una estratificacin despus de seleccionar la muestra obtenindose los
siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado despus de seleccionar la muestra.
SOLUCIN:
Ni
ni
2.500
2.700
5.200
100
400
500
Si2
yi
120
250
Ni y i
9.000
16.000
y st =
1
V ( y st ) = 2
N
1
N
300.000
675.000
975.000
N y
i =1
N i ni
Ni
0,96
0,85185
N i2
Si2 N i ni
ni N i
540.000.000
248.399.460
788.399.460
975.000
= 187, 5
5.200
Si2 N i ni 788.399.460
N
=
= 29,16
ni N i
5.2002
i =1
L
2
i
2 29,16 = 10,8
7. (Ejercicio 14, relacin tema 3) En una poblacin compuesta por aproximadamente igual
nmero de hombres que de mujeres se desea estimar la proporcin de individuos que ven
un determinado programa de televisin. Se lleva a cabo la encuesta por telfono mediante
56
una muestra aleatoria simple de 300 nmeros de telfono. Despus de obtenidos los datos
se observa que slo 50 de los encuestados fueron hombres y el resto mujeres. Por ello se
decide llevar a cabo una estratificacin despus de seleccionar la muestra obtenindose los
siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporcin de la poblacin que ven el programa de televisin y su cota de error,
mediante muestreo aleatorio estratificado despus de seleccionar la muestra.
SOLUCIN:
12
= 0, 24
50
p1 =
p st =
1
N
N
i =1
pi =
i =1
p2 =
130
= 0,52 q i = 1 p i
250
Ni
p i = ( 0, 50 0, 24 ) + ( 0,50 0,52 ) = 0,38 p st = 38%
N
N i ni
=1
Ni
L
L
p q N n
p q
1 L
1 L
N 2 p q
V ( p st ) = 2 N i2 i i i i = 2 N i2 i i = i2 i i =
N i =1
ni 1 N i
N i =1
ni 1 i =1 N ni 1 i =1
Si
2
N i p i q i
=
N ni 1
0, 24 0, 76
2 0,52 0, 48
= 0,502
+ 0,50
= 0, 0011812146
49
249
2 V ( p st ) = 0, 0687 6,87%
8. (Ejercicio 15, relacin tema 3) Una corporacin desea estimar el nmero total de horas
perdidas debido a accidentes de sus empleados, en un determinado mes. Ya que los
obreros, tcnicos y administrativos tienen diferentes tasas de accidentes, la corporacin
decide usar muestreo estratificado, formando con cada grupo un estrato. Datos de aos
previos sugieren las cuasivarianzas mostradas en la siguiente tabla para el nmero de horas
perdidas por empleado en los tres grupos, y de datos actuales se obtienen los tamaos de
los estratos. No habiendo diferencia entre los costes de observacin de cada grupo,
determine la mejor asignacin para una muestra de 40 empleados.
Obreros
Tcnicos
Administrativos
Si2
36
25
Ni
132
92
27
57
SOLUCIN:
Ni
132
i Si
6
N i i
792
i
792
1.333
= 0,5941
= 0,3451
1.333
81
= 0, 0608
27
3
81
1.333
1.333
1
Donde se ha aplicado la asignacin de Neyman al ser los costes de observacin iguales:
92
j =
N j j
n1 = 40 0,5941 = 23,8 24
n2 = 40 0, 3451 = 13,8 14
N
i
i =1
460
460
n3 = 40 0, 0608 = 2, 4 2
n = 40
ci
q i
pi
p i q i
N i p i q i
ci
5.000
0,90
0,10
0,3
500
2.000
0,55
0,45
0,4975
199
3.000
0,70
0,30
0,45826
343,695
1.042,695
500
1.042, 695
= 0, 4795
= 0,1909
1.042, 695
343, 695
= 0,3296
1.042, 695
1
199
j =
N
i =1
p jq j
cj
pi qi
ci
10. (Ejercicio 19, relacin tema 3) La produccin de piezas de una factora se realiza en dos
mquinas. El 40% de las piezas las produce la mquina A y el 60% restante la mquina B.
Se les pas control de calidad a 200 piezas; 67 producidas por la mquina A y dos de ellas
resultaron defectuosas; las 133 restantes procedan de la mquina B, siendo 6 de ellas
defectuosas. Estimar la proporcin de piezas defectuosas de la factora y dar el lmite de
error de estimacin. Omita el coeficiente corrector por poblacin finita.
58
SOLUCIN:
p=
Estrato
Ni
ni
pi
A
B
0.40 N
0.60 N
N
67
133
200
2/67=0.030
6/133=0.045
p i q i
ni 1
0.000441
0.000326
1
( ( 0.40 N 0.030 ) + ( 0.60 N 0.045) ) = ( ( 0.40 0.030 ) + ( 0.60 0.045) ) = 0.039
N
( )
( 3.9% )
1
0.402 N 2 0.000441) + ( 0.602 N 2 0.000326 ) =
2 (
N
= ( 0.402 0.000441) + ( 0.602 0.000326 ) = 0.000188
V p =
B = 2 0.000188 = 0.0274
( 2.74% )
11. (Como ejercicio 3, relacin tema 3) Una inspectora de control de calidad debe estimar la
proporcin de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operacin de ensamble A y 40% de la operacin
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operacin A y 80 de la operacin B. De entre los circuitos integrados
muestreados de la operacin A, 3 son defectuosos. De entre las piezas muestreadas de la
operacin B, 13 son defectuosas. Estime la proporcin de los defectuosos en la poblacin,
y fije un lmite para el error de estimacin.
SOLUCIN
Ni
3
13
p i = 0, 60 + 0, 40 = 0,155 (15,5% )
20
80
i =1
i =1 N
2
L
L
N i p i q i
1 L 2 p i q i N i ni
N i2 p i q i
V ( p st ) = 2 N i
= 2
=
=
N i =1
ni 1 N i
i =1 N ni 1
i =1 N ni 1
p st =
1
N
Ni pi =
= ( 0, 60 )
0,15 0,85
2 0,1625 0,8375
+ ( 0, 40 )
= 0, 00267
19
79
2 V ( p st ) = 0,103
(10, 3% )
59
S1 = 1, 4142
S12 = 2
S 22 = 8
S3 = 1,8257
Ni
2
i
S32 = 3, 3333
N i i
N i
j =
2
i
N j j
N
i =1
300
500
200
1,4142
2,8284
1,8257
2
8
3,3333
N = 1000
424,26
1414,2
365,14
600
4000
666,66
2203,6
5266,66
n=
13, 79 14
45,99 46
11,87 12
n = 72
( N )
i =1
0,1925
0,6418
0,1657
B2
250.000
=
= 0, 0625
D=
2
4N
4.000.000
ni = 71, 66i
= 71, 66
N D + N i
2
i =1
2
i
13. (Ejercicio 3, relacin tema 3) Una inspectora de control de calidad debe estimar la
proporcin de circuitos integrados de ordenador defectuosos que provienen de dos
diferentes operaciones de ensamble. Ella sabe que de entre los circuitos integrados que van
a ser inspeccionados, 60% procede de la operacin de ensamble A y 40% de la operacin
de ensamble B. En una muestra aleatoria de 100 circuitos integrados resulta que 20
provienen de la operacin A y 80 de la operacin B. De entre los circuitos integrados
muestreados de la operacin A, 2 son defectuosos. De entre las piezas muestreadas de la
operacin B, 16 son defectuosas.
a. Considerando nicamente la muestra aleatoria simple de 100 circuitos
integrados, estime la proporcin de los defectuosos en el lote, y establezca un
lmite para el error de estimacin.
60
18
pq
= 0,18 (18%) V ( p ) =
= 0, 001491 2 V ( p ) = 0, 0772
100
n 1
b. p st =
1
N
i =1
i =1
Ni pi =
1
V ( p st ) = 2
N
Ni
2
16
p i = 0, 60 + 0, 40 = 0,14
N
20
80
L
L
p i q i N i ni
N i2 p i q i
N
= 2
=
ni 1 N i
i =1
i =1 N ni 1
i =1
= ( 0, 60 )
2
i
( 7, 72% )
(14% )
2
N i p i q i
=
N ni 1
0,10 0,90
2 0, 20 0,80
+ ( 0, 40 )
= 0, 00203
19
79
2 V ( p st ) = 0, 0901
( 9, 01% )
14. (Ejercicio 4, relacin tema 3) Una cadena de restaurantes tiene 100 establecimientos en
Madrid, 70 en Barcelona y 30 en Sevilla. La direccin est considerando aadir un nuevo
producto en el men. Para contrastar la posible demanda de este producto, lo introdujo en
el men de muestras aleatorias de 10 restaurantes de Madrid, 5 de Barcelona y 5 de
Sevilla. Usando los ndice 1, 2 y 3 para designar Madrid, Barcelona y Sevilla,
respectivamente, las medias y las desviaciones tpicas muestrales del nmero de pedidos
de este producto recibidos por restaurante en las tres ciudades durante una semana fueron:
y1 = 21, 2
S1 = 12
y2 = 13, 3
S 2 = 11
y3 = 26,1
S3 = 9
61
1
N
N y
i
i =1
1
N2
N
i =1
2
i
3834
= 19,17 pedidos / semana
200
Si2 N i ni
= 6, 2965
ni N i
2 V ( y st ) = 5, 02 pedidos / semana
b.
Ni
2
i
N i i
N i
j =
2
i
N j j
N
i =1
100
70
30
12
11
9
144
121
81
N = 200
1200
770
270
14400
8470
2430
2240
25300
n=
1
i
= 43,52
N D + N i
2
i =1
62
( N )
i =1
0,5357
0,3438
0,1205
B2 9
D=
= = 2, 25
4 4
ni = 43, 52i
2
i
23, 31 24
14,96 15
5, 24 6
n = 45
4.1 Introduccin.
Si entre dos variables existe una fuerte relacin es posible utilizar la informacin auxiliar que
de una de las variables se tenga, como puede ser la media o el total poblacional, para estimar
la media o el total de la otra variable. Esta circunstancia es importante cuando se pretende
estimar el total sin conocer el nmero de elementos de la poblacin y s el valor total de la
variable que proporciona la informacin auxiliar
Denotemos por
Y Variable bajo estudio
X Variable que proporciona la informacin auxiliar
(x1 , y1 ),..., ( x n , y n )
A travs de los datos muestrales se puede estimar la relacin existente entre ambas variables.
Distintos diseos de muestreo pueden utilizarse con la estimacin con informacin auxiliar.
Aqu suponemos que el muestreo que se emplea es el aleatorio simple
Ejemplo 4.1. Ya que existe una fuerte relacin entre renta y ahorro, se puede estimar el valor
total de los ahorros de los empleados de una empresa si se conoce el valor total de las rentas
de dichos empleados. Por ejemplo, si se estima que, por termino medio, el 10% de la renta se
dedica al ahorro y si se conoce la renta total, el ahorro total se estima igual a la dcima parte
del total de la renta. Observemos que esto se puede llevar a cabo sin necesidad de conocer el
nmero de empleados de la empresa.
Estimadores de razn ( y = bx )
63
Estimadores de regresin ( y = a + bx )
Estimadores de diferencia ( y = a + x )
Cualquiera de estos estimadores slo se debe utilizar si entre las dos variables existe una
fuerte relacin lineal positiva ( rxy >
1
).
2
y
x
x = N x , obtenemos
R=
Y
X
y = R x
y = R x
Por tanto, si se conocen los valores de la media y el total de la variable X , entonces para
estimar la media y el total de Y slo hay que estimar el valor de R (que notaremos como
R = r ):
y = r x
y = r x
Puesto que la razn R es el cociente entre las medias poblacionales, tomando una muestra
aleatoria simple: ( y1 , x1 ),..., ( y n , x n ) , podemos estimar R tomando el cociente entre las
medias muestrales:
64
ESTIMADOR DE LA RAZN:
VARIANZA ESTIMADA DE r :
1 n
yi
y n
i =1
r= =
=
x 1 n
xi
n i =1
y
i =1
n
x
i =1
1 S2 N n
1 n
2
V (r ) = 2 r
,
( yi rxi )2
S
=
x n N
n 1 i =1
( y = bx,
ESTIMADOR DE LA MEDIA:
y = r x
VARIANZA ESTIMADA DE y :
S r2 N n
2
V ( y ) = x V (r ) =
n N
y = r x
VARIANZA ESTIMADA DE y :
x2 S r2 N n
2
V ( y ) = x V (r ) = 2
x n N
N n
0,95 , entonces
N
N n
1 . (Vase ejercicio resuelto 4)
N
De la relacin x =
x
N
tercero.
65
3.840 hectreas. Se realiz un sorteo entre los socios para elegir a 20 de ellos a los que se les
pregunt por la superficie plantada y se les tas su produccin. Los resultados fueron:
Superficie Produccin
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
Estime la produccin media y total mediante los estimadores de razn y m.a.s., calcule sus
respectivos lmites para el error de estimacin y comprelos.
Solucin
66
xi
yi
xi2
yi2
xi yi
3,7
4,3
4,1
5
5,5
3,8
8
5,1
5,7
6
3
7
5,4
4,4
5,5
12
14
11
15
16
12
24
15
18
20
8
20
16
14
18
13,69
144
44,4
18,49
196
60,2
16,81
121
45,1
25
225
75
30,25
256
88
14,44
144
45,6
64
576
192
26,01
225
76,5
32,49
324
102,6
36
400
120
64
24
49
400
140
29,16
256
86,4
19,36
196
61,6
30,25
324
99
5
5,9
5,6
5
7,2
105,2
TOTALES
15
18
17
15
22
320
25
225
75
34,81
324
106,2
31,36
289
95,2
25
225
75
51,84
484
158,4
581,96
5398
1770,2
xi = 105, 2
i =1
y=
1 n
320
yi =
= 16
n i =1
20
xi2 = 581, 96
i =1
1 n
105, 2
xi =
= 5, 26
n i =1
20
1 n
xi x
n i =1
yi = 320
x=
sxy =
x = 3.840 ha
N = 750 socios
)(
i =1
sx2 =
s y2 =
yi y =
1 n
xi x
n i =1
1 n
yi y
n i =1
yi2 = 5398
x y
i =1
i =1
= 1770, 2
2
1 n 2
581,96
xi x =
5, 26 2 = 1, 4304
n i =1
20
2
1 n 2
5398
yi y =
16 2 = 13,9
n i =1
20
1 n
1770, 2
xi yi x y =
( 5, 26 16 ) = 4, 35
n i =1
20
n 2 20
s x = 1, 4304 = 1,5057
n 1
19
S y2 =
n 2 20
s y = 13,9 = 14, 6316
n 1
19
(s , s )
x
y cuasidesviaciones
tpicas ( S x , S y ) .
Los anteriores clculos que se han realizado a mano o con ayuda de una calculadora bsica se
simplifican notablemente si utilizamos una calculadora cientfica de uso comn. Estas
calculadoras nos proporcionan los valores de un grupo de funciones estadsticas
n = sx
n = sx = desviacin tpica
n 1 = S x de forma inmediata.
n 1 = S x = cuasidesviacin tpica
s
4,35
La relacin entre las variables es alta rxy = xy =
= 0,9756 . Esto junto con la
sx s y 1,196 3, 728
67
20
r=
y
i =1
20
x
i =1
320
= 3, 042 tm/ha
105, 2
3840
= x=
= 5,12 ha / socio
x N
750
y = r x = 3, 042 5,12 = 15,57 tm/socio
Sr =
2
20
1 20
1 20 2 2 20 2
2
y
rx
=
y
+
r
x
2
r
xi yi
( i i ) n 1
i
i
n 1 i =1
i =1
i =1
i =1
S2 N n
V ( y ) = r
= 0, 0344
n N
=0, 706
B = 2 V ( y ) = 0,37 tm/socio
2
x2 Sr2 N n
2 Sr N n
V ( y ) = 2
=N
= 19.326, 75
x n N
n N
B = 2 V (y ) = 278, 04 tm
o B = 750 B = 750 0,37 = 277,5 tm (no coinciden los dos procedimientos por los errores
de redondeo en el valor de B ).
320
y=
= 16 tm / socio
20
S 2 N n 14, 63 750 20
V y =
= 0, 712
n N
20 750
( )
B = 2 0, 712 = 1, 69 tm / socio
= Ny = 750
320
= 12.000 tm
20
2
2 S N n
2 14,63 750 20
V ( ) = N
= 750
= 400.539,47
n N
20 750
4.2.2
Tamao muestral mnimo para que la estimacin de la razn, la media y el total no supere una
cota de error de magnitud B
n=
68
N r2
r2 + ND
la razn:
B 2 x2
D=
4
la media:
B2
D=
4
el total:
B2
D=
4N 2
Comentarios:
Si x es desconcocido, x2 = x 2
Solucin
MEDIA: n =
N r2
r2 + N
N r2
TOTAL: n =
r2 + N
B2
4N 2
B
4
750 0, 706
= 42,6 43 socios
0, 252
0, 706 + 750
N r2
750 0, 706
=
= 37, 7 38 socios
2
B
2002
2
r +
0, 706 +
4N
4 750
69
sxy S xy
b = 2 = 2 =
sx
Sx
( y y )( x x )
i
i =1
(x x )
i =1
a = y bx
donde
1 n
2
S =
( xi x )
n 1 i =1
1 n
S xy =
( xi x )( yi y )
n 1 i =1
1 n
2
s = ( xi x ) ;
n i =1
1 n
1 n
sxy = ( xi x )( yi y ) = xi yi x y
n i =1
n i =1
2
x
4.3.1
2
x
ESTIMADOR DE LA MEDIA:
S2 N n
VARIANZA ESTIMADA DE yL : V ( yL ) = L
n N
siendo S L2 la varianza residual en el modelo lineal simple:
S L2 =
( (
1 n
yi y + b ( xi x )
n 2 i =1
))
2
n 2 sxy
s y 2
n2
sx
n 2
s y (1 rxy2 )
=
n
yL = N yL
VARIANZA ESTIMADA DE yL :
V ( yL ) = N 2V ( yL )
Comentario. En este caso para estimar el total es necesario conocer el tamao de la poblacin
N. No se puede estimar como yL = a + b x ya que la recta de regresin no pasa por el punto
, y ) .
70
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
Estime el total de ventas diarias y la media utilizando estimadores de regresin. Obtenga el
lmite para el error de estimacin.
Solucin
Denotamos Y = " ventas diaria (euros)" ;
n = 18 establecimientos
N = 1.000 establecimientos
x = 5, 0556
y = 138,889
x = 5
S y2 =
n 2
s y = 436, 928
n 1
yL = y + b x x
yL = 138,314
S L2 =
n 1 2
S y (1 rxy2 ) = 141, 6
n2
B = 2 V ( yL ) = 5,56
yL = N yL = 138.314
S2 N n
V ( yL ) = L
= 7, 73
n N
B = N B = 1.000 5, 56 = 5.560
71
N L2
n= 2
L + ND
donde para estimar:
la media: D =
el total:
D=
B2
4
B2
4N 2
Solucin
n=
N L2
L2 + N
B
4N 2
1000 141, 6
= 361, 6 362 establecimientos.
1000 2
141, 6 + 1000
4 1000 2
(y =a+x
y = y + ( x x) a = y x = d
yD = y + ( x x ) = x + d
ESTIMADOR DE LA MEDIA:
S2 N n
VARIANZA ESTIMADA DE yD : V ( yD ) = D
n N
d = yx
2
2
1 n
1 n
(
(
)
)
(
y
x
+
d
=
d i d ) , donde d i = y i xi , por tanto S D2 es la
i
i
n 1 i =1
n 1 i =1
cuasivarianza de los d i .
S D2 =
72
yD = N yD
VARIANZA ESTIMADA DE YD : V ( yD ) = N 2V ( yD )
sx = 115, 797
s x2 = 13.409
s = 115, 738
s y2 = 13.395,3
y
S 2 = 14883, 7
y
sxy = 13.396,5
La relacin entre las variables es muy fuerte: rxy = 0,99958
x = 500
rxy2 = 0,99916 .
= y = 453, 5
= Ny = 90.700
) = S N n = 1.413,94
V(
n N
2
y
) = 75,20
B = 2 V(
B = 200 B =15.040,97
73
ESTIMADORES DE RAZN
r=
y
= 0,879
x
Sr =
2
x = 200 x = 100.000
y = r x = 87.900
y = r x = 439, 5
n
1 n
1 n 2 2 n 2
2
y
rx
=
y
+
r
x
2
r
xi yi
(
)
i i n 1
i
i
n 1 i =1
i =1
i =1
i =1
S2 N n
V ( y ) = r
= 21, 63
n N
= 227, 717
B = 9,3
B = N B =1.860
ESTIMADORES DE REGRESIN
yL = y + b x x
sxy 13.396, 5
b = 2 =
= 0,99907
13.409
sx
yL = 437,515
yL = N yL = 87.503
n 1 2
S y (1 rxy2 ) = 14, 05
n2
S2 N n
V ( yL ) = L
= 1,33
n N
S L2 =
B = 2,3104
B = NB = 462, 09
ESTIMADORES DE DIFERENCIA
yD = x + d
yD
d = 62,5
= 437,5
yD = N yD = 87.500
1 n
S =
di d
n 1 i =1
2
D
S2 N n
V ( yD ) = D
= 1,1875
n N
= 12, 5
B = 2 V ( yD ) = 2,179
B = NB = 435,8899
74
N D2
D2 + ND
B2
la media: D =
4
el total:
B2
D=
4N 2
Solucin
N D2
200 12,5
n=
=
= 20 establecimientos
2
B
300 2
2
D + N
12, 5 +
4N 2
4 200
EJERCICIOS RESUELTOS
1. (ejercicio 9, relacin tema 4) En una poblacin de 500 hogares, para la que es conocido
que el gasto total general durante un ao es de 15.000.000 , se quiere estimar el gasto
total en alimentacin durante un ao, para lo que se obtiene una muestra aleatoria simple
de 4 hogares que proporciona los siguientes valores anuales en :
Gasto en alimentacin 12.500 15.000 10.000 17.500
Gasto general
Antes de calcular el estimador, cree que es til utilizar esta informacin auxiliar?,
justifquese.
Estime con un estimador de razn el total de gasto en alimentacin mediante un intervalo
de confianza.
75
N = 500 n = 4 r =
y
i =1
n
x
i =1
550
= 0, 4955 y = r x = 0, 4955 150.000 = 74.325 cientos de
1110
y = 7.432.500
2
n
1 n
1 n 2 2 n 2
62, 2
S =
y
+
r
x
2
r
xi yi =
= 20, 73
( yi rxi ) =
i
i
n 1 i =1
n 1 i =1
3
i =1
i =1
2
r
S
V ( y ) = N ( N n) r = 1.285, 4667
2 V ( y ) = 2.267,568
n
y ( 72.057, 432 ; 76.592,568) en cientos de
Para expresarlo en hay que multiplicarlo por cien.
2. (Ejercicio 17, relacin tema 4) Un trabajador social quiere estimar la ratio
personas/habitacin en un determinado barrio. El trabajador social selecciona una muestra
aleatoria simple de 25 viviendas de las 275 del barrio. Sea x el nmero de personas en
cada vivienda e y el nmero de habitaciones por vivienda. A partir de los datos
siguientes:
x = 9,1;
25
y = 2, 6;
2
i
i =1
= 2240;
25
y
i =1
2
i
= 169;
25
x y
i =1
= 522
N = 275 n = 25 r =
x
i =1
n
i =1
2
S r2 =
2
x
= 3,5 pers. / hab. y2 y = 2, 62 = 6, 76
y
n
1 n
1 n 2 2 n 2
x
+
r
y
2
r
xi yi = 27,34375
( xi ryi ) =
i
i
n 1 i =1
n 1 i =1
i =1
i =1
1 ( N n) S r2
V (r ) = 2
= 0,1471
y N
n
2 V (r ) = 0, 767
3. (Ejercicio 12, relacin tema 4) Se desea estimar el agua utilizada en la presente campaa
por una comunidad de riego constituida por 250 parcelas. Se seleccionan al azar 10
parcelas cuyo tamao y metros cbicos utilizados en riego aparecen en la siguiente tabla
76
m3
600
1800
750
900
1100
1400
950
700
1000
720
Hectreas
50
150
60
70
100
120
80
60
90
60
Estime la media de m3 /hectrea que utiliza la comunidad de regantes y la cota del error de
dicha estimacin.
SOLUCIN:
y = consumo de m3 litros de agua,
X
Y
50
150
60
70
100
120
80
60
90
60
840
600
1800
750
900
1100
1400
950
700
1000
720
9920
2500
22500
3600
4900
10000
14400
6400
3600
8100
3600
79600
y2
360000
3240000
562500
810000
1210000
1960000
902500
490000
1000000
518400
11053400
xy
30000
270000
45000
63000
110000
168000
76000
42000
90000
43200
937200
r=
y
i =1
n
x
i =1
9920
= 11'81 m3 / hectarea
840
n
1 n
1 n 2 2 n 2
2
y
+
r
x
2
r
xi yi =
( yi rxi ) =
i
i
n 1 i =1
n 1 i =1
i =1
i =1
1
= (11053400 + 11102297 '56 22136664 ) = 2114 '84
9
S r2 =
840
= 84
10
1 N n S r2
1 240 2114 '84
V (r ) = 2
= 2
= 0 '02877
x N n 84 250 10
x = x =
2 V (r ) = 0 '3392
4. (Ejercicio 1, relacin del tema 4) Se desea estimar el consumo mensual de una ciudad. Se
sabe que los ingresos en dicha ciudad, va declaracin de la renta, ascienden a 1.502.530
euros mensuales. Se realiza una encuesta entre 12 hogares elegidos al azar y los resultados
de renta y consumo se recogen en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
77
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razn. Obtenga el lmite para el error de estimacin.
SOLUCIN:
Denotemos por
Y = " consumo mensual"
X = "ingresos mensuales"
De la informacin muestral obtenemos
n = 12
12
y
i =1
= 16.808 euros
= 22.629,46 euros
12
x
i =1
sx s y
= 0,9677 ).
Esto junto con la informacin auxiliar nos permite utilizar muestreo con informacin
auxiliar, en concreto utilizaremos estimadores de razn.
12
r =
yi
xi
i =1
12
i =1
= 0, 7427
y = r x = 1 .1 1 6 .0 0 2 , 0 7
2 S N n
V (Y ) = x2 r
x n N
2
i =1
N n
1
N
12
x < ( 5% )
x = x = 1.885, 79
Sr =
2
12
1 12
1 12 2 2 12 2
2
y
rx
=
y
+
r
x
2
r
xi yi
( i i ) n 1
i
i
n 1 i =1
i =1
i =1
i =1
V (Y ) = 871.825.002, 67
78
= 16.479, 7
B = 2 V (Y ) = 59.053,37
(Ejercicio 10, relacin tema 4) Las diferencias entre ingresos y gastos, en 5 de las 250
oficinas que tiene abiertas una agencia de seguros, en el presente mes, han sido (en euros)
570
721
650
650
569
Este mes el gasto medio para el conjunto de todas las oficinas ha sido 12764 euros, estime
el total de ingresos y el lmite para el error de estimacin.
SOLUCIN:
N=250, n=5, x = 12764 , X=gastos, Y=ingresos
(con las funciones del modo SD de la calculadora ) :
yD = x + d = 13396
d = 632
S D2 = 4095,5
yD = N yD = 3349000
N n S D2
S2
V ( yD ) = N 2
= N ( N n ) D = 50169875 2
N n
n
2 V ( yD ) = 14166,14
SOLUCIN:
N=123, n=5, x = 128200 , X=del ao anterior, Y=del ao actual
(con las funciones del modo SD de la calculadora ) :
x = 882
xi = 4410
i =1
y = 924
y
i =1
= 4620
xi yi
335500
561600
2400000
1050600
372000
xi2 = 4495700
i =1
y
i =1
2
i
= 4961400
5
x y
i =1
= 4719700
79
r=
i =1
n
y
= 1, 047619
x
y = r x = 134304, 76
i =1
Sr =
5
1 5
1 5 2 2 5 2
2
y
+
r
x
2
r
xi yi
( yi rxi ) =
i
i
n 1 i =1
n 1 i =1
i =1
i =1
2
S
V ( y ) = N ( N n ) r = 4761314, 071
n
= 1640, 25
2 V ( y ) = 4364, 09
y (129940, 67 , 138668,85 )
7. (Como ejercicio 7, relacin del tema 4) Una agencia de publicidad est interesada en el
efecto de una nueva campaa de promocin regional sobre las ventas totales de un
producto en particular. Una muestra aleatoria simple de 5 tiendas es seleccionada de 452
tiendas regionales en las cuales se vende el producto. Los datos de las ventas trimestrales
son obtenidos para el periodo actual de tres meses y para el periodo de tres meses previo a
la nueva campaa.
Tienda Ventas antes de Ventas
la campaa
actuales
1
208
239
2
400
428
3
440
472
4
259
276
5
351
363
Usando los anteriores datos para estimar los parmetros necesarios, determine el tamao
de la muestra para estimar Y con un lmite para el error de estimacin de 2.000,
cuando se utiliza el estimador de razn.
SOLUCIN:
N=452, n=5, X=ventas antes, Y=ventas actuales
(con las funciones del modo SD de la calculadora ) :
x = 331, 6
xi = 1658
i =1
y = 355, 6
y
i =1
= 1778
xi yi
49712
171200
207680
71484
127413
xi2 = 587146
i =1
5
y
i =1
2
i
= 671034
5
x y
r=
yi
i =1
5
x
i =1
80
y
= 1, 072376
x
i =1
= 627489
5
1 5
1 5 2 2 5 2
2
Sr =
yi + r xi 2r xi yi = 109, 4775
( yi rxi ) =
n ' 1 i =1
n ' 1 i =1
i =1
i =1
D=
2
B2
= 4,8947 r = S r2 = 109, 4775
2
4N
n=
N r2
= 21,3 22
ND + r2
81
5. Muestreo sistemtico.
5.1 Seleccin de una muestra sistemtica. Usos. Ventajas.
5.2 Estimacin de la media, proporcin y total poblacionales.
5.3 Comparacin con el muestreo aleatorio simple: Poblaciones ordenadas, aleatorias
y peridicas.
5.4 Determinacin del tamao muestral.
N
:
n
N
n
N
entero. Entonces se obtienen exactamente n observaciones.
n
2.
N
no es entero. Vemoslo con un ejemplo.
n
Por ejemplo si N = 103 y n = 5 , entonces
N
= 20,6 y tomamos k = 20 . Segn el
n
82
83
Usos: Este tipo de muestreo es muy utilizado: en los planes de muestreo para el control de
calidad dentro del proceso de fabricacin, los auditores cuando se enfrentan a largas listas de
apuntes para comprobar y los investigadores de mercados cuando se enfrentan a personas en
movimiento.
1 n
yi +( j 1) k
n j =1
= ysy =
VARIANZA ESTIMADA DE y sy :
S2 N n
V ( y sy ) =
n N
Comentarios.
-
N n
1.
N
Como se puede observar la varianza estimada del estimador de la media es igual que en el
muestreo aleatorio simple (vase 5.3 Comparacin con el muestreo aleatorio simple). Esto no
implica que las varianzas reales sean iguales:
V (y) =
2 N n
n N 1
V ( y sy ) =
2
n
[1 + (n 1) ]
= Ny sy
VARIANZA ESTIMADA DE :
2
2
2 S N n
(
)
V ( ) = N V y sy = N
n N
84
funcionarios decidieron obtener estos datos cada diez das. La informacin de esta muestra
sistemtica de 1 en 10 se resume en esta tabla
Da
3
13
23
173 290
18
18
i =1
i =1
y i = 4.868;
2
y i = 1.321.450
Use estos datos para estimar el nmero total de personas que visitaron el museo durante el
periodo especificado. Establezca un lmite para el error de estimacin.
Solucin
= Ny sy = 180
4.868
= 48.680 visitantes
18
2
2 S Nn
V ( ) = N
n N
N = 180
2
( 4868 )
1.321.450
n
= 289, 79
S2 =
n 1
V ( ) = 469.461,18
B = 1.370,34
Como en el muestreo aleatorio simple, las propiedades del estimador de la proporcin son
anlogas a las propiedades de la media muestral:
VARIANZA ESTIMADA DE p sy :
1 n
yi+( j 1) k
n j =1
V ( p sy ) =
, yi = 0, 1
p sy q sy N n
n 1 N
Notemos, de nuevo, que las varianzas estimadas son iguales a las del muestreo aleatorio
simple. Esto no quiere decir que las varianzas reales lo sean.
85
conductores que portan su licencia. Establezca un lmite para el error de estimacin. Suponga
que 2.800 autos pasan por el puesto de verificacin durante el periodo de muestreo.
Automvil
1
8
15
Respuesta
1
1
0
2794
1
400
y i = 324
i =1
Solucin
p sy = y sy =
V ( p sy ) =
324
= 0,81
400
= 0,000330612 B = 0,0364
n 1 N
400 1 2.800
V (y) =
2 N n
n N 1
V (y ) =
[1 + (n 1) ]
n
2
sy
N n
1 y 0 , pero en otros casos no.
N 1
86
V ( y sy ) V ( y )
Por ejemplo, en una lista de cuentas por cobrar que estn ordenadas de mayor a menor
cantidad, las estimaciones de una muestra sistemtica tendran en general una varianza
menor que las de una muestra aleatoria simple (es posible que sta ltima contenga
solo cantidades grandes o cantidades pequeas).
Al utilizar las varianzas estimadas de los estimadores del m.a.s. en el m. sistemtico
conseguimos una estimacin conservadora del error (mayor que el error real que
cometemos en el m. sistemtico).
B. Poblacin aleatoria ( 0)
Se dice que una poblacin es aleatoria cuando sus elementos estn ordenados al azar.
En este caso es indiferente el uso del muestreo aleatorio simple y el muestreo
sistemtico ya que
V ( y sy ) V ( y ) .
Por ejemplo, en una lista de estudiantes por orden alfabtico, la estimacin de sus
calificaciones sera similar con ambos muestreos ya que las calificaciones no dependen
del apellido del estudiante.
C. Poblacin peridica ( 0)
Una poblacin es peridica cuando los valores de la variable objeto de estudio tienen
una variacin cclica. En este caso es preferible el muestreo aleatorio simple dado que
V ( y sy ) > V ( y ) .
Por ejemplo:
a. Supongamos que tenemos una lista en la que los nombres de mujeres y
hombres se alternan. Una muestra sistemtica con k par proporcionara solo
una lista de mujeres o de hombres.
b. Ventas diarias de un supermercado con k = 7
Para evitar este problema, el investigador puede cambiar varias veces el punto de
inicio aleatorio. Esto tiene el efecto de mezclar los elementos de la poblacin y
comportarse como una poblacin aleatoria, en cuyo caso el uso de las expresiones del
m.a.s. en el m. sistemtico estara justificado.
87
2 V ( ysy ) = B
Dado que el valor real de la varianza del estimador no es conocido, usaremos las expresiones
del muestreo aleatorio simple. Lo anterior conduce a obtener muestras ms grandes de las
necesarias para poblaciones ordenadas y muestras ms pequeas para poblaciones peridicas
(si no se mezclaran los elementos cambiando el punto de inicio). En poblaciones aleatorias no
tendremos problemas.
Tamao muestral requerido para estimar y con un lmite B para el error de estimacin
n=
B2
4 para estimar la media
con D =
2
B para estimar el total
4N 2
N 2
( N 1) D + 2
Tamao muestral requerido para estimar p y con un lmite B para el error de estimacin
n=
B2
para estimar p
con D =
2
B para estimar el total
4N 2
Npq
(N 1)D + pq
Solucin
p = 0,81
n=
q = 1 p = 0,19
Npq
5.000 0,81 (1 0,81)
=
= 1.176,97 1.177 automviles
2
B
0, 02 2
( N 1)
+ pq (5.000 1)
+ ( 0,81 (1 0,81) )
4
4
88
N
= 4, 25
n
Si tomramos k=5 n =
5000
5000
= 1000 . Tomando k=4 n =
= 1250 1177 .
5
4
EJERCICIOS RESUELTOS
1. (Ejercicio 7, relacin tema 5) La gerencia de una compaa privada con 2.000 empleados
est interesada en estimar la proporcin de empleados que favorecen una nueva poltica de
inversin. Una muestra sistemtica de 1 en 10 es obtenida de los empleados que salen del
edificio al final de un da de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
1993
1
200
y
i =1
= 110
SOLUCIN
110
0, 052
= 0,55 q = 1 p = 0, 45 D =
= 0, 000625
200
4
Npq
N
n=
= 330, 7 331
k = 6, 04 k = 6
( N 1) D + pq
n
N = 2.000
p=
2. (Ejercicio 8, relacin tema 5) Un auditor se enfrenta a una larga lista de 1.000 cuentas por
cobrar de una empresa. El valor de cada una de estas cuentas no suele superar los 21.000
. El auditor quiere estimar el valor total de las deudas por cobrar con un error inferior a
1.000.000 con una confianza del 95%. Para ello decide tomar una muestra sistemtica de
1 en k . Determine el valor de k.
SOLUCIN
21.000 2
1.000.000 2
=
27.562.500
D
=
= 250.000
42
4 1.0002
N 2
N
n=
= 99,39 100 k = = 10
2
( N 1) D +
n
N = 1.000 R = 21.000 2
89
n N
N = 26 aos
S 2 = 37.913.412.871,20
V ( y sy ) = 4.860.693.957,85
B = 139.437,35
4. (Como ejercicio 1, relacin tema 5) La seccin de control de calidad de una empresa usa el
muestreo sistemtico para estimar la cantidad media de llenado en latas de 33cl que salen
de una lnea de produccin. Los datos de la tabla adjunta representan una muestra
sistemtica 1 en 300 de una produccin diaria de 1800 latas.
Cantidad de llenado en cl
33 32,5 33,5 33 32 31
Determine el tamao de la muestra y k para estimar el contenido medio de las latas con un
error de estimacin inferior a 0,42 cl, considerando la muestra anterior como una muestra
previa para estimar los parmetros necesarios.
SOLUCIN:
N=1800, n=6,
(con las funciones del modo SD de la calculadora ) : S n2'1 = 0,8
D=
90
B2
= 0, 0441
4
n=
N 2
= 17,97 18
( N 1) D + 2
k=
2 = Sn2'1
1800
= 100
18
47
= 0, 7231
65
q = 1 0, 7231 = 0, 2769
B2
D=
= 0, 000625
4
Npq
= 214,8 215
( N 1) D + pq
650
= 3, 02
215
k =3
91
aulas = conglomerados)
n = conglomerados en la muestra.
92
mi = elementos en el conglomerado i
yi = suma de las observaciones en el conglomerado i
N
m = mi = elementos en la muestra
i =1
1 N
mi = tamao medio de los conglomerados de la poblacin (con frecuencia es
N i =1
desconocido).
1 n
m = mi = tamao medio de los conglomerados de la muestra (se
n i =1
M=
1 n
= y = yi =
m i =1
y
i =1
n
m
i =1
1 N n S c2
2
N n
M
donde Sc2 =
1 n
yi ymi
n 1 i =1
sesgo
desaparece
cuando
los
tamaos
de
los
conglomerados
son
iguales
( m1 = m2 = ... = mN )
Notas:
La expresin de V ( y ) =
1 N n S c2
no se suele simplificar pues como ocurre en el
2
N n
M
93
p=y=
a
i =1
n
m
i =1
= M y
y la varianza estimada del mismo
2
S
V ( ) = M 2 V ( y ) = N ( N n) c
n
(sea cual sea el valor de M no afecta a la varianza ni al error del estimador, aunque s al valor
del estimador del total)
1 n
yi , es el promedio de los totales de los conglomerados de la muestra y por tanto un
n i =1
estimador insesgado del promedio de los N totales de los conglomerados de la poblacin. Por
el mismo razonamiento empleado en el muestreo aleatorio simple, N y t es un estimador
insesgado de la suma de los totales de todos los conglomerados, o equivalentemente del total
poblacional .
94
En resumen
t = N y t
2
S
V ( t ) = N 2 V ( y t ) = N ( N n) t
n
N n St2
1 n
, St2 =
donde V ( y t ) =
yi y t
N n
n 1 i =1
Si existe una gran variacin entre los tamaos de los conglomerados y adems los tamaos
estn altamente correlacionados con los totales de los conglomerados, la varianza de N y t es
generalmente mayor que la varianza de M y . Esto es debido a que el estimador N y t no usa la
informacin proporcionada por los tamaos de los conglomerados y por ello puede ser menos
preciso.
Cuando los tamaos de los conglomerados son iguales los dos estimadores del total coinciden,
adems el estimador de la media, y , es un estimador insesgado de la media poblacional, , y
tambin es insesgado el estimador de su varianza, V ( y ) (lo mismo se extiende al total).
Ejemplo 6.1 (como ejercicio 13, relacin tema 6, pero con menos datos) En una ciudad se
quiere estimar la proporcin de hogares interesados en contratar el sistema de televisin digital,
para lo cual se considera la ciudad dividida en 200 manzanas de viviendas. Se extrae una
muestra piloto de 5 manzanas y se interroga a cada familia acerca de si estara interesada en
contratar la televisin digital. Los datos de la encuesta se encuentran en la tabla:
95
SOLUCIN
Aunque en un caso de variables dicotmicas como ste se suele usar en los textos la
notacin ai en lugar de yi , utilizaremos esta ltima para unificar la notacin a emplear en el
muestreo por conglomerados
mi
yi
mi2
yi2
mi yi
8
7
9
6
5
35
2
2
3
3
3
13
64
49
81
36
25
255
4
4
9
9
9
35
16
14
27
18
15
90
p=y=
a)
y
i =1
n
( y ym ) = y
n
i =1
i =1
2 y yi mi + y
i =1
1 n
yi ymi
n 1 i =1
i =1
mi2 = 255
i =1
Sc2 =
2
i
yi2 = 35
p = 37,14%
i =1
13
= 0,3714
35
m
i =1
ym
i
i =1
2
i
= 3,3222
= 90
3, 3222
= 0,8306
4
1 n
35
mi =
= 7 hogares / manzana
5
n i =1
V ( y) =
1 N n S c2
= 0, 003305
2
m N n
yt =
b)
1 n
13
yi = = 2, 6
n i =1
5
(y y )
n
S =
2
t
i =1
n 1
2 V ( y ) = 0,115
11,5%
t = N y t = 520
2
1 n
yi
n i =1
= i =1
= 0, 3
n 1
n
2
i
N ( N n) St2
V ( t ) =
= 2.340
n
2 V ( t ) = 96, 75
c)
= M y = 557,14
96
M=
1500
= 7,5
200
V ( y) =
1 N n Sc2
= 0, 0028795
2
N n
M
V ( ) = M 2 V ( y ) = 6478,8
2 V ( ) = 160,98
( 396,16 , 718,12 )
Como puede observarse, el lmite para el error de estimacin es ms pequeo en b) que en c),
debido a que los tamaos de los conglomerados no estn altamente correlacionados con los
totales de los conglomerados en este ejemplo ( rmy2 = 0, 08 ). En otras palabras, los tamaos de
los conglomerados proporcionan poca informacin referente a los totales de los
conglomerados.
1 n
yi ymi
n 1 i =1
B2
para la estimacin del total.
4N 2
N t2
ND + t2
B2
1 n
2
2
y
se
estima
mediante
S
=
yi y t
t
t
4N 2
n 1 i =1
2
Ejemplo 6.2 Suponiendo que los datos del ejemplo 6.1 representan una muestra previa, cmo
debe tomarse una nueva muestra para estimar la proporcin poblacional del apartado a) con un
lmite para el error de estimacin del 1%.
97
SOLUCIN
2
B2 M
0, 012 7 2
D=
=
= 0, 001225
4
4
1 n
35
M m = mi =
=7
n i =1
5
S = 0,8306
2
c
n=
N c2
= 154, 4 155
ND + c2
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relacin tema 6) Con motivo del cuarto centenario del Quijote, el Ministerio
de Cultura desea estimar el nmero de libros comprados cada mes en una localidad. Se
selecciona una localidad con 6.200 hogares agrupados en 700 manzanas de viviendas. Se
tiene una encuesta piloto en la cual se seleccion una muestra de 4 manzanas y se
entrevistaron a todas las familias, obtenindose los siguientes resultados:
SOLUCIN
mi
yi
10
8
11
7
36
13
9
15
8
45
mi2
yi2 mi yi
100 169
130
64 81
72
121 225
165
49 64
56
334 539
423
n
M = 6.200 N = 700
y=
y
i =1
n
m
i =1
c2 Sc2 =
1 n
yi ymi
n 1 i =1
n=
98
= 1, 25 D =
B2
= 0, 01
4N 2
n
n
2
1 n 2
2
y
+
y
m
2
y
mi yi = 1,125
i
i
n 1 i =1
i =1
i =1
N c2
= 96,92 97
ND + c2
2.
(Ejercicio 2, relacin tema 6 pero con menos datos) Una industria est considerando la
revisin de su poltica de jubilacin y quiere estimar la proporcin de empleados que
apoyan la nueva poltica. La industria consta de 57 plantas. Se selecciona una muestra
aleatoria simple de 5 plantas y se obtienen las opiniones de los empleados en estas plantas
a travs de un cuestionario. Los resultados se presentan en esta tabla:
Planta N empleados N empleados que apoyan la nueva poltica
1
51
42
2
62
53
3
49
40
4
73
45
5
101
63
a. Estime la proporcin de empleados en la industria que apoyan la nueva poltica de
jubilacin y establezca un lmite para el error de estimacin.
b. La industria modific su poltica de jubilacin despus de obtener los resultados de la
encuesta. Ahora se quiere estimar la proporcin de empleados a favor de la poltica
modificada Cuntas plantas deben ser muestreadas para tener un lmite del 5% para el
error de estimacin? Use los datos anteriores para aproximar los resultados de la nueva
encuesta.
SOLUCIN:
n=5
a) N = 57
mi
yi
51
62
49
73
101
336
42
53
40
45
63
243
mi2
2601
3844
2401
5329
10201
24376
yi2
1764
2809
1600
2025
3969
12167
mi yi
2142
3286
1960
3285
6363
17036
p=
y
i =1
n
m
i =1
Sc2 =
1 n
yi pmi
n 1 i =1
243
= 0, 7232 p = 72,32%
336
n
2 n
1 n 2
2
p
y
m
+
p
mi2 = 68, 7
i
i i
n 1 i =1
i =1
i =1
336
M m =
= 4515,84
5
1 N n Sc2
V ( p) = 2
= 0, 00278
N n
M
b)
2
2 V ( p) = 0,1054 10,54%
B2 M
0, 052 4515,84
D=
=
= 2,8224
4
4
S
2
c
2
c
N c2
= 17, 06 18
n=
ND + c2
99
3. (Ejercicio 7, relacin tema 6) Un socilogo quiere estimar el ingreso medio por persona en
cierta ciudad pequea donde no existe una lista disponible de adultos residentes. Por esta
razn para el diseo de la encuesta utiliza muestreo por conglomerados. Se divide la
ciudad en bloques rectangulares y el socilogo decide que cada bloque rectangular va a ser
considerado como un conglomerado. Los conglomerados son numerados del 1 al 415. El
investigador tiene tiempo y dinero suficientes para hacer un muestreo de 25
conglomerados y entrevistar a cada hogar dentro de cada uno. Se seleccionan
aleatoriamente 25 conglomerados y se realizan las entrevistas, obtenindose estos datos:
Conglomerado (i) N de residentes (mi)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
a) Estime el ingreso medio por persona en la ciudad y establezca un lmite para el error de
estimacin.
b) Estime el ingreso total de todos los residentes de la ciudad y el lmite para el error de
estimacin, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de todos los
residentes de la ciudad mediante un intervalo de confianza.
100
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 i ,
supongamos conocido M = 6 415 = 2.490 ) y estime el total por los dos mtodos
SOLUCIN:
a) (este ejemplo no se puede resolver con una calculadora de 10 dgitos de forma exacta
por la dificultad de trabajar con cantidades muy grandes)
n
=y=
y
i =1
n
m
i =1
( y ym ) = y
n
i =1
n
y
i =1
n
2
i
i =1
i =1
2
i
1.329.000
= 8.801,32 / residente
151
2 y yi mi + y
i =1
m
i =1
2
i
2
i
= 82 + ... = 1.047
Sc2 =
1 n
yi ymi
n 1 i =1
15.227.502.247
= 634.501.213, 40
24
1 n
151
mi =
= 6, 04 residente / bloque
n i =1
25
V ( y) =
1 N n Sc2
= 653.785,19
2
N n
M
2 V ( y ) = 1.617,14
b)
yt =
1 n
1.329.000
yi =
= 53160 / bloque
n i =1
25
t = N y t = 22.061.400
101
(y y )
n
i =1
1 n
1
2
i
(y y )
N ( N n)
n
V ( t ) =
i =1
n 1
2 V ( t ) = 3.505.584, 04
= 3.072.279.860.000
c)
N = 415
n = 25
M=
2500
= 6, 0241
415
Sc2 = 634.501.213, 40
V ( y) =
= M y = 22.003.311, 26
1 N n S c2
= 657.240,9482
2
N n
M
V ( ) = M 2 V ( y ) = 4.107.755.926.250
2 V ( ) = 4.053.519,92
(17.949.791,34 , 26.056.831,18 )
Como puede observarse el lmite para el error de estimacin es ms pequeo en b) que en
c) debido a que los tamaos de los conglomerados no estn altamente correlacionados con
los totales de los conglomerados en este ejemplo ( rmy2 = 0, 0919 ). En otras palabras, los
tamaos de los conglomerados proporcionan poca informacin referente a los totales de
los conglomerados.
d)
2
S = 634.501.213, 40
2
c
B2 M
5002 6, 04 2
D=
=
= 2.280.100
4
4
N c2
= 166,58 167
n=
ND + c2
4. (Ejercicio 10, relacin tema 6) Una empresa de trabajo temporal quiere investigar las
necesidades de empleo de las empresas de un pueblo. Para ello decide seleccionar una
muestra de 10 de las 85 inscritas en el registro mercantil. El nmero de bajas en el ltimo
ao, el nmero de empleados y la respuesta de cada empresa sobre si utilizara los
servicios de la empresa de trabajo temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
6
0
8
No
7
1
21
Si
8
0
4
No
9
4
35
No
10
6
92
Si
102
(a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. D el lmite
del error de estimacin.
(b) Estime la proporcin de empresas que usaran los servicios ofertados. D el lmite del
error de estimacin.
SOLUCIN:
a) Se trata de un muestreo por conglomerados (cada empresa es un conglomerado) donde
no se conoce el nmero total de empleados para toda la poblacin, por tanto para estimar
el total consideraremos un muestreo aleatorio simple tomando como elementos muestrales
las empresas.
(y y )
yi
1
2
9
0
2
0
1
0
4
6
25
2.25
0.25
42.25
6.25
0.25
6.25
2.25
6.25
2.25
12.25
80.5
t = 85 2.5 = 212.5 bajas
25
= 2.5 bajas / empresa
10
80.5
85 10 8.94
2
2
St =
= 8.94 V ( y t ) =
10 = 0.7892157 V ( t ) = 85 V ( y t ) = 5702.08
9
85
yt =
4
= 0.40 (40%)
10
85 10 0.4 0.6
= 0.02353
85
10 1
5. (Como ejercicio 3, relacin tema 6) Se disea una encuesta econmica para estimar la
cantidad media gastada en servicios por hogar de una ciudad formada por 3.600 hogares.
Se selecciona una muestra aleatoria de 3 barrios de la ciudad de un total de 60. Los
entrevistadores obtienen el gasto en servicios de cada hogar en los barrios seleccionados;
los gastos totales se muestran en esta tabla:
Barrio N hogares Cantidad total gastada en servicios ()
1
55
2210
2
60
2390
3
63
2430
103
Estime la cantidad media de gastos en servicios por hogar en la ciudad y el lmite para el
error de estimacin.
SOLUCIN:
mi yi
121550
143400
153090
n
m y
i =1
N = 60
n=3
n
i =1
= 418040
3600
= 60
60
M=
mi = 178
i =1
= 7030
i =1
2
i
= 10594
i =1
= 16501100
2
i
y==
y
i =1
n
m
i =1
Sc =
2
1 n
yi ymi
n 1 i =1
= 39, 49
n
n
2
1 n 2
2
y
+
y
m
2
y
mi yi
i
i
n 1 i =1
i =1
i =1
= 2612,04
1 N n Sc2
= 0, 23
2 V ( y ) = 0,96
2
N n
M
6. (Como ejercicio 4, relacin del tema 6) En un proceso de control del volumen envasado
V ( y) =
por una fbrica de bebidas se eligen 3 de los 40 paquetes envasados en una hora, cada uno
de los cuales contiene 4 envases, y se mide el volumen que cada envase contiene. Las
observaciones se presentan en la tabla adjunta:
Paquete n Volumen envasado en cl
1
33,5 32,5 31 34
2
32,5 32
33 32,5
3
30,5 33
33 33,5
Estime el volumen medio de los envases y la cota del error de estimacin.
SOLUCIN:
N=40, n=3,
mi
4
4
4
yi
131
130
130
mi yi
524
520
520
3
m y
i
i =1
m
i =1
104
= 12
m
i =1
2
i
= 48
= 1564
yi = 391
y t = 130,33
i =1
2
i
i =1
= 50961
y==
y
i =1
3
m
i =1
Sc =
yt
= 32,5833 cl
m
1 3
yi ymi
n 1 i =1
3
3
2
1 3 2
2
y
+
y
m
2
y
mi yi
i
i
n 1 i =1
i =1
i =1
1 N n Sc2
V ( y) = 2
= 0, 006423
N n
M
= 0,3333
2 V ( y ) = 0,1603 cl
7. (Como ejercicio 1, relacin del tema 6) Un fabricante de sierras quiere estimar el coste
medio de reparacin mensual para las sierras que ha vendido a ciertas industrias. El
fabricante no puede obtener un coste de reparacin para cada sierra, pero puede obtener la
cantidad total gastada en reparacin y el nmero de sierras que tiene cada industria.
Entonces decide usar muestreo por conglomerados, con cada industria como un
conglomerado. El fabricante selecciona una muestra aleatoria simple de 5 de 100
industrias a las que da servicio. Los datos sobre coste total de reparaciones por industria y
el nmero de sierras son:
Industria N sierras Costo total de reparacin
para el mes pasado ()
1
3
50
2
7
110
3
11
230
4
9
140
5
2
60
Estime el coste medio de reparacin por sierra para el mes pasado y el lmite para el error
de estimacin.
m y
i =1
= 4830
mi = 32
i =1
m
i =1
2
i
= 264
105
yi = 590
y t = 118
i =1
2
i
i =1
= 90700
y==
y
i =1
5
m
i =1
Sc =
yt
= 18, 4375
m
1 n
yi ymi
n 1 i =1
n
n
2
1 n 2
2
y
+
y
m
2
y
mi yi
i
i
n 1 i =1
i =1
i =1
1 N n Sc2
V ( y) = 2
= 2, 7116
N n
M
= 584, 57
2 V ( y ) = 3, 2934
SOLUCIN:
N=495, n=5,
mi yi
877200
738270
399000
1514700
651832
n
m y
i =1
106
= 4181002
mi = 6301
M = m = 1260, 2
i =1
n
y t = 638, 6
i =1
= 3193
m
i =1
n
y
i =1
= 8270161
2
i
2
i
= 2183195
p==
y
i =1
5
m
i =1
Sc =
2
yt
= 0,506745
m
1 n
yi ymi
n 1 i =1
V ( p) =
( 50, 67% )
n
n
2
1 n 2
2
y
+
y
m
2
y
mi yi
i
i
n 1 i =1
i =1
i =1
1 N n Sc2
= 0, 00216573
2
N n
M
2 V ( y ) = 0, 0930748
= 17372,505
( 9,31% )
107
t
t
, N=
, pero p es
N
p
s
= proporcin de elementos marcados en la 2 muestra
n
Por tanto,
ESTIMADOR DE N :
t
t
nt
N = =
=
p s / n s
VARIANZA ESTIMADA DE N :
t 2 n(n s )
V N =
s3
n, t = constantes
s = aleatoria
( )
Comentarios
N no es un estimador insesgado de N :
[ ]
(N t)
N
E N = N + N
nt
Cuanto mayor sean n y t menor ser el sesgo N
108
(N t)
.
nt
V N =
=
= 5.669,87
s3
273
( )
( )
B = 2 V N = 150, 60
ESTIMADOR DE N :
t
t
nt
N = =
=
p s / n s
VARIANZA ESTIMADA DE N :
t 2 n( n s )
V N = 2
s ( s + 1)
t , s = constantes
n = aleatoria
( )
109
V N = 2
=
= 64.444, 44
s ( s + 1)
152 (15 + 1)
( )
( )
B = 2 V N = 507, 72
m = mi
i =1
n elementos en la muestra m
=
rea de la muestra
na
4. La densidad poblacional es
n elementos en la poblacin M M
=
=
rea de la poblacin
Na A
110
ESTIMADOR DE LA DENSIDAD:
m
na
VARIANZA ESTIMADA DE :
m
1
V ( ) = 2 2 =
na
a n
m Nm
M = A = A
=
na
n
VARIANZA ESTIMADA DE M :
A2 m N 2 m
V ( M ) = A2V ( ) = 2 2 = 2
an
n
Nmero de aficionados
en el cuadro
N del cuadro
Nmero de aficionados
en el cuadro
193
11
160
216
12
220
250
13
163
163
14
306
209
15
319
195
16
289
232
17
205
174
18
210
215
19
209
10
198
20
198
111
Solucin:
a) a = 10 10 = 100
m
4324
=
= 2,162
na 20 100
2,162
V ( ) =
=
= 0, 001081 B = 2 0, 001081 = 0, 066
na 2000
= 2,162 aficionados m 2
(62.880 , 66.840)
Solucin
A = 8 horas= 480 minutos
n =12 intervalos
114
= 1,9 personas / minuto
5 12
a = 5 minutos
m =114 personas
m
M = A
= 912 personas
na
A2 m
V ( M ) = 2 2 = 7.296 B = 170,8
an
112
= ln
a n
y su varianza como
1 n y
V ( ) = 2
a ny
Dado que M = A obtenemos
A y
M = A = ln
a n
VARIANZA ESTIMADA DE M :
A2 n y
V ( M ) = 2
a ny
Solucin
A = 24-6=18 horas=1.080 minutos
y =18 intervalos sin autobuses
n = 40 intervalos
a =10 minutos
A y
1.080 18
M = ln =
ln = 86, 24
a n
10
40
A2 n y 1.0802 40 18
V ( M ) = 2
=
= 356, 4 B = 37,8
a ny
102 40 18
113
EJERCICIOS RESUELTOS
1. (Ejercicio 6, relacin tema 7) En una plantacin de pinos de 200 acres, se va a estimar la
densidad de rboles que presentan hongos parsitos. Se toma una muestra de 10 cuadros
de 0,5 acres cada uno. Las diez parcelas muestreadas tuvieron una media de 2,8 rboles
infectados por cuadro.
a) Estime la densidad de rboles infectados y establezca un lmite de error de
estimacin.
b) Estime el total de rboles infectados en los 200 acres de la plantacin y
establezca un lmite de error de estimacin.
SOLUCIN:
m 2,8 10
a) =
=
= 5, 6 arb. infectados / acre ;
na 10 0,5
1
1
V ( ) =
= 5, 6
= 1,12 B = 2,1
na
10 0,5
b) M = A = 200 5, 6 = 1.120;
SOLUCIN:
A = 720 h a = 1 h n = 5 contr. m = 0 + 1 + 2 + 0 + 3 = 6 veh. m =
6
m
= 1.2 = = 1.2 veh./ h
5
a
( )
V M =
A2
= 124416
an
A = 24h a = 0.5h
M = A =
N = 48 n = 6 m = 60 m = 10
m
A2 A2 m
A = 480 clientes V M =
= 2 = 3840
a
an
an
( )
( )
2 V M = 123,94 clientes
SOLUCIN:
A = 4000 a = 40 N = 100 n = 20 m = 1100 m = 55
M = A =
m
A = 5500
a
( )
V M =
A2 A2 m
= 2 = 27500
an
an
( )
2 V M = 331, 66
115
Facultad 500 carpetas. En un intercambio de clase, sentado en un banco del pasillo, decide
contar los alumnos que pasan hasta observar a 100 que portan la carpeta, para lo que fue
necesario contar hasta 382 alumnos.
Estime con un intervalo de confianza el nmero de alumnos que asistieron esa maana a la
Facultad.
SOLUCIN: muestreo inverso
t = 500 n = 382 s = 100
N=
t
p
( )
V N =
nt
= 1910 alumnos
s
t 2 n(n s )
= 26664,35643
s 2 ( s + 1)
(1910 326,58)
116
( )
2 V N = 326,58 alumnos
8. Anlisis cluster.
8.1 Introduccin.
8.2 Medidas de similaridad.
8.2.1 Medidas de similaridad para variables mtricas
8.2.2 Medidas de similaridad para datos binarios
8.3 Estandarizacin de datos.
8.4 Formacin de grupos: Clusters jerrquicos y clusters no jerrquicos.
8.4.1 Clusters jerrquicos.
8.4.2 Clusters no jerrquicos.
8.5 Eleccin entre los distintos tipos de anlisis cluster.
8.1 Introduccin
Supongamos que el responsable de marketing de una empresa tiene una base de datos con las
caractersticas sociodemogrficas de sus clientes: edad, nivel educativo, nivel de ingresos,
estado civil, tipo de ocupacin, nmero de hijos, etc. Este directivo se plantea si puede dividir
a sus clientes en subgrupos con caractersticas sociodemogrficas similares entre s, pero lo
ms diferente posible unos subgrupos de otros. Si esto fuera as, el directivo podra, por
ejemplo, disear campaas de publicidad distintas para cada grupo, con creatividades
diferentes.
El trmino anlisis cluster se utiliza para definir una serie de tcnicas que tienen por objeto la
bsqueda de grupos similares de individuos o de variables. Dada una muestra de individuos,
de cada uno de los cuales se dispone de una serie de observaciones, el anlisis cluster sirve
para clasificarlos en grupos de tal forma que:
o Cada grupo (cluster o conglomerado) sea lo ms homogneo posible en base a las
variables observadas, es decir, cada observacin contenida en l sea parecida a todas
las que estn incluidas en ese grupo.
o Los grupos sean lo ms distintos posible unos de otros respecto a las variables
consideradas.
Los grupos no son conocidos de antemano pero sern sugeridos por la propia esencia de los
datos (a partir de las observaciones).
Adems de encontrar agrupaciones naturales entre los elementos de la muestra, el anlisis
cluster es til para reducir la informacin e, incluso, si el anlisis genera agrupaciones
inesperadas, nos puede sugerir nuevas relaciones a investigar entre los elementos.
117
Solucin
La siguiente figura ilustra grficamente los datos anteriores
30,00
E8
E4
E7
25,00
Ventas
E3
20,00
E6
15,00
E2
E1
E5
10,00
10
20
30
40
50
Inversion
Al haber utilizado solo dos variables se pueden distinguir de forma clara cuatro grupos de
empresa:
o Grupo E1-E2: Con una pequea inversin han obtenido pocas ventas
o Grupo E3-E4: Pese haber invertido tan poco como las empresas anteriores, han
obtenido una gran rentabilidad, en trminos de ventas, a estas inversiones.
o Grupo E5-E6: Pese a haber realizado un gran esfuerzo publicitario no han sido capaz
de obtener unas ventas razonables.
o Grupo E7-E8: Con inversiones elevadas han rentabilizado su inversin en trminos de
ventas.
Cmo se han obtenido los grupos anteriores? De forma intuitiva hemos visto que la empresa
E1 est a una distancia menor de E2 que de E3 o de cualquiera de las empresas restantes, y las
hemos puesto en el mismo grupo. De manera anloga hemos procedido con las dems
empresas. Pero qu hubiera ocurrido si en vez de tener dos variables tuvisemos 5 o 50? En
estos casos, debemos formalizar la expresin ms cerca y traducirla en alguna medida de
proximidad o similaridad entre cada par de observaciones. En funcin del tipo de variables
que se utilicen, las medidas adecuadas sern diferentes.
119
( x
k
ip
p =1
x jp )
D12 =
(16 12 ) + (10 14 )
2
= 5, 66
El programa SPSS calcula las distancias entre todos los pares de observaciones como paso
inicial del anlisis cluster:
Matriz de distancias euclideas
distancia eucldea
Caso
1:E1
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
,00
5,66
13,42
15,52
29,00
34,37
32,65
38,01
2:E2
5,66
,00
8,25
11,00
33,24
38,01
34,79
40,16
3:E3
13,42
8,25
,00
3,61
37,00
40,61
35,13
40,31
4:E4
15,52
11,00
3,61
,00
36,25
39,29
33,00
38,05
5:E5
29,00
33,24
37,00
36,25
,00
7,07
15,00
17,72
6:E6
34,37
38,01
40,61
39,29
7,07
,00
11,18
12,00
7:E7
32,65
34,79
35,13
33,00
15,00
11,18
,00
5,39
40,31
38,05
17,72
12,00
5,39
,00
8:E8
38,01
40,16
Esta es una matriz de disimilaridades
Dij = ( xip x jp )
k
p =1
120
k
n n
Dij = xip x jp
p =1
Ejemplo 8.3
Consideremos una base de datos formada por 5 observaciones de 4 variables dicotmicas:
Observaciones
Variables
X1 X2 X3 X4
E1
1
1
0
0
E2
0
1
1
1
E3
1
1
0
1
E4
0
0
0
1
E5
1
1
1
0
Para calcular las medidas de similaridad se construye en primer lugar una matriz 22 para
cada par de observaciones. En ella se recogen las coincidencias y las divergencias entre las
distintas variables correspondientes a las dos observaciones comparadas. Por ejemplo, para las
observaciones E1 y E2:
E1
1 0
1 1 2
E2
0 1 0
E1
1 0
1 a b
E2
0 c d
Dado que la observacin E1 presenta un 1 a la vez que E2 en una sola ocasin (para la
variable X2), la celda a que recoge este hecho aparece como 1. Como para las variables X3 y
X4 el atributo est presente en E2 y ausente en E1, en la casilla b aparece un 2.
Anlogamente se calculan c y d . De este modo calcula el SPSS distintas medidas de
similitud.
121
Las medidas de similitud ms utilizadas, para dos observaciones i y j cualquiera, son las
siguientes:
(b c )
(a + b + c + d )
Ejemplo 8.4
Con los datos del ejemplo 8.3, calculamos la distancia diferencia de tamao entre las
observaciones E1 y E2:
D12 =
( 2 1)
(1 + 2 + 1 + 0 )
= 0, 0625
La salida del SPSS para un anlisis cluster que utiliza como distancia la diferencia de tamao
es la siguiente:
Matriz de distancias
diferencia de tamao
Caso
1:E1
1:E1
2:E2
3:E3
4:E4
5:E5
,000
,063
,063
,063
,063
2:E2
,063
,000
,000
,250
,000
3:E3
,063
,000
,000
,250
,000
4:E4
,063
,250
,250
,000
,250
5:E5
,063
,000
,000
,250
,000
Ejemplo 8.5
En el siguiente cuadro se recoge el tamao de los activos y el nmero de trabajadores de 8
empresas:
Nombre Empresa
Activos
Trabajadores
E1
10.000.000.000
100
E2
10.050.000.000
90
E3
10.000.000.000
200
E4
10.050.000.000
190
E5
20.000.000.000
200
E6
20.050.000.000
190
E7
20.000.000.000
100
E8
20.050.000.000
90
Si efectuamos un anlisis cluster con estos datos, la matriz de distancias que se obtiene es:
Matriz de distancias
Caso
1:E1
2:E2
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
1:E1
,000
5,0E+07
100,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
2:E2
5,0E+07
,000
5,0E+07
100,000
1,0E+10
1,0E+10
1,0E+10
1,0E+10
3:E3
100,000
5,0E+07
,000
5,0E+07
1,0E+10
1,0E+10
1,0E+10
1,0E+10
distancia eucldea
4:E4
5:E5
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
1,0E+10
,000
1,0E+10
1,0E+10
,000
1,0E+10
5,0E+07
1,0E+10
100,000
1,0E+10
5,0E+07
6:E6
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
,000
5,0E+07
100,000
7:E7
1,0E+10
1,0E+10
1,0E+10
1,0E+10
100,000
5,0E+07
,000
5,0E+07
8:E8
1,0E+10
1,0E+10
1,0E+10
1,0E+10
5,0E+07
100,000
5,0E+07
,000
Este matriz muestra que los dos grupos obtenidos responden exclusivamente a la variable
activos puesto que sita en un mismo grupo a aquellas con cifras que rondan los 10.000
millones (E1, E2, E3, E4) y en otro grupo a las que tienen activos en torno a los 20.000
millones (E5, E6, E7, E8). Es decir, la influencia del nmero de trabajadores es prcticamente
nula.
Para evitar esta influencia no deseable de una variable debida exclusivamente a la unidad en
que viene medida, es necesario corregir el efecto de los datos recurriendo a un proceso de
estandarizacin. El programa SPSS ofrece distintas posibilidades, de las que detallamos las de
uso ms frecuente:
123
Ejemplo 8.6
Estandarizamos los datos del ejemplo 8.5 utilizando el procedimiento de las puntuaciones Z:
Nombre Empresa
Activos
Trabajadores Valores estand. Valores estand.
(Pesetas)
Activos
Trabajadores
E1
10.000.000.000
100
-1,00
-0,90
E2
10.050.000.000
90
-0,99
-1,09
E3
10.000.000.000
200
-1,00
1,09
E4
10.050.000.000
190
-0,99
0,90
E5
20.000.000.000
200
0,99
1,09
E6
20.050.000.000
190
1,00
0,90
E7
20.000.000.000
100
0,99
-0,90
E8
20.050.000.000
90
1,00
-1,09
Media
15.025.000.000
145
0
0
Desv. Tpica
5.000.062.499
50,24
1
1
Si efectuamos un anlisis cluster con los datos tipificados, la matriz de distancias es:
Matriz de distancias
distancia eucldea
Caso
1:E1
1:E1
,000
2:E2
,186
3:E3
1,862
4:E4
1,675
5:E5
2,639
6:E6
2,518
7:E7
1,871
8:E8
1,889
2:E2
,186
,000
2,048
1,862
2,767
2,639
1,871
1,871
3:E3
1,862
2,048
,000
,186
1,871
1,889
2,639
2,780
4:E4
1,675
1,862
,186
,000
1,871
1,871
2,504
2,639
5:E5
2,639
2,767
1,871
1,871
,000
,186
1,862
2,048
6:E6
2,518
2,639
1,889
1,871
,186
,000
1,675
1,862
7:E7
1,871
1,871
2,639
2,504
1,862
1,675
,000
,186
8:E8
1,889
1,871
2,780
2,639
2,048
1,862
,186
,000
Esta matriz muestra cmo ahora aparecen 4 grupos. Por ejemplo, E1 y E2. Tiene activos en
torno a los 10.000 millones pero los separa del grupo formado por E3 y E4 porque estas
ltimas les doblan en trminos de nmero de trabajadores.
124
Ejemplo 8.7
Utilizando los datos sobre las 8 empresas del ejemplo 8.1, calculamos la matriz de distancias,
en este caso eucldea al cuadrado:
125
Matriz de distancias
distancia eucldea al cuadrado
Caso
1:E1
1:E1
2:E2
0
3:E3
4:E4
5:E5
6:E6
7:E7
8:E8
32
180
241
841
1181
1066
1445
2:E2
32
68
121
1105
1445
1210
1613
3:E3
180
68
13
1369
1649
1234
1625
4:E4
241
121
13
1314
1544
1089
1448
5:E5
841
1105
1369
1314
50
225
314
6:E6
1181
1445
1649
1544
50
125
144
7:E7
1066
1210
1234
1089
225
125
29
1625
1448
314
144
29
8:E8
1445
1613
Esta es una matriz de disimilaridades
10 + 12
= 11
2
22 + 25
= 23,5
2
2:E2
3:E3-4
5:E5
6:E6
7:E7
8:E8
1:E1
,0
32,0
207,3
841,0
1181,0
1066,0
1445,0
2:E2
32,0
,0
91,3
1105,0
1445,0
1210,0
1613,0
3:E3-4
207,3
91,3
,0
1338,3
1593,3
1158,3
1533,3
5:E5
841,0
1105,0
1338,3
,0
50,0
225,0
314,0
6:E6
1181,0
1445,0
1593,3
50,0
,0
125,0
144,0
7:E7
1066,0
1210,0
1158,3
225,0
125,0
,0
29,0
8:E8
1445,0
1613,0
1533,3
314,0
144,0
29,0
,0
Donde, por ejemplo, la distancia entre E1 y E3-4 se ha calculado sobre el centroide de ste
ltimo grupo:
126
Etapa
Conglomerado
1
3
Conglomerado
2
4
Coeficientes
Prxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
29,000
32,000
50,000
141,250
182,250
1227,250
En las cuatro primeras etapas se fusionan empresas individuales. En la etapa 5 se fusionan dos
grupos E1-2 y E3-4, aunque estos aparecen etiquetados con el nombre de uno solo de sus
integrantes (E1-2 se representa por 1, E3-4 se representa por 3). La columna de coeficientes
refleja las distancias a las que estaban los grupos que se van fusionando en cada etapa.
El historial de agrupacin tiene una traduccin grfica que es de gran utilidad para determinar
el nmero razonable de grupos que debe retenerse. A este grafico se le denomina
dendograma:
* * * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * * *
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
E3
E4
3
4
E1
E2
E7
2
7
E8
E5
E6
Cmo sirve el dendograma para determinar el nmero razonable de grupos que debe
retenerse? Como hemos sealado, el anlisis de conglomerados jerrquicos comienza
127
Ejemplo 8.8
Con el ejemplo anterior, la distancia entre los grupos E1-2 y E3-4 estar representada por la
distancia entre E2 y E3, que son los ms cercanos. El historial de conglomeracin que
proporciona el SPSS es el siguiente:
Historial de conglomeracin
Etapa
Conglomerado
1
3
Conglomerado
2
4
Coeficientes
Prxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
29,000
32,000
50,000
68,000
125,000
841,000
128
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
E6
15,00
E2
3
E1
E5
10,00
10
20
30
40
50
Inversion
Ejemplo 8.9
El historial de conglomeracin, utilizando SPSS, es:
Historial de conglomeracin
Etapa
Conglomerado
2
Coeficientes
Prxima
etapa
Conglomerado
1
Conglomerado
2
13,000
29,000
32,000
50,000
241,000
314,000
1649,000
El coeficiente de la etapa 5 es 241, que corresponde con la distancia entre las empresas E1 y
E4.
129
30,00
E8
1
E4
25,00
E7
Ventas
E3
20,00
6
5
7
E6
15,00
E2
3
E1
E5
10,00
10
20
30
40
50
Inversion
Ejemplo 8.10
El historial de conglomeracin con este procedimiento es:
Historial de conglomeracin
Etapa
Conglomerado
1
3
Conglomerado
2
4
6
7
Coeficientes
Prxima
etapa
13,000
Conglomerado
1
0
Conglomerado
2
0
29,000
32,000
50,000
152,500
202,000
1323,625
Podemos observar como en la etapa 5 se fusiona el grupo formado por las empresas E1 y E2
(etiquetado por 1) con el formado por las empresas E3 y E4 (etiquetado por 3). El coeficiente,
es decir, la distancia entre ambos grupos es 1525, que se obtiene de la siguiente manera.
130
Todas las posibles combinaciones entre pares de puntos de estos dos grupos, su distancia y la
distancia promedio son:
Pares de observaciones Distancia Promedio
E1, E3
180
E1, E4
241
152,5
E2, E3
68
E2, E4
121
Aunque en nuestro ejemplo los cuatro mtodos de agrupacin nos han conducido al mismo
historial de conglomeracin (salvo los coeficientes) esto no ocurre siempre, pudindose
presentar distintas jerarquas de agrupacin para los diferentes mtodos.
Ejemplo 8.11
A partir de los coeficientes que se obtienen utilizando el mtodo de la vinculacin promedio
(vase ejemplo 8.10), las tasas de variacin son:
Etapa
Observaciones
que se fusionan
Grupos
Resultantes
1
2
3
[E3,E4]
[E7,E8]
[E1,E2]
[E3,E4],E1,E2,E5,E6,E7,E8
[E3,E4][E7,E8],E1,E2,E5,E6
[E1,E2][E3,E4][E7,E8],E5,E6
Nmero
de
grupos
7
6
5
[E5,E6]
[E1,E2][E3,E4][E5,E6][E7,E8]
[E1,E2][E3,E4]
[E1,E2,E3,E4][E5,E6][E7,E8]
[E5,E6][E7,E8]
[E1,E2,E3,E4][E5,E6,E7,E8]
Coeficiente
Tasa de
Variacin
13
29
32
1,23
0,10
0,56
50
2,05
152,5
0,32
[E1,E2,E3,E4][E5,E6,E7,E8]
202
5,55
[E1,E2,E3,E4,E5,E6,E7,E8]
1323,625
131
29 13
= 1, 23
13
Hay dos opciones razonables: no ejecutar la sptima etapa del anlisis jerrquico, dado que el
coeficiente
da
un
salto
del
555%,
dividir
las
empresas
en
dos
grupos
132
Ejemplo 8.12
Observacin Inversin Ventas
E1
E2
E3
E4
E5
E6
E7
E8
16
12
10
12
45
50
45
50
10
14
22
25
10
15
25
27
10 + 15 + 25 + 27
= 19, 25
4
16 + 12 + 10 + 12
= 12,5
4
10 + 14 + 22 + 25
= 17, 75
4
Ejemplo 8.14
Observacin Inversin Ventas
133
Ejemplo 8.15
Adems de mostrar los centroides iniciales:
Centros iniciales de los conglomerados
Conglomerado
1
Inversin
50
12
Ventas
15
25
Tambin indica qu cambios, en trminos de distancia eucldea entre los centroides iniciales y
finales, se producen en cada una de las etapas
Historial de iteraciones(a)
Cambio en los centros
de los conglomerados
Iteracin
1
2
4,931
7,267
,000
,000
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o
ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000. La iteracin
actual es 2. La distancia mnima entre los centros iniciales es de 39,294.
Podemos observar que, en la primera etapa, el centroide final del conglomerado 1 dista del
inicial 4,931 unidades:
d = (47, 5 50) 2 + (19, 25 15) 2 = 4, 931
donde
45 + 50 + 45 + 50
4
10 + 15 + 25 + 27
19, 25 =
4
47,5 =
134
VAR00001
Conglomerado
Distancia
E1
8,504
E2
3,783
E3
4,931
E4
7,267
E5
9,582
E6
4,931
E7
6,270
E8
8,143
1
47,50
2
12,50
19,25
17,75
Esta informacin es fundamental para caracterizar a los grupos obtenidos, ya que la misin del
analista no es slo determinar qu observaciones van a cada conglomerado, sino obtener las
caractersticas de los mismos. El cuadro anterior nos indica que hay dos tipos de empresas que
se diferencian porque unas, las del conglomerado 1 necesitan mucha ms inversin
publicitaria para alcanzar niveles similares de ventas, es decir, obtienen mucha menor
rentabilidad de su inversin que las del conglomerado 2.
El SPSS ofrece tambin una serie de ANOVAS donde el factor es la pertenencia al
conglomerado y las variables dependientes son, sucesivamente, cada una de las utilizadas para
caracterizar a los grupos:
ANOVA
Conglomerado
Media
cuadrtica
gl
Inversin
Ventas
Error
Media
cuadrtica
Gl
Sig.
2450,000
7,333
334,091
,000
4,500
56,917
,079
,788
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
Por las razones expuestas al pie de la tabla, estas pruebas solo deben utilizarse con finalidad
descriptiva. Se puede observar que las diferencias entre las inversiones publicitarias de los dos
grupos son muy grandes, pero no as las ventas. Esto confirma la interpretacin de los
conglomerados expuesta anteriormente.
136
9. Componentes principales.
9.1 Introduccin.
9.2 Componentes principales.
9.2.1 Componentes principales a partir de variables estandarizadas.
9.1 Introduccin.
El anlisis de componentes principales (ACP) es un mtodo estadstico multivariante de
simplificacin o reduccin de la dimensin de una tabla de variables cuantitativas, obteniendo
otra de menor nmero de variables, combinacin lineal de las primitivas, que se denominan
componentes principales. Su aplicacin es directa sobre cualquier conjunto de variables sin
que el investigador haya previamente establecido jerarquas entre ellas (var. dependientes o
independientes), normalidad de su distribucin, ...
Podra decirse que el objetivo principal que persigue el ACP es la representacin de las
medidas numricas de varias variables en un espacio de pocas dimensiones donde nuestros
sentidos puedan percibir relaciones que de otra manera permaneceran ocultas en dimensiones
superiores. Dicha representacin debe ser tal que al desechar dimensiones superiores la
prdida de informacin sea mnima.
Sea un vector aleatorio X ' = X 1 , X 2 ,..., X p con matriz de covarianzas S con valores propios
Y1 = 1' X = 11 X 1 + 12 X 2 + + 1 p X p
Y2 = 2' X = 21 X 1 + 22 X 2 + + 2 p X p
Yp = p' X = p1 X 1 + p 2 X 2 + + pp X p
Se puede demostrar que
(9-1)
Primera
componente
principal
combinacin
lineal
1' X
que
maximiza
2' X que
maximiza
Segunda
componente
principal
combinacin
138
lineal
( 1 , 1 ) , ( 2 , 2 ) ,..., ( p , p )
dada por
Yi = i' X = i1 X 1 + i 2 X 2 + + ip X p , i = 1, 2,..., p
con esta eleccin
Resultado 9.2 Sea X ' = X 1 , X 2 ,..., X p con matriz de covarianzas S , con pares de valores y
( 1 , 1 ) , ( 2 , 2 ) ,..., ( p , p )
vectores
propios
Y1 = 1' X ,
Y2 = 2' X , ...,
donde
1 2 p 0.
Sean
i =1
i =1
1 + + p
, k = 1,2,..., p
Si mucha (por ejemplo, 80% o 90%) de la varianza total, puede ser atribuida a la primera, a las
dos primeras o a las tres primeras de las componentes, entonces estas componentes pueden
reemplazar las p variables originales sin mucha perdida de informacin (varianza).
Cada componente del vector de coeficientes i' = (i1 ,..., ik ,..., ip ) tambin merece atencin.
La magnitud de ik mide la importancia de la k -esima variable en la i -sima componente. En
particular, si las variables X i estn tipificadas, ik es proporcional al coeficiente de
correlacin entre Yi y X k .
139
Resultado 9.3 Si
ik i
skk
, i, k = 1, 2,..., p
Ejemplo 9.1
Veamos cmo se aplica la transformacin de componentes principales a un conjunto de datos
que presentan cierta correlacin. En la siguiente figura mostramos los datos sobre los que se
va a efectuar la transformacin. Como se observa, las variables X 1 y X 2 presentan una
correlacin positiva.
3.50
1.9 1.1
x =
; S =
3.50
1.1 1.1
Calculamos los valores propios de S . Como p = 2 habr dos valores propios asociados a la
matriz de covarianza ( 1 , 2 ), que sern las soluciones de la ecuacin S I = 0 . En
particular,
1.9
1.1
1.9 1.1
1 0
=0
1.1 1.1 0 1 = 0 1.1
1.1
o lo que es igual,
2 3 + 0.88 = 0
y las soluciones son: 1 = 2.67 y 2 = 0.33
140
propio 1 ,
( S 1 I ) 1 = 0. Esto es,
1.9 1.1
1 0 11
0.77 1.1 11
2.67
= 0
= 0
0 1 12
1.1 1.57 12
1.1 1.1
o lo que es igual,
0.7711 + 1.1012 = 0
1.1011 1.5712 = 0
Tomando cualquiera de ellas se deduce que 11 = 1.4312 .
Como nos hemos restringidos a vectores con longitud 1 (1 1 = 1) , imponemos tambin que
11 = 1.4312 .
112 + 122 = 1
0.82
y su solucin 1 =
0.57
0.57
El vector propio 2 , correspondiente a 2 = 0.33 se calcula de manera similar: 2 =
.
0.82
Como hemos impuesto, los vectores propios son de longitud 1. Efectivamente,
141
Por ltimo, observemos que la matriz de covarianza SY es diagonal y contiene los valores
propios asociados a S .
0
2.67
SY =
0.33
0
observamos que:
142
0
1.9 1.1
2.67
S =
; SY =
0.33
1.1 1.1
0
s12 ( X )
1.1
=
= 0.76
s11 ( X ) s22 ( X )
1.9 1.1
rx1 x2 =
i =1
i =1
1 + 2
2.67
= 0.89
3
En este caso la primera componente podra reemplazar a las dos variables originales con
una pequea perdida de informacin.
Adems, dado que
rY1 , X1 =
rY1 , X 2 =
11 1
s11
12 1
s22
0.82 2.67
= 0.97
1.9
0.57 2.67
= 0.89
1.1
143
Ejemplo 9.2
Las salidas que nos interesan del SPSS con los datos del ejemplo anterior son las siguientes:
Estadsticos descriptivos
Media
Desviacin
tpica
N del anlisis
VAR00001
3,5000
1,37840
VAR00002
3,5000
1,04881
Autovalores iniciales(a)
Total
Bruta
% de la
varianza
% acumulado
2,670
89,016
89,016
,330
10,984
100,000
144
Matriz de componentes(a)
Bruta
Reescalada
Componente
Componente
VAR00001
1,338
,971
VAR00002
,938
,894
Mtodo de extraccin: Anlisis de componentes principales.
a 1 componentes extrados
Para obtener los coeficientes de la primera componente ik (que es la que explica el 89,016%
de la varianza) hay que dividir los nmeros de la tabla de Matriz de componentes, columna
Bruta, entre la raiz cuadrada del valor propio de la componente, dado que la componente bruta
es igual a ik i . En nuestro caso:
11 =
1, 338
= 0,82
2, 67
12 =
0, 938
= 0,57
2, 67
La columna Reescalada nos da las correlaciones entre la primera componente y las variables
originales, rY1 , X k =
1k 1
skk
NOTA: Cuando trabajamos con la matriz de correlacin de las variables X k , SPSS slo da
una columna por componente. La Bruta y la Reescalada coinciden y los coeficientes dados
son las correlaciones entre las componentes y las variables originales.
( X 1 1 )
s11
( X 2 2 )
s22
Zp =
(X
p )
s pp
145
( i , i )
para ambas
situaciones.
Resultado 9.4 La i-esima componente principal de las variables estandarizadas Z ' = (Z1,..., Z p )
con Cov( Z ) = R , est dada por
Yi = i1Z1 + i 2 Z 2 + + ip Z p , i = 1,..., p
Adems,
p
i =1
i =1
y
rYi , Zk = ik i , i, k = 1,..., p
En este caso ( 1 , 1 ) ,..., ( p , p ) son los pares de valores y vectores propios para R con
1 p 0 .
La varianza total es p , la suma de los elementos diagonales de la matriz R . En este caso, la
proporcin de varianza total explicada por la k -esima componente principal de Z es
para k = 1,..., p , donde k son los valores propios de R .
Ejemplo 9.3
Consideremos la matriz de covarianzas
1 4
S =
4 100
y la matriz de correlacin derivada de ella
1 0.4
R=
.
0.4 1
Se van a obtener las componentes principales utilizando estas dos matrices.
146
k
p
Y1 = 0.040 X 1 + 0.999 X 2
Y2 = 0.999 X 1 0.040 X 2
1 + 2
100.16
= 0.992
101
de la varianza total.
Veamos la correlacin de las componentes y las variables originales:
rY1 , X1 =
rY1 , X 2 =
11 1
s11
12 1
s22
= 0.4
=
0.999 100.16
= 0.999
100
R:
X 1
X 2 2
Y1 = 0.707 Z1 + 0.707 Z 2 = 0.707 1
+ 0.707
1
10
= 0.707 ( X 1 1 ) + 0.0707 ( X 2 2 )
X
X 2
Y2 = 0.707 Z1 0.707 Z 2 = 0.707 1 1 0.707 2
1
10
= 0.707 ( X 1 1 ) 0.0707 ( X 2 2 )
Cuando las variables estn estandarizadas, sin embargo, las variables resultantes contribuyen
de igual forma a las componentes principales determinadas a partir de R . Vemoslo:
1
p
1.4
= 0.7 de la varianza
2
total.
Vemos entonces que la importancia relativa de las variables sobre, por ejemplo, la primera
componente principal est muy afectada por la estandarizacin. Cuando la primera
componente obtenida a partir de R se expresa en trminos de X 1 y X 2 , las magnitudes
relativas de las ponderaciones 0.707 y 0.0707 estn en directa oposicin con las ponderaciones
0.040 y 0.999 conseguidas en las componentes principales de S
El ejemplo anterior demuestra que las componentes principales derivadas de S son diferentes
de las derivadas de R . Esto sugiere que la estandarizacin no es intrascendente.
Las variables deberan ser estandarizadas si son medidas en escalas con rangos muy diferentes
o si las unidades de medidas no son proporcionadas. Por ejemplo, si X 1 representa las ventas
anuales en el rango 10.000 y 350.000 y X 2 es la razn ingresos anuales netos / valores
totales, que caen en el rango 0.01 y 0.6, entonces la variacin total ser dada casi
exclusivamente por los euros de las ventas. En este caso, podramos esperar una nica
componente principal con una ponderacin muy fuerte de X 1 . Alternativamente, si las dos
variables estn estandarizadas, sus magnitudes subsecuentes estarn en el mismo orden y X 2
(o Z 2 ) jugar un papel importante en la construccin de las componentes. Este
comportamiento fue observado en el ejemplo 9.3.
Ejemplo 9.4
Un censo reciente proporciona informacin sobre 5 variables socio-econmicas. Los datos
sobre 14 regiones estn dados en la siguiente tabla:
Regiones Poblacin
total
(miles)
1
5,935
2
1,523
3
2,599
4
4,009
5
4,687
6
8,044
7
2,766
8
6,538
9
6,451
10
3,314
11
3,777
148
Aos
medios
en escuela
14,2
13,1
12,7
15,2
14,7
15,6
13,3
17,0
12,9
12,2
13,0
Empleo
total
(miles)
2,265
0,597
1,237
1,649
2,312
3,641
1,244
2,618
3,147
1,606
2,119
Empleo en
Sanidad
(cientos)
2,27
0,75
1,11
0,81
2,50
4,51
1,03
2,39
5,52
2,18
2,83
Ingresos medios en
hogar
(10.000)
2,91
2,62
1,72
3,02
2,22
2,36
1,97
1,85
2,01
1,82
1,80
12
13
14
1,530
2,768
6.585
13,8
13,6
14.9
0,798
1,336
2.763
0,84
1,75
1.91
4,25
2,64
3.17
1.683
S = 1.803
2.155
0.253
1.683
1.768
0.588
0.177
0.176
0.253
0.588 0.177
0.176
0.801 1.065 0.158
2.155
Como los valores de las variables se mueven en un rango parecido, utilizaremos la matriz de
covarianzas.
COEFICIENTES PARA LAS COMPONENTES PRINCIPALES
(Coeficiente correlacin entre parntesis)
Variable
1
2
3
4
Poblacin Total
0.781 (0.99)
-0.71 (-0.04)
0.306 (0.61)
Empleo Total
0.334 (0.98)
0.083 (0.12)
0.015
0.050
Empleo Sanidad
0.426 (0.80)
0.579 (0.55)
0.220
-0.636 -0.173
0.962
-0.051
0.024
Ingresos Medios
0.004
0.542
5
-0.302
0.937
Varianza ( i )
6.931
1.786
0.390
0.230
0.014
Porcentaje acumulado
de la varianza total
74.1
93.2
97.4
99.9
100
La primera componente principal explica el 74.1% de la varianza muestral total. Las dos
primeras componentes explican el 93.2%. En consecuencia, la variacin muestral se resume
muy bien mediante dos componentes y la reduccin en los datos va de 14 observaciones de 5
variables a 14 observaciones de dos componentes.
Fijndonos en los coeficientes, la 1 componente es una media ponderada de las 4 primeras
variables. En la 2 componente aparece contraste entre el empleo en sanidad y una media
ponderada de la poblacin total, los aos medios en el colegio y los ingresos medios.
Las salidas del SPSS, utilizando la matriz de covarianza, son las siguientes:
149
Matriz de componentes(a)
Bruta
Reescalada
Componente
Componente
PobTotal
AosMedios
EmpleoTotal
EmpleoSanidad
2,057
,991
,805
,605
,881
,984
1,122
,799
IngresosMedios
-,143
-,201
Mtodo de extraccin: Anlisis de componentes principales.
a 1 componentes extrados
Dividiendo estas cantidades entre la raz cuadrada de primer valor propio (6,931) obtenemos
los coeficientes de la primera componente principal. La correlacin entre la primera
componente y las variables originales la podemos leer en la columna denominada
reescalada. El porcentaje de varianza que explica esta variable es el siguiente:
Varianza total explicada
Sumas de las saturaciones al cuadrado
de la extraccin
% de la
Total
varianza
% acumulado
Bruta
6,931
74,133
74,133
Mtodo de extraccin: Anlisis de Componentes principales.
Componente
1
Ejemplo 9.5
En un estudio de tortugas se les mide la longitud, la anchura y la altura del caparazn (en
milmetros). Los datos son los siguientes:
Longitud Anchura Altura
98
81
38
103
84
38
103
86
42
105
86
42
109
88
44
123
92
50
123
95
46
133
99
51
133
102
51
133
102
51
134
100
48
136
102
49
150
138
98
51
138
99
51
141
105
53
147
108
57
149
107
55
153
107
56
155
115
63
155
117
60
158
115
62
159
118
63
162
124
61
177
132
67
Los datos sugieren un anlisis en trminos de logaritmos (suaviza la serie).
Las salidas del SPSS son:
Estadsticos descriptivos
Desviacin
tpica
Media
N del anlisis
lnLONGITUD
4,9007
,16250
24
lnANCHURA
4,6229
,12724
24
3,9403
Varianza total explicada
,15792
24
lnALTURA
Componente
Bruta
Autovalores iniciales(a)
Total
,066
% de la
varianza
98,060
% acumulado
98,060
,001
1,134
99,194
,001
,806
Mtodo de extraccin: Anlisis de Componentes principales.
Matriz de componentes(a)
100,000
Bruta
Reescalada
Componente
Componente
lnLONGITUD
,161
,015
,992
,094
lnANCHURA
,126
,008
,987
,059
lnALTURA
,156
-,022
,990
Mtodo de extraccin: Anlisis de componentes principales.
-,138
151
La 1 componente principal, que explica el 98,06% de la varianza total, tiene una interesante
interpretacin:
y1 = 0.627 ln(long ) + 0.490 ln(anchura ) + 0.603ln(altura )
= ln ( long 0.627 anchura 0.490 altura 0.603 )
La primera componente principal puede ser vista como el ln(volumen) de una caja con
dimensiones ajustadas. Por ejemplo, la altura ajustada es altura 0.607 , lo cual tiene en cuenta,
en algn sentido, la forma redondeada del caparazn.
Es muy frecuente que la primera componente haga referencia al tamao (todos los coeficientes
de la combinacin lineal son posistivos) y la segunda a la forma (se enfrentan coeficientes
negativos y positivos en la combinacin lineal, como ocurre aqu con la segunda componente).
Un inusual valor pequeo en el ltimo valor propio para la matriz de covarianzas o la matriz
de correlacin puede indicar una dependencia lineal no anunciada en el conjunto de los datos.
Si esto ocurre, una o ms de las variables son redundantes y pueden ser eliminadas.
Consideremos una situacin donde x1 , x2 y x3 son puntuaciones de test y la puntuacin total
Ejemplo 9.6
Veamos un caso en el que uno de los autovalores es cero y estudiaremos sus consecuencias.
Supongamos que la matriz de covarianza ya est calculada, y es:
4.5 1.5
S =
1.5 0.5
Sus valores propios son 1 = 5 y 2 = 0 . Los vectores propios asociados a estos valores son:
0.95
0.32
2 =
0.32
0.95
1 =
152
0 0
Las componentes principales preservan la varianza global:
tr ( S ) = 4.5 + 0.5 = 5
tr ( SY ) = 5 + 0 = 5
Observe que en este caso, al ser 2 = 0 significa que la varianza de los datos en Y2 es cero lo
que se interpreta como que los datos estn perfectamente alineados en la direccin de Y1 . En
otras palabras, el eje Y2 es innecesario.
153
154
EJERCICIOS
155
1. Un auditor examina las cuentas abiertas con diferentes clientes de una empresa. Suponga
que existen 1.000 cuentas de las cuales se examinan 300. La media muestral de las cuentas
fue y = 1.040 y la varianza muestral (cuasivarianza) es S2=45.0002. Estime el
promedio de la deuda y el total de la deuda por cobrar para las 1.000 cuentas abiertas con
un intervalo de confianza al 95%.
Segn la muestra
100
yi = 70
i =1
i =1
= 25
Solucin p1 =
y
i =1
100
100
= 0, 70 (70%)
p2 =
z
i =1
100
= 0, 25 (25%)
2 = N p 2 = 900 0, 25 = 225
3. Encuentre el tamao de muestra necesario para estimar el valor total de 1.000 cuentas por
cobrar con un lmite para el error de estimacin de 10.000. Aunque no se cuenta con
datos anteriores para estimar la varianza poblacional pero se sabe que la mayora de las
cuentas caen dentro del intervalo (600, 1.400).
156
sbado con un lmite para error de estimacin del 10%. La informacin previa disponible
indica que el 60% preferan los exmenes en sbado. Tambin se quiere estimar la
proporcin de estudiantes que apoyan al equipo decanal con un error mximo de
estimacin del 5%. Determinar el tamao muestral que se requiere para estimar ambas
proporciones con los lmites de error especificados.
Solucin: n = 353,04 354
5. Un dentista est interesado en la efectividad de una nueva pasta dental. Un grupo de 1.000
nios de escuela particip en el estudio. Los registros de un estudio anterior mostraron que
haba un promedio de 2,2 caries cada seis meses para el grupo. Despus de un ao de
iniciado el estudio, el dentista muestre 10 nios para determinar cunto haban
progresado con la nueva pasta dental. Usando los datos de la siguiente tabla:
Nmero de caries
en seis meses
1
0
2
4
3
2
4
3
5
2
6
0
7
3
8
4
9
1
10
1
Se puede decir que la incidencia media de las caries ha disminuido?
Nio
157
50
Y = 1.450; Y
i =1
i =1
= 54.496
Solucin:
158
12. Una muestra aleatoria de 30 familias fue extrada de una zona de cierta ciudad que
contiene 14.848 familias. El nmero de personas por familia en la muestra obtenida fue el
siguiente:
5 6 3 3 2 3 3 3 4 4 3 2 7 4 3
5 4 4 3 3 4 3 3 1 2 4 3 4 2 4
Estimar el nmero total de personas en la zona, construyendo un intervalo de confianza al
95%.
Solucin: (44.842,09, 58.104,04 )
13. Un hipermercado desea estimar la proporcin de compras que los clientes pagan con su
Tarjeta de Compras. Durante una semana observaron al azar 200 compras de las cuales
35 fueron pagadas con la tarjeta.
a) Estime con un intervalo de confianza la proporcin de compras pagadas con dicha tarjeta.
b) Cuantas compras deberan observarse para estimar, con un error inferior al 3%, la
proporcin de compras pagadas con la tarjeta? (Consideren los datos anteriores como una
muestra previa)
c) Este mismo hipermercado desea estimar tambin el valor medio de las compras realizadas
con su Tarjeta de Compras. Basndose en los anteriores datos observa que el valor total
de las compras hechas con la tarjeta fue de 5.600 (siendo la cuasivarianza de los datos
625). Estime el valor medio de las compras pagadas con la tarjeta y el error de estimacin
asociado.
Solucin: a) p (12,11% , 22,89% ) . b) n =
c) y =
pq
= 641, 6 642 .
D
1 n
5600
yi =
= 160 B = 2 V ( y ) = 8, 45
n i =1
35
14. Entre todas las oficinas bancarias de una pequea ciudad se tienen concedidos 2000
prstamos hipotecarios. Existen razones para pensar que el prstamo hipotecario de menor
cuanta es de algo ms de 1200 euros, siendo de casi 11000 euros el de mayor cuanta.
cul es el tamao muestral necesario para estimar estos dos parmetros:
-
euros y
-
n = 333, 47 334
159
15. Se desea estimar el salario medio entre los empleados de una empresa y la proporcin de
empleados que apoyan a la actual directiva. La empresa tiene 110 empleados y se sabe que
el salario est comprendido entre los 1500 y 1800 euros mensuales. Cul debe ser el
tamao muestral para que al estimar el salario medio la cota de error se site en 10 euros y
al estimar la proporcin de los que apoyan a la actual directiva el error mximo cometido
sea del 2%?
Solucin: n = 74,1 75
n = 105, 4 106
16. Una empresa de trabajo temporal quiere investigar las necesidades de empleo de las
empresas de un pueblo. Para ello decide seleccionar una muestra de 5 de las 25 inscritas en
el registro mercantil. El nmero de bajas en el ltimo ao, el nmero de empleados y la
respuesta de cada empresa sobre si utilizara los servicios de la empresa de trabajo
temporal fueron los siguientes:
Empresa Bajas Empleados Respuesta
1
1
7
Si
2
2
15
No
3
9
85
Si
4
0
3
No
5
2
12
No
a) Estime el nmero de bajas en el ltimo ao en las empresas del pueblo. Calcule
el lmite para el error de estimacin.
b) Estime el nmero de empresas que usaran los servicios ofertados. Calcule el
lmite para el error de estimacin.
Solucin: p (62, 49% , 68, 51%) p > 50% si se puede afirmar ...
18. El Centro de Estadstica desea estimar el salario medio de los trabajadores de los
invernaderos de una regin. Se decide clasificarlos en dos estratos, los que poseen contrato
fijo y los que tienen un contrato temporal. El salario de los contratos fijos est
comprendido entre los 1.200 y 2.200 euros mensuales, el salario de los contratos
temporales est comprendido entre 500 y 1.700 euros mensuales. Cul debe ser el tamao
muestral total y su asignacin para que se estime el salario medio de los contratos fijos con
160
un error inferior a 100 y el salario medio de los contratos temporales con un error inferior
a 120?
Solucin: n1 = 25 n2 = 25 n = n1 + n2 = 50
19. Se selecciona una m.a.s. de 9 compras de clientes de un centro comercial para estimar el
valor medio de las compras por cliente.
VALOR en
33,5 32
52
43
40
41
45
42,5
39
c) n = 35, 67 36 compras
Solucin: 25% (17% 4, 21% ) = (12, 79%, 21, 21% ) luego se rechaza la hiptesis de
que en el 25% de los hogares de esa ciudad habita al menos una persona mayor de 65
aos.
21. El consumo medio de combustible de los taxis de una ciudad es 5,6 litros cada 100 Km.
Puesto que se considera que el consumo es demasiado elevado, en 600 taxis se monta un
dispositivo para disminuirlo. Pasado cierto tiempo se toma una muestra aleatoria de 20
taxis, elegidos entre los 600 que colocaron el dispositivo. El consumo en litros de
combustible por cada 100 Km se recoge en la siguiente tabla
Taxi nConsumo Taxi n Consumo Taxi n Consumo Taxi n Consumo
1
5,4
6
6,3
11
3,6
16
5,4
2
5,5
7
5,4
12
6,7
17
4,8
3
6,9
8
5
13
5,2
18
4,7
4
3,9
9
4,5
14
5,1
19
5,8
5
4,5
10
4,4
15
5,4
20
6,2
a) Estmese mediante un intervalo de confianza la proporcin de taxis con un
consumo inferior a 5,6 litros/100 Km.
b) Cuantos taxis deben observarse para estimar la anterior proporcin con un error
menor o igual que un 10%?
161
N1
= 20 0, 20 = 4 de forma similar n2 = 6 n3 = 5 n4 = 5 .
N
Obteniendo los resultados de la tabla siguiente (consumo expresado en valor en euros).
n1 = n
Estrato 1
Estrato 2
Estrato 3
Estrato 4
470
510
500
550
490
500
470
520
550
500
y 2 = 505 S22 = 750
540
480
500
470
470
450
560
460
440
580
Estime el consumo anual medio por hogar y fije un lmite para el error de estimacin.
4
Solucin:
y st =
i =1
Ni
y i = 500, 5
N
2 V ( y st ) = 18, 79
2. Una gran empresa sabe que el 40% de las facturas que emite son al por mayor y el 60% al
por menor. Sin embargo, identificar las facturas individuales sin consultar un archivo es
complicado. Un auditor desea muestrear 100 de sus facturas para estimar el valor medio
de las facturas de la empresa (Nota para estimar el total necesitaramos conocer N). Una
muestra aleatoria simple present 70 facturas al por mayor y 30 al por menor. Los datos
162
son separados en facturas al por mayor y al por menor despus del muestreo, con los
siguientes resultados en :
Por mayor
Por menor
n1 = 70
y1 = 520 S1 = 210
n2 = 30
y 2 = 280 S2 = 90
Estime el valor medio de las facturas de la empresa, y fije un lmite para el error de
estimacin.
Solucin:
a. p =
18
= 0,18 (18%)
100
b. p st =
1
N
i =1
i =1
Ni pi =
2 V ( p ) = 0, 0772
( 7, 72% )
Ni
2
16
p i = 0, 60 + 0, 40 = 0,14
N
20
80
2 V ( p st ) = 0, 0901
(14% )
( 9, 01% )
163
( p1 = 0,10 ). En el apartado b.
S1 = 12
y2 = 13, 3
S 2 = 11
y3 = 26,1
S3 = 9
a. y st =
1
N
N y
i =1
3834
= 19,17 pedidos / semana
200
2 V ( y st ) = 5, 02 pedidos / semana
2
( N )
L
b. D =
B
9
= = 2, 25
4 4
n=
i =1
= 43,52
N D + N i
2
i =1
n1 = 23,31 24 n2 = 14,96 15
2
i
n3 = 5, 24 6 n = 45
164
Media
154,3
411,8
Desviacin tpica
87,3
219,9
6. Una compaa de autobuses est planeando una nueva ruta para dar servicio a cuatro
barrios. Se tomaron muestras aleatorias de hogares en cada barrio y se solicit a los
miembros de la muestra que valorasen en una escala de 1 (totalmente opuesto) a 5
(totalmente a favor) su opinin sobre el servicio propuesto. Los resultados se resumen en
la tabla adjunta:
Barrio
1
2
3
4
N i 240 190 350 220
ni
25 25 25 25
y i 3,5 3,6 3,9 3,8
S i 0,8 0,9 1,2 0,7
a) Halle un intervalo de confianza para la opinin media de los hogares que dispondrn
del nuevo servicio.
b) Si se asigna la muestra de 100 hogares de la mejor forma, determine cuntos
perteneceran al barrio 3. (Suponga iguales los costes de observacin)
Solucin:
7. Una universidad tiene 152 profesores ayudantes, 127 profesores asociados y 208
profesores titulares. Una reportera del peridico de los estudiantes quiere averiguar si los
profesores estn realmente en sus despachos durante las horas de tutoras. Decide
investigar muestras de 40 profesores ayudantes, 40 asociados y 50 titulares. Algunos
estudiantes voluntarios llamaron a la puerta de los profesores de la muestra durante sus
horas de tutoras. Se hall que 31 de los profesores ayudantes, 29 de los asociados y 34 de
los titulares se encontraban realmente en sus despachos. Hallar un intervalo de confianza
para la proporcin de profesores que permanecen en sus despachos durante las horas de
tutoras.
Solucin:
p st = 0,7214; B = 0,0685
165
8. Un auditor quiere estimar el valor medio de las facturas por cobrar de una compaa. La
poblacin se divide en cuatro estratos que contienen 500, 400, 300 y 200 facturas,
respectivamente. Basndose en una experiencia previa, se estima que las desviaciones
tpicas en estos estratos son de 15, 20, 30 y 40 euros, respectivamente. Determinar el
tamao muestral y la asignacin para estimar el valor medio de las facturas por cobrar
cometiendo un error de como mucho 5 euros.
Solucin:
n2 = 39; n = 61
10. De una ciudad con 350 casas, se sabe que 164 de ellas tienen calefaccin elctrica. Al
realizar una encuesta sobre el consumo de energa (en kilovatios-hora) se obtuvieron los
siguientes resultados:
Tipo Calefaccin N casas Media muestral Cuasivarianza muestral
Elctrica
24
972
202,396
No elctrica
36
463
96,721
a) Obtenga una estimacin del nmero medio de kilovatios-hora utilizado en la ciudad.
D un lmite para el error de estimacin.
b) Obtenga una estimacin del nmero medio de kilovatios-hora utilizado por las casas
que no tienen calefaccin elctrica. D un lmite para el error de estimacin.
Solucin:
a. y st = 701,50
2 2,19 = 2,96
b.
y 2 = 463
2 2,17 = 2, 94
11. Un analista de la opinin pblica tiene un presupuesto de 20.000 euros para realizar una
encuesta sobre el nmero medio de coches por hogar. Se sabe que de los 10.000 hogares
de la ciudad, 9.000 tienen telfono. Las entrevistas por telfono cuestan 10 euros por
hogar llamado y las entrevistas personales cuestan 30 euros por hogar visitado. Suponga
166
que las varianzas en los estratos con y sin telfono son iguales. Con el objetivo de
minimizar el lmite de error de estimacin Cuntos hogares deben ser entrevistados en
cada estrato si los hogares que cuentan con servicio telefnico son entrevistados por
telfono y los hogares sin telfono son entrevistados personalmente?
fuera de ella. Se sabe que el 425% de las familias tienen de 0 a 2 hijos, el 30% tienen de
3 a 5 hijos y el 275% tienen ms de 5 hijos. Se realiz un muestreo segn el nmero de
hijos y se pregunt a las familias sobre los fines de semana que pasan fuera, obtenindose
los siguientes datos:
Nmero de hijos ni
yi
S i2
i =1
0-2
25 239 6076
3-5
19 174 6301
Mas de 5
16 78
7824
Estimar el nmero medio de fines de semana que las familias pasan fuera de la ciudad y
dar el lmite de error de estimacin. Omitir el corrector por poblacin finita. Solucin:
y st = 8,15
2 1,107 = 2,1
13. En una poblacin compuesta por aproximadamente igual nmero de hombres que de
mujeres se desea estimar el gasto medio mensual por habitante en ocio. Se lleva a cabo la
encuesta por telfono mediante una muestra aleatoria simple de 500 nmeros de telfono
del citado municipio. Despus de obtenidos los datos se observa que slo 100 de los
encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo una
estratificacin despus de seleccionar la muestra obtenindose los siguientes datos
Ni
HOMBRES
2.500
MUJERES
2.700
ni
100
400
yi
120
250
9.000
16.000
Si2
Estime la media poblacional de gasto mensual en ocio y su cota de error, mediante
muestreo aleatorio estratificado despus de seleccionar la muestra.
Solucin:
y st = 187,5
2 29,16 = 10,8
14. En una poblacin compuesta por aproximadamente igual nmero de hombres que de
mujeres se desea estimar la proporcin de individuos que ven un determinado programa
de televisin. Se lleva a cabo la encuesta por telfono mediante una muestra aleatoria
simple de 300 nmeros de telfono. Despus de obtenidos los datos se observa que slo
167
50 de los encuestados fueron hombres y el resto mujeres. Por ello se decide llevar a cabo
una estratificacin despus de seleccionar la muestra obtenindose los siguientes datos
HOMBRES
MUJERES
Encuestados
50
250
Ven el programa
12
130
Estime la proporcin de la poblacin que ven el programa de televisin y su cota de error,
mediante muestreo aleatorio estratificado despus de seleccionar la muestra.
Solucin:
p st = 0, 38 p st = 38%
2 V ( p st ) = 0, 0687 6,87%
15. Una corporacin desea estimar el nmero total de horas perdidas debido a accidentes de
sus empleados, en un determinado mes. Ya que los obreros, tcnicos y administrativos
tienen diferentes tasas de accidentes, la corporacin decide usar muestreo estratificado,
formando con cada grupo un estrato. Datos de aos previos sugieren las cuasivarianzas
mostradas en la siguiente tabla para el nmero de horas perdidas por empleado en los tres
grupos, y de datos actuales se obtienen los tamaos de los estratos. No habiendo
diferencia entre los costes de observacin de cada grupo, determine la mejor asignacin
para una muestra de 40 empleados.
Obreros
Tcnicos
Administrativos
Si2
36
25
Ni
132
92
27
Solucin:
17. En una ciudad se sabe que el 30% de los hogares tienen calefaccin elctrica. Al realizar
una encuesta sobre el consumo de energa (valor en euros de la factura bimensual) se
obtuvieron los siguientes resultados:
Tipo Calefaccin N casas Valor total de las facturas desviacin tpica muestral
Elctrica
60
5730
200
No elctrica
40
2080
90
168
y st =
1
N
Ni
N y = N
i =1
2 V ( y st ) = 25,24
y i = 65, 05
i =1
Solucin:
2
( N )
L
D=
B2
250.000
=
= 0, 0625
2
4N
4.000.000
n=
i =1
= 71, 66
N D + N i
2
i =1
2
i
169
Tipo de
Nmero de
Costes de
Gastos de reparacin
empresa
empresas
observacin Mnimo
Media
Mximo
A
100
16
400
500
600
B
500
9
240
300
360
C
700
4
70
100
130
Si la empresa de seguros dispone de hasta 600 para llevar a cabo la estimacin, cuntas
empresas de cada tipo tiene que observar para conseguir que sea mnimo el error de
estimacin asociado?
Solucin: n1 = 8; n 2 = 34; n3 = 36; n = 78 (8 x6 + 34 x9 + 36 x 4 = 578)
21. En un centro escolar se quiere realizar una encuesta para conocer la proporcin de padres
que estaran dispuestos a participar en actividades. Se quiere estimar la proporcin de
padres tanto a nivel global como para cada grupo de edad de los alumnos por lo que se
decide estratificar segn la edad de los alumnos. A partir de la informacin proporcionada
por la siguiente tabla, obtener el nmero ptimo de padres que, de cada estrato, hay que
encuestar para que la proporcin de participacin de los padres con hijos de edades entre 6
y 8 aos sea estimada con un error menor o igual al 10%. (Suponemos que cada padre
tiene un solo hijo en el centro)
Aos
Alumnos
matriculados
150
130
120
100
Coste de encuestar a un
elemento
4
9
16
25
4-6
6-8
8-12
12-14
Sol. n = 200,3; n1 = 94,84 95; n 2 = 51,27 52; n3 = 33,53 34; n 4 = 20,65 21 n = 202
22. El coste de transportar mercancas en avin depende del peso. Un determinado embarque
de una fbrica consista en las mquinas producidas por la citada fbrica a lo largo de las
dos ltimas semanas. Se decide estratificar basndose en las semanas, con el fin de
observar si existe variacin semanal en la cantidad producida. Las muestras aleatorias
simples de los pesos (en kilos) de las mquinas transportadas en el embarque, para las dos
semanas, mostraron las siguientes mediciones:
Semana A Semana B
170
58,3
59,2
60,4
60,1
59,3
59,6
58,7
59,2
59,1
58,8
59,6
60,5
a. Estimar el peso total del embarque de maquinaria, sabiendo que el nmero total de
mquinas producidas ha sido de 162 en la semana A y de 170 en la semana B.
b. Obtenga un intervalo de confianza para el peso total del embarque de maquinaria.
c. Determinar el tamao de la muestra y su asignacin, en el caso de que se quiera
estimar el peso total del embarque, con un lmite para el error de estimacin de 50
kg. Las dispersiones en los pesos se suponen diferentes de una semana a otra.
Considere las muestras anteriores como muestras previas para estimar los
parmetros necesarios.
Solucin: (a) = 19.722,13
N 1 = 65
N 2 = 42
N 3 = 93
N 4 = 25
Tamao muestra
n1 = 14
n2 = 9
n3 = 21
n4 = 6
N cuentas no cobradas 4
70(L) 88(A) 72(N) 85(N) 90(N) 82(A) 61(N) 92(N) 65(L) 87(A)
91(A) 81(N) 79(N) 63(L) 82(N) 75(N) 78(A) 71(L) 61(L)
Se pide:
a. Estime la calificacin media en el examen final de matemticas. De una medida del
error de estimacin.
b. Qu ocurre si no se tiene en cuenta el tipo de aprendizaje? Compare los resultados
de ambos mtodos de estimacin, as como determine la ganancia en precisin.
c. Se desea mejorar la estimacin de la nota media del examen final en matemticas,
teniendo en cuenta ms informacin. Usando estos resultados como muestra
previa, qu tamaos muestrales en cada estrato son necesarios para un error
mximo admisible de 2 puntos, utilizando asignacin proporcional.
d. Estime, con un intervalo de confianza, el nmero de estudiantes con aprendizaje
normal que han superado los 80 puntos. Si se pudiera planificar de nuevo la
muestra, qu tamao de muestra sera necesario para que esta misma estimacin
tuviera un error mximo admisible de 10 estudiantes?
Solucin: (a) = 78,59; B = 3, 21
172
n1 = 7, 77 8
n2 = 19,14 20 n = 28
1. Se desea estimar el consumo mensual de una ciudad. Se sabe que los ingresos en dicha
ciudad, va declaracin de la renta, ascienden a 1.502.530 euros mensuales. Se realiza una
encuesta entre 12 hogares elegidos al azar y los resultados de renta y consumo se recogen
en esta tabla.
Renta Consumo
1.702,44
1.204
1.339,56
1.000
981,06
800
2.537,04
1.800
1.519,85
1.200
3.080,19
2.600
1.502,53
1.080
1.702,87
1.240
1.402,36
1.000
1.803,04
1.400
2.053,46
1.484
3.005,06
2.000
Estime el consumo total mensual para todos los hogares de la ciudad mediante el
estimador de razn. De el LEE.
Solucin:
2. Mediante una tasacin previa se desea estimar la produccin media y la produccin total
de los 750 socios de una cooperativa agrcola. Se sabe que el total de superficie plantada
es de 3.840 hectreas. Se realiz un sorteo entre los socios para elegir a 20 de ellos a los
que se les pregunt por la superficie plantada y se les tas su produccin. Los resultados
fueron:
Superficie Produccin
3,7
12
4,3
14
4,1
11
5
15
5,5
16
3,8
12
8
24
5,1
15
5,7
18
6
20
3
8
7
20
5,4
16
4,4
14
173
5,5
18
5
15
5,9
18
5,6
17
5
15
7,2
22
a) Estimar la produccin media y total mediante los estimadores de razn y m.a.s. Dar
sus respectivos LEE y compararlos.
b) Supongamos que queremos reducir el LEE de la media a 0,25 toneladas y el LEE del
total no debe superar las 200 toneladas a cuntos socios se les debe tasar su
produccin antes de realizar una nueva estimacin?
Solucin:
(a) razn : y = 15,57 tm; B = 0, 37 tm; y = 11.680, 61 tm; B = 278,14 tm
m.a.s.: = y = 16 tm; B = 1, 69 tm; = 12.000 tm; B = 1.265, 76 tm
(b) 43 socios para estimar la media, 38 socios para estimar el total, se toma el mximo
n=43.
3. Para un grupo de 1.000 pequeos establecimientos se desea realizar un estudio sobre la
media y el total de ventas diarias. Se tiene informacin de que, por trmino medio, el
gasto en publicidad es de 5 euros. Se elige al azar una muestra de 18 establecimientos y se
les toma dato de su gasto en publicidad diaria y sus ventas diarias. Los resultados son:
Gastos Ventas
3,7
120
4,3
140
4,1
135
5
150
5,5
160
3,8
120
8
160
5,1
150
5,7
125
6
130
0
80
7
150
5,4
150
4,4
120
5,5
140
5
150
5,9
150
6,6
170
a) Estimar la media y el total de ventas diarias utilizando estimadores de
regresin. Dar LEE.
174
Solucin: (a)
Muestreo aleatorio simple
= y = 453, 5
= Ny = 90.700
) = 75,20
B = 2 V(
B = 200 B =15.040,97
Estimadores de razn
r=
y
= 0,879
x
B = 9, 3
y = r x = 87.900
y = r x = 439, 5
B = 1.860,46
Estimadores de regresin
yL = 437,515
B = 2,3104
yL = N yL = 87.503
B = NB = 462, 09
Estimadores de diferencia
yD = 437, 5
yD = N yD = 87.500
175
B = 2 V ( yD ) = 2,179
B = NB = 435,8899
(b) 20 establecimientos
5. Una encuesta de consumo fue realizada para determinar la razn de dinero gastado en
alimentos sobre el ingreso por ao, para las familias de una pequea comunidad. Una
muestra aleatoria de 14 familias fue seleccionada de entre 150. Los datos de la muestra se
presentan en la siguiente tabla:
Familia Ingreso Total Gasto en alimentos
1
25100
3800
2
32200
5100
3
29600
4200
4
35000
6200
5
34400
5800
6
26500
4100
7
28700
3900
8
28200
3600
9
34600
3800
10
32700
4100
11
31500
4500
12
30600
5100
13
27700
4200
14
28500
4000
Estime la razn poblacional, y establezca un lmite para el error de estimacin.
Solucin: r = 0,1467; B = 0,0102
6. Una cadena de electrodomsticos est interesada en estimar el total de ganancias por las
ventas de televisores al final de un periodo de tres meses. Se tienen cifras del total de
ganancias de todas las tiendas de la cadena para ese mismo periodo de tres meses
correspondiente al ao anterior, ese total es de 128.200 . Una muestra aleatoria simple de
5 tiendas es seleccionada de las 123 tiendas de la cadena resultando los datos de la
siguiente tabla:
Oficinas Datos de 3 meses del ao anterior Datos de 3 meses del ao actual
1
550
610
2
720
780
3
1500
1600
4
1020
1030
5
620
600
a) Usando un estimador de razn, estime el total de ganancias con un intervalo de
confianza.
b)
1980
13,6
37,7
15,2
48,4
19,6
33,5
44,4
1981
14,5
42,7
15,1
53,6
25,4
35,9
48,5
177
Bienes Races
198,3
Servicios de Salud
99,2
Servicios de Educacin
15,4
(a) Encuentre el estimador de razn del ingreso total de
221,2
114,0
17,0
1981, y establezca un lmite
2 V ( yD ) = 14166,14
11. Se desea conocer las ventas medias (en euros / habitante) en este ao de un determinado
producto en un municipio formado por un pueblo A con 291 habitantes y un pueblo B con
200 habitantes. Se sabe que las ventas medias en ese municipio el ao pasado fueron de
170 euros / habitante. Tomamos una muestra aleatoria de 4 habitantes del pueblo A y otra
de 3 habitantes del pueblo B para los que se conoce su consumo del producto bajo estudio
(expresado en euros), este ao (Y) y el ao pasado (X):
178
Pueblo A Pueblo B
xi yi xi yi
204 210 137 150
143 160 189 200
82 75 119 125
256 280
a. Sin hacer distincin entre pueblos, estime las ventas medias para este ao
utilizando un estimador de razn. D un lmite para el error de estimacin.
b. Qu se obtiene si no se tiene en cuenta los datos del ao pasado pero si el
pueblo?
c. Qu se obtiene si no se tiene en cuenta los datos del ao pasado ni se hace
distincin entre pueblos?
d. Compare los estimadores que se obtienen en cada caso justificadamente.
Solucin: (a) = 180,53; B = 5,69 (b) = 171,91; B = 53,81 (c) = 171,43; B = 49,53
(d) La mejor estimacin es en la que se usa el estimador de razn, por la fuerte relacin
entre las variables. El muestreo estratificado se comporta mal porque los estratos no son
homogneos.
12. Se desea estimar el agua utilizada en la presente campaa por una comunidad de riego
constituida por 250 parcelas. Se seleccionan al azar 10 parcelas cuyo tamao y litros
utilizados en riego aparecen en la siguiente tabla
Litros
600
1800
750
900
1100
1400
950
700
1000
720
Hectreas
50
150
60
70
100
120
80
60
90
60
Estime la media de litros/hectrea que utiliza la comunidad de regantes y la cota del error
de dicha estimacin.
2 V (r ) = 0 '3392
13. Se est investigando la eficacia de una nueva dieta alimenticia en la crianza de conejos.
Los investigadores piensan que hay razones para creer que el comportamiento es diferente
dependiendo de la zona de crianza. Por este motivo, deciden formar estratos observndose
el peso de los conejos antes de introducir la nueva dieta (X) y el peso resultante al cabo de
un mes de tratamiento (Y). Se obtuvieron los siguientes resultados:
N 1 = 80;
N 2 = 60;
N 3 = 40; n1 = 10; n 2 = 8; n3 = 6
179
14. En una escuela de 560 alumnos, se desea estimar la calificacin media que puede
obtenerse en el examen final de matemticas en el curso 00/01. Se toma como informacin
auxiliar la calificacin de los mismos alumnos en el examen final de matemticas del
curso 99/00 con una nota media de 75. A partir de una muestra aleatoria de estudiantes
para los cuales se observ la nota del examen final en el curso 00/01 y la calificacin de
dicho alumno en la prueba correspondiente al curso 99/00. Los resultados fueron los
siguientes:
180
Nota curso
99/00
Nota curso
00/01
80
87
78
65
98
86
45
47
61
67
83
94
79
67
56
67
Estimar la calificacin media del curso 00/01 utilizando como informacin auxiliar la
calificacin obtenida en el curso 99/00 mediante un estimador de razn. Dar una
estimacin del error de muestreo.
Solucin: y = 75; B = 7,45
15. Un director de recursos forestales est interesado en estimar el nmero de abetos muertos
por una plaga en una zona de 300 hectreas. Usando una fotografa area, el director
divide la zona en 200 parcelas de hectrea y media. Se toma una muestra aleatoria de 10
parcelas. El nmero total de abetos muertos, obtenidos segn la cantidad en fotografa es
4200.
Parcela
Cantidad en fotografa 12 30 24 24 18 30 12 6
Cantidad en terreno
10
36 42
18 42 24 36 24 36 14 10 48 54
181
x = 9,1
y = 2,6
25
xi2 = 2240
i =1
25
yi2 = 169
i =1
25
xi yi = 522
i =1
B = 0,767
18. En una universidad se realiz una prueba de conocimientos matemticos antes del ingreso
a 486 estudiantes. Se consideraron dichas calificaciones como una variable auxiliar de la
variable calificacin final en clculo. Teniendo en cuenta que 291 eran chicos y las
calificaciones medias del examen previo fueron de 47 para los chicos y 52 para las chicas,
a partir de los datos de la tabla siguiente, se pide:
CHICOS
CHICAS
65
57
92
43
78
47
89
21
52
28
73
64
82
75
98
34
56
52
75
Solucin: (a) y = 80,97; B = 10,54 (b) = 73,76; B = 9,5 (c) = 76; B = 9,46
5. Muestreo Sistemtico
1. La seccin de control de calidad de una empresa usa el muestreo sistemtico para estimar
la cantidad media de llenado en latas de 12 onzas que sale de una lnea de produccin. Los
datos de la tabla adjunta representan una muestra sistemtica 1 en 50 de la produccin de
un da.
Cantidad de llenado (en onzas)
12,00 11,97 12,01 12,03 12,01 11,80
11,91 11,98 12,03 11,98 12,00 11,83
11,87 12,01 11,98 11,87 11,90 11,88
12,05 11,87 11,91 11,93 11,94 11,89
11,72 11,93 11,95 11,97 11,93 12,05
11,85 11,98 11,87 12,05 12,02 12,04
a. Estime , y establezca un lmite para el error de estimacin. Suponga que N=1.800.
b. Determinar el tamao de muestra requerido para estimar dentro de 0,01 unidades.
Solucin: (a) sy = 11,94; B = 0,0259 (b) n = 217,1 218
2. La Guardia Civil de Trfico est interesada en la proporcin de automovilistas que llevan
el permiso de conducir. Se instala un puesto de control en una carretera nacional y se
detiene un conductor de cada siete.
a. Use los datos de la tabla adjunta para estimar la proporcin de conductores que portan
su licencia. Establezca un lmite para el error de estimacin. Suponga que 2.800 autos
pasan por el puesto de verificacin durante el periodo de muestreo.
Automvil
1
8
15
Respuesta
1
1
0
2794
1
400
y i = 324
i =1
b. En un nuevo control, la Guardia Civil de Trfico espera que pasen unos 5.000
automviles por el puesto de verificacin. Determine el tamao de muestra y k para
estimar p con un error inferior al 2%.
183
173 290
18
18
i =1
i =1
y i = 4.868;
2
y i = 1.321.450
Use estos datos para estimar el nmero total de personas que visitan el museo durante el
periodo especfico. Establezca un lmite para el error de estimacin.
y i = 48
i =1
184
Solucin: sy
Ao Tasa Ao Tasa
1900 0,7 1945 3,5
1905 0,8 1950 2,6
1910 0,9 1955 2,3
1915 1,0 1960 2,2
1920 1,6 1965 2,5
1925 1,5 1970 3,5
1930 1,6 1975 4,8
1935 1,7 1980 5,2
1940 2,0
= 2,26; B = 0,57 . Mejor, se observa, en general, una tendencia creciente en
los datos de la muestra, aunque se rompa ese orden parcial en los aos 1945-1955.
7. La gerencia de una compaa privada con 2.000 empleados est interesada en estimar la
proporcin de empleados que favorecen una nueva poltica de inversin. Una muestra
sistemtica de 1 en 10 es obtenida de los empleados que salen del edificio al final de un da
de trabajo (las respuestas a favor se han representado como 1)
Empleado Respuesta
muestreado
3
1
13
0
23
1
1993
1
200
y
i =1
= 110
185
k = 6, 04 k = 6
8. Un auditor se enfrenta a una larga lista de 1.000 cuentas por cobrar de una empresa. El
valor de cada una de estas cuentas no suele superar los 21.000 . El auditor quiere estimar
el valor total de las deudas por cobrar con un error inferior a 1.000.000 con una
confianza del 95%. Para ello decide tomar una muestra sistemtica de 1 en k . Determine
el valor de k.
Solucin:
k = 10
9. Los funcionarios de cierta sociedad profesional desean determinar la proporcin de
miembros que apoyan varias enmiendas propuestas en las prcticas de arbitraje. Los
funcionarios tomaron una muestra sistemtica de 1 en 10, a partir de una lista en orden
alfabtico de los 650 miembros registrados, obteniendo que 47 estaban a favor de los
cambios propuestos. Se quiere repetir el estudio anterior con un error de estimacin
inferior al 5%. Considerando la muestra anterior como una muestra previa para estimar los
parmetros necesarios, qu tipo de muestra sistemtica deber obtenerse? (indique n y k).
Solucin: n =
Npq
= 214,8 215
( N 1) D + pq
625
= 3, 02
215
k =3
(Se recomienda realizar con el ordenador los ejercicios 1, 2, 3, 5 y 7 dado el elevado nmero
de datos y resolver a mano, verificando la solucin con el ordenador, una versin con menos
datos)
1. Un fabricante de sierras quiere estimar el coste medio de reparacin mensual para las
sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un coste de
reparacin para cada sierra, pero puede obtener la cantidad total gastada en reparacin y el
nmero de sierras que tiene cada industria. Entonces decide usar muestreo por
conglomerados, con cada industria como un conglomerado. El fabricante selecciona una
muestra aleatoria simple de 20 de 96 industrias a las que da servicio. Los datos sobre coste
total de reparaciones por industria y el nmero de sierras son:
186
3
49
40
4
73
45
5
101
63
6
48
31
7
65
38
8
49
30
9
73
54
10
61
45
11
58
51
12
52
29
13
65
46
14
49
37
15
55
42
a) Estime la proporcin de empleados en la industria que apoyan la nueva poltica de
jubilacin y establezca un lmite para el error de estimacin.
b) La industria modific su poltica de jubilacin despus de obtener los resultados de
la encuesta. Ahora se quiere estimar la proporcin de empleados a favor de la
poltica modificada Cuntas plantas deben ser muestreadas para tener un lmite del
2% para el error de estimacin? Use los datos anteriores para aproximar los
resultados de la nueva encuesta.
Solucin: (a) p = 70,91%; B = 4,81% ) (b) n = 47,6 48
3. Se disea una encuesta econmica para estimar la cantidad media gastada en servicios
para los hogares en una ciudad. Ya que no se encuentra disponible una lista de hogares, se
usa muestreo por conglomerados, con barrios formando los conglomerados. Se selecciona
una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores
obtienen el gasto en servicios de cada hogar en los barrios seleccionados; los gastos totales
se muestran en esta tabla:
Barrio N hogares Cantidad total gastada en servicios ()
1
55
2210
2
60
2390
3
63
2430
4
58
2380
5
71
2760
6
78
3110
7
69
2780
8
58
2370
9
52
1990
10
71
2810
11
73
2930
12
64
2470
13
69
2830
14
58
2370
15
63
2390
16
75
2870
188
17
78
3210
18
51
2430
19
67
2730
20
70
2880
a. Estime la cantidad media de gastos en servicios por hogar en la ciudad y establezca un
lmite para el error de estimacin.
b. En la encuesta anterior se desconoce el nmero de hogares en la ciudad. Estime la
cantidad total gastada en servicios por todos los hogares de la ciudad y establezca un
lmite para el error de estimacin.
c. La encuesta econmica se va a llevar a cabo en una ciudad vecina de estructura
similar. El objetivo es estimar la cantidad total gastada en servicios por los hogares de
la ciudad, con un lmite de 5.000 para el error de estimacin. Use los datos anteriores
para encontrar el nmero aproximado de conglomerados que se necesitan para obtener
ese lmite.
Solucin: (a) = 40,17; B = 0,64 (b) = 157.020; B = 6.927,88 (c) n = 29,4 30
4. Un inspector quiere estimar el peso medio de llenado para cajas de cereal empaquetadas
en una fbrica. El cereal est en paquetes que contienen 12 cajas cada uno. El inspector
selecciona aleatoriamente 5 y mide el peso de llenado de cada caja en los paquetes
muestreados, con los resultados (en onzas) que se muestran:
Paquete
Onzas de llenado
1
16,1 15,9 16,1 16,2 15,9 15,8 16,1 16,2 16,0 15,9 15,8 16,0
2
15,9 16,2 15,8 16,0 16,3 16,1 15,8 15,9 16,0 16,1 16,1 15,9
3
16,2 16,0 15,7 16,3 15,8 16,0 15,9 16,0 16,1 16,0 15,9 16,1
4
15,9 16,1 16,2 16,1 16,1 16,3 15,9 16,1 15,9 15,9 16,0 16,0
5
16,0 15,8 16,3 15,7 16,1 15,9 16,0 16,1 15,8 16,0 16,1 15,9
Estime el peso medio de llenado para las cajas empaquetadas por esta fbrica, y establezca
un lmite para el error de estimacin. Suponga que el nmero total de cajas empaquetadas
por la fbrica es lo suficientemente grande para que no se tome en cuenta la correccin por
poblacin finita.
Solucin: = 16,0050; B = 0,0215
5. Un peridico quiere estimar la proporcin de votantes que apoyan a cierto candidato A en
una eleccin estatal. La seleccin y entrevista de una muestra aleatoria simple de votantes
registrados es muy costosa por lo que se utiliza muestreo por conglomerados. Se
selecciona una muestra aleatoria de 50 distritos (conglomerados) de un total de 497 que
tiene el estado. El peridico quiere hacer la estimacin el da de la eleccin, pero antes de
que se haya hecho la cuenta final de los votos. Es por eso que los reporteros son enviados
a los lugares de votacin de cada distrito en la muestra, para obtener la informacin
pertinente directamente de los votantes. Los resultados se muestran en esta tabla:
189
190
8
12
4
5
6
6
7
5
8
3
2
6
5
10
9
3
6
5
5
4
6
8
7
3
8
151 residentes
a) Estime el ingreso medio por persona en la ciudad y establezca un lmite para el error
de estimacin.
b) Estime el ingreso total de todos los residentes de la ciudad y el lmite para el error de
estimacin, suponiendo que M es desconocido.
c) Suponiendo que existen 2.500 residentes en la ciudad, estime el ingreso total de
todos los residentes de la ciudad mediante un intervalo de confianza.
NOTA: Repetir este ejemplo con todos los mi iguales (por ejemplo, mi = 6 i ,
supongamos conocido M = 6 415 = 2.490 ) y estime el total por los dos mtodos
191
d) n = 166, 58 167
8. Un empresario quiere estimar el nmero de tubos de dentfrico usados por mes en una
comunidad de 4000 hogares divididos en 400 bloques. Se selecciona una muestra aleatoria
simple de 4 bloques que proporciona los siguientes resultados:
Bloque
tubos gastados por hogar
1
1 2 1 3 3 2 1 4
2
1 3 2 2 3 1 4 1 1
3
2 1 1 1 3 2 2
4
1 1 3 2 1 5 1 3
Estime de distintas formas el nmero total de tubos gastados, obtenga el lmite para el
error de estimacin en cada caso y comente los resultados.
Solucin:
= 6400; B = 1077,78
9. En un proceso de control del volumen envasado por una fbrica de bebidas se eligen 5 de
los 40 paquetes que tiene la fbrica, cada uno de los cuales contiene 4 envases, y se mide
el volumen que cada envase contiene. Las observaciones se presentan en la tabla adjunta:
Paquete n Volumen envasado en cm3
1
33
32,5 31,7 34,2
2
32
32,6 33,8 32,5
3
30,9 33,1 33
33,4
4
34,1 33,1 32,5 33,2
5
32
32,1 32,6 33,6
Estime el volumen medio por envase y dar la cota de error de estimacin.
192
Empresa
1
2
3
4
5
6
7
8
9
10
a. Estime el nmero de
13
13
14
13
10
6
193
14
16
10
10
250
225
190
175
210
190
400
350
150
120
10 2
195
muestra inicial de 100 parece ser suficiente. Las 100 tortugas son capturadas, marcadas y
liberadas. Toma una segunda muestra un mes despus y decide continuar muestreando
hasta que se recapturen 15 tortugas marcadas. Atrapa 160 tortugas antes de obtener las 15
marcadas. Estime el tamao total de la poblacin de tortugas y establezca un lmite de
error de estimacin.
Solucin: N = 1.066,67; B = 507,72
6. En una plantacin de pinos de 200 acres, se va a estimar la densidad de rboles que
presentan hongos parsitos. Se toma una muestra de 10 cuadros de 0,5 acres cada uno. Las
diez parcelas muestreadas tuvieron una media de 2,8 rboles infectados por cuadro.
a) Estime la densidad de rboles infectados y establezca un lmite de error de
estimacin.
b) Estime el total de rboles infectados en los 200 acres de la plantacin y
establezca un lmite de error de estimacin.
Solucin: (a) = 5,6; B = 2,1 (b) M = 1.120; B = 423,32
7. Se desea estimar el nmero total de personas que diariamente solicitan informacin en una
oficina turstica. Se observa que 114 personas solicitan informacin, durante 12 intervalos
de 5 minutos cada uno, repartidos aleatoriamente entre las 8 horas que permanece abierta
la oficina. Estimar el total de personas que visitan la oficina diariamente y dar la cota de
error de estimacin.
Solucin: M = 912; B = 170,8
8. Un alumno de A.T.C. desea estimar el nmero de alumnos que una determinada maana
han ido a la Facultad. Para ello se basa en que dicho da una conocida marca comercial ha
repartido a primeras horas de la maana en la entrada de la Facultad 500 carpetas. En un
intercambio de clase, sentado en un banco del pasillo, decide contar los alumnos que pasan
hasta observar a 100 que portan la carpeta, para lo que fue necesario contar hasta 382
alumnos.
Estime con un intervalo de confianza el nmero de alumnos que asistieron esa maana a la
Facultad.
Solucin: muestreo inverso (1910 326,58 )
9. El hermano de un alumno de T.A.M. est pensando en abrir una farmacia de 24 horas.
Para saber si los ingresos compensaran los gastos de esta inversin deciden observar un
establecimiento similar para estimar los ingresos diarios. Este asiduo alumno de T.A.M.
conoce perfectamente que es una prdida de tiempo innecesaria observar el flujo de
197
clientes las 24 horas del da por lo que decide observar de forma sistemtica media hora
cada 3 horas, obteniendo los datos de la siguiente tabla
clientes
10:00-10:30
35
13:00-13:30
20
16:00-16:30
19
19:00-19:30
30
22:00-22:30
25
01:00-01:30
9
04:00-04:30
12
07:00-07:30
18
Sabiendo que el gasto medio por cliente es de 20, estime los ingresos diarios de la
farmacia observada y el correspondiente lmite para el error de estimacin utilizando
diferentes mtodos.
Solucin:
198
199
8. Anlisis cluster
1.
2.
Espaa
Andaluca
Aragn
Asturias
Baleares
200
Automvil
69,0
66,7
67,2
63,7
71,9
Canarias
72,7
96,8
68,4
Cantabria
63,4
94,9
48,9
Cast. Y Leon
65,8
97,1
47,7
C. La Mancha
61,5
97,3
53,6
Catalua
70,4
98,1
71,1
Com. Valenciana
72,7
98,4
68,2
Extremadura
60,5
97,7
43,7
Galicia
65,5
91,3
42,7
Madrid
74,0
99,4
76,3
Murcia
69,0
98,7
59,3
Navarra
76,4
99,3
60,6
Pas Vasco
71,3
98,3
61,6
La Rioja
64,9
98,6
54,4
Fuente: Panel de hogares de la Unin Europea. INE.
3.
27,9
36,5
28,1
21,7
36,8
26,6
20,7
13,5
53,9
19,5
44,0
45,7
44,4
5,80
11,2
14,0
7,10
19,8
12,1
11,7
14,6
32,3
12,1
20,6
23,7
17,6
75,4
80,5
85,0
72,9
92,2
84,4
67,1
85,9
95,7
81,4
87,4
94,3
83,4
Con el archivo Mundo 95.sav clasifica a los paises segn las siguientes variables:
a. Esperanza de vida femenina
b. Mortalidad infantil
c. Ingesta diara de calorias
d. Tasa de mortalidad
e. Casos SIDA por cada 100.000 habitantes.
Para ello, realiza los siguientes pasos:
i.
ii.
4.
Con el archivo Europa.sav clasifica los paises segn las siguientes variables:
a. Habitantes por Km2
b. Personas alfabetizadas
c. Producto Interior Bruto
d. Tasa natalidad
e. Fertilidad
5.
Elena
Luisa
Beln
Nicols
Csar
Alberto
Carlos
Divide los ciudadanos segn ingresos y edad.
107
97
88
116
121
100
175
22
24
27
28
33
29
21
9. Componentes principales.
1. Con el archivo Mundo 95.sav realiza un anlisis de componentes principales con las
siguientes variables:
Log(10) de PIB_CAP
202
Personas alfabetizadas
Tasa natalidad
Fertilidad
PRCTICAS
203
INTRODUCCIN AL SPSS
1.- INTRODUCCIN
El SPSS (Statistical Package for the Social Sciences) es un conjunto de programas orientados a
la realizacin de anlisis estadsticos aplicados a las ciencias sociales. Con ms de 30 aos de
existencia es, en la actualidad, el paquete estadstico con ms difusin a nivel mundial.
El SPSS implementa una gran variedad de temas estadsticos en los distintos mdulos del
programa. Nosotros utilizaremos solo el mdulo SPSS base.
En los siguientes apartados se hace una breve introduccin a los conceptos bsicos de este
programa. Para una mejor exposicin de los mismos puede consultarse la Gua breve de
SPSS o el Tutorial en el men de ayudas (?) muy recomendable esta ltima opcin.
Los archivos de datos con formato SPSS tienen extensin *.sav. Para abrir un archivo de datos
de este formato, seleccione en el men principal: Archivo/Abrir/Datos. Por defecto, SPSS dar
una relacin de los archivos en su directorio con extensin *.sav. Busque y seleccione el
archivo que se desee abrir. Adems de los archivos con este formato, SPSS puede abrir
204
Tras seleccionar el fichero Excel que queremos abrir, aparecer el cuadro de dilogo Apertura
de origen de datos de Excel, que permite especificar si se incluyen los nombres de las variables
en la primera fila de la hoja de clculo ( Leer nombres de variables de la primera fila de
datos), as como las casillas que se desean importar (Rango). En Excel 5 o posterior, tambin
se pueden especificar la Hoja de trabajo que se desea importar. Si los encabezados de las
columnas no cumplen las normas de denominacin de variables de SPSS, se convertirn en
nombres de variables vlidos y los encabezados originales de las columnas se guardarn como
etiquetas de variable (vase ms adelante en 1.3.-Editor de datos).
205
2. Seleccionar un procedimiento estadstico para analizar los datos con el sistema de mens.
Editor de datos. Es la ventana que se abre automticamente cuando se inicia una sesin de
SPSS. Muestra el contenido del archivo de datos actual. Con l, se pueden crear nuevos
archivos o modificar los ya existentes.
Visor de resultados. Todas las tablas, grficos y los resultados estadsticos se muestran en el
visor. Puede editar resultados y guardarlos. Esta ventana se abre automticamente la primera
vez que se ejecuta un procedimiento.
Adems de las distintas ventanas, existen un conjunto de elementos, comunes a todas ellas que
configuran la apariencia general del SPSS:
Barra de ttulos. Muestra el icono de SPSS, sigue con el nombre del fichero que estamos
utilizando y el nombre de la ventana activa y termina con los botones de minimizar, maximizar
y cerrar ventana.
207
Barra de mens. Recoge las denominaciones de los mens de SPSS a travs de los cuales se
pueden ejecutar todos los posibles comandos que proporciona el paquete.
Barra de herramientas. Proporciona un acceso rpido y fcil a las tareas ms comunes de cada
ventana de SPSS. El significado de cada icono puede verse situando el ratn sobre el propio
icono.
Barra de estado. Suministra informacin sobre el estado en que se encuentra SPSS.
Ejemplo 1.-
Realizar el procedimiento:
208
Una vez que nos encontramos en la ventana Editor de datos podemos abrir un archivo de
datos creado con anterioridad (como vimos en 1.1.- Pasos bsicos en el anlisis) o crear un
nuevo archivo. En el caso en que queramos crear un archivo de datos nuevo, el primer paso
es el de definir las variables que formarn el archivo. Para definir una variable se pueden
seguir dos procedimientos:
En vista de datos, haciendo doble clic con el botn izquierdo del ratn cuando el puntero del
mismo se encuentra situado en la palabra var del extremo superior de la columna o
El nombre debe comenzar por una letra. Los dems caracteres pueden ser letras, dgitos, puntos
o los smbolos @, #, _ o $.
Se debe evitar acabar los nombres de variable con subrayado (para evitar conflictos con las
variables creadas automticamente por algunos procedimientos).
La longitud del nombre no debe exceder los 64 bytes. Normalmente, 64 bytes suelen equivaler
a 64 caracteres en idiomas de un solo byte (por ejemplo, ingls, francs, alemn, espaol,
209
italiano, hebreo, ruso, griego, rabe, tailands) y a 32 caracteres en los idiomas de dos bytes
(por ejemplo, japons, chino, coreano).
Las palabras reservadas no se pueden utilizar como nombres de variable. Las palabras
reservadas son: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH.
Cuando es necesario dividir los nombres largos de variable en varias lneas en los resultados,
SPSS intenta dividir las lneas aprovechando los subrayados, los puntos y los cambios de
minsculas a maysculas.
Una vez que se haya determinado el nombre de la variable, hay que definir sus
especificaciones:
Tipo. Especifica el tipo de datos que contiene la variable. Si se pulsa el botn tipo y luego los
puntos suspensivos que aparecen en la casilla aparece un cuadro de dialogo. Los tipos ms
usuales son numrico y cadena.
Tipo de variable especifica los tipos de datos de cada variable. Por defecto se asume que todas
las variables nuevas son numricas. Se puede utilizar Tipo de variable para cambiar el tipo de
datos. El contenido del cuadro de dilogo Tipo de variable depende del tipo de datos
seleccionado. Para algunos tipos de datos, hay cuadros de texto para la anchura y el nmero de
decimales; para otros tipos de datos, simplemente puede seleccionar un formato de una lista
desplegable de ejemplos.
Los tipos de datos disponibles son los siguientes:
Numrico. Una variable cuyos valores son nmeros. Los valores se muestran en formato
numrico estndar. El Editor de datos acepta valores numricos en formato estndar o en
notacin cientfica.
Coma. Una variable numrica cuyos valores se muestran con comas que delimitan cada tres
posiciones y con el punto como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin comas, o bien en notacin cientfica. Los
valores no pueden contener comas a la derecha del indicador decimal.
210
Punto. Una variable numrica cuyos valores se muestran con puntos que delimitan cada tres
posiciones y con la coma como delimitador decimal. El Editor de datos acepta valores
numricos para este tipo de variables con o sin puntos, o bien en notacin cientfica. Los
valores no pueden contener puntos a la derecha del indicador decimal.
Notacin cientfica. Una variable numrica cuyos valores se muestran con una E intercalada y
un exponente con signo que representa una potencia de base diez. El Editor de datos acepta
para estas variables valores numricos con o sin el exponente. El exponente puede aparecer
precedido por una E o una D con un signo opcional, o bien slo por el signo (por ejemplo, 123,
1,23E2, 1,23D2, 1,23E+2 y 1,23+2).
Fecha. Una variable numrica cuyos valores se muestran en uno de los diferentes formatos de
fecha-calendario u hora-reloj. Seleccione un formato de la lista. Puede introducir las fechas
utilizando como delimitadores: barras, guiones, puntos, comas o espacios. El rango de siglo
para los valores de ao de dos dgitos est determinado por la configuracin de las opciones
(en el men Edicin, seleccione Opciones y, a continuacin, pulse en la pestaa Datos).
Dlar. Una variable numrica que se muestra con un signo dlar inicial ($), comas que
delimitan cada tres posiciones y un punto como delimitador decimal. Se pueden introducir
valores de datos con o sin el signo dlar inicial.
Moneda personalizada. Una variable numrica cuyos valores se muestran en uno de los
formatos de moneda personalizados que se hayan definido previamente en la pestaa Moneda
del cuadro de dilogo Edicin/Opciones. Los caracteres definidos en la moneda personalizada
no se pueden emplear en la introduccin de datos pero s se mostrarn en el Editor de datos.
211
Cadena. Una variable cuyos valores no son numricos y, por lo tanto, no se utilizan en los
clculos. Los valores pueden contener cualquier carcter siempre que no se exceda la longitud
definida. Las maysculas y las minsculas se consideran diferentes. Este tipo tambin se
conoce como variable alfanumrica.
Nivel de medida. Puede especificar el nivel de medida como Escala (datos numricos de una
escala de intervalo o de razn), Ordinal o Nominal. Los datos nominales y ordinales pueden ser
de cadena (alfanumricos) o numricos.
nominal. Una variable puede ser tratada como nominal cuando sus valores representan
categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la
compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el
cdigo postal o la confesin religiosa.
ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan
categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un
servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Son ejemplos de variables
ordinales: las puntuaciones de actitud que representan el nivel de satisfaccin o confianza y las
puntuaciones de evaluacin de la preferencia.
escala. Una variable puede ser tratada como de escala cuando sus valores representan
categoras ordenadas con una mtrica con significado, por lo que son adecuadas las
comparaciones de distancia entre valores. Son ejemplos de variables de escala: la edad en aos
y los ingresos en dlares.
Nota: Para variables de cadena ordinales, se asume que el orden alfabtico de los valores de
cadena indica el orden correcto de las categoras. Por ejemplo, en una variable de cadena cuyos
valores sean bajo, medio, alto, se interpreta el orden de las categoras como alto, bajo, medio
(orden que no es el correcto). Por norma general, se puede indicar que es ms fiable utilizar
cdigos numricos para representar datos ordinales.
Anchura. Nmero de dgitos de los valores de esa variable.
212
Etiqueta. Puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud
(128 caracteres en los idiomas de doble byte). Las etiquetas de variable pueden contener
espacios y caracteres reservados que no se admiten en los nombres de variable.
Valores. Puede asignar etiquetas de valor descriptivas a cada valor de una variable. Este
proceso es especialmente til si el archivo de datos utiliza cdigos numricos para representar
categoras que no son numricas (por ejemplo, cdigos 1 y 2 para hombre y mujer). Las
etiquetas de valor se guardan con el archivo de datos. No es necesario volver a definir las
etiquetas de valor cada vez que se abre un archivo de datos. Las etiquetas de valor pueden
ocupar hasta 120 bytes. Las etiquetas de valor no estn disponibles para las variables de cadena
larga (variables de cadena de ms de 8 caracteres).
Perdidos. Valores perdidos define los valores de los datos definidos como perdidos por el
usuario. Por ejemplo, es posible que quiera distinguir los datos perdidos porque un encuestado
se niegue a responder de los datos perdidos porque la pregunta no afecta a dicho encuestado.
Los valores de datos que se especifican como perdidos por el usuario aparecen marcados para
un tratamiento especial y se excluyen de la mayora de los clculos.
Las especificaciones de valores perdidos definidos por el usuario se guardan junto con el
archivo de datos. No es necesario volver a definir los valores definidos como perdidos por el
usuario cada vez que se abre un archivo de datos.
Se pueden introducir hasta tres valores perdidos (individuales) de tipo discreto, un rango de
valores perdidos o un rango ms un valor de tipo discreto.
213
No se pueden definir valores perdidos para variables de cadena larga (variables de cadena de
ms de ocho caracteres).
Se considera que son vlidos todos los valores de cadena, incluidos los valores vacos o nulos,
a no ser que se definan explcitamente como perdidos. Para definir como perdidos los valores
nulos o vacos de una variable de cadena, escriba un espacio en blanco en uno de los campos
debajo de la seleccin Valores perdidos discretos.
Alineacin. Alineacin de los datos (Izquierda, derecha o centro)
Una vez definidas las variables, para la introduccin de los datos (en la pestaa vista de datos)
habr que situar el cursor en la primera celda de la columna y comenzar a escribir los distintos
valores, pulsando ENTER o movindonos con el cursor.
Mover variables.
Si queremos mover una variable que est entre otras dos, en la vista de datos, podemos insertar
un nueva variable en el lugar donde la queramos copiar, luego cortar de donde estaba y por
ltimo pegar en la nueva variable insertada.
214
Para guardar un archivo de datos creado tendremos que seleccionar en la barra de mens
Archivo/Guardar como. Nos aparecer un cuadro de dilogo en el cual debemos indicar el
nombre del archivo y el lugar donde queremos guardarlo. En el caso de que se trate de
cambios en un archivo que ya ha sido guardado con anterioridad, solo tendremos que
seleccionar Archivo/Guardar o con el correspondiente botn de la barra de herramientas y el
archivo se guardar con el mismo nombre y ubicacin que tena con anterioridad.
215
EJERCICIOS
32
50
32
80
42
61
55
49
37
30
61
21
48 43
37 34
Se pide:
a. Crea un archivo con la definicin anterior de las variables y los datos y gurdalo con el
nombre Edad.sav
b. Crea una nueva variable denominada Unidades compradas y dale los siguientes valores
Hombres
1
Mujeres
1
Sitala entre las variables anteriores.
1
5
1
1
2
1
1
2
1
2
2
1
1
1
REGION DE
PROCEDENCIA
Andaluca (1)
Catalua (2)
Madrid (3)
Pas Valenciano (4)
Galicia (5)
Catalua (2)
Pas Vasco (6)
Andaluca (1)
Madrid (3)
Andaluca (1)
Pas Vasco (6)
Madrid (3)
Galicia (5)
Catalua (2)
Andaluca (1)
Galicia (5)
MESES COMO
REPRESENTANTE
60
72
48
36
60
24
36
48
84
84
48
36
24
12
16
10
INGRESOS
MENSUALES en
1950
1235
2251
3581
1500
2500
5890
3510
2456
2474
3000
2958
1354
1100
3581
2456
Se pide:
a. Crear un archivo de datos con el nombre Representantes, en el que debes incluir los datos
de la tabla anterior, definiendo las variables de forma adecuada.
b. Inserta una nueva variable que ser el estado civil de los representantes con los siguientes
valores.
216
soltero
soltero
casado
soltero
divorciado
casado
casado
casado
soltero
soltero
viudo
casado
casado
casado
soltero
soltero
c. Inserta un nuevo caso entre los existentes con estos valores:
SEXO
Hombre
REGION DE
PROCEDENCIA
Catalua
MESES COMO
INGRESOS
ESTADO CIVIL
REPRESENTANTE MENSUALES en
48
1500
divorciado
d. Obtenga el nmero medio de meses como representante y los valores mximo, mnimo y
mediano de los ingresos.
EMPLEADOS
40
120
250
90
50
Nota: Introducir los valores de los salarios con cdigos numricos (por ejemplo, 1 a 5) y en
Vista de variables en la columna Valores etiquetarlos como 0-700,
Cuando se introducen las frecuencias de las observaciones de una variable hay que indicrselo
al SPSS. Seleccionaremos en la barra de mens Datos/Ponderar casos marcando en la
ventana que nos aparece Ponderar casos mediante y seleccionando la Variable de ponderacin
(variable que contiene los valores de las frecuencias) de la lista de variables del fichero. Otra
opcin es seleccionar el correspondiente icono de la barra de herramientas que representa a una
balanza.
217
PRCTICA 8
Anlisis Cluster
1.- ANLISIS JERRQUICOS
Los pasos para realizar un anlisis jerrquico con el SPSS son los siguientes:
1. Elige en los mens: Analizar Clasificar Conglomerados jerrquicos y selecciona las
variables y las especificaciones para el anlisis. En la ventana Variables situamos las
variables clasificadoras y en Etiquetar los casos mediante situamos la variable que
etiqueta a los individuos que se van a clasificar (la variable que se site en esta casilla
tienen que estar definida como cadena no como numrica).
2. El botn Estadsticos nos lleva a una pantalla cuya opcin Historial de conglomeracin
muestra los casos o conglomerados combinados en cada etapa, las distancias entre los
casos o conglomerados que se combinan, as como el ltimo nivel del proceso en el que
cada caso se uni a su conglomerado correspondiente. La opcin Matriz de proximidades
proporciona las distancias entre los elementos. El campo Conglomerado de pertenencia
muestra el conglomerado al cual se asigna cada caso en una o varias de las etapas de
combinacin de los conglomerados. Las opciones son: Solucin nica y Rango de
soluciones
3. El botn Grficos abre una pantalla cuya opcin Dendograma realiza el dendograma
correspondiente. Los dendogramas pueden emplearse para evaluar la cohesin de los
conglomerados que se han formado y proporcionar informacin sobre el nmero adecuado
de conglomerados que deben conservarse. El dendograma constituye la representacin
visual de los pasos de una solucin de conglomeracin jerrquica que muestra, para cada
paso, los conglomerados que se combinan y los valores de los coeficientes de distancia.
Las lneas horizontales conectadas por otras verticales designan casos combinados. El
dendograma re-escala las distancias reales a valores entre 0 y 25, preservando la razn de
las distancias entre los pasos. El cuadro Tmpanos muestra otro tipo de diagrama que
incluye todos los conglomerados o un rango especificado. Los diagramas de tmpanos
muestran informacin sobre cmo se combinan los casos en los conglomerados, en cada
iteracin del anlisis. En la base de este diagrama completo no hay casos unidos todava y
a medida que se recorre hacia arriba el diagrama los casos que se unen se marcan con una
X en la columna situada entre ellos, mientras que los conglomerados separados se indican
con un espacio en blanco. La orientacin permite seleccionar un diagrama vertical u
horizontal.
218
4. El botn Mtodo nos lleva a una ventana cuya opcin Mtodo de conglomeracin permite
elegir dicho mtodo. El cuadro Medida permite especificar la medida de distancia que ser
empleada. Hay que seleccionar el tipo de dato (intervalo, frecuencias y binaria) y la
medida de distancia adecuada. El cuadro Transformar valores permite estandarizar los
valores de los datos, para los casos o las variables, antes de calcular las distancias entre
casos. El cuadro Transformar medidas permite transformar los valores generados por la
medida de distancia, las opciones disponibles son: Valores absolutos, Cambiar el signo y
Cambiar la escala al rango 0-1.
5. El botn Guardar permite guardar informacin sobre la solucin en nuevas variables.
Estas variables (Conglomerado de pertenencia) permiten guardar los conglomerados de
pertenencia para una solucin nica o un rango de soluciones. Las variables guardadas
pueden emplearse en anlisis posteriores para explorar otras diferencias entre los grupos.
6. En todas las figuras el botn Restablecer permite restablecer todas las opciones por
defecto del sistema y elimina del cuadro de dialogo todas las asignaciones hechas con las
variables.
7. Una vez hechas las selecciones especificadas se pulsa el botn Aceptar.
Ejemplo 1
(Ejercicio 5 Relacin del Tema 8. Fichero de datos Ej5RelT8.sav)
Ciudadanos Ingresos Edad
Pepe
175
44
Juan
182
55
Pedro
184
41
Pablo
186
32
Maria
185
35
Juana
198
41
Toi
194
32
Tere
183
32
Carmen
125
23
Elena
107
22
Luisa
97
24
Beln
88
27
Nicols
116
28
Csar
121
33
Alberto
100
29
Carlos
175
21
Divide los ciudadanos segn ingresos y edad utilizando un anlisis jerrquico.
219
variable Individuo (la variable que se site en esta casilla tiene que estar definida como
cadena no como numrica).
2. El botn Estadsticos nos lleva a una pantalla en la que sealamos Historial de
conglomeracin y Matriz de proximidades.
3. El botn Grficos sealamos la opcin Dendograma. En el cuadro Tmpanos elegimos
Todos los conglomerados. Sealamos la orientacin vertical.
4. En la pantalla a la que nos lleva el botn Mtodo, como Mtodo de conglomeracin
elegimos, por ejemplo, el Vecino ms prximo. En el cuadro Medida seleccionamos la
primera (Distancia Eucldea al cuadrado). En el cuadro Transformar valores
estandarizamos por variables y mediante Puntuaciones Z. En el cuadro Transformar
medidas no seleccionamos nada.
220
Matriz de distancias
distancia eucldea al cuadrado
Caso
1:Pepe
1:Pepe
,000
2:Juan
3:Pedro
2:Juan
3:Pedro
4:Pablo
5:Maria
6:Juana
7:Toi
8:Tere
9:Carmen
10:Elena
11:Luisa
12:Belen
13:Nicolas
14:Csar
15:Alberto
16:Carlos
1,472
,156
1,790
1,026
,426
1,935
1,756
6,765
8,558
8,437
8,008
5,151
3,200
6,073
6,308
1,472
,000
2,340
6,318
4,775
2,491
6,395
6,309
14,169
16,376
15,814
14,674
11,318
8,014
12,113
13,814
,156
2,340
,000
,968
,430
,118
1,026
,966
5,961
7,878
8,008
7,892
4,802
3,155
5,970
4,819
4:Pablo
1,790
6,318
,968
,000
,108
1,053
,039
,005
3,209
4,954
5,537
6,086
3,144
2,558
4,565
1,516
5:Maria
1,026
4,775
,430
,108
,000
,531
,156
,110
3,887
5,682
6,110
6,434
3,454
2,516
4,784
2,397
6:Juana
,426
2,491
,118
1,053
,531
,000
,976
1,101
7,075
9,296
9,594
9,630
6,068
4,337
7,505
5,089
7:Toi
1,935
6,395
1,026
,039
,156
,976
,000
,073
3,835
5,754
6,434
7,070
3,858
3,224
5,433
1,660
8:Tere
1,756
6,309
,966
,005
,110
1,101
,073
,000
2,993
4,674
5,221
5,737
2,896
2,329
4,259
1,481
9:Carmen
6,765
14,169
5,961
3,209
3,887
7,075
3,835
2,993
,000
,207
,484
1,016
,347
1,202
,806
1,554
10:Elena
8,558
16,376
7,878
4,954
5,682
9,296
5,754
4,674
,207
,000
,108
,516
,478
1,561
,614
2,799
11:Luisa
8,437
15,814
8,008
5,537
6,110
9,594
6,434
5,221
,484
,108
,000
,156
,408
1,313
,304
3,774
12:Belen
8,008
14,674
7,892
6,086
6,434
9,630
7,070
5,737
1,016
,516
,156
,000
,484
1,086
,134
4,991
13:Nicolas
5,151
11,318
4,802
3,144
3,454
6,068
3,858
2,896
,347
,478
,408
,484
,000
,313
,166
2,682
14:Csar
3,200
8,014
3,155
2,558
2,516
4,337
3,224
2,329
1,202
1,561
1,313
1,086
,313
,000
,457
3,475
15:Alberto
6,073
12,113
5,970
4,565
4,784
7,505
5,433
4,259
,806
,614
,304
,134
,166
,457
,000
4,153
16:Carlos
6,308
13,814
4,819
1,516
2,397
5,089
1,660
1,481
1,554
2,799
3,774
4,991
2,682
3,475
4,153
,000
Los valores de esta tabla son las distancia eucldea al cuadrado de las puntuaciones tipificadas.
221
Historial de conglomeracin
Etapa en la que el conglomerado
aparece por primera vez
Conglomerado
2
8
Coeficientes
,005
Conglomerado
1
0
Conglomerado
2
0
,039
,108
12
10
11
,108
,118
12
15
,134
Etapa
1
Prxima
etapa
2
,156
12
10
12
,156
10
13
,166
10
10
10
,207
11
11
14
,313
10
15
12
,430
13
13
1,472
12
14
14
16
1,481
13
15
15
1,554
14
11
* H I E R A R C H I C A L C L U S T E R
Dendrogram using Single Linkage
A N A L Y S I S *
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Pablo
Tere
Toi
Maria
Pedro
Juana
Pepe
Juan
Carlos
16
Elena
10
Luisa
11
Belen
12
Alberto
15
Nicolas
13
Carmen
Csar
222
14
En el dendograma las lneas verticales conectadas designan casos combinados y las lneas
horizontales miden las distancias reales re-escaladas entre 0 y 25.
Nmero de
conglomerados
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1:Pepe
3:Pedro
6:Juana
4:Pablo
8:Tere
7:Toi
5:Maria
2:Juan
16:Carlos
9:Carmen
10:Elena
11:Luisa
12:Belen
15:Alberto
14:Csar
13:Nicolas
Caso
223
3. En Etiquetar los casos mediante se puede especificar una variable cuyos valores sean
utilizados para etiquetar los resultados por casos.
4. En Mtodo se puede elegir uno de los dos mtodos disponibles para clasificar:
a. Iterar y clasificar. Actualiza los centroides de forma iterativa.
b. Slo clasificar. El algoritmo corre solo una vez.
5. En Centros de los conglomerados se permite al usuario especificar sus propios centros
iniciales para los conglomerados (Leer iniciales) o guardar los centros finales para anlisis
subsiguientes (Escribir finales).
6. En el botn Opciones podemos:
a. Elegir los Estadsticos ms relevantes relativos a las variables que ofrecer el
anlisis:
i. Centros de conglomerados iniciales
ii. Tabla de ANOVA. Aunque los resultados sern oportunistas (el
procedimiento trata de formar grupos que, de hecho, difieran), el
tamao relativo de los estadsticos proporciona informacin acerca de la
contribucin de cada variable a la separacin de los grupos.
iii. Informacin del conglomerado para cada caso
b. En valores perdidos se elige la forma de su exclusin:
i. Excluir casos segn lista
ii. Excluir casos segn pareja
7. El botn Iterar (slo disponible si se ha seleccionado el mtodo Iterar y clasificar en el
cuadro de dialogo principal) nos permite elegir:
a. El nmero mximo de iteraciones limita el nmero de iteraciones en el
algoritmo, de modo que el proceso se detiene despus de ese nmero de
iteraciones, incluso si no se ha satisfecho el criterio de convergencia. Este
nmero debe estar entre 1 y 999.
b. El criterio de convergencia determina cundo cesa la iteracin y representa una
proporcin de la distancia mnima entre los centros iniciales de los
conglomerados, por lo que debe ser mayor que 0 y menor que 1. Por ejemplo,
si el criterio es igual a 0.02, la iteracin cesar si una iteracin completa no
mueve ninguno de los centros de los conglomerados en una distancia superior
al dos por ciento de la distancia menor entre cualquiera de los centros iniciales.
c. La opcin Usar medias actualizadas permite solicitar la actualizacin de los
centros de los conglomerados tras la asignacin de cada caso. Si no se
224
A continuacin veremos el procedimiento con los mismos datos del ejemplo anterior.
Ejemplo 2
(Ejercicio 5 de la relacin del tema 8. Fichero de datos Ej5RelT8.sav)
Con los datos del ejemplo anterior divide los ciudadanos segn ingresos y edad utilizando un
anlisis no jerrquico.
variables
Zingresos
Zedad.
continuacin
se
elige
en
el
men
Juana
Toi
1,00000
Pablo
Tere
Maria
Carlos
Puntua(ingresos)
Juan
Pedro
Pepe
0,00000
Carmen
Csar
Nicolas
-1,00000
Elena
Luisa
Alberto
Belen
-2,00000
-1,00000
0,00000
1,00000
2,00000
Puntua(edad)
226
1
-1,08020
2
,76105
Puntua(edad)
-1,13976
2,46379
= 4, 047
Como solo hay dos conglomerados, la distancia menor entre los centros iniciales es 4047. Las
iteraciones pararn cuando no se mueva ninguno de los centros en una distancia superior al
2% de 4047, es decir, 008094.
227
Historial de iteraciones(a)
Cambio en los centros
de los conglomerados
Iteracin
1
2
1
,426
2
1,555
,047
,173
,005
,019
a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o
ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,019. La iteracin
actual es 3. La distancia mnima entre los centros iniciales es de 4,047.
Las cantidades que se dan en la tabla anterior son las distancias euclideas entre los centros
elegidos en las sucesivas iteraciones. Observemos que en la segunda iteracin el centro del
primer conglomerado vara una distancia de 0,047 respecto del centro en la primera iteracin.
Esta cantidad es menor que 0,08094. Pero no ocurre lo mismo con el centro del segundo
conglomerado que respecto a la primera iteracin vara 0,173. Por tanto, las iteraciones deben
continuar. En la tercera, ambas distancias son menores que 0,08094.
Individuo
Conglomer
ado
Distancia
Pepe
,606
Juan
1,747
Pedro
,221
Pablo
,767
Maria
,440
Juana
,368
Toi
,792
Tere
,770
Carmen
,382
10
Elena
,478
11
Luisa
,512
12
Beln
,701
13
Nicols
,233
14
Csar
,788
15
Alberto
,523
16
Carlos
1,540
Vamos a calcular las distancias euclideas de Carlos y los dos centros finales de los
conglomerados (en la siguiente tabla). As comprobaremos que efectivamente es ms pequea
la existente entre Carlos y el conglomerado 1, aunque en el grfico parezca lo contrario.
228
= 1,540
= 1,984
1
-,85618
2
,85618
Puntua(edad)
-,71661
,71661
2,233
2,233
Son las distancias euclideas entre los centros finales de los dos conglomerados
ANOVA
Conglomerado
Media
cuadrtica
gl
Puntua(ingresos)
Puntua(edad)
Error
Media
cuadrtica
gl
Sig.
11,729
,234
14
50,195
,000
8,217
,485
14
16,958
,001
Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido
elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son
corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los
conglomerados son iguales.
Observando los estadsticos del ANOVA, vemos que los ingresos participan ms en la
separacin de los conglomerados. .
Nota. Realizar el anlisis cluster de nuevo pero con 4 conglomerados y ver como Carlos y
Juan forman cada uno un conglomerado (Mirar grfico de dispersin).
Nota En los casos donde existe un gran tamao muestral, para obtener la mxima eficacia,
tome una muestra de casos y utilice el mtodo Iterar y clasificar para determinar los centros de
los conglomerados. Seleccione Escribir finales en Archivo. Despus restaure el archivo de
datos completo y seleccione el mtodo Slo clasificar. Pulse en Centros y pulse en Leer
iniciales de Archivo para clasificar el archivo completo utilizando los centros estimados a
partir de la muestra.
229
PRCTICA 9
Componentes Principales
El anlisis de componentes principales es un mtodo de estimacin (extraccin) de los
factores comunes de un anlisis factorial, por lo que en el programa SPSS aparece dentro del
Anlisis factorial. En todo lo que sigue el trmino factor (salvo un cambio de escala) coincide
con el de componente principal.
Matriz de correlaciones. Es til si las variables del anlisis se miden sobre escalas
distintas.
230
Extraer: Se pueden retener todos los factores cuyos autovalores excedan un valor especificado
o retener un nmero especfico de factores.
Mostrar: Permite solicitar la solucin factorial sin rotar y el grfico de sedimentacin de los
autovalores.
N mximo de iteraciones para convergencia: Permite especificar el nmero mximo de pasos
que el algoritmo puede seguir para estimar la solucin.
En el cuadro de dilogo Anlisis factorial, pulse en Descriptivos:
Estadsticos: Los descriptivos univariados incluyen la media, la desviacin tpica y el nmero
de casos vlidos para cada variable. La solucin inicial muestra las comunalidades iniciales
(iguales a 1 en un anlisis de componentes principales), los autovalores y el porcentaje de
varianza explicada.
Matriz de correlaciones: De las opciones disponibles usaremos: coeficientes, niveles de
significacin y determinante.
En el cuadro de dilogo Anlisis factorial, pulse en Rotacin:
Mtodo: Seleccionaremos ninguno, pues estamos realizando un anlisis de componentes
principales.
Mostrar: Si seleccionamos Grficos de saturaciones obtenemos el diagrama de las
saturaciones factoriales que es una representacin tridimensional de las saturaciones
factoriales para los tres primeros factores. Para una solucin de dos factores, se representa un
diagrama bidimensional. No se muestra el grfico si slo se extrae un factor.
En el cuadro de dilogo Anlisis factorial, pulse en Puntuaciones:
Guardar como variables: Crea una nueva variable para cada factor en la solucin final.
Nosotros utilizaremos el mtodo de regresin. En el caso de componentes principales
(tipificadas) la varianza es siempre igual a 1 y las puntuaciones (componentes principales)
estn incorrelacionadas.
Mostrar matriz de coeficientes de las puntuaciones factoriales: Muestra los coeficientes por
los cuales se multiplican las variables para obtener puntuaciones factoriales. Tambin muestra
las correlaciones entre las puntuaciones factoriales.
231
Excluir segn lista excluye los casos que tienen valores perdidos en cualquiera de las
variables utilizadas en cualquiera de los anlisis.
Excluir segn pareja excluye del anlisis los casos que tengan valores perdidos en
cualquiera (o en ambas) de las variables de una pareja implicada en el clculo de un
estadstico especfico.
Log(10) de PIB_CAP
En primer lugar elegimos en los mens del SPSS: Analizar Reduccin de datos
Anlisis factorial y seleccionamos las variables: espvidaf, mortinf, alfabet, tasa_nat, fertilid,
urbana, log_pib y tasa_mor.
232
Se obtiene la siguiente salida del programa SPSS para las opciones marcadas:
233
Matriz de correlaciones(a)
Esperanza de
vida femenina
Correlacin
Tasa de
natalidad (por
1.000
habitantes)
Fertilidad:
nmero
promedio de
hijos
Habitantes en
ciudades (%)
Log(10) de
PIB_CAP
Tasa de
mortalidad
(por 1.000
habitantes)
1,000
-,962
,865
-,865
-,847
,766
,833
-,703
Mortalidad infantil
(muertes por 1000
nacimientos vivos)
-,962
1,000
-,901
,870
,844
-,744
-,824
,636
Personas Alfabetizadas
(%)
,865
-,901
1,000
-,870
-,866
,654
,731
-,485
-,865
,870
-,870
1,000
,975
-,635
-,783
,384
Fertilidad: nmero
promedio de hijos
-,847
,844
-,866
,975
1,000
-,608
-,713
,424
Habitantes en ciudades
(%)
,766
-,744
,654
-,635
-,608
1,000
,785
-,523
Log(10) de PIB_CAP
,833
-,824
,731
-,783
-,713
,785
1,000
-,401
-,703
,636
-,485
,384
,424
-,523
-,401
1,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
Esperanza de vida
femenina
Mortalidad infantil
(muertes por 1000
nacimientos vivos)
,000
Personas Alfabetizadas
(%)
,000
,000
,000
,000
,000
Fertilidad: nmero
promedio de hijos
,000
,000
,000
,000
Habitantes en ciudades
(%)
,000
,000
,000
,000
,000
Log(10) de PIB_CAP
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
,000
a Determinante = 2,07E-006
234
Personas
Alfabetizadas
(%)
Esperanza de vida
femenina
Mortalidad
infantil
(muertes por
1000
nacimientos
vivos)
,000
,000
Estadsticos descriptivos
Media
69,94
Desviacin
tpica
10,695
N del anlisis
105
43,317
38,3699
105
78,14
23,056
105
26,124
12,3582
105
3,551
1,8909
105
57,02
24,010
105
3,4086
,62725
105
9,62
4,277
105
Log(10) de PIB_CAP
Tasa de mortalidad (por 1.000 habitantes)
Comunalidades
Inicial
1,000
Extraccin
,965
1,000
,942
1,000
,862
1,000
,952
1,000
,899
1,000
,688
Log(10) de PIB_CAP
1,000
,769
1,000
,935
Autovalores iniciales
Total
6,208
% de la
varianza
77,596
% acumulado
77,596
Total
6,208
% de la
varianza
77,596
% acumulado
77,596
,804
10,056
87,652
,804
10,056
87,652
,523
6,534
94,186
,194
2,425
96,610
,167
2,085
98,695
,063
,789
99,485
,027
,333
99,818
,015
,182
100,000
Componente
1
( 1 8 variables = 8 )
recogida
por
dicha
componente,
por
ejemplo
6, 208
100 .
8
235
Grfico de sedimentacin
Autovalor
0
1
Nmero de componente
Matriz de componentes(a)
Componente
1
Esperanza de vida femenina
Mortalidad infantil (muertes por 1000 nacimientos vivos)
Personas Alfabetizadas (%)
2
,975
-,122
-,970
,046
,917
,147
-,923
-,318
-,906
-,281
,809
-,181
Log(10) de PIB_CAP
,871
,100
-,625
,737
La tabla Matriz de componentes incluye los coeficientes de correlacin, ryi xk , entre las
componentes, Yi i=1,2 , y las variable originales, X i .
236
Grfico de componentes
0,9
tasa_mor
Componente 2
0,6
0,3
alfabet
mortinf
log_pib
espvidaf
0,0
urbana
fertilid
-0,3
tasa_nat
-0,6
-0,9
-0,9
-0,6
-0,3
0,0
0,3
0,6
0,9
Componente 1
2
,157
-,151
-,156
,057
,148
,183
-,149
-,395
-,146
-,349
,130
-,224
,140
,125
-,101
,916
La Matriz de coeficientes para el clculo de las puntuaciones en las componentes recoge los
coeficientes de las combinaciones lineales que definen a las componentes principales
tipificadas, es decir,
ik
, que pueden obtenerse a partir de la Matriz de componentes, ry x , y
i
i k
ryi xk
ik
0, 975
0,122
. Por ejemplo, 0,157 =
, 0,151 =
.
6, 208
0,804
i
1
1,000
2
,000
,000
1,000
Mtodo de extraccin: Anlisis de componentes principales.
237
238
FORMULARIOS
239
PROPORCION
MEDIA
1 n
y = yi
n i =1
ESTIMADOR
S2 =
CUASIVARIANZA
MUESTRAL
VARIANZA DEL
ESTIMADOR
1 n
yi y
n 1 i =1
yi
n
yi2 i =1
n
S 2 = i =1
n 1
V ( y) =
TAMAO MUESTRAL
n=
2
B2
4
2
D
2
n
S2
n
V ( p) =
pq
n
2 V ( p) = 2
=B
, D=
n pq
n 1
V ( p) =
pq
n 1
1 n
yi y
n 1 i =1
q = 1 p
S
n
S
S
, y+2
y2
n
n
2 V ( y) = 2
S2 =
yi = 0, 1
V ( y) =
2 V ( y) = 2
INTERVALO DE
CONFIANZA
240
1 n
p = yi ,
n i =1
B2
4
pq
n 1
pq
pq
p2
, p+2
n 1
n 1
2 V ( p) = 2
n=
pq pq
=
B2
D
4
pq
=B
n
, D=
B2
4
PROPORCION
TOTAL
MEDIA
TOTAL
1 n
y = yi
n i =1
ESTIMADOR
= N y =
V ( y) =
VARIANZA DEL
ESTIMADOR
y
i =1
S2 N n
n N
2 V ( p)
2 V ( ) = N 2 V ( y )
2 V ( ) = N 2 V ( p)
( 2 V ( ) , + 2 V ( ) ) =
= ( N ( y 2 V ( y ) ) , N ( y + 2 V ( y ) ))
B2
D=
(media )
4
B2
D=
(total )
4N 2
pq N n
n 1 N
pq
V ( ) = V ( N p ) = N 2 V ( p ) = N ( N n)
n 1
2 V ( y)
N 2
n=
( N 1) D + 2
TAMAO MUESTRAL
V ( p) =
2
V ( y) , y + 2 V ( y)
yi = 0, 1
= N p
S
V ( ) = V ( N y ) = N 2 V ( y ) = N ( N n)
n
(y 2
INTERVALO DE
CONFIANZA
N
n
1 n
p = yi ,
n i =1
(p 2
( 2
= (N ( p 2
n=
D=
V ( p) , p + 2 V ( p)
V ( ) , + 2 V ( ) =
) (
V ( p) , N p + 2 V ( p)
Npq
( N 1) D + pq
B2
4
( proporcion)
B2
D=
4N 2
(total )
241
))
PROPORCION
TOTAL
MEDIA
TOTAL
y st =
ESTIMADOR
1
N
Ni y i
p st =
i =1
VARIANZA DEL
ESTIMADOR
1
N2
Ni2 V ( y i ) =
i =1
Ni2
i =1
Si2 N i ni
ni N i
L
S2 N n
V ( st ) = N 2 V ( y st ) = N i2 i i i
ni N i
i =1
TAMAO
MUESTRAL
FORMULACIN
GENERAL
n=
i =1
N 2 D + N i i2
i =1
242
V ( p st ) =
1
N2
pi
1
N2
N
i =1
2
i
i =1
2
i
V ( pi ) =
p i q i N i ni
ni 1 N i
L
p q N n
V ( st ) = N 2 V ( p st ) = N i2 i i i i
ni 1 N i
i =1
PROPORCION
TOTAL
N i2 i2
i =1
i =1
MEDIA
TOTAL
L
st = N p st = N i pi
i =1
1
N2
st = N y st = N i y i
V ( y st ) =
1
N
n=
i =1
N i2 pi qi
N 2 D + N i pi qi
i =1
MEDIA
TOTAL
PROPORCION
TOTAL
N
i
i =1
(error fijo B) n =
ci
i =1
Ni i
ci
N 2 D + N i i2
n=
N i i
ci
C
(coste fijo C ) n =
i =1
i =1
N 2 D + N i pi qi
i =1
N
i =1
N j j
j =
i =1
i =1
n=
N D + N i
i =1
j =
2
i
N j j
i
i =1
ASIGNACIN
PROPORCIONAL
i =1
i =1
j =
Ni i2
i =1
N j pjqj
L
pi qi
N pq
n=
i =1
ND +
i =1
Nj
1
N
j =
B2
(media )
4
B2
D=
(total )
4N 2
D=
pi qi
i =1
1
N
pi qi
ci
N 2 D + N i pi qi
Ni i2
ND +
( N
n=
j =
cj
ASIGNACIN DE
NEYMAN
pjq j
i =1
( N )
L
n=
j =
N i i
ci
pi qi ci
Nj
cj
L
pi qi
ci
i =1
n=
ci
i =1
C Ni
pi qi ci
i =1
i =1
ASIGNACIN
PTIMA
Ni
D=
B2
4
D=
i i
N pq
i =1
i i
Nj
N
( proporcion)
B2
4N 2
(total )
243
pi qi
ci
ESTIMACIN DE RAZN
MEDIA
TOTAL
RAZN
y = rx
ESTIMADOR
r=
y
i =1
n
x
i =1
y
=
x
y = r x
S r2 =
VARIANZA RESIDUAL
1 n
2
( yi rxi )
n 1 i =1
V ( y ) = x2 V (r ) =
VARIANZA DEL
ESTIMADOR
V (r ) =
n=
1 N n S r2
x2 N n
N r2
ND + r2
DETERMINACIN DEL
TAMAO MUESTRAL
244
B2
4
N n S r2
V ( y ) = x2 V (r ) = N 2
N n
D=
D=
N n S r2
N n
B 2 x2
4
( para estimar R )
( para estimar y )
D=
B2
4N 2
( para estimar y )
ESTIMACIN DE REGRESIN
S x2 =
1 n
xi x
n 1 i =1
VARIANZA, COVARIANZA
1 n
Y COEF. DE
S xy =
xi x
n 1 i =1
CORRELACIN
MUESTRALES
MEDIA
TOTAL
1 n
sx2 = xi x
n i =1
)( y y )
rxy2 =
S xy2
S x2 S y2
(n 1) S x2 = nsx2
)(
1 n
1 n
x
x
y
y
=
i
xi yi x y
i
n i =1
n i =1
sxy =
sxy2
sx2 s 2y
( x x )( y y )
n
yL = y + b( x x)
b=
ESTIMADOR
S xy
S x2
sxy
s x2
i =1
( x x)
n
i =1
yL = N yL
VARIANZA RESIDUAL
( (
1 n
S =
yi y + b( xi x)
n 2 i =1
2
L
ERROR TPICO DE
ESTIMACIN
))
2
n 2 sxy
=
sy 2
n 2
sx
n 2
s y (1 rxy2 )
=
n2
S L2 = S L
V ( yL ) =
VARIANZA DEL
ESTIMADOR
N n S L2
N n
V ( yL ) = N 2 V ( yL )
n=
DETERMINACIN DEL
TAMAO MUESTRAL
D=
N L2
ND + L2
B2
4
( para estimar y )
D=
B2
4N 2
( para estimar y )
245
ESTIMACIN DE DIFERENCIA
MEDIA
TOTAL
yD = y + ( x x) = x + d
d = yx
ESTIMADOR
yD = N yD
VARIANZA RESIDUAL
S D2 =
1 n
yi ( xi + d )
n 1 i =1
1 n
di d
n 1 i =1
V ( yD ) =
VARIANZA DEL ESTIMADOR
di = yi xi
N n S D2
N n
V ( yD ) = N 2 V ( yD )
DETERMINACIN DEL
TAMAO MUESTRAL
N D2
n=
ND + D2
B2
D=
4
246
D = S D2
( para estimar y )
B2
D=
4N 2
( para estimar y )
TOTAL
MEDIA o PROPORCIN
TOTAL (M conocido)
N = conglomerados en la poblacin
mi = elementos en el conglomerado i
n = conglomerados en la muestra
yi = suma de las observaciones del conglomerado i
M = mi = elementos en la poblacin
m = mi = elementos en la muestra
i =1
NOTACIN
M=
1
N
m
i =1
i =1
1 n
mi = tamao medio de los conglomerados de la muestra
n i =1
=y=
ESTIMADOR
y
i =1
n
yt =
m
i =1
t = N y t
= M y
Sc2 =
VARIANZA
DEL
ESTIMADOR
1 n
yi ymi
n 1 i =1
St2 =
1 N n S c2
V ( y) = 2
N n
M
TAMAO
MUESTRAL
c = Sc2
S
V ( t ) = N 2 V ( y t ) = N ( N n) t
n
N c2
ND + c2
1 n
yi y t
n 1 i =1
N n St2
V ( yt ) =
N n
S
V ( ) = M 2 V ( y ) = N ( N n) c
n
n=
1 n
yi
n i =1
n=
N t2
ND + t2
t = St2
B2 M
D=
4
B2
D=
4N 2
(media )
D=
B2
4N 2
(total )
(total )
247
MUESTREO DIRECTO
NOTACIN
ESTIMADOR
t = elementos marcados
n = total de elementos en la muestra de recaptura
s = elementos marcados en la muestra de recaptura
N=
( )
t
p
E N =N+
PROPIEDADES DEL
ESTIMADOR
248
MUESTREO INVERSO
( )
nt
s
N (N t)
nt
t 2 n( n s )
V N =
s3
N=
t
p
nt
s
( )
E N =N
( )
t 2 n( n s )
V N = 2
s ( s + 1)
DENSIDAD
NOTACIN
TOTAL
A = rea total
a = rea de cada cuadro
n = nmero de cuadros en la muestra
ESTIMADOR
VARIANZA DEL
ESTIMADOR
M = A
m
a
V =
an
A2
V M =AV =
an
( )
()
()
CUADROS CARGADOS
DENSIDAD
NOTACIN
TOTAL
A = rea total
a = rea de cada cuadro
n = nmero de cuadros en la muestra
y = nmero total de cuadros no cargados
ESTIMADOR
= ln
a n
VARIANZA DEL
ESTIMADOR
1 n y
V = 2
a ny
()
A y
M = A = ln
a n
( )
()
A2 n y
V M = A2 V = 2
a ny
249